专栏名称: 机器之心
专业的人工智能媒体和产业服务平台
目录
相关文章推荐
51好读  ›  专栏  ›  机器之心

40位数学家组成8队与o4-mini-medium比赛,6队败北

机器之心  · 公众号  · AI  · 2025-05-24 11:13

主要观点总结

文章介绍了AI与人类在数学和编程能力上的较量,重点关注了一场在FrontierMath基准测试上的比赛。在这场比赛中,OpenAI的o4-mini-medium模型与人类代表队进行了对抗,结果显示AI在解决高难度数学题方面表现出色,但还未明显超越人类。文章还讨论了关于人类基准的四个方面的解释,包括参与者的代表性、竞赛目标、人类基准的定义和含义,以及AI和人类在FrontierMath上的表现对比。

关键观点总结

关键观点1: AI在FrontierMath测试中的表现

o4-mini-medium模型在比赛中表现出色,解决了大约22%的问题,高于人类团队的平均水平(19%),但低于所有团队的综合得分。Epoch AI认为AI很快就会在FrontierMath上超越人类。

关键观点2: 人类基准的定义和含义

为确保研究结果的高质量,参与人员需展现出卓越的数学能力。竞赛目标是检验推理能力,而非一般知识。然而,「人类基准」的定义比较模糊,可能与实际表现存在差距。

关键观点3: AI与人类的比较

文章提到,机器学习任务的相关研究表明人类拥有更佳的长期扩展行为。虽然AI在短期内表现出色,但人类的性能可以持续提升。另外,文章也指出了比赛中人类表现可能被低估的问题,如时间限制对人类表现的影响。


正文

请到「今天看啥」查看全文



最近,AI 在数学和编程上的能力飞跃令人瞠目结舌 —— 在不少任务上,它已经悄然超越了我们大多数人类。而当它面对真正的专家,会发生什么?


Epoch AI 最近安排了一场硬仗:他们请来了 40 位数学家组成 8 支战队,与 OpenAI 的 o4-mini-medium 模型正面对决,考题来自高难度的 FrontierMath 数据集。


结果令人出乎意料:8 支人类队伍中,只有 2 支打败了 AI。也就是说,o4-mini-medium 以 6:2 的比分击败了由数学专家组成的「人类代表队」。Epoch AI 得出的结论是:「虽然 AI 还未明显达到超人级水平,但或许很快了。」


image.png


这场比赛引起了不少关注,有人认为 Gemini 2.5 Pro 深度思考就是 AI 明确超越人类的转折点,但也有人为人类打抱不平,认为对人类专家而言,4.5 小时不足于解答高难度数学题。对此你有什么看法呢?


image.png


下面就来具体看看这场「人机数学大战」吧。


人类在 FrontierMath 上的表现如何?


FrontierMath 是 Epoch AI 去年发布的一个基准,旨在测试 AI 数学能力的极限。其中包含 300 道题,难度从本科生高年级水平到连菲尔兹奖得主都觉得难的水平都有。


为了确定人类的基准,Epoch AI 在麻省理工学院组织了一场竞赛,邀请了大约 40 名优秀的数学本科生和相关领域专家参赛。参赛者被分成 8 个团队,每个团队 4 到 5 人,任务是在 4.5 小时内解答 23 道题,过程中可以使用互联网。


之后,他们与目前在 FrontierMath 基准上表现最好的 AI 系统进行了较量,即 o4-mini-medium。


结果如何?o4-mini-medium 的表现优于人类团队的平均水平,但低于所有团队的综合得分(至少有一支团队成功解答的问题的比例)。因此,AI 在 FrontierMath 上的表现还未达到明显的超人类水平 —— 但 Epoch AI 认为它们很快就会达到。


下图展示了人类与 AI 的成绩概况,详细的竞赛结果可在此电子表格中查看:







请到「今天看啥」查看全文