主要观点总结
文章介绍了AI与人类在数学和编程能力上的较量,重点关注了一场在FrontierMath基准测试上的比赛。在这场比赛中,OpenAI的o4-mini-medium模型与人类代表队进行了对抗,结果显示AI在解决高难度数学题方面表现出色,但还未明显超越人类。文章还讨论了关于人类基准的四个方面的解释,包括参与者的代表性、竞赛目标、人类基准的定义和含义,以及AI和人类在FrontierMath上的表现对比。
关键观点总结
关键观点1: AI在FrontierMath测试中的表现
o4-mini-medium模型在比赛中表现出色,解决了大约22%的问题,高于人类团队的平均水平(19%),但低于所有团队的综合得分。Epoch AI认为AI很快就会在FrontierMath上超越人类。
关键观点2: 人类基准的定义和含义
为确保研究结果的高质量,参与人员需展现出卓越的数学能力。竞赛目标是检验推理能力,而非一般知识。然而,「人类基准」的定义比较模糊,可能与实际表现存在差距。
关键观点3: AI与人类的比较
文章提到,机器学习任务的相关研究表明人类拥有更佳的长期扩展行为。虽然AI在短期内表现出色,但人类的性能可以持续提升。另外,文章也指出了比赛中人类表现可能被低估的问题,如时间限制对人类表现的影响。
正文
最近,AI 在数学和编程上的能力飞跃令人瞠目结舌 —— 在不少任务上,它已经悄然超越了我们大多数人类。而当它面对真正的专家,会发生什么?
Epoch AI 最近安排了一场硬仗:他们请来了 40 位数学家组成 8 支战队,与 OpenAI 的 o4-mini-medium 模型正面对决,考题来自高难度的 FrontierMath 数据集。
结果令人出乎意料:8 支人类队伍中,只有 2 支打败了 AI。也就是说,o4-mini-medium 以 6:2 的比分击败了由数学专家组成的「人类代表队」。Epoch AI 得出的结论是:「虽然 AI 还未明显达到超人级水平,但或许很快了。」
这场比赛引起了不少关注,有人认为 Gemini 2.5 Pro 深度思考就是 AI 明确超越人类的转折点,但也有人为人类打抱不平,认为对人类专家而言,4.5 小时不足于解答高难度数学题。对此你有什么看法呢?
下面就来具体看看这场「人机数学大战」吧。
人类在 FrontierMath 上的表现如何?
FrontierMath 是 Epoch AI 去年发布的一个基准,旨在测试 AI 数学能力的极限。其中包含 300 道题,难度从本科生高年级水平到连菲尔兹奖得主都觉得难的水平都有。
为了确定人类的基准,Epoch AI 在麻省理工学院组织了一场竞赛,邀请了大约 40 名优秀的数学本科生和相关领域专家参赛。参赛者被分成 8 个团队,每个团队 4 到 5 人,任务是在 4.5 小时内解答 23 道题,过程中可以使用互联网。
之后,他们与目前在 FrontierMath 基准上表现最好的 AI 系统进行了较量,即 o4-mini-medium。
结果如何?o4-mini-medium 的表现优于人类团队的平均水平,但低于所有团队的综合得分(至少有一支团队成功解答的问题的比例)。因此,AI 在 FrontierMath 上的表现还未达到明显的超人类水平 —— 但 Epoch AI 认为它们很快就会达到。
下图展示了人类与 AI 的成绩概况,详细的竞赛结果可在此电子表格中查看: