40位数学家组成8队与o4-mini-medium比赛，6队败北

机器之心 · 公众号 · AI · 2025-05-24 11:13

主要观点总结

文章介绍了AI与人类在数学和编程能力上的较量，重点关注了一场在FrontierMath基准测试上的比赛。在这场比赛中，OpenAI的o4-mini-medium模型与人类代表队进行了对抗，结果显示AI在解决高难度数学题方面表现出色，但还未明显超越人类。文章还讨论了关于人类基准的四个方面的解释，包括参与者的代表性、竞赛目标、人类基准的定义和含义，以及AI和人类在FrontierMath上的表现对比。

关键观点总结

关键观点1: AI在FrontierMath测试中的表现

o4-mini-medium模型在比赛中表现出色，解决了大约22%的问题，高于人类团队的平均水平（19%），但低于所有团队的综合得分。Epoch AI认为AI很快就会在FrontierMath上超越人类。

关键观点2: 人类基准的定义和含义

为确保研究结果的高质量，参与人员需展现出卓越的数学能力。竞赛目标是检验推理能力，而非一般知识。然而，「人类基准」的定义比较模糊，可能与实际表现存在差距。

关键观点3: AI与人类的比较

文章提到，机器学习任务的相关研究表明人类拥有更佳的长期扩展行为。虽然AI在短期内表现出色，但人类的性能可以持续提升。另外，文章也指出了比赛中人类表现可能被低估的问题，如时间限制对人类表现的影响。

正文

请到「今天看啥」查看全文

最近，AI 在数学和编程上的能力飞跃令人瞠目结舌 —— 在不少任务上，它已经悄然超越了我们大多数人类。而当它面对真正的专家，会发生什么？

Epoch AI 最近安排了一场硬仗：他们请来了 40 位数学家组成 8 支战队，与 OpenAI 的 o4-mini-medium 模型正面对决，考题来自高难度的 FrontierMath 数据集。

结果令人出乎意料：8 支人类队伍中，只有 2 支打败了 AI。也就是说，o4-mini-medium 以 6:2 的比分击败了由数学专家组成的「人类代表队」。Epoch AI 得出的结论是：「虽然 AI 还未明显达到超人级水平，但或许很快了。」

这场比赛引起了不少关注，有人认为 Gemini 2.5 Pro 深度思考就是 AI 明确超越人类的转折点，但也有人为人类打抱不平，认为对人类专家而言，4.5 小时不足于解答高难度数学题。对此你有什么看法呢？

下面就来具体看看这场「人机数学大战」吧。

人类在 FrontierMath 上的表现如何？

FrontierMath 是 Epoch AI 去年发布的一个基准，旨在测试 AI 数学能力的极限。其中包含 300 道题，难度从本科生高年级水平到连菲尔兹奖得主都觉得难的水平都有。

为了确定人类的基准，Epoch AI 在麻省理工学院组织了一场竞赛，邀请了大约 40 名优秀的数学本科生和相关领域专家参赛。参赛者被分成 8 个团队，每个团队 4 到 5 人，任务是在 4.5 小时内解答 23 道题，过程中可以使用互联网。

之后，他们与目前在 FrontierMath 基准上表现最好的 AI 系统进行了较量，即 o4-mini-medium。

结果如何？o4-mini-medium 的表现优于人类团队的平均水平，但低于所有团队的综合得分（至少有一支团队成功解答的问题的比例）。因此，AI 在 FrontierMath 上的表现还未达到明显的超人类水平 —— 但 Epoch AI 认为它们很快就会达到。

下图展示了人类与 AI 的成绩概况，详细的竞赛结果可在此电子表格中查看：