当你以为AI发展放缓时，OpenAI推出o3，向AGI迈出关键一步

腾讯科技 · 公众号 · 科技媒体 · 2024-12-21 10:34

主要观点总结

本文主要介绍了OpenAI发布的o3系列模型，包括o3和o3-mini，它们在多个基准测试中表现出色，特别是ARC-AGI测试和EpochAI Frontier Math测试。文章还讨论了谷歌发布的新模型Gemini 2.0的情况，以及人工智能发展的现状和未来可能面临的问题，如安全性和成本问题。

o3系列模型在编程、数学和通用智能评估基准等多个方面表现出强大的能力，其中o3在Codeforces测试中的评分高达2727，超越了大部分人类程序员。o3系列模型还在ARC-AGI测试和EpochAI Frontier Math测试中取得了显著的成绩，展示了其在深度逻辑推理和创新思维方面的潜力。

谷歌发布的Gemini 2.0是一个具备主动思考和多任务处理能力的统一底层模型，支持原生图像生成和音频输出。该模型能够处理实时音频和视频流输入，支持多种工具的组合使用，极大地增强了其在复杂任务中的适应能力。

人工智能领域经历了一场激烈的军备竞赛，OpenAI通过发布o3系列模型重新获得了领先地位。然而，随着AI的进步，安全问题变得日益重要。AI模型的安全性和可靠性成为了关注的焦点。此外，高昂的任务成本也是网友担忧的问题之一。

87.5%——o1得分25%

我们挑选最具代表性的测试给大家进行简要介绍，以此说明此次o3测试分数的震撼程度。

在全球顶尖的编程竞赛平台CodeForces上，o3系列模型展现了其卓越的编程能力。o3在CodeForces中的评分高达2727，超越了大部分人类程序员。

目前，只有不到200名顶级人类程序员能达到或超过这一评分。这一成绩不仅证明了o3在编程任务上的强大实力，也显示了其在解决复杂算法问题时接近甚至超越人类的潜力。

图：Codeforces排名及对应的分数

ARC-AGI（人工通用智能评估基准）测试是由Keras之父François Chollet发起，旨在评估AI系统在面对未见过的新任务时的适应能力。ARC-AGI测试的核心在于其设计的任务往往需要深度逻辑推理和创新思维，这使得它成为评估AI系统通用智能能力的重要工具。

o3系列在这一测试中取得了显著的成绩，在高算力配置下，o3达到了87.5%的得分，而在低算力配置下也取得了75.7%的优异成绩。这一成绩远超o1系列，后者在同一测试中的得分仅为25%。

François Chollet对此评价道， “这是一个令人惊讶且重要的阶跃式提升，展示了GPT系列模型前所未有的新型任务适应能力。作为对比，ARC-AGI-1从2020年GPT-3的0%提升到2024年GPT-4o的5%，历时四年。随着o3的出现，关于人工智能能力的所有既有认知都需要重新评估。”

图：François Chollet的评价

虽然ARC-AGI测试中表现出色，但这并不意味着o3已达到了AGI水平，因为它仍会在一些非常简单的任务中失败，和人类智能有根本性的差别。

图：François Chollet的评价

EpochAI Frontier Math测试被誉为当今最具挑战性的数学基准测试之一，涵盖了最新的前沿数学问题。著名数学家陶哲轩（Terence Tao）对此评价道：“这项测试可能会让AI难住好几年。”

然而，o3在这一测试中突破了以往的记录，解决了25.2%的问题，而其他模型的得分均未超过2%。这一成绩不仅证明了o3在数学推理方面的强大能力，也展示了其在处理高度复杂和抽象问题时的潜力。