专栏名称: 腾讯科技
只供应最有营养的科技大餐!
目录
相关文章推荐
51好读  ›  专栏  ›  腾讯科技

当你以为AI发展放缓时,OpenAI推出o3,向AGI迈出关键一步

腾讯科技  · 公众号  · 科技媒体  · 2024-12-21 10:34

主要观点总结

本文主要介绍了OpenAI发布的o3系列模型,包括o3和o3-mini,它们在多个基准测试中表现出色,特别是ARC-AGI测试和EpochAI Frontier Math测试。文章还讨论了谷歌发布的新模型Gemini 2.0的情况,以及人工智能发展的现状和未来可能面临的问题,如安全性和成本问题。

关键观点总结

关键观点1: OpenAI发布o3系列模型,包括o3和o3-mini,在多个基准测试中表现惊人

o3系列模型在编程、数学和通用智能评估基准等多个方面表现出强大的能力,其中o3在Codeforces测试中的评分高达2727,超越了大部分人类程序员。o3系列模型还在ARC-AGI测试和EpochAI Frontier Math测试中取得了显著的成绩,展示了其在深度逻辑推理和创新思维方面的潜力。

关键观点2: 谷歌发布Gemini 2.0模型,增强了AI模型的应用边界和多任务处理能力

谷歌发布的Gemini 2.0是一个具备主动思考和多任务处理能力的统一底层模型,支持原生图像生成和音频输出。该模型能够处理实时音频和视频流输入,支持多种工具的组合使用,极大地增强了其在复杂任务中的适应能力。

关键观点3: AI的发展现状及未来面临的问题

人工智能领域经历了一场激烈的军备竞赛,OpenAI通过发布o3系列模型重新获得了领先地位。然而,随着AI的进步,安全问题变得日益重要。AI模型的安全性和可靠性成为了关注的焦点。此外,高昂的任务成本也是网友担忧的问题之一。


正文

请到「今天看啥」查看全文


87.5%——o1得分25%

惊人的测试分数,

这回真的远超普通博士生

o3系列模型迈向AGI,基准测试结果惊人

我们挑选最具代表性的测试给大家进行简要介绍,以此说明此次o3测试分数的震撼程度。

(一) CodeForces测试

在全球顶尖的编程竞赛平台CodeForces上,o3系列模型展现了其卓越的编程能力。o3在CodeForces中的评分高达2727,超越了大部分人类程序员。

目前,只有不到200名顶级人类程序员能达到或超过这一评分。 这一成绩不仅证明了o3在编程任务上的强大实力,也显示了其在解决复杂算法问题时接近甚至超越人类的潜力。

图:Codeforces排名及对应的分数

(二) ARC-AGI测试

ARC-AGI(人工通用智能评估基准)测试是由Keras之父François Chollet发起,旨在评估AI系统在面对未见过的新任务时的适应能力。ARC-AGI测试的核心在于其设计的任务往往需要深度逻辑推理和创新思维,这使得它成为评估AI系统通用智能能力的重要工具。

o3系列在这一测试中取得了显著的成绩,在高算力配置下,o3达到了87.5%的得分,而在低算力配置下也取得了75.7%的优异成绩。这一成绩远超o1系列,后者在同一测试中的得分仅为25%。

François Chollet对此评价道, “这是一个令人惊讶且重要的阶跃式提升,展示了GPT系列模型前所未有的新型任务适应能力。作为对比,ARC-AGI-1从2020年GPT-3的0%提升到2024年GPT-4o的5%,历时四年。随着o3的出现,关于人工智能能力的所有既有认知都需要重新评估。”

图:François Chollet的评价

虽然ARC-AGI测试中表现出色,但这并不意味着o3已达到了AGI水平,因为它仍会在一些非常简单的任务中失败,和人类智能有根本性的差别。

图:François Chollet的评价

(三) EpochAI Frontier Math测试

EpochAI Frontier Math测试被誉为当今最具挑战性的数学基准测试之一,涵盖了最新的前沿数学问题。著名数学家陶哲轩(Terence Tao)对此评价道:“这项测试可能会让AI难住好几年。”

然而,o3在这一测试中突破了以往的记录,解决了25.2%的问题,而其他模型的得分均未超过2%。这一成绩不仅证明了o3在数学推理方面的强大能力,也展示了其在处理高度复杂和抽象问题时的潜力。







请到「今天看啥」查看全文