Agent 要被吃进大模型了

大数据文摘 · 公众号 · 大数据 · 2025-04-18 18:00

正文

请到「今天看啥」查看全文

o3 与 o4 mini 全面进化

除了网友们的测评结果外，我们也来看一下 OpenAI 给出的两个模型的官方数据。

首先，o3 在多个基准测试中表现优异，包括 Codeforces、SWE-bench 和 MMMU 等，刷新了多项纪录。除此之外，o3 在应对复杂现实任务时，比 OpenAI o1 减少了 20% 的重大错误，尤其在编程、商业咨询和创意构思领的方面能力最为突出。

o4 mini 这边，别看它体量不大，但专为快速、高效的推理任务而设计，可以支持比 o3 更高的使用频率。

在数学、编程和视觉任务上的表现依然非常亮眼。在 2025 年 AIME 数学竞赛中，借助 Python 解释器的帮助，o4-mini 取得了99.5%的高分，几乎达到了该测试的满分水平。专家评估同样显示，它在非 STEM 任务以及数据科学领域的表现已经超越了 o3-mini。

此外，o3 和 o4-mini 首次实现了将图像直接融入思维链的能力，它们不仅“看得见”图像，更能“通过图像思考”。这带来了视觉与文本推理的全新融合方式，显著提升了它们在多模态任务中的表现。

关于这点，OpenAI 图像推理研究员 Jiahui Yu 发文称：“自最初推出 o 系列以来，“图像思考”始终是我们在感知领域的核心战略之一。早期发布的 o1 vision，曾为这一方向提供了初步的探索与预览；而如今，随着 o3 和 o4-mini 的发布，这一战略终于以更为成熟和完整的形式落地。多模态能力的持续演进，不仅推动了模型在理解世界方式上的跃升，也成为 OpenAI 实现 AGI 愿景中不可或缺的关键一环。”

模型性能毋庸置疑，而关于这两款模型可以自由调用 ChatGPT 里的各种工具的能力，OpenAI 首席研究官 Mark Chen 也发文表示： 一旦推理模型学会了端到端地使用工具 ，它们就会变得更加强大，而最新的 o 系列模型正在“向未来迈出的质的一步”。