OpenAI发布最强推理模型o3和o4-mini：图像深度思考首秀，还能自主调用工具

腾讯科技 · 公众号 · 科技媒体 · 2025-04-17 08:58

正文

与o3相比，OpenAI o4-mini是一款更小巧、但高效能的推理模型，专为快速、成本友好的应用场景而优化。在数学、编程和视觉任务上，它展现出了惊人的性价比。o4-mini是AIME 2024和AIME2025基准测试中表现最好的模型之一。

在专家评估中，o4-mini在非STEM任务（科学、技术、工程、数学）上的表现超越了o3-mini。凭借出色的计算效率，o4-mini支持比o3更高的使用频率，使其成为需要推理能力的高频、高吞吐量场景的理想选择。

外部专家评估认为，得益于智能水平的提升和网络信息的引入，这两款模型在遵循指令和提供更有用、可验证的回答方面均优于前代模型。与此前的推理模型相比，它们的对话体验也更加自然，尤其是在引用记忆和过往对话时，能够提供更个性化、更相关的回答。

在OpenAI o3的开发过程中，OpenAI发现大规模强化学习（RL）呈现出与GPT系列预训练相同的规律——“计算量越大，性能越强”。

同时，模型在被允许“思考”得越久，表现就越好。

在相同延迟和成本条件下，o3在ChatGPT中的表现优于o1。同时，如果允许模型进行更长时间的思考，它的表现还会进一步提升。

OpenAI通过强化学习训练这两款模型如何使用工具，还让它们学会判断何时使用工具，从而在开放式任务中表现更出色，尤其是在视觉推理和多步骤工作流程任务中。

在上述示例中，OpenAI首次展示了其模型如何将图像直接整合进推理思维链中。模型不仅能“看到”图像，更能“用图像进行思考”。这一突破实现了视觉与文本推理的深度融合，使其在多模态基准测试中达到最先进水平。

用户可以上传照片，比如：白板内容、教科书里的图示，甚至是手绘草图，模型都能理解它们。即使图像存在模糊、倒置或低质量的情况，模型仍能准确解析。

结合工具调用能力，模型还能在推理过程中即时操控图像，比如旋转、缩放、格式转换等，让图像处理成为其思考的一部分。

这些模型在视觉感知任务中表现出业界领先的准确率，能解决过去难以应对的问题。