专栏名称: 腾讯科技
只供应最有营养的科技大餐!
目录
相关文章推荐
51好读  ›  专栏  ›  腾讯科技

OpenAI发布最强推理模型o3和o4-mini:图像深度思考首秀,还能自主调用工具

腾讯科技  · 公众号  · 科技媒体  · 2025-04-17 08:58

正文

请到「今天看啥」查看全文


与o3相比,OpenAI o4-mini是一款更小巧、但高效能的推理模型,专为快速、成本友好的应用场景而优化。在数学、编程和视觉任务上,它展现出了惊人的性价比。o4-mini是AIME 2024和AIME2025基准测试中表现最好的模型之一。
在专家评估中,o4-mini在非STEM任务(科学、技术、工程、数学)上的表现超越了o3-mini。凭借出色的计算效率,o4-mini支持比o3更高的使用频率,使其成为需要推理能力的高频、高吞吐量场景的理想选择。
外部专家评估认为,得益于智能水平的提升和网络信息的引入,这两款模型在遵循指令和提供更有用、可验证的回答方面均优于前代模型。与此前的推理模型相比,它们的对话体验也更加自然,尤其是在引用记忆和过往对话时,能够提供更个性化、更相关的回答。

持续扩展强化学习能力

在OpenAI o3的开发过程中,OpenAI发现大规模强化学习(RL)呈现出与GPT系列预训练 相同的规律——“计算量越大,性能越强”。
同时,模型在被允许“思考”得越久,表现就越好。
在相同延迟和成本条件下,o3在ChatGPT中的表现优于o1。同时,如果允许模型进行更长时间的思考,它的表现还会进一步提升。
OpenAI通过强化学习训练这两款模型如何使用工具,还让它们学会判断何时使用工具,从而在开放式任务中表现更出色,尤其是在视觉推理和多步骤工作流程任务中。

首次实现图像思维链整合

图片
在上述示例中,OpenAI首次展示了其模型如何将图像直接整合进推理思维链中。模型不仅能“看到”图像,更能“用图像进行思考”。这一突破实现了视觉与文本推理的深度融合,使其在多模态基准测试中达到最先进水平。
用户可以上传照片,比如:白板内容、教科书里的图示,甚至是手绘草图,模型都能理解它们。即使图像存在模糊、倒置或低质量的情况,模型仍能准确解析。
结合工具调用能力,模型还能在推理过程中即时操控图像,比如旋转、缩放、格式转换等,让图像处理成为其思考的一部分。
这些模型在视觉感知任务中表现出业界领先的准确率,能解决过去难以应对的问题。






请到「今天看啥」查看全文