主要观点总结
OpenAI发布了新一代顶尖模型o3和o4-mini,展示了其强大的多模式推理能力。o3模型能够在视觉推理、编码、数学、科学和推理任务方面取得突破性进展,而o4-mini则专注于快速、经济高效的推理。此外,OpenAI还推出了Codex CLI,一款在终端中运行的开源轻量级编码代理。此次发布反映了OpenAI将专业推理能力与自然对话能力和工具使用能力相融合的发展方向。
关键观点总结
关键观点1: o3和o4-mini模型的发布
OpenAI发布了新一代人工智能模型o3和o4-mini,这两个模型在多个领域取得了显著进展,尤其是多模式推理能力方面。o3是一个跨多个领域的强大模型,为编码、数学、科学和视觉推理任务设定了新的行业标准,而o4-mini则是一款更小、更经济高效的模型。
关键观点2: 多模式推理能力的展示
o3和o4-mini模型展示了强大的多模式推理能力,包括视觉推理、自然语言处理、编程等。这些模型能够智能调度使用和组合ChatGPT中的每个工具,从而更有效地帮助用户处理多方面的复杂问题。
关键观点3: Codex CLI的推出
OpenAI还推出了一款名为Codex CLI的开源轻量级编码代理,该工具可以在终端中运行,旨在最大限度地提升o3和o4-mini等模型的推理能力。Codex CLI能够将自然语言转化为可执行代码,为开发者提供更加便捷的开发体验。
关键观点4: 模型在基准测试中的表现
o3和o4-mini模型在各种基准测试中取得了优异的成绩,包括STEM问答、图表阅读和推理、感知基元以及视觉搜索等。这些成绩证明了这些模型在多个领域的高效性和先进性。
关键观点5: OpenAI在开源社区的影响力提升
OpenAI通过推出Codex CLI和资助开源项目,在开源社区的影响力得到了进一步提升。此外,OpenAI还在加强与开发者的合作,推动人工智能技术的发展。
正文
将最先进的推理能力与完全的工具访问权限相结合,让o3和o4-mini模型在实际任务和各大学术基准测试中表现出色。
OpenAI这次推出o3和o4-mini模型的一大亮点在于“图像思考”,可以把用户上传的图片直接集成到思路链中,这意味着AI模型不只是看到图像,还能识别出关键信息并用它来思考,图片可以是白板照片、教科书图表或手绘草图。
ChatGPT增强的视觉感知能够全面、准确和可靠地分析图像,并且将高级推理与网页搜索、图像处理(自动缩放、裁剪、翻转或增强图像)等工具无缝结合,即使照片质量不太好,也能从中提取关键信息和分析洞见,可以无缝融合视觉和文本推理,标志着模型在多模式推理方面迈出重要一步。
这个“图像思考”功能有多强?OpenAI展示了o3的一些实际用例,比如识别远处笔记本上的手写字体,即便是人眼也很难分辨的内容,o3模型通过拉近缩放旋转图像,成功识别出了上面写的内容。
不仅能精准识别,而且识别之后还能帮助用户去分析解决实际问题,比如当它识别到手写的内容是计算费曼图振幅的图示,它就能帮用户提供解题思路。
当视觉推理与Python数据分析、网络搜索、图像生成等其他工具协同工作,还可以有创造性地解决更复杂的问题,为用户提供多模式代理体验。
比如让o3分析一个迷宫图,找出最近的走出路线,o3会将图像转化为程序问题进行破解处理,然后按照用户要求绘制出路线。
在STEM问答(MMMU、MathVista)、图表阅读和推理(CharXiv)、感知基元(VLM为盲)以及视觉搜索(V*)等不同的测试基准上,o3和o4-mini均创下了新的最高水平,在V*测试中,视觉推理方法达到了95.7%的准确率。
当然,在o3和o4-mini之间也存在定位上的差异化。
OpenAI官方表示,o3是一个跨多个领域的强大模型,为编码、数学、科学和视觉推理任务设定了新的行业标准。在外部专家的评估中,o3在困难的现实任务中比o1模型犯的错误少20%,尤其是在编程、商业/咨询和创意构思等领域表现出色,而且在生物学、数学和工程学知识领域也非常厉害。
o4-mini则
是一款体型更小的模型,专为快速、经济高效的推理而优化,它以其尺寸和成本实现了卓越性能,尤其是在
数学、编程和视觉任务方面,它
支持比o3更高的使用限制,使其成为一个有性价比的高容量、高吞吐量解决方案,适合所有需要推理能力的用户。