OpenAI急了？o3-mini上线，性能未能全面超越DeepSeek R1

腾讯科技 · 公众号 · 科技媒体 · 2025-02-01 10:06

正文

请到「今天看啥」查看全文

注：在数学领域，OpenAI的o3-mini模型展现了不同的推理强度下的多样化性能。在2024年美国数学邀请赛（AIME）测试中，当推理强度设置为低时，o3-mini的表现与o1-mini相当；在中等推理强度下，o3-mini的性能与o1模型相当。当推理强度调至高时，o3-mini的表现超越了o1-mini和o1。这表明o3-mini在不同推理强度下能够灵活适应不同的任务需求，为用户提供更精准、高效的解决方案。

博士级科学问题（GPQA Diamond）

FrontierMath （高级数学推理基准测试集）

注：在研究级数学领域，OpenAI的o3-mini模型在高推理强度下于FrontierMath基准测试中的表现优于o1-mini。在FrontierMath测试中，当提示使用Python工具时，高推理强度的o3-mini在首次尝试中解决了超过32%的问题，其中包括超过28%的高难度（T3 类别）问题。

编程竞赛（Codeforces）

注：在编程竞赛领域，OpenAI的o3-mini模型随着推理强度的增加，Elo评分逐步提高，全面超越了o1-mini。在中等推理强度下，o3-mini的性能与o1持平。

软件工程（SWE-bench Verified）

注：在SWE-bench Verified基准测试中，o3-mini是OpenAI表现最为出色的模型。在高推理强度下，o3-mini的表现显著优于o1-mini。其中：使用开源的Agentless scaffold，o3-mini的准确率为 39%；使用内部工具scaffold，o3-mini的准确率提升至61%。

LiveBench Coding（评估大型语言模型在编程任务中的表现）