专栏名称: 腾讯科技
只供应最有营养的科技大餐!
目录
相关文章推荐
51好读  ›  专栏  ›  腾讯科技

OpenAI急了?o3-mini上线,性能未能全面超越DeepSeek R1

腾讯科技  · 公众号  · 科技媒体  · 2025-02-01 10:06

正文

请到「今天看啥」查看全文


注:在数学领域,OpenAI的o3-mini模型展现了不同的推理强度下的多样化性能。在2024年美国数学邀请赛(AIME)测试中,当推理强度设置为低时,o3-mini的表现与o1-mini相当;在中等推理强度下,o3-mini的性能与o1模型相当。当推理强度调至高时,o3-mini的表现超越了o1-mini和o1。这表明o3-mini在不同推理强度下能够灵活适应不同的任务需求,为用户提供更精准、高效的解决方案。


博士级科学问题(GPQA Diamond)


FrontierMath (高级数学推理基准测试集)

注:在研究级数学领域,OpenAI的o3-mini模型在高推理强度下于FrontierMath基准测试中的表现优于o1-mini。在FrontierMath测试中,当提示使用Python工具时,高推理强度的o3-mini在首次尝试中解决了超过32%的问题,其中包括超过28%的高难度(T3 类别)问题。


编程竞赛(Codeforces)

注:在编程竞赛领域,OpenAI的o3-mini模型随着推理强度的增加,Elo评分逐步提高,全面超越了o1-mini。在中等推理强度下,o3-mini的性能与o1持平。


软件工程(SWE-bench Verified)

注:在SWE-bench Verified基准测试中,o3-mini是OpenAI表现最为出色的模型。在高推理强度下,o3-mini的表现显著优于o1-mini。其中:使用开源的Agentless scaffold,o3-mini的准确率为 39%;使用内部工具scaffold,o3-mini的准确率提升至61%。


LiveBench Coding( 评估大型语言模型在编程任务中的表现)



人类偏好评估(Human Preference Evaluation)

注:外部专家测试者的评估结果表明,OpenAI的o3-mini在生成回答的准确性、清晰度以及推理能力方面均优于o1-mini,尤其是在STEM领域。测试者在56%的情况下更倾向于选择o3-mini的回答,并且在处理复杂现实问题时,o3-mini 的重大错误率降低了39%。







请到「今天看啥」查看全文