专栏名称: InfoQ
有内容的技术社区媒体。
目录
51好读  ›  专栏  ›  InfoQ

推理能力大比拼,《推理模型综合测评报告 2025 》正式发布

InfoQ  · 公众号  · 科技媒体  · 2025-05-29 16:13

主要观点总结

本文主要介绍了大模型赛道的新发展,即模型尺寸的卖点不再单一,推理能力成为新的关键。InfoQ研究中心对八款热门模型进行了系统评测,包括逻辑推理、数学推理、语言推理、多步推理以及幻觉控制五大维度。评测发现,各模型在不同维度表现不同,存在明显的优势和短板。同时,介绍了推理模型的发展趋势,如视觉推理模型的图片融入思维链、推理模型向多能智能体演变等。

关键观点总结

关键观点1: 模型尺寸不再是唯一卖点,推理能力成为新的关键

过去半年,大模型赛道出现了明显的拐点,推理能力成为新的分水岭。全球主流厂商纷纷强调模型的推理能力。

关键观点2: InfoQ研究中心对八款热门模型进行了系统评测

评测围绕逻辑推理、数学推理、语言推理、多步推理以及幻觉控制五大维度展开,测评对象包括DeepSeek-R1、k1.5等八款模型。评测发现各模型在不同维度表现不同,存在明显的优势和短板。

关键观点3: 推理模型的发展趋势

推理模型正在从单一能力向多能力智能体演变,视觉推理模型将图片融入思维链,推理模型能够连续编程并修改多文件项目。此外,安全对齐、多模态推理等方向也是未来发展的重要趋势。


正文

请到「今天看啥」查看全文


评测围绕逻辑推理、数学推理、语言推理、多步推理以及幻觉控制五大维度展开。300 道题库中包含超过 90% 的原创试题,覆盖 3 个难度梯度、涵盖多学科和多题型,并确保评分可量化、难度分层合理。

image.png

推理模型综合测评体系说明

评测对象包括 DeepSeek-R1、k1.5、Claude-3.7-Sonnet-Reasoning、GLM-Z1、Doubao-1.5-thinking-pro、o3、文心 X1 Turbo 以及 Qwen3-235B-A22B。参与测试的推理模型、版本号及测试渠道如下。

image.png






请到「今天看啥」查看全文