专栏名称: InfoQ

有内容的技术社区媒体。

目录

相关文章推荐

虎嗅APP · 清北毕业到底能赚多少钱？ · 23 小时前

新浪科技 · 【#小米手机产量即将反超苹果##iPhone ... · 昨天

新浪科技 · 【#阿里离职员工回应内网发长文##阿里离职员 ... · 昨天

新浪科技 · 【#知情人士称泡泡玛特年初已扩产能# ... · 昨天

新浪科技 · #好博会推荐官# ... · 2 天前

51好读 › 专栏 › InfoQ

推理能力大比拼，《推理模型综合测评报告 2025 》正式发布

InfoQ · 公众号 · 科技媒体 · 2025-05-29 16:13

主要观点总结

本文主要介绍了大模型赛道的新发展，即模型尺寸的卖点不再单一，推理能力成为新的关键。InfoQ研究中心对八款热门模型进行了系统评测，包括逻辑推理、数学推理、语言推理、多步推理以及幻觉控制五大维度。评测发现，各模型在不同维度表现不同，存在明显的优势和短板。同时，介绍了推理模型的发展趋势，如视觉推理模型的图片融入思维链、推理模型向多能智能体演变等。

关键观点总结

关键观点1: 模型尺寸不再是唯一卖点，推理能力成为新的关键

过去半年，大模型赛道出现了明显的拐点，推理能力成为新的分水岭。全球主流厂商纷纷强调模型的推理能力。

关键观点2: InfoQ研究中心对八款热门模型进行了系统评测

评测围绕逻辑推理、数学推理、语言推理、多步推理以及幻觉控制五大维度展开，测评对象包括DeepSeek-R1、k1.5等八款模型。评测发现各模型在不同维度表现不同，存在明显的优势和短板。

关键观点3: 推理模型的发展趋势

推理模型正在从单一能力向多能力智能体演变，视觉推理模型将图片融入思维链，推理模型能够连续编程并修改多文件项目。此外，安全对齐、多模态推理等方向也是未来发展的重要趋势。

正文

请到「今天看啥」查看全文

评测围绕逻辑推理、数学推理、语言推理、多步推理以及幻觉控制五大维度展开。300 道题库中包含超过 90% 的原创试题，覆盖 3 个难度梯度、涵盖多学科和多题型，并确保评分可量化、难度分层合理。

推理模型综合测评体系说明

评测对象包括 DeepSeek-R1、k1.5、Claude-3.7-Sonnet-Reasoning、GLM-Z1、Doubao-1.5-thinking-pro、o3、文心 X1 Turbo 以及 Qwen3-235B-A22B。参与测试的推理模型、版本号及测试渠道如下。

请到「今天看啥」查看全文

推荐文章

虎嗅APP · 清北毕业到底能赚多少钱？

23 小时前

新浪科技 · 【#小米手机产量即将反超苹果##iPhone一季度全球减产40%-20250612171820

昨天

新浪科技 · 【#阿里离职员工回应内网发长文##阿里离职员工感谢马云祝福#】近-20250612173554

昨天

新浪科技 · 【#知情人士称泡泡玛特年初已扩产能# 但需求远超供应链反应速度】-20250612001940

昨天

新浪科技 · #好博会推荐官# 集结！千万粉丝无忧传媒旗下达人: 张與息、无敌-20250611185709

2 天前

安在 · 【周年 · 在看】这一年，辣评百态世相

8 年前

新京报书评周刊 · 世界上会有比吃和睡更有意义的事吗？ | 加菲猫与彼得潘的“爸爸”离世80周年

7 年前

电商解析 · 特斯拉建最大锂电池蓄电站储能已在风口

7 年前

微信派 · 今天起，做个秒进秒出的老司机

7 年前

星座 · 分手前必须要做的一件事

7 年前

移动版

51好读 - 微信公众号文章