AI刷题强到可怕？挑战高考数学卷，DeepSeek-R1、腾讯混元T1、Grok 3等十大模型测评来...

每日经济新闻 · 公众号 · 生活 · 2025-06-11 00:06

正文

讯飞星火X1的推理过程

其他得分超过100分的还有Gemini 2.5 Pro（109分）、o3（107分）、阿里千问Qwen3（106分）和豆包深度思考模式（104分）。在分数占比最高的解答题上，Gemini 2.5 Pro和o3均有失误，其中一道大题仅有部分正确，而阿里千问Qwen3和豆包深度思考模式均拿下满分。

在本次参评的所有AI推理大模型中，如果说有谁的结果最令人意外，那无疑是马斯克旗下xAI公司开发的、被马斯克称为“地表最强AI”的Grok 3。

Grok在发布之初就被市场寄予厚望，被认为是最有潜力挑战GPT和Gemini霸主地位的“黑马”。马斯克多次暗示，Grok的目标是成为最强大的AI。

然而，Grok 3此次的表现可以说是遭遇了“滑铁卢”。在117分的试题测试中， Grok 3仅获得91分，在10个参与测试的推理大模型中排名倒数第三 。

深入分析其答卷，每经记者发现，Grok 3失分的一个独特且关键的原因：它似乎无法正确理解多选题这类题型。

测试过程显示，即使在记者提示题目为多选题的情况下，Grok 3也“顽固”地只给出一个它认为的最优解，导致只能得到部分分数。

排名倒数第二的是智谱清言推理模式，在117分试卷的测试中得分为78分。

实际上，该模型在多道题目的推理过程中都找到了正确答案，但是往往会在最后一步出现自我怀疑导致逻辑崩溃，陷入循环，最终功亏一篑，白白丢了很多分。

智谱清言推理模式解答过程截图

排在最末尾的是Kimi k1.5，该模型在最后两道压轴大题上栽了大跟头，损失了大量的分数。

综合所有测试情况来看，在处理有固定步骤和严密逻辑的数学问题上，AI推理大模型已经具备很强的能力。但在涉及抽象和创新思维的题目上，目前的大模型还存在一定的局限性。

推荐文章

每日经济新闻 · 突发！以色列国防部总部被炸，以方：与伊朗政权处于“战争状态”！15分钟内3次导弹齐射，伊朗再出手，“正在计划打击美军基地”

16 小时前

每日豆瓣 · 夏天，建议把啤酒换成它！

23 小时前

每日豆瓣 · 这瓶面霜，认准了就是一辈子！只要不停产，我万年回购

23 小时前

每日经济新闻 · 禾盛新材拟2.5亿元投资芯片设计公司熠知电子；美利云股东中冶纸业被申请破产重整｜晚间公告精选

3 天前

渭南最生活 · 昨天全省又是临渭区最热！渭南这些清凉好去处等你去纳凉→

2 天前

渭南最生活 · 昨天全省又是临渭区最热！渭南这些清凉好去处等你去纳凉→

2 天前

龙牙战术品牌 · 忘掉德国油纸包吧！看他们赞美中国机场，简直能听出嘤嘤嘤地撒娇声

8 年前

大楚网 · 武汉第一胖将接受手术渴望能正常呼吸

8 年前

立德融金集团 · 募资总额下降一成多新三板股权质押规模攀升

7 年前

私募圈 · 那些“奔私”的明星基金经理：有人规模百亿，有人销声匿迹……

7 年前

腾讯科技 · 共享汽车新规发布，这四大变化需关注（附新规全文）

7 年前