专栏名称: 每日经济新闻
新闻决定影响力
目录
相关文章推荐
每日经济新闻  ·  突发!以色列国防部总部被炸,以方:与伊朗政权 ... ·  16 小时前  
每日豆瓣  ·  夏天,建议把啤酒换成它! ·  23 小时前  
每日经济新闻  ·  禾盛新材拟2.5亿元投资芯片设计公司熠知电子 ... ·  3 天前  
51好读  ›  专栏  ›  每日经济新闻

AI刷题强到可怕?挑战高考数学卷,DeepSeek-R1、腾讯混元T1、Grok 3等十大模型测评来...

每日经济新闻  · 公众号  · 生活  · 2025-06-11 00:06

正文

请到「今天看啥」查看全文



讯飞星火X1的推理过程


其他得分超过100分的还有Gemini 2.5 Pro(109分)、o3(107分)、阿里千问Qwen3(106分)和豆包深度思考模式(104分)。在分数占比最高的解答题上,Gemini 2.5 Pro和o3均有失误,其中一道大题仅有部分正确,而阿里千问Qwen3和豆包深度思考模式均拿下满分。


Grok 3惨遭“滑铁卢”,排名倒数第三


在本次参评的所有AI推理大模型中,如果说有谁的结果最令人意外,那无疑是马斯克旗下xAI公司开发的、被马斯克称为“地表最强AI”的Grok 3。


Grok在发布之初就被市场寄予厚望,被认为是最有潜力挑战GPT和Gemini霸主地位的“黑马”。马斯克多次暗示,Grok的目标是成为最强大的AI。


然而,Grok 3此次的表现可以说是遭遇了“滑铁卢”。在117分的试题测试中, Grok 3仅获得91分,在10个参与测试的推理大模型中排名倒数第三


深入分析其答卷,每经记者发现,Grok 3失分的一个独特且关键的原因:它似乎无法正确理解多选题这类题型。


测试过程显示,即使在记者提示题目为多选题的情况下,Grok 3也“顽固”地只给出一个它认为的最优解,导致只能得到部分分数。


排名倒数第二的是智谱清言推理模式,在117分试卷的测试中得分为78分。


实际上,该模型在多道题目的推理过程中都找到了正确答案,但是往往会在最后一步出现自我怀疑导致逻辑崩溃,陷入循环,最终功亏一篑,白白丢了很多分。


智谱清言推理模式解答过程截图


排在最末尾的是Kimi k1.5,该模型在最后两道压轴大题上栽了大跟头,损失了大量的分数。


综合所有测试情况来看,在处理有固定步骤和严密逻辑的数学问题上,AI推理大模型已经具备很强的能力。但在涉及抽象和创新思维的题目上,目前的大模型还存在一定的局限性。







请到「今天看啥」查看全文