专栏名称: AIGC新智界
区块链/数字货币/比特币中文资讯,创立于2011年,200多位专栏作入驻平台,国内最大区块链资讯原创基地(公众号【原创】认证),我们为以下合作伙伴供稿:火币、OKCoin、BTC.com、BTCC、币看、BTC123、比特时代、挖币网
目录
相关文章推荐
51好读  ›  专栏  ›  AIGC新智界

国产大模型2025考研数学排行榜:仅前两名成绩破百

AIGC新智界  · 公众号  · 比特币  · 2024-12-26 17:44

主要观点总结

文章主要测试了不同国产大模型在面对考研数学题目时的表现。通过对比测试结果,发现大模型在数理逻辑方面的能力有了显著进步。文章还提到了不同大模型的解题风格和思路,以及它们在不同类型题目上的表现。最后,文章展望了未来AI在科研领域的应用潜力。

关键观点总结

关键观点1: 大模型数学能力测试

文章选取了五个国产大模型进行测试,通过参考2025考研数学的难度适中的题目,发现部分模型在逻辑和思维能力方面取得了显著的进步。

关键观点2: 大模型的解题风格和思路

不同的大模型在解题过程中呈现出不同的风格和思路。有些模型给出详细的推导过程,有些则更注重直接给出答案。

关键观点3: 大模型在逻辑能力方面的进步

与过去相比,大模型在逻辑能力方面有了显著提升。这种进步体现在解决数学题目时的准确性和思维深度上。

关键观点4: AI未来在科研领域的应用潜力

随着大模型能力的不断增强,它们在科研领域的应用潜力日益凸显。未来AI可能成为研究者的得力助手,推动人类对宇宙的认识达到新的高度。


正文

请到「今天看啥」查看全文



这道题的正确答案是C,但不同模型得到C的过程很有意思。


先来看豆包的解题过程:



豆包同样给出了正确答案,但解题过程相对简略,更像考研参考书上的一些标准答案,如果要知道更详细的解题过程,尚需购买对应的考研名师课程作为辅助。


智谱清言的解答过程相对尴尬一些。因为这道题它没做对,第一遍测试选B,第二遍测试选了A。


第一遍测试B:



第二遍测试A:



不过,即便做错,也给出了相对完整的思考过程,“错”有可原。


再来看Kimi视觉思考版。



可以看到,Kimi视觉思考版在给出正确答案之余,也会给出完整的推导过程和解题思路。对于一些考研党来说,具有较高的参考价值,有助于检查错题和举一反三。


阿里通义和Deepseek的回答与豆包类似,相对而言,这两家模型展现的步骤会简略一些。


通义千问:



Deepseek:



再来看一道填空题。



这是它的标准答案:渐进线方程为y=3和y=-3


可以看到,跟前述选择题一样,Kimi思考版的解题过程较为翔实,推导细节很多,并最终给出了正确答案。



豆包的推导过程相对简略一些,但也可以看到明显的推导过程,也具备不错的可参考性。阿里通义和deepseek类似过程略简单,但给出了正确答案。



遗憾的是智谱在这道题上,两次结果都是错误的。








请到「今天看啥」查看全文