专栏名称: 大数据文摘
普及数据思维,传播数据文化
目录
相关文章推荐
大数据文摘  ·  基础统计学:计算空难事件概率 ·  2 天前  
艺恩数据  ·  【艺恩报告】2025年黄金饰品消费分析报告 ·  昨天  
CDA数据分析师  ·  《CDA一级教材》电子版上线CDA网校,助你 ... ·  2 天前  
51好读  ›  专栏  ›  大数据文摘

看好了,这才是7家大模型做高考数学题的真实分数。

大数据文摘  · 公众号  · 大数据  · 2025-06-13 14:00

正文

请到「今天看啥」查看全文


4. 单题计分方法也依照高考判分原则:单选题7道,每道5分,选项正确计分,错误不得分;多选题3道,每道6分,全对计6分,漏选按正确答案数量计分,如答案为ABCD,漏选其一扣1.5分,错选不得分;填空题3道,每道5分,填空正确计分,错误不得分。
5. 每道题都会使用大模型跑3遍,根据正确比例进行分配,最大程度减少幻觉。比如OpenAI o3模型,做单选题第7题,对2次,错1次,则实际得分为5*0.66=3.3分。
6. 只开推理、不使用Prompt引导、不开联网、不允许写代码在沙盒进行计算,比如o3,我直接把这几个功能关掉了。
以上,就是全部规则了。
接下来,请我们的模型考生入场。
测试模型为 OpenAI o3、Gemini 2.5 pro、DeepSeek R1 、豆包( 1.5-thinking-pro) 、元宝(混元T1)、千问3(235B)、讯飞星火X1, 均为推理模型。
在晚上凌晨2点开始测试,因为搞API写脚本反而可能更麻烦,所以直接搞了个表格,复制粘贴测了,以至于喊了我的几个好朋友@卡尔的AI沃兹、@Max、@猫先生 一起测,硬生生测到凌晨4点。
7道单选题、3道多选题、3道填空题,总分一共68分。
我们得出了,我认为,非常公平客观的,每个模型的考试结果。
没有收任何家钱,也没有任何利益关系,全部客观公正。






请到「今天看啥」查看全文