看好了，这才是7家大模型做高考数学题的真实分数。

大数据文摘 · 公众号 · 大数据 · 2025-06-13 14:00

正文

4. 单题计分方法也依照高考判分原则：单选题7道，每道5分，选项正确计分，错误不得分；多选题3道，每道6分，全对计6分，漏选按正确答案数量计分，如答案为ABCD，漏选其一扣1.5分，错选不得分；填空题3道，每道5分，填空正确计分，错误不得分。

5. 每道题都会使用大模型跑3遍，根据正确比例进行分配，最大程度减少幻觉。比如OpenAI o3模型，做单选题第7题，对2次，错1次，则实际得分为5*0.66=3.3分。

6. 只开推理、不使用Prompt引导、不开联网、不允许写代码在沙盒进行计算，比如o3，我直接把这几个功能关掉了。

以上，就是全部规则了。

接下来，请我们的模型考生入场。

测试模型为 OpenAI o3、Gemini 2.5 pro、DeepSeek R1 、豆包（ 1.5-thinking-pro）、元宝（混元T1）、千问3（235B）、讯飞星火X1，均为推理模型。

在晚上凌晨2点开始测试，因为搞API写脚本反而可能更麻烦，所以直接搞了个表格，复制粘贴测了，以至于喊了我的几个好朋友@卡尔的AI沃兹、@Max、@猫先生一起测，硬生生测到凌晨4点。

7道单选题、3道多选题、3道填空题，总分一共68分。

我们得出了，我认为，非常公平客观的，每个模型的考试结果。

没有收任何家钱，也没有任何利益关系，全部客观公正。

推荐文章

知食观 · 邀您与1090+食品同仁一起使用《知食观·食安资料库》

6 小时前

知食观 · 邀您与1090+食品同仁一起使用《知食观·食安资料库》

6 小时前

数局 · 吴世春锐评杭州六小龙：除了一条真龙外，其它“水分比较大”

2 天前

大数据文摘 · 基础统计学：计算空难事件概率

2 天前

艺恩数据 · 【艺恩报告】2025年黄金饰品消费分析报告

昨天

CDA数据分析师 · 《CDA一级教材》电子版上线CDA网校，助你轻松拿下一级考试！

2 天前

新东方在线 · 老俞跟你谈如何避免留学那些坑？正确看待留学价值

8 年前

吉他谱 · 疯狂的鼓手，架子鼓也可以打的这么过瘾，爽！

8 年前

品途商业评论 · 从修马桶到辞职百度创业，身价过亿的他，又想去当导演... | 品途视频

8 年前

每日经济新闻 · 天猫618收官之时，马云张勇在哪？

7 年前

钱江晚报 · 6个月宝宝哭声像猫叫，医生急死了，家长却很淡定……检查结果惊呆众人

7 年前