专栏名称: 字节跳动技术团队
字节跳动的技术实践分享
目录
相关文章推荐
高可用架构  ·  微信读书后台架构演进之路 ·  7 小时前  
架构师之路  ·  全球软件工程技术大会,送福利! ·  21 小时前  
字节跳动技术团队  ·  IJCAI 25 | ... ·  昨天  
架构师之路  ·  美团的童鞋,有个问题麻烦您帮忙看一下... ·  昨天  
高可用架构  ·  这家公司对网关性能的优化历程,在 ... ·  2 天前  
51好读  ›  专栏  ›  字节跳动技术团队

285 学科全覆盖!豆包大模型团队开源基准测试集 SuperGPQA

字节跳动技术团队  · 公众号  · 架构  · 2025-03-05 18:00

正文

请到「今天看啥」查看全文


图片 多基准多维度对比雷达图
图片
不同基准下最新模型的性能对比
更为严峻的是,现有评测体系失去区分度,无法有效衡量模型在真实复杂场景中的推理上限。比如,主流模 型如 GPT-4o、DeepSeek-R1 在传统基准上准确率已突破 90%。
这主要源于传统基准构建范式的单一化数据来源与粗放化质量筛选。比如,不加辨别地依赖教科书例题或在线题库(例如 GPQA 中 42% 的问题来自维基百科),导致题目缺乏专业深度,且易被模型通过记忆机制 “破解”。实验发现,GPT-4o 对在线练习网站答案的重复率高达 67.3%,暗示其性能提升可能源于题目数据泄露而非真实推理能力。
此外,众包标注的专业水平参差和主观性问题评估难度进一步加剧了基准的不可靠性——早期尝试中,仅 37% 的众包标注问题通过专家审核,导致超过 60% 的标注资源浪费。
这使得我们无法准确评估模型的泛化能力和推理能力,严重阻碍了模型性能的进一步提升。

2. 首次全覆盖 285 个学科,探索 LLMs 真实能力边界

为突破以上限制,豆包大模型团队和 M-A-P 历时半年推出 SuperGPQA,一项全面的基准测试,实现 285 个研究生级学科全覆盖, 旨在探索最先进的大语言模型潜力边界。
  • 全面学科覆盖 SuperGPQA 覆盖 13 个门类、72 个一级学科和 285 个二级学科,共 26,529 个问题,远超现有的 GPQA(448 题)和 MMLU-Pro(12,032 题),平均每题 将会 提供 9.67 个选项,挑战性显著高于传统的 4 选项格式。同时,它突破传统评测集仅侧重 STEM 学科的局限,兼顾科学、工程、医学等 STEM 学科与哲学、文学、历史等非 STEM 学科问题,且具有较高区分度。
  • 多样的难度分布: 问题难度在各学科间均衡分布,尤其在工程和科学领域,难题比例较高。42.33% 的问题需要数学计算或严谨推理,确保模型在高难度任务中的表现。
  • 丰富的 语义 结构: 通过 t-SNE 可视化,评测集 SuperGPQA 展示了跨学科的聚类模式,工程和科学类问题在语义上高度相似,人文学科则保持独特的知识中心,体现了领域特定的语言特色。
  • 一致的题目设计: 平均问题长度为 58.42 字,选项长度一致,增强了迷惑性和挑战性,确保评测的公平性与可靠性。

3. 专家-LLM 协同,提高题库质量







请到「今天看啥」查看全文