专栏名称: AI科技大本营
为AI领域从业者提供人工智能领域热点报道和海量重磅访谈;面向技术人员,提供AI技术领域前沿研究进展和技术成长路线;面向垂直企业,实现行业应用与技术创新的对接。全方位触及人工智能时代,连接AI技术的创造者和使用者。
目录
相关文章推荐
Java大神  ·  微信隐藏功能“recover ... ·  13 小时前  
小莉帮忙  ·  “脑子不动会傻的!”医生提醒少刷短视频 ·  14 小时前  
小莉帮忙  ·  “脑子不动会傻的!”医生提醒少刷短视频 ·  14 小时前  
海峡导报大龙海  ·  微信上线新功能!网友:非常实用 ·  昨天  
海峡导报大龙海  ·  微信上线新功能!网友:非常实用 ·  昨天  
百晓讲新闻  ·  微信上线新功能!网友:非常实用 ·  昨天  
百晓讲新闻  ·  微信上线新功能!网友:非常实用 ·  昨天  
笔记侠  ·  一个公司的衰败,从CEO不再思考开始 ·  2 天前  
51好读  ›  专栏  ›  AI科技大本营

从「记忆解题」到「深度推理」:港科大推出首个本科数学动态评测基准 UGMathBench

AI科技大本营  · 公众号  · 互联网短视频 科技自媒体  · 2025-06-09 18:41

主要观点总结

UGMathBench是一个针对本科数学的多元化动态评测体系,旨在全面评估LLM在本科阶段各类数学主题下的推理能力。它与现有基准测试如GSM8K和MATH相比,更具挑战性,并采用了动态基准测试来避免测试集污染。UGMathBench包含广泛的数学主题、答案类型和测试示例,并具有较高的动态性和全面性。其评估结果揭示了当前LLM的短板,如推理的不稳定性和面对高阶概念推理的不足。未来,UGMathBench预计开发多模态版本,支持多语言数学问题评估,并探索模型自适应训练以缩小推理差距。

关键观点总结

关键观点1: UGMathBench的特点

UGMathBench是首个针对本科数学的多元化动态评测体系,专为评估LLM的推理能力而设计。它提供了动态多样的评估工具,将数学推理评测带入「动态污染防控」时代。该基准测试与现有基准测试相比,具有更多的挑战性和更高的评估标准。

关键观点2: UGMathBench与现有基准的区别

UGMathBench与现有基准测试如GSM8K和MATH的主要区别在于其专注于本科数学推理,并采用了动态基准测试来避免模型通过训练数据接触测试题目而导致的污染问题。此外,UGMathBench还引入了多项创新指标,如平均准确率(Acc)、鲁棒效率(RE)、有效准确率(EAcc)和推理差距(Δ)来全面评估模型的性能。

关键观点3: UGMathBench的评估结果

UGMathBench的评估结果揭示了当前LLM在推理能力上的不足,包括推理的不稳定性和面对高阶概念推理的困难。此外,闭源模型和开源模型之间在评估结果上存在一定的差距。

关键观点4: UGMathBench的未来发展和挑战

未来,UGMathBench预计开发多模态版本,支持多语言数学问题评估,并探索模型自适应训练以缩小推理差距。此外,开发“大型推理模型”是实现高有效准确率和完美鲁棒性的目标之一。


正文

请到「今天看啥」查看全文


总之, UGMathBench 与其他数学基准的核心区别 在于现有基准如 GSM8K(小学)、MATH(竞赛)层次较低,为静态基准,有数据污染的风险;UGMathBench 专注于本科数学推理,用动态随机化题目检测模型真实推理能力,其创新指标 EAcc 和 Δ 可有效衡量模型对变量扰动的真实推理能力,避免测试集污染。
UGMathBench 的设计

UGMathBench 的构建是从在线作业评分系统中精心收集、整理和格式化本科水平的数学问题,核心优势体现在其全面性与动态性。
2.1 核心亮点
  • 超全学科覆盖 :UGMathBench 涵盖本科阶段数学的 16 个核心学科领域,包括单变量微积分、多变量微积分、微分方程、概率等,从而有111 个细分主题及 583 个子主题,包含 5062 个问题。
  • 答案类型多元 :分为 8 种原子答案类型和 2 种复合答案类型,答案类型范围从原子类型(例如,数值、表达式)到复合类型(例如,有序或无序列表中的多个答案),使 UGMathBench 与许多其他主要关注具有原子类型的单个答案的数学相关基准区分开来。
  • 动态评估体系 :每个问题包括 3 个随机版本,未来计划随模型性能提升而增加版本数。通过变量扰动(如系数、边界条件变化)创建多版本试题,确保模型依靠推理,进而真正理解阶梯逻辑,而非依靠记忆生成答案。
2.2 关键指标
平均准确率(Acc) :的准确率定义为模型在版本题集上的平均准确率,来评估该版本的平均性能。
鲁棒效率(RE) :Δ与EAcc的比值,表示为 RE=Δ/EAcc,反映推理差距的相对大小。
传统准确率(Acc)难以揭示模型在问题变体中的稳定性。UGMathBench 引入两项创新指标:
  • 平均准确率(AAcc) :定义为所有 Acc 的平均值,
  • 有效准确率(EAcc) :衡量模型在所有随机化版本中均能正确解决问题的比例,量化真实推理。
公式:






请到「今天看啥」查看全文