专栏名称: PaperWeekly
PaperWeekly是一个推荐、解读、讨论和报道人工智能前沿论文成果的学术平台,致力于让国内外优秀科研工作得到更为广泛的传播和认可。社区:http://paperweek.ly | 微博:@PaperWeekly
目录
相关文章推荐
小张聊科研  ·  Cell子刊:关注外泌体(胞外囊泡)的你肯定 ... ·  2 天前  
自然系列  ·  会议预告 | ... ·  2 天前  
募格学术  ·  民族大学,发Nature! ·  2 天前  
51好读  ›  专栏  ›  PaperWeekly

ICML 2025 | 用“人类考试法”戳破AI泡沫:构建能力导向的自适应测评新范式

PaperWeekly  · 公众号  · 科研  · 2025-05-27 13:41

正文

请到「今天看啥」查看全文


  • 安全性:很多测试题被模型“见过”或者“记住”了;

  • 可解释性:只观测到“做对多少题”,但不知道“能力强在哪儿”“能力有多强”。



  • 心理测量学启发:用自适应测试精准测 AI 能力

    在人类的 GRE、TOEFL 等考试早已采用基于心理测量学(Psychometrics)的自适应测试。这类测试认识到:每道题的重要性和信息价值都不同,可估计出每个题目的难度、区分度、猜测概率等统计特征,并且系统会根据考生表现动态分发题目,更精准评估能力。


    换句话说,自适应测试关注的,不是模型答对了多少题,而是其它真正的 能力边界 。本立场论文提出: 心理测量学这种起源于 20 世纪针对人类的测评技术,可以帮助解决如今 AI 评估的困境,重构能力评估机制



    用心理测量学重构 AI 测评

    3.1 能力导向:测出 AI 真正的“能力值”

    传统的评估范式是分数导向(score-oriented)而自适应测试则是能力导向(ability-oriented),不是数对了多少题,而是构建 AI 能力分布模型,给出统计意义上的能力估计。具体优势为:


    • 高效性:精准选择高信息量题目,研究者发现可用不足 3% 的题量,即可还原完整 Benchmark 上的成绩(上图)

    • 可解释:建模模型能力与题目特征间的关联,如相同能力下难度越低答对概率越大,可解释分数背后的原因;认知诊断模型还支持建模AI的多维能力

    • 捕捉不确定性:模型行为可能受温度参数或 prompt 微小变化影响(例如人类考试时也会收到环境、心情波动等影响)

    • 可比较性:在统一尺度上对模型能力进行统计比较,甚至可跨 Benchmark 统一评估(如人类的 GRE 不同场次分数具可比性)

    因此,心理测量可以将 AI 模型的表现映射为“能力参数”,进而分析模型擅长/薄弱在哪、稳不稳定、不确定性高不高。

    3.2 不是所有的题目都是同样重要

    很多人默认 Benchmark 中的测试题目是“准确、可靠、有价值”,但事实往往不是这样。不是所有题都值得出现在测试集中。心理测量学能够估计每个题目的特征,如难度(







    请到「今天看啥」查看全文