正文
越来越多的学者和 AI 研究人员主张,答案在于“缩小评估范围”——放弃宏大目标,转而采用社会科学的研究方法。具体而言,他们希望更注重测试的“效度”(validity),即定量社会科学中衡量问卷能否准确评估目标指标的标准,更根本的是确认所测量的概念是否具有明确定义。这对评估“推理能力”或“科学知识”等模糊概念的基准测试将构成挑战,也会冲击那些追逐通用人工智能(AGI)热潮的开发者——但能让行业在证明单个模型价值时,拥有更坚实的理论基础。
密歇根大学教授 Abigail Jacobs 是这场“效度运动”的核心人物,她表示:“认真对待效度意味着要求学术界、工业界等各方证明其系统确实具备所宣称的能力。如果 AI 界回避这种验证要求,恰恰暴露了这个领域的弱点。”
传统测试的局限性
如果说 AI 公司对基准测试日益显露的缺陷反应迟缓,部分原因在于这种评分机制曾长期行之有效。
当代 AI 最早的里程碑之一——ImageNet 挑战赛,堪称现代基准测试的雏形。2010 年发布的这个开放研究项目,包含 300 多万张待分类图片,要求 AI 系统将其归入 1000 个不同类别。
关键在于,该测试完全兼容任何方法体系,任何成功算法无论运作原理如何都能快速获得认可。当名为 AlexNet 的算法在 2012 年突破性地采用当时非主流的 GPU 训练方法胜出时,这一成果直接奠定了现代 AI 的基础。此前几乎无人预料到,AlexNet 采用的卷积神经网络会成为解锁图像识别的密钥——但一旦其高分成绩得到验证,质疑声便烟消云散。(AlexNet 开发者之一 Ilya Sutskever 后来成为 OpenAI 联合创始人)
ImageNet 之所以成效卓著,很大程度上在于其物体分类挑战与真实图像识别任务几乎不存在实用差异。即便对方法存在争议,但没人会怀疑:在测试中表现最优的模型,实际部署时必然具备优势。
但在此后的 12 年间,AI 研究者将这种
“方法论中立
”的思路套用到越来越通用的任务上。SWE-Bench 常被用作广义编程能力的替代指标,而其他考试式基准测试则往往代表推理能力。这种宽泛的定位使得人们难以严谨界定特定基准测试的测量范畴——进而导致研究成果难以被负责任地运用。
症结所在