九成以上模型止步白银段位，只有3个铂金！通用AI下半场评测标准来了

机器之心 · 公众号 · AI · 2025-05-21 08:33

正文

请到「今天看啥」查看全文

单向协作，缺乏“通感” ：更深层的瓶颈在于，模型在不同模态间的知识迁移并不对等。目前往往是语言智能帮助了图像理解（例如利用 LLM 的知识提升了视觉问答表现），但反过来，视觉等其他模态的学习却并未真正提升模型的语言表达或推理能力。这意味着模型各模块之间没有形成双向增强的闭环，好比你看再多名画也无法直接提高写诗水平。真正的通才 AI 应当具备 “通感”式的协同学习 ——各种模态互相促进，而非各顾各的单箭头输出。

综上，当前的多模态大模型更像多个专家的简单拼合，远未形成跨模态的融会贯通。针对这些短板，评估标准也必须升级，才能暴露模型的真实能力缺陷。General-Level 和 General-Bench 的提出，正是要回答“如何定义和衡量通才智能”这一问题，为 AI 下半场奠定新的竞赛规程。

General-Level 五级评估体系：用“协同效应”定义通才智能

要评估“通才智能”，该论文借鉴了自动驾驶分级评估的思路，创造性地提出了 General-Level 五级能力段位体系。它将多模态模型的能力划分为由低到高的五个段位，从“专才”一直到“通才”。评判标准的核心是模型是否展现出 Synergy（协同效应） ——也就是不同模态、不同任务间是否互相赋能。 General-Level 评估体系以“协同效应 (Synergy)”为核心，将多模态模型划分为五个能力等级，从青铜级的专才到王者级的通才，每升高一级意味着更强的协同效应。简而言之，一个真正的通才型 AI，其在某一模态/任务上学到的本领应能迁移并增强它在其他模态/任务上的表现，实现“1+1>2”的效果。

具体来说，General-Level 将 MLLM 划分为如下五个等级，：

Level-1（青铜级）： “单科”专才。此级别对应各领域的单任务专家。模型只针对特定模态的特定任务进行了优化，比如只会图像分类或语音识别等。它们在各自狭窄领域表现卓越，但不具备跨任务、跨模态的一般性。绝大多数传统 AI 模型（如只会识别图片的 ResNet 或只会翻译的 Transformer）都属于青铜段位。
Level-2（白银级）： “多任务拼接”。这一级别是初级的多任务模型。模型能够支持不同模态或任务的输入输出，具备一定的通用性，例如一些视觉语言模型能看图回答也能文本生成。但是，这类模型通常采用模块拼接的方式整合功能，没有内部的协同增益。它们可以看作把若干青铜专才打包在一起的“综合体”，只能完成预先设计好的多种任务，却无法因为会做任务 A 而自动在任务 B 上做得更好。因此白银级被定义为 “无协同效应”（No Synergy） ——模型支持的任务越多、性能越高，段位评分越高，但并不要求跨任务有互助提升。
Level-3（黄金级）： “跨任务协同”。黄金段位要求模型开始展现任务级别的协同效应。也就是说，模型在同一范式下的多个任务（例如都属于理解类任务，或都属于生成类任务）上通过联合学习，实现了 1+1>2 的效果：相比各任务独立训练的专家，通用模型因知识共享反而在若干任务上超越了单 task SOTA 。这被视为出现了任务级协同（Task-level Synergy）的证据。评估方法是，将模型在每个任务上的成绩与该任务单任务专家的 SOTA 成绩比较，如果超越 SoTA 则记为一次协同加成。模型超越的任务越多、幅度越大，Level-3 评分越高。达到黄金段位，意味着模型不再只是简单兼顾多任务，而是因为多任务并举而在部分任务上表现得更好了。这标志着通才智能的开端：知识开始在相近任务间融通。正如通俗类比：“模型学会了修图之后，拍照水平也提高了”。
Level-4（铂金级）： “理解-生成范式双修”。在这个级别，模型需要展现范式级的协同效应，即同时精通理解类任务和生成类任务，并且两种能力互相促进。所谓理解与生成的协同，可以理解为模型的阅读理解、分析判断能力和创意生成、内容创造能力是融会贯通的，不会出现一条腿长一条腿短。评估上，Level-4 通过计算模型在理解任务和生成任务上的成绩调和平均数，来看两者是否保持均衡高水平。只有当模型在“看”和“写”两方面都表现出色且互相补益，才能晋级铂金段位。这对应人类能力中的“既能读懂复杂文章又能写出好文章”。达到这一层次，模型已不再局限于单一任务范式的高手, 而是实现范式级协同（Paradigm-level Synergy），成为了跨范式的全才 ——既能看图说话，又能据图生文。例如论文将其比喻为“既能准确描述一部电影，又能续写其剧情”。
Level-5（王者级）： “全模态互促的通才”。这是评估体系的顶点，代表真正实现了跨模态的全面协同。王者级模型不仅在视觉、听觉、文本的理解和生成各方面均衡强大，更实现了语言和非语言模态之间的相互赋能。换言之，模型具备高度的“通感”能力：语言智能可以加强视觉/听觉智能，反之视觉、听觉等多模态的感知也能反馈提升语言理解与表达。这就如同人类看到一幅画作能激发灵感写诗，反过来诗歌修养又丰富了对画作的解读。这种全模态协同效应（Cross-modal Total Synergy）是通才智能的终极标志。在评价上，如果模型在纯语言的 NLP 任务上也能超过单模态语言模型的 SOTA，并将这种能力融入多模态任务中，即可视为出现了完全协同。然而正如榜单所示，截至目前尚无模型达到王者段位，我们还在等待“多模态版的 ChatGPT 时刻”。