正文
单向协作,缺乏“通感”
:更深层的瓶颈在于,模型在不同模态间的知识迁移并不对等。目前往往是语言智能帮助了图像理解(例如利用 LLM 的知识提升了视觉问答表现),但反过来,视觉等其他模态的学习却并未真正提升模型的语言表达或推理能力。这意味着模型各模块之间没有形成双向增强的闭环,好比你看再多名画也无法直接提高写诗水平。
真正的通才 AI 应
当具备
“通感”式的协同学习
——各种模态互相促进,而非各顾各的单箭头输出。
综上,当前的多模态大模型更像多个专家的简单拼合,远未形成
跨模态的融会贯通
。针对这些短板,评估标准也必须升级,才能暴露模型的真实能力缺陷。General-Level 和 General-Bench 的提出,正是要回答“如何定义和衡量通才智能”这一问题,为 AI 下半场奠定新的竞赛规程。
General-Level 五级评估体系:用“协同效应”定义通才智能
要评估“通才智能”,该论文借鉴了自动驾驶分级评估的思路,创造性地提出了
General-Level 五级能力段位体系
。它将多模态模型的能力划分为由低到高的五个段位,从“专才”一直到“通才”。评判标准的核心是模型是否展现出
Synergy(协同效应)
——也就是不同模态、不同任务间是否
互相赋能
。
General-Level 评估体系以“协同效应 (Synergy)”为核心,将多模态模型划分为五个能力等级,从青铜级的专才到王者级的通才
,每升高一级意味着更强的协同效应。简而言之,一个真正的通才型 AI,其在某一模态/任务上学到的本领应能迁移并增强它在其他模态/任务上的表现,实现“1+1>2”的效果。
具体来说,General-Level 将 MLLM 划分为如下五个等级,:
-
Level-1(青铜级)
:
“单科”专才。此级别对应各领域的单任务专家
。模型只针对特定模态的特定任务进行了优化,比如只会图像分类或语音识别等。它们在各自狭窄领域表现卓越,但
不具备跨任务、跨模态的一般性
。绝大多数传统 AI 模型(如只会识别图片的 ResNet 或只会翻译的 Transformer)都属于青铜段位。
-
Level-2(白银级)
:
“多任务拼接”。这一级别是初级的多任务模型
。模型能够支持不同模态或任务的输入输出,具备一定的通用性,例如一些视觉语言模型能看图回答也能文本生成。但是,这类模型通常采用
模块拼接的方式整合功能,没有内部的协同增益
。它们可以看作把若干青铜专才打包在一起的“综合体”,只能完成预先设计好的多种任务,却无法因为会做任务 A 而自动在任务 B 上做得更好。因此白银级被定义为
“无协同效应”(No Synergy)
——模型支持的任务越多、性能越高,段位评分越高,但并不要求跨任务有互助提升。
-
Level-3(黄金级)
:
“跨任务协同”。黄金段位要求模型开始展现任务级别的协同效应。
也就是说,模型在
同一范式下的多个任务
(例如都属于理解类任务,或都属于生成类任务)上通过联合学习,实现了
1+1>2
的效果:相比各任务独立训练的专家,通用模型因知识共享反而在若干任务上
超越了单 task SOTA
。这被视为出现了任务级协同(Task-level Synergy)的证据。评估方法是,将模型在每个任务上的成绩与该任务单任务专家的 SOTA 成绩比较,如果
超越 SoTA
则记为一次协同加成。模型超越的任务越多、幅度越大,Level-3 评分越高。达到黄金段位,意味着模型不再只是简单兼顾多任务,而是因为
多任务并举而在部分任务上表现得更好了
。这标志着通才智能的开端:知识开始在相近任务间融通。正如通俗类比:“模型学会了修图之后,拍照水平也提高了”。
-
Level-4(铂金级)
:
“理解-生成范式双修”。在这个级别,模型需要展现范式级的协同效应
,即同时精通
理解类任务和生成类任务
,并且两种能力互相促进。所谓理解与生成的协同,可以理解为模型的阅读理解、分析判断能力和创意生成、内容创造能力是融会贯通的,
不会出现一条腿长一条腿短
。评估上,Level-4 通过计算模型在理解任务和生成任务上的成绩调和平均数,来看两者是否保持均衡高水平。只有当模型在“看”和“写”两方面都表现出色且互相补益,才能晋级铂金段位。这对应人类能力中的“既能读懂复杂文章又能写出好文章”。达到这一层次,模型已不再局限于单一任务范式的高手, 而是实现
范式级协同(Paradigm-level Synergy)
,成为了
跨范式的全才
——既能看图说话,又能据图生文。例如论文将其比喻为“既能准确描述一部电影,又能续写其剧情”。
-
Level-5(王者级)
:
“全模态互促的通才”。这是评估体系的顶点,代表真正实现了跨模态的全面协同。
王者级模型不仅在视觉、听觉、文本的理解和生成各方面均衡强大,更实现了
语言和非语言模态之间的相互赋能
。换言之,模型具备高度的“通感”能力:语言智能可以加强视觉/听觉智能,反之视觉、听觉等多模态的感知也能反馈提升语言理解与表达。这就如同人类看到一幅画作能激发灵感写诗,反过来诗歌修养又丰富了对画作的解读。这种
全模态协同效应(Cross-modal Total Synergy)
是通才智能的终极标志。在评价上,如果模型在纯语言的 NLP 任务上也能超过单模态语言模型的 SOTA,并将这种能力融入多模态任务中,即可视为出现了完全协同。然而正如榜单所示,截至目前
尚无模型达到王者段位
,我们还在等待“多模态版的 ChatGPT 时刻”。