专栏名称: 机器之心
专业的人工智能媒体和产业服务平台
目录
相关文章推荐
爱可可-爱生活  ·  【Anthropic多Agent研究系统:为 ... ·  昨天  
爱可可-爱生活  ·  本文提出了一种名为内部一致性最大化(ICM) ... ·  昨天  
逆行的狗  ·  AI工作流生成审计访谈问卷 ·  2 天前  
逆行的狗  ·  AI工作流生成审计访谈问卷 ·  2 天前  
51好读  ›  专栏  ›  机器之心

九成以上模型止步白银段位,只有3个铂金!通用AI下半场评测标准来了

机器之心  · 公众号  · AI  · 2025-05-21 08:33

正文

请到「今天看啥」查看全文


  • 单向协作,缺乏“通感” :更深层的瓶颈在于,模型在不同模态间的知识迁移并不对等。目前往往是语言智能帮助了图像理解(例如利用 LLM 的知识提升了视觉问答表现),但反过来,视觉等其他模态的学习却并未真正提升模型的语言表达或推理能力。这意味着模型各模块之间没有形成双向增强的闭环,好比你看再多名画也无法直接提高写诗水平。 真正的通才 AI 应 当具备 “通感”式的协同学习 ——各种模态互相促进,而非各顾各的单箭头输出。


  • 综上,当前的多模态大模型更像多个专家的简单拼合,远未形成 跨模态的融会贯通 。针对这些短板,评估标准也必须升级,才能暴露模型的真实能力缺陷。General-Level 和 General-Bench 的提出,正是要回答“如何定义和衡量通才智能”这一问题,为 AI 下半场奠定新的竞赛规程。


    General-Level 五级评估体系:用“协同效应”定义通才智能


    要评估“通才智能”,该论文借鉴了自动驾驶分级评估的思路,创造性地提出了 General-Level 五级能力段位体系 。它将多模态模型的能力划分为由低到高的五个段位,从“专才”一直到“通才”。评判标准的核心是模型是否展现出 Synergy(协同效应) ——也就是不同模态、不同任务间是否 互相赋能 General-Level 评估体系以“协同效应 (Synergy)”为核心,将多模态模型划分为五个能力等级,从青铜级的专才到王者级的通才 ,每升高一级意味着更强的协同效应。简而言之,一个真正的通才型 AI,其在某一模态/任务上学到的本领应能迁移并增强它在其他模态/任务上的表现,实现“1+1>2”的效果。



    具体来说,General-Level 将 MLLM 划分为如下五个等级,:


    • Level-1(青铜级) “单科”专才。此级别对应各领域的单任务专家 。模型只针对特定模态的特定任务进行了优化,比如只会图像分类或语音识别等。它们在各自狭窄领域表现卓越,但 不具备跨任务、跨模态的一般性 。绝大多数传统 AI 模型(如只会识别图片的 ResNet 或只会翻译的 Transformer)都属于青铜段位。

    • Level-2(白银级) “多任务拼接”。这一级别是初级的多任务模型 。模型能够支持不同模态或任务的输入输出,具备一定的通用性,例如一些视觉语言模型能看图回答也能文本生成。但是,这类模型通常采用 模块拼接的方式整合功能,没有内部的协同增益 。它们可以看作把若干青铜专才打包在一起的“综合体”,只能完成预先设计好的多种任务,却无法因为会做任务 A 而自动在任务 B 上做得更好。因此白银级被定义为 “无协同效应”(No Synergy) ——模型支持的任务越多、性能越高,段位评分越高,但并不要求跨任务有互助提升。

    • Level-3(黄金级) “跨任务协同”。黄金段位要求模型开始展现任务级别的协同效应。 也就是说,模型在 同一范式下的多个任务 (例如都属于理解类任务,或都属于生成类任务)上通过联合学习,实现了 1+1>2 的效果:相比各任务独立训练的专家,通用模型因知识共享反而在若干任务上 超越了单 task SOTA 。这被视为出现了任务级协同(Task-level Synergy)的证据。评估方法是,将模型在每个任务上的成绩与该任务单任务专家的 SOTA 成绩比较,如果 超越 SoTA 则记为一次协同加成。模型超越的任务越多、幅度越大,Level-3 评分越高。达到黄金段位,意味着模型不再只是简单兼顾多任务,而是因为 多任务并举而在部分任务上表现得更好了 。这标志着通才智能的开端:知识开始在相近任务间融通。正如通俗类比:“模型学会了修图之后,拍照水平也提高了”。

    • Level-4(铂金级) “理解-生成范式双修”。在这个级别,模型需要展现范式级的协同效应 ,即同时精通 理解类任务和生成类任务 ,并且两种能力互相促进。所谓理解与生成的协同,可以理解为模型的阅读理解、分析判断能力和创意生成、内容创造能力是融会贯通的, 不会出现一条腿长一条腿短 。评估上,Level-4 通过计算模型在理解任务和生成任务上的成绩调和平均数,来看两者是否保持均衡高水平。只有当模型在“看”和“写”两方面都表现出色且互相补益,才能晋级铂金段位。这对应人类能力中的“既能读懂复杂文章又能写出好文章”。达到这一层次,模型已不再局限于单一任务范式的高手, 而是实现 范式级协同(Paradigm-level Synergy) ,成为了 跨范式的全才 ——既能看图说话,又能据图生文。例如论文将其比喻为“既能准确描述一部电影,又能续写其剧情”。

    • Level-5(王者级) “全模态互促的通才”。这是评估体系的顶点,代表真正实现了跨模态的全面协同。 王者级模型不仅在视觉、听觉、文本的理解和生成各方面均衡强大,更实现了 语言和非语言模态之间的相互赋能 。换言之,模型具备高度的“通感”能力:语言智能可以加强视觉/听觉智能,反之视觉、听觉等多模态的感知也能反馈提升语言理解与表达。这就如同人类看到一幅画作能激发灵感写诗,反过来诗歌修养又丰富了对画作的解读。这种 全模态协同效应(Cross-modal Total Synergy) 是通才智能的终极标志。在评价上,如果模型在纯语言的 NLP 任务上也能超过单模态语言模型的 SOTA,并将这种能力融入多模态任务中,即可视为出现了完全协同。然而正如榜单所示,截至目前 尚无模型达到王者段位 ,我们还在等待“多模态版的 ChatGPT 时刻”。








    请到「今天看啥」查看全文