“多模态方法无法实现AGI”

AI前线 · 公众号 · AI · 2025-06-14 13:29

主要观点总结

本文讨论了关于人工智能模型（AGI）的进展和存在的挑战。特别是讨论了规模最大化主义的方法和多模态模型的问题，以及对于人工智能的认知能力和人类认知能力的比较。同时提到了如何从结构性和具身性角度处理多模态问题，并强调了灵活性在通用智能中的重要性。

关键观点总结

关键观点1: AGI的发展挑战

规模最大化主义虽然成功训练出了大型语言模型和视觉模型，但对于构建具有完整认知能力的AGI仍存在挑战。多模态模型在处理不同模态之间的关联时存在问题，需要更深入的探索如何将多个模态自然地融合在一起。

关键观点2: 规模与结构的关系

规模最大化主义强调规模的重要性，但过于依赖结构性的假设可能会阻碍模型的灵活性。在开发AGI时需要在规模和结构之间取得平衡，注重培养模型的独立思考和创新能力。

关键观点3: 多模态处理的重要性

多模态处理是AGI发展的重要方向之一，但需要在处理不同模态时注重灵活性，避免过于僵化的结构性假设。同时需要探索如何将各种模态有效地结合起来，以实现更高效的智能处理。

关键观点4: 人类与人工智能的认知能力比较

人类在形成新概念、处理抽象任务等方面具有独特的能力，而当前的人工智能模型在这方面还存在局限。开发AGI时需要借鉴人类的认知能力，注重培养模型的灵活性和创新能力。

正文

请到「今天看啥」查看全文

如果可以用比世界模型更容易学习的东西来完成这一目标，它很可能会这样做 。

有人声称在没有任何限制的情况下，预测早期符号对后期符号的影响需要像人类通过感知来理解世界那样来对世界建模，但这是对“世界模型”这一概念的滥用。除非我们对“世界”的定义有分歧，否则我们应该清楚，一个真正的世界模型可以在给定一系列状态的历史时用来预测物理世界的下一个状态。类似的，能够预测物理世界高保真观察结果的世界模型，被用于人工智能的许多子领域，包括基于模型的强化学习、机器人的任务和运动规划、因果世界建模，以及计算机视觉领域，以解决在物理现实中具体化的问题。

当大型语言模型（LLMs）询问你的人物、地点或事物是否比面包箱大时，它们并没有在其潜在的下一个 token 计算中运行某种物理模拟过程。实际上，我推测 LLMs 的行为并不是来自它们学习到的世界模型，而是来自对符号行为的难以理解的抽象规则的蛮力记忆，这种规则就是语法模型 。

快速入门：

语法是语言学的一个子领域，研究不同语法类别的词汇（例如词性）如何组合成句子，这些句子可以解析成语法树。语法研究句子的结构和组成它们的词性的基本部分。
语义学 是另一个子领域，关注句子的字面意义，例如，将“我感到寒冷”编译成你正在经历寒冷的概念。语义学将语言简化为字面意义，这是关于世界或人类经验的信息。
语用学 研究物理和会话上下文对言语互动的影响，比如当有人知道你告诉他们“我感到寒冷”时应该关闭半开的窗户。语用学涉及在推理环境和他人意图以及隐含知识的同时解释语言。

不必过分深入技术细节，有直观的证据表明，人类有些独立的认知系统负责这些语言能力。人类能够生成语法上正确但没有语义意义的句子，例如乔姆斯基著名的句子“无色的绿色想法狂暴地睡眠”，或者语义上正确但语用层面上没有意义的句子，例如当被问到“你能递给我盐吗？”时，仅仅回答“是的，我可以”。

关键在于， 正是这些不同的认知能力融合在一起，形成了人类的语言理解体系 。例如，“冰箱在苹果里”这句话在语法上没有错误，作为“冰箱”和“苹果”的语法解释会将它们归类为名词短语，可以用来产生一个句子，其产生规则为 S → (NP “is in” NP)。然而， 人类会意识到这个句子的语义是失败的，尝试将其意义与我们对现实的理解协调后这就很明显了 ：我们知道冰箱比苹果大，不可能被装进苹果里。

但是，如果你从未感知过现实世界，却仍然试图弄清楚这个句子是否是病句，那该怎么办？ 一个解决方案可能是在语法层面嵌入语义信息 ，例如，通过发明新的语法类别，NPthe fridge 和 NPthe apple，以及一个单一的新产生规则，防止语义误用：S → (NPthe apple “is in” NPthe fridge)。虽然这种策略不再需要关于冰箱和苹果的基于世界的常识，例如， 它将需要为每个语义上正确的构造制定特殊的语法规则……这实际上是可能的，只要有一个庞大的自然语言语料库即可 。关键在于，这与理解语义学不是同一回事，在我看来，语义学本质上是理解“世界的本质”。

意识到 LLMs 将语义和语用问题简化为语法问题，将对我们如何看待它们的智能产生深远的影响。人们通常将语言能力视为通用智能的一种代理指标，例如，将语用和语义理解与支撑它们的人类认知能力密切联系起来。例如，一个看起来博学多才、在社交互动中优雅自如的人，很可能在持续注意力和心理理论等特质上得分很高，这些特质更接近于原始认知能力的衡量标准。总的来说，这些代理指标用来评估一个人的通用智能水平是合理的，但不能拿来评估 LLM，因为 LLMs 明显的语言技能可能来自完全不同的认知机制。

重新审视苦涩的教训

TLDR：萨顿的苦涩教训有时被解释为对人工智能结构的任何假设都是错误的。这种理解没什么实际价值，也是一种误解；只有当人类深入思考智能的结构时，才会出现重大进步。尽管如此，规模至上主义者已经暗示，多模态模型可以是一个对 AGI 的结构不可知的框架。讽刺的是，今天的多模态模型隐含地假设了个体模态的结构以及它们应该如何被缝合在一起，这恰恰与萨顿的苦涩教训相矛盾。 为了构建 AGI，我们必须要么深入思考如何统一现有的模态，要么完全放弃它们，转而支持一个互动的和具身的认知过程 。

导致大型语言模型（LLMs）成功的范式主要因素是规模，而不是效率。我们有效地训练了一万亿只蚂蚁一亿年，试图让它们模仿一级方程式赛车的形式和功能；最终它到达了目的地，但这个过程的效率真是低得惊人。这个类比很好地捕捉了结构主义者和规模最大化主义者之间的辩论重点，前者希望在人工智能系统中构建“轮子”和“轴”等东西，而后者希望有更多的蚂蚁、时间和 F1 赛车来训练。