专栏名称: 图灵人工智能
人工智能及其他科技学术前沿、机器学习、图像识别、语音识别、自动驾驶、自然语言处理、脑机接口、云计算、大数据、物联网、机器人、天文物理、生物科学、数学、区块链、比特币、计算机等学术前沿知识、报告、讲座等介绍。
目录
51好读  ›  专栏  ›  图灵人工智能

图灵奖得主LeCun:当前 AI 模型缺乏四项关键人类智能特质

图灵人工智能  · 公众号  ·  · 2025-06-05 00:00

正文

请到「今天看啥」查看全文


“什么才是智能的基本构成?”

在与IBM AI负责人Anthony Annunziata的对话中,他提出四项标准: 理解物理世界、拥有持续的记忆、具备推理能力,以及可以进行分层规划。

这四项能力在LeCun看来,是任何一种具备智能的生命体所共有的基础能力。相比之下,当前主流人工智能系统,尤其是以语言模型为代表的架构,在这些方面仍显不足。

这不是他第一次表达类似看法。作为深度学习早期的关键推动者,LeCun一直在强调当前模型能力的局限性。

他一直认为, 现有AI模型在“智能”的核心能力上存在结构性缺陷

“补丁式增强”与架构争议


LeCun指出,目前业界在提升AI功能时,往往采用“组合式”的增强路径。例如,为了让语言模型理解视觉信息,就外接一个视觉系统;为了让模型“记住”过往内容,就增加检索增强生成(RAG)模块;推理能力不足,则通过扩大模型参数来弥补。

在他看来,这些做法更像是“ 功能层的修补 ”,而非能力本身的根本突破。

“理解世界不是把一个视觉模型绑在语言模型上那么简单,”LeCun说。他用“hack(补丁)”一词来形容这种工程式集成方式。

Meta近年来持续投入的“世界模型”(world-based models)思路,正是对这种路径的回应。这一类模型的目标不在于生成内容,而是试图建立一种内部的世界表示,通过预测行为与结果之间的关系来实现认知。

LeCun对此有一个具体的定义框架:“你有对世界某一状态的理解,你想象一个可能的动作,然后模型预测在该动作之后,世界会发生什么。”这类似于一种面向动态系统的因果建模方式。

图片

图注:V-JEPA论文: 重访特征预测:从视频中学习视觉表征的方法


Meta在2024年发布的V-JEPA模型,是上述思路的初步实现。该模型并非直接生成图像或视频内容,而是试图在抽象层面预测视频中被遮挡或缺失的信息。这种方式类似“填空”,但预测发生在更高层级的表示空间,而非具体像素。

LeCun解释说:“ 我们不预测像素,而是在抽象表示中进行预测。 理想情况下,这种表示会自动过滤掉那些不可预测或无关的细节。”

这一构想与科学研究中“抽象层级”建立的过程相似。正如物理学中通过粒子、原子、分子、材料的层层抽象来理解世界,LeCun认为,AI系统也需要通过构建中间表征来实现有效的认知与推理。







请到「今天看啥」查看全文