专栏名称: 人工智能学家
致力成为权威的人工智能科技媒体和前沿科技研究机构
目录
相关文章推荐
机器之心  ·  逐个token太慢!大模型原生并行出toke ... ·  10 小时前  
爱可可-爱生活  ·  晚安~ #晚安# -20250615225624 ·  2 天前  
机器之心  ·  放弃博士学位加入OpenAI,他要为Chat ... ·  2 天前  
爱可可-爱生活  ·  [LG]《The Diffusion ... ·  2 天前  
51好读  ›  专栏  ›  人工智能学家

能空翻≠能干活!我们离通用机器人还有多远? | 万有引力

人工智能学家  · 公众号  · AI  · 2025-05-22 15:32

正文

请到「今天看啥」查看全文


在我看来,自动驾驶本质上就是一种机器人的应用形式。它具备移动能力,并能完成一个明确的任务:把乘客从 A 点安全送到 B 点,执行的是一种典型的“搬运”任务。
与一些需要更强交互能力的机器人不同,比如抓取物体、被人牵引、或执行复杂的人机互动,自动驾驶的核心并不在此。它的重点,是感知环境、规划路径,并最终控制车辆完成运动。其实这和空间智能是密切相关的。

具体来说,自动驾驶需要具备感知、规划和控制这三个基本模块。其中,感知模块识别周围环境;规划模块不仅负责整体路径的制定,还包括中层决策,例如什么时候转弯、变道或超车;而控制模块则落实到对车辆的具体操作。通过反馈机制,这些控制动作可以实现平稳、连续的执行,这种反馈式控制其实和我们在机器人系统中讨论的矩阵控制结构也有一定相似之处。

不过,自动驾驶也有其局限。例如,它在“任务完成之后”的行为模拟上还很薄弱,比如到达目的地后无法主动避让行人、与人交互、或进行更复杂的行为协同。这正是通用机器人需要补足的能力。

如今,很多机器人已经能够完成像抓取杯子、碟子,甚至处理坚硬物体这样的任务。这是否足以支撑智能的发展?这是值得讨论的。我们也看到,越来越多原本从事自动驾驶研究的专家,正在转向更广义的具身智能领域。

在自动驾驶热潮之前,机器人技术的发展主要由波士顿动力这类公司推动,它们在资金支持下,将许多早期 AI 理论真正落地。从符号主义到规则系统,再到神经网络,最后发展到强化学习,这一系列技术进步标志着从理论走向实践的转折点。

而现在,我们正处于由“大模型”驱动的新一波智能浪潮中。这些模型极大增强了系统的思维、推理和规划能力。从整个 AI 行业的发展来看,自动驾驶在过去曾吸引了大量优秀人才,它在技术集成和产业落地方面有着天然优势,是通向具身智能的一个重要桥梁。

这也解释了,为什么那么多自动驾驶领域的人才转向了具身智能。他们带来了跨领域的经验,推动了技术融合与发展。从这个意义上说,自动驾驶既是具身智能的人才孵化器,也推动了相关产业的进化,有助于将具身智能真正发展为未来的关键产业。

相比之下,比如语音识别等领域,虽然也重要,但在集成智能系统方面,可能还不如自动驾驶来得全面和复杂。而在我观察中,自动驾驶领域的系统适应能力也更强。

陈光: 智能体的本质在于具备“思考”“行动”以及“与环境互动”的能力。只要同时拥有“脑子”(用于思考)、“身体”(用于执行)和“环境”(用于交互),这三要素便构成了具身智能的基本框架,也就是我们常说的“脑+身”系统。

无人驾驶汽车其实就是一种典型的 Agent,它不仅具备感知、决策和控制的能力,还能在真实环境中完成任务。虽然汽车不像人形机器人那样能够抓握物体,但它依然通过感知和控制系统与外部环境持续互动。例如,在车联网系统中,车辆之间的信息交换,以及车辆对周围环境的动态反应,都是“与环境互动”的体现。

这也引出了一个关键问题:具身智能是否一定需要一个“身体”?英文中的 Embodied Intelligence 强调了“身体性”的重要性。 那么这个“身体”到底指什么?广义上看,它并不局限于人形或机械体。无人车、扫地机器人,甚至是元宇宙中的虚拟 NPC,都可以看作具身智能的载体。

具身智能可以细分为“思维智能”与“行动智能”两部分:前者包括视觉感知、语义理解等认知能力,后者则关注如何与环境互动、如何控制身体行为并获取反馈,从而完成学习和演化的闭环。

仅仅把一个多模态大模型装进机器人里,并不能称之为“智能”。当前许多系统仍缺乏主动性与任务意识,智能的真正本质在于主体在与环境互动中不断适应与进化,而非只是具备感知能力。

因此,广义的具身智能,强调的是“有思维、能行动,并能与环境持续互动”的系统。它可以是物理的,比如无人驾驶汽车、工业机器人、无人机;也可以是虚拟的,比如具备感知与决策能力的元宇宙角色。

从这个角度看,许多原本从事自动驾驶或计算机视觉的专家,如今投身具身智能的研究其实是顺理成章的转变。因为他们原本就在处理感知、决策与控制等关键问题,只不过现在的研究对象和应用场景更加广泛和开放。

夏轩: 我认为,除了研究范式的趋同之外,还有一个重要原因在于 产业链的高度重合 。自动驾驶所涉及的传感器、环境建模、导航避障以及人机交互算法等技术,与机器人具身智能系统中的需求高度一致。尽管我们在乘用车上看不到机械臂的直接应用,但在汽车生产过程中,机械臂早已是关键环节。这种技术与产业的通用性,使得从自动驾驶转向具身智能成为一条自然的路径。


不同视角看具身智能

唐小引:关于具身智能,过去业界很多讨论也常常给人模糊不清的感觉。请各位老师分享一下自己对具身智能的理解,以及对具身智能的定义是什么?

陈光 正如教科书中的定义,具身智能是一种“感知—认知—行动”的闭环机制。简单来说,就是系统具备“能理解、会思考、能行动”的能力。当然,环境的参与也是不可或缺的。如果一个系统只能思考和行动,却无法与环境交互,那它就无法形成完整的智能闭环。

具身智能的核心在于: 感知环境、作用于环境、获取反馈,并在这一过程中持续学习、优化自身,这其实也是一种智能的“升级”机制。

从这个角度看,智能系统必须具备三大要素: 认知、情感与环境。 如果缺失其中任何一个,智能都无法真正成立。换句话说,具身智能本质上是思维智能与行动智能的深度融合,构成了一个动态、自洽的闭环系统。

黄浴 :具身智能首先要有一个“实体”, 一个能够与环境互动并对其施加影响的身体。这种交互不仅是单向的,而是一个闭环的过程,通过感知反馈不断调整行为,实现学习与进化。

关于具身智能的未来,一个重要问题是:我们是否能在这一领域构建出通用大模型?目前,行业中已有相关尝试。例如,英伟达最近发布的 Cosmos 世界基础模型平台以及 GROOT 人形机器人基础模型,正是在探索这一方向。大家也在讨论:机器人基础模型能否引发一波热潮?如果成功掀起一波浪潮,正如黄仁勋所设想的那样,我们将迎来具身智能的重大跃迁;如果做不起来,可能就像 OpenAI 早前发布的 Sora 一样,引发争议和反思。

虽然像视频生成技术已经取得了一定进展,但仍面临诸多挑战。当前的这类基础模型还无法全面反映现实中的理论体系,因而常出现 Bug,这说明模型还需要更多时间去学习与迭代。类似问题也出现在机器人领域,像数据瓶颈等问题,仍制约着具身智能的发展。

夏轩: 我认为,具身智能的定义不应局限于是否拥有物理实体。即便是在虚拟空间中,只要具备感知、认知与交互能力,一个虚拟身体同样可以被视为具身智能的载体。

两位老师此前提到的关于“感知—认知—交互闭环”的讨论,我觉得这是从外部视角来看而对具身智能的定义。从内部视角,我想补充这个定义。我认为,一个真正“具身智能”应该具备两个核心的内部模型:

  • 第一个是 世界模型 世界模型的核心功能是认知世界万物的组成,它不仅要理解世界由哪些元素构成,还要掌握这些元素如何运转——无论是汽车行驶、飞机飞行的原理,具身智能都应有能力建模并推理这些机制。

  • 第二个是自我模型。 它用于智能体理解自身在环境中的位置、角色和任务。这一模型对于智能体在复杂环境中做出合理决策和行为至关重要。

只有具备了这两个模型,智能体才能真正实现与外部世界的“合理互动”——也就是说,其行为不仅对自身有意义,也能被外部观察者理解。

唐小引:自我模型究竟是什么?

夏轩: “自我模型”有些类似于 Agent,是通过为大模型赋予角色来实现的。一个更加成熟的自我模型,或许应具备更清晰的模块化结构,比如独立的记忆模块、人格模块,以及道德与伦理模块等。

这些模块协同工作,构成一个能够持续自我更新与调节的机制。当然,这一设想仍较为初步,相关研究尚处于探索阶段,尚未形成系统化的方法论。

陈光: 这可以从两个层面来理解:一方面是对 Agent 整体的建模,包括其角色设定与具备某种程度“自我意识”的决策机制;另一方面,则涉及视觉领域中常讨论的“以自我为中心”的视觉与行动方式。

我认为,当前机器人其实没有“我”的概念。即现有系统在执行任务时,并不真正具备“自我”,它所做的更多是对意图的理解、任务的分解以及行动的规划,基本上遵循一个外在指令驱动的流程。在这个过程中,它忽略了人作为生物体所具有的独特性——特别是人的主观意识和自我认知。

“自我”这种存在于行动或者思考过程中会形成两个“主体”:一个是“世界”,一个是“我”。真正具身智能系统应能够在执行任务的过程中,考虑到自身与其他智能系统的个体差异——包括身体特征、习惯偏好乃至心理状态——并在与环境互动时不断优化这种关系,从而影响其后续决策。

然而,目前的机器人系统更像是任务执行的“工具”,并未体现“我”的个性。例如,当系统被指令“将苹果放入盘中”,它关注的更多是如何驱动机械手臂完成动作,而不是在什么速度、什么姿态下完成这一动作才最符合“我”的特征和行为风格。

我认为,这种以“自我”为核心的动态调整机制,也应是未来自我模型构建的重要方向之一。

黄浴: 实际上,当我们谈及情感,乃至“自私”或“无私”的行为时,讨论的都是个体的社会属性。在多智能体系统(Multi-Agent System)的研究中,这类社会行为和性格特征已经成为重要的探讨方向。当前,大家对 Agent 的理解已经不再局限于具备基本的思维与反思能力,而是逐步发展为:具备先验知识、能参与群体互动,并在协作中展现群体智能。
近年来,关于群体智能的具体表现形式也有了更明确的讨论。例如,认知系统中常被提到的 System 1 和 System 2(对应快速反应与慢思考)已经广为人知。而一些研究者进一步提出 System 3,用于描述群体智能的运作机制;甚至还有 System 0,用以指代尚未形成认知的“预认知状态”(pre-cognitive state)。

有人将这种认知结构扩展为“四系统模型”(Four-System Model),其核心是试图从系统架构角度建模 Agent 群体中的协作机制,包括角色分工、任务协调等。

在设计这类系统时,我们常常会为每个 Agent 设定具体角色,例如经理、工程师、QA 或项目管理者等,每个角色承担不同职责,从而构建出一个具备协作能力的多 Agent 系统。

从这个角度来看,大模型领域的“专家混合模型”(Mixture-of-Experts)也体现了类似的思想:系统由多个较小模型组成,通过一个“路由器”模块协调各模型的调用,以实现整体性能的提升。与传统的大模型相比,MoE 中的各个子模型通常更小,因此具备更好的灵活性与可扩展性。

除此之外,例如 Meta 的 Ego4D 项目便强调了“以自我为中心的视觉”在人与机器人行为建模中的关键作用。毕竟,不论是人还是机器人,操作任务时几乎都依赖这种第一人称视觉。

然而,在模仿学习(Imitation Learning)中,我们通常采用的是第三人称视角,例如通过观察他人踢球或做饭来学习动作。要将这种观察转化为机器人可执行的动作,就必须实现“视角转换”,这对计算机视觉系统来说,等同于坐标系的转换。

此外,对于具身智能系统而言,这种视角的切换也反映了其学习能力的核心挑战。一个模仿能力强的系统,应当能将第三视角的观察有效地转化为第一视角的行为策略。实际上,在执行复杂任务时,这两种视角往往需要结合使用。

陈光: 有人认为机器人具备自我是极其危险的。我认为,这种担忧可能源于对“EGO4D”一词的误解或混淆。在我们的讨论中,“EGO4D”更多指的是主观视角,即以自我为中心的感知与决策方式。而不少人理解中的“自我”指的是“自我意识”这一概念,与主观视角并不等同。因此,关于人工智能是否能够、或者是否应该拥有自我意识,是一个至今尚无定论的开放性问题,因为我们对自我意识本身的理解仍十分有限。

回到“Agent”这一核心概念。它在具身智能与当前基于大模型的 AI 系统中,实际上指代的是两类不同的智能体:

一方面,在具身智能中,“Agent”通常指的是一个拥有身体与感知能力、能够与环境交互的智能个体——它不仅仅是思考和推理,更具备行动能力和自主反馈机制。

而另一方面,像 Manus 这类系统中的“Agent”,更接近于“代理”角色,它们是大模型前端的执行单元,负责意图识别、任务分解、工具调用与结果整合等。这类 Agent 更像是一个任务管理器或调度器,强调的是工程集成能力,而非自主性。这些 Agent 可能基于同一个底层大模型,通过不同的设定与提示词执行各自的任务,比如反思、修正或评估。这种多轮推理的过程,本质上也是一种由多角色协作完成的“程序运行”,它引入了更多不确定性与反馈机制,进而提高了结果的鲁棒性与智能性。

因此,我们有必要明确区分这两种 Agent:一种是具身智能意义上的 Agent,强调与环境的交互、自我建模与演化;另一种则是工程意义上的代理 Agent,更侧重于任务执行与系统调度。虽然在英文中都称作 “Agent”,中文也都翻译为“智能体”,但两者内涵和能力边界存在本质差异。







请到「今天看啥」查看全文