机器人的「物理图灵测试」，英伟达Jim Fan 17分钟演讲揭秘具身Scaling Law

机器之心 · 公众号 · AI · 2025-05-10 11:42

主要观点总结

本文梳理了Jim Fan在AI Ascent会议上的演讲内容，主要介绍了解决通用机器人问题的第一性原理，包括训练机器人AI的数据策略、Scaling Law以及基于物理API的美好未来。其中提到『物理图灵测试』并描述了现状和挑战，以及如何解决数据获取问题、模拟的重要性等。

包括数据策略、Scaling Law和基于物理API的未来等。强调物理图灵测试是机器人发展的一个重要里程碑，但实现起来有很大挑战。

物理图灵测试是评估机器人是否达到人类处理物理任务能力的标准。目前机器人在这方面还有很多不足，需要更多的研究和改进。

机器人数据获取是机器人发展的一个重要环节，但目前存在数据不足、获取困难等问题。通过模拟、遥操作等方式收集数据是解决这一问题的有效途径。

模拟可以帮助我们训练机器人在各种环境下的能力，提高机器人的适应性和鲁棒性。数字孪生、数字表亲等技术是实现模拟的重要手段。

物理API将改变人类与机器人的交互方式，实现更紧密的集成。经济范式也将因此改变，新的技能经济将带来全新的商业模式和机会。

机器人为你准备燕麦早餐：

这就是我们的现状。

那么，为什么解决物理图灵测试如此困难呢？

你们知道大语言模型研究人员经常抱怨，对吧？最近有个叫 Ilya 的人抱怨说：大语言模型预训练的数据快用完了。他甚至称互联网为「AI 的化石燃料」。他说我们快没有数据来训练大语言模型了。但是，如果你了解机器人模型，你就会知道大语言模型研究人员被宠坏了。我们甚至连化石燃料都没有。

下图是英伟达总部的一个数据收集环节。英伟达有一个咖啡厅，我们设置了这些人形机器人，我们操作它们并收集数据。

收集到的数据如下图所示。这是机器人关节控制信号，是随时间变化的连续值。你在维基百科、YouTube、Reddit 或任何地方都找不到这种数据，所以你必须自己收集。

那我们是怎么收集的呢？

我们有一种非常复杂但也非常昂贵的方法，叫做遥操作（teleoperation）。你可以让人佩戴某种 VR 头显，它能识别你的手势并将其传输给机器人。这样你就可以教机器人技能，比如从烤面包机中取出面包，然后倒上蜂蜜。但可以想象，这是一个非常缓慢且痛苦的过程。

如果你把这个方法放到 scaling 图上，你会发现它根本不能 scale。真实机器人数据的获取是在拿人力当燃料，这比用化石燃料更糟糕。而且，一个机器人每天只有 24 小时的时间可以用。实际可利用的时间更少，因为人会疲劳，机器人比人类更容易疲劳。

那我们该怎么办呢？机器人的核能在哪里？我们必须有清洁能源。不能永远依靠化石燃料。

模拟很重要

接下来进入「模拟」。我们必须离开物理世界，进入模拟的世界。

我们训练了一个机器手，能在模拟中完成超人般的灵巧任务，如转笔。对我来说这是超人的，因为我不能转笔，我很高兴我的机器人至少在模拟中能做得比我好。

那么如何训练机器手来完成这样复杂的任务呢？我们有两个想法。一是你必须以比实时快 10000 倍的速度进行模拟。这意味着你应该在单个 GPU 上并行运行 10000 个环境进行物理模拟。

第二点，10000 个环境副本不能都相同。你必须改变一些参数，如重力、摩擦力和重量。我们称之为域随机化。

这给了我们模拟原则。

为什么这种做法能 work？想象一下，如果一个神经网络能够控制机器人掌握一百万个不同的世界，那么它很可能也能掌握第一百万零一个世界 —— 即我们的物理现实。换句话说，我们的物理世界处于这种训练的分布之中。

接下来，我们如何应用这些模拟结果呢？你可以建立一个数字孪生（digital twin），即机器人和世界的一对一副本，然后你在模拟中训练，直接在真实世界中测试，零样本迁移。

机器手也是如此：

我们能做的最令人印象深刻的任务是让狗站在瑜伽球上走，我们把它从虚拟迁移到现实世界。