主要观点总结
本文梳理了Jim Fan在AI Ascent会议上的演讲内容,主要介绍了解决通用机器人问题的第一性原理,包括训练机器人AI的数据策略、Scaling Law以及基于物理API的美好未来。其中提到『物理图灵测试』并描述了现状和挑战,以及如何解决数据获取问题、模拟的重要性等。
关键观点总结
关键观点1: Jim Fan在AI Ascent会议上的演讲介绍了解决通用机器人问题的第一性原理
包括数据策略、Scaling Law和基于物理API的未来等。强调物理图灵测试是机器人发展的一个重要里程碑,但实现起来有很大挑战。
关键观点2: 物理图灵测试的概念及现状
物理图灵测试是评估机器人是否达到人类处理物理任务能力的标准。目前机器人在这方面还有很多不足,需要更多的研究和改进。
关键观点3: 机器人数据获取的问题及解决方案
机器人数据获取是机器人发展的一个重要环节,但目前存在数据不足、获取困难等问题。通过模拟、遥操作等方式收集数据是解决这一问题的有效途径。
关键观点4: 模拟在机器人发展中的重要性
模拟可以帮助我们训练机器人在各种环境下的能力,提高机器人的适应性和鲁棒性。数字孪生、数字表亲等技术是实现模拟的重要手段。
关键观点5: 未来展望:物理API和经济范式
物理API将改变人类与机器人的交互方式,实现更紧密的集成。经济范式也将因此改变,新的技能经济将带来全新的商业模式和机会。
正文
机器人为你准备燕麦早餐:
这就是我们的现状。
那么,为什么解决物理图灵测试如此困难呢?
你们知道大语言模型研究人员经常抱怨,对吧?最近有个叫 Ilya 的人抱怨说:
大语言模型预训练的数据快用完了
。他甚至称互联网为「AI 的化石燃料」。他说我们快没有数据来训练大语言模型了。但是,如果你了解机器人模型,你就会知道大语言模型研究人员被宠坏了。我们甚至连化石燃料都没有。
下图是英伟达总部的一个数据收集环节。英伟达有一个咖啡厅,我们设置了这些人形机器人,我们操作它们并收集数据。
收集到的数据如下图所示。这是机器人关节控制信号,是随时间变化的连续值。你在维基百科、YouTube、Reddit 或任何地方都找不到这种数据,所以你必须自己收集。
那我们是怎么收集的呢?
我们有一种非常复杂但也非常昂贵的方法,叫做
遥操作(teleoperation)
。你可以让人佩戴某种 VR 头显,它能识别你的手势并将其传输给机器人。这样你就可以教机器人技能,比如从烤面包机中取出面包,然后倒上蜂蜜。但可以想象,这是一个非常缓慢且痛苦的过程。
如果你把这个方法放到 scaling 图上,你会发现它根本不能 scale。真实机器人数据的获取是在拿人力当燃料,这比用化石燃料更糟糕。而且,一个机器人每天只有 24 小时的时间可以用。实际可利用的时间更少,因为人会疲劳,机器人比人类更容易疲劳。
那我们该怎么办呢?机器人的核能在哪里?我们必须有清洁能源。不能永远依靠化石燃料。
模拟很重要
接下来进入「模拟」。我们必须离开物理世界,进入模拟的世界。
我们训练了一个机器手,能在模拟中完成超人般的灵巧任务,如转笔。对我来说这是超人的,因为我不能转笔,我很高兴我的机器人至少在模拟中能做得比我好。
那么如何训练机器手来完成这样复杂的任务呢?我们有两个想法。一是你必须以比实时快 10000 倍的速度进行模拟。这意味着你应该在单个 GPU 上并行运行 10000 个环境进行物理模拟。
第二点,10000 个环境副本不能都相同。你必须改变一些参数,如重力、摩擦力和重量。我们称之为
域随机化
。
这给了我们模拟原则。
为什么这种做法能 work?想象一下,如果一个神经网络能够控制机器人掌握一百万个不同的世界,那么它很可能也能掌握第一百万零一个世界 —— 即我们的物理现实。换句话说,我们的物理世界处于这种训练的分布之中。
接下来,我们如何应用这些模拟结
果呢?你可以建立一个
数字孪生(digital twin)
,即机器人和世界的一对一副本,然后你在模拟中训练,直接在真实世界中测试,零样本迁移。
机器手也是如此:
我们能做的最令人印象深刻的任务是让狗站在瑜伽球上走,我们把它从虚拟迁移到现实世界。