专栏名称: 机器之心
专业的人工智能媒体和产业服务平台
目录
相关文章推荐
51好读  ›  专栏  ›  机器之心

机器人的「物理图灵测试」,英伟达Jim Fan 17分钟演讲揭秘具身Scaling Law

机器之心  · 公众号  · AI  · 2025-05-10 11:42

主要观点总结

本文梳理了Jim Fan在AI Ascent会议上的演讲内容,主要介绍了解决通用机器人问题的第一性原理,包括训练机器人AI的数据策略、Scaling Law以及基于物理API的美好未来。其中提到『物理图灵测试』并描述了现状和挑战,以及如何解决数据获取问题、模拟的重要性等。

关键观点总结

关键观点1: Jim Fan在AI Ascent会议上的演讲介绍了解决通用机器人问题的第一性原理

包括数据策略、Scaling Law和基于物理API的未来等。强调物理图灵测试是机器人发展的一个重要里程碑,但实现起来有很大挑战。

关键观点2: 物理图灵测试的概念及现状

物理图灵测试是评估机器人是否达到人类处理物理任务能力的标准。目前机器人在这方面还有很多不足,需要更多的研究和改进。

关键观点3: 机器人数据获取的问题及解决方案

机器人数据获取是机器人发展的一个重要环节,但目前存在数据不足、获取困难等问题。通过模拟、遥操作等方式收集数据是解决这一问题的有效途径。

关键观点4: 模拟在机器人发展中的重要性

模拟可以帮助我们训练机器人在各种环境下的能力,提高机器人的适应性和鲁棒性。数字孪生、数字表亲等技术是实现模拟的重要手段。

关键观点5: 未来展望:物理API和经济范式

物理API将改变人类与机器人的交互方式,实现更紧密的集成。经济范式也将因此改变,新的技能经济将带来全新的商业模式和机会。


正文

请到「今天看啥」查看全文



机器人为你准备燕麦早餐:



这就是我们的现状。


那么,为什么解决物理图灵测试如此困难呢?


你们知道大语言模型研究人员经常抱怨,对吧?最近有个叫 Ilya 的人抱怨说: 大语言模型预训练的数据快用完了 。他甚至称互联网为「AI 的化石燃料」。他说我们快没有数据来训练大语言模型了。但是,如果你了解机器人模型,你就会知道大语言模型研究人员被宠坏了。我们甚至连化石燃料都没有。



下图是英伟达总部的一个数据收集环节。英伟达有一个咖啡厅,我们设置了这些人形机器人,我们操作它们并收集数据。



收集到的数据如下图所示。这是机器人关节控制信号,是随时间变化的连续值。你在维基百科、YouTube、Reddit 或任何地方都找不到这种数据,所以你必须自己收集。



那我们是怎么收集的呢?


我们有一种非常复杂但也非常昂贵的方法,叫做 遥操作(teleoperation) 。你可以让人佩戴某种 VR 头显,它能识别你的手势并将其传输给机器人。这样你就可以教机器人技能,比如从烤面包机中取出面包,然后倒上蜂蜜。但可以想象,这是一个非常缓慢且痛苦的过程。



如果你把这个方法放到 scaling 图上,你会发现它根本不能 scale。真实机器人数据的获取是在拿人力当燃料,这比用化石燃料更糟糕。而且,一个机器人每天只有 24 小时的时间可以用。实际可利用的时间更少,因为人会疲劳,机器人比人类更容易疲劳。



那我们该怎么办呢?机器人的核能在哪里?我们必须有清洁能源。不能永远依靠化石燃料。


模拟很重要


接下来进入「模拟」。我们必须离开物理世界,进入模拟的世界。


我们训练了一个机器手,能在模拟中完成超人般的灵巧任务,如转笔。对我来说这是超人的,因为我不能转笔,我很高兴我的机器人至少在模拟中能做得比我好。



那么如何训练机器手来完成这样复杂的任务呢?我们有两个想法。一是你必须以比实时快 10000 倍的速度进行模拟。这意味着你应该在单个 GPU 上并行运行 10000 个环境进行物理模拟。



第二点,10000 个环境副本不能都相同。你必须改变一些参数,如重力、摩擦力和重量。我们称之为 域随机化


这给了我们模拟原则。


为什么这种做法能 work?想象一下,如果一个神经网络能够控制机器人掌握一百万个不同的世界,那么它很可能也能掌握第一百万零一个世界 —— 即我们的物理现实。换句话说,我们的物理世界处于这种训练的分布之中。



接下来,我们如何应用这些模拟结 果呢?你可以建立一个 数字孪生(digital twin) ,即机器人和世界的一对一副本,然后你在模拟中训练,直接在真实世界中测试,零样本迁移。



机器手也是如此:



我们能做的最令人印象深刻的任务是让狗站在瑜伽球上走,我们把它从虚拟迁移到现实世界。







请到「今天看啥」查看全文