专栏名称: AI科技评论
点评学术,服务 AI !
目录
相关文章推荐
浦发银行信用卡  ·  珍惜信用记录,守护个人征信! ·  18 小时前  
浦发银行信用卡  ·  境外嗨购福利季!带上浦发运通卡出发,境外消费 ... ·  18 小时前  
51找翻译  ·  欢迎加入自由译者社群 ·  昨天  
语言与未来  ·  赵双花┆经济合作与发展组织的语言工作 ·  2 天前  
51好读  ›  专栏  ›  AI科技评论

清华许华哲:具身智能需要从 ImageNet 做起吗?

AI科技评论  · 公众号  ·  · 2025-05-15 12:29

正文

请到「今天看啥」查看全文



6

采集海量数据,期待现有的算法加上海量数据可以解决所有问题

另一条路是比赛谁的数据多,谁就能训出最好的模型。数据问题几乎已经成为具身智能中公认的核心问题,而数据的积累也很有可能是具身智能的决胜点。但数据绝非单纯的数量比拼,即使加上“足够丰富”这一条件我认为单纯的数据量也很难成为具身智能成功的充分条件。对模仿学习或VLA算法 稍有经验的读者,应该常见机器人动作正确但无法完成任务,甚至偏离了物体的位置。这种对轨迹的“背诵”一方面我们可以责怪模型仍然不是最优,但更重要的是数据的来源来自人类。一个简单的类比是,一个孩子在孩童时代被手把手教写字,但是当老师把手松开后,他可能颇有进展,但远无法达到刚刚老师手把手带着写的那个字好看。这里数据的来源的差异是容易被遗忘的,是来自“模型”还是来自“人类”。在这里我的一个判断是,海量的真实数据一定是必要的,但他无法解决所有问题,而只是为最终解决所有问题提供一个先验。


7

具身智能的路线上的几个决策点

具身智能说简单也简单,机器人获取感知信号,随后进行决策,最终执行动作,动作执行后再更新感知信号.. 和自动驾驶相似,模块化的方案上升曲线陡峭但是潜在上限会低一些,端到端方案则需要数据的积累但是上限可能很高。这里我们几乎不假思索地只讨论端到端地方案,即感知信号(也许还会有任务或计划的文本信息)输入一个神经网络,并直接输出对应的动作。


8

最笨的问题:输入的视觉信号,二维还是三维?

这听起来是一个有一些滑稽的问题,如果所有的图像信息都不丢失,三维信号的信息量是严格多于二维的,那很自然地,我们会选择三维输入。然而时至今日,我们仍然无法做出这样的决策。

为什么二维图像输入仍然颇具生命里,甚至更主流?我们可以自己尝试闭上一只眼睛度过几分钟的时间,理论上我们应该丢失了三维信息,但是事实上我们日常的任务几乎不会收到很大影响。因为二维图像中包含的光影、语义、几何信息,配合上我们脑子里面对世界的先验,也足够让我们完成相当多的任务。换句话说,我们单独看一个瓶子,可能很难判断是一个近处的小瓶子还是远处的一个巨型瓶子雕像,但是配合上场景来看,我们几乎不会判断错。同时,二维图像是我们日常的摄影设备最容易捕捉的信号,所以二维图像数据是有量级上的数量优势的。

那么三维信号还有价值吗?去年 CoRL 上 Pi0[1] 发布后,我和几位朋友讨论过:如果基于图像的 VLA 已经能达到很好的性能,我们是否还需要三维感知作为输入?在哥伦比亚大学发布扩散策略(diffusion policy)[2]之后,我所在的清华大学具身智能实验室(TEA Lab)开发出了三维扩散策略(DP3)[3],取得了显著的性能提升。而我们近期提出的 H3DP[4] 通过利用深度图,进一步提升了模仿学习的性能。由此我们可以得出一个初步结论:在数据量较小的情况下,三维信息确实有助于提升模型性能。这也暗示着未来的 后训练 可能需要引入三维输入信息。至于数据量很大的时候会怎样,我们暂时不清楚。

这意味着三维一定无法规模化吗?也不是。 连接二维和三维有一根线,就是单目三维重建如depth-anything [5]系列。 海量视频+动作数据→图像三维重建→大规模预训练的链路是否会相较于直接用视频和动作数据的训练更好,还是一个未知数。但直觉来说,我认为是会的,但把握不大,把输入里面的两个浮点数对齐要比通过图像把夹爪和把手对齐简单的多,这也是少有的机器人相较于人的优势,他们可以阅读并理解精确的数字。


9

具身智能的最后一块拼图还是阿克琉斯之 :触觉

具身智能的难点在物体操作,而操作任务会需要触觉。这是一条极为顺畅的逻辑链条。而且时常有一种,触觉的研究者们(包括我自己在内)经常会暗示触觉是具身智能最后一块拼图。然而,当我们去观察触觉研究的时候,却发现触觉研究者和具身智能中间似乎有一条巨大的裂痕。

到底我们需要怎样的触觉传感器?我认为对于任何具身智能的硬件,最大的要求就是“便宜”。在便宜的基础上,我们再去研究怎么提高信噪比、怎么提高一致性、怎么全指尖甚至全手去做覆盖。价格和市场大小是有一个近似反比例关系的曲线的,这个价格可以是制作和时间成本,也可以是商品的售价。也许有读者感到疑惑,为什么谈触觉技术要和商业搞上关系?这个我觉得最好的案例就是机械狗,不知道有多少读者用过早期的机器狗,摔坏、过热各种问题层出不穷,但是胜在便宜。相较于10倍价格的机器狗,大家愿意再买一个,或者返厂维修。用的人多了、迭代的次数多了,这东西现在还真就变得好用起来了,而且上面的算法更是层出不穷,跑酷、越野样样精通。所以,当我们谈价格和市场大小的关系的时候,实际上是在提有多少聪明的脑袋愿意和你一起迭代,并把算法放上来。最后,我们下一个孟浪之言, “手”的价格应该是“人”的价格的1/10,而所有的指尖触觉加起来不要超过手的1/10 。如果达不到这个价格,大多数的买家是来研究“触觉”的,而不是具身智能的。在TEA Lab我们研发了DTact[6]和9DTact[7],成本只要200人民币甚至更低,并且熟练的同学经过改良,一个人一天可以造出百十来个。虽然成像质量不及gelsight, 但是贵在不贵。

如果再多和触觉的人聊聊,发现造触觉的多,用触觉的少。我们当然需要创造更好的触觉传感器,就像我们需要更清晰的摄像头,但是怎么样去把获取到的触觉信号用好其实才是真正把触觉融入具身智能。把平面变成曲面,加上温度的传感器,摄像头变光纤,当然都是很有价值的改进。如果真的要把触觉用进具身智能,我们首先要有数据,是对一样的输入有一样的输出,同时收集可以匹敌视觉体量的数据。所以是不是与其开发新功能,不如找到一种工艺,他能让表面的胶皮保持一致,且耐用耐造来得实在。Gelsight高强度采集数据2小时后会破损,Dtact可能几十个小时后也会破损,人的皮肤有再生能力,胶皮却没有。另一个就是加触觉经常看不到性能提升,叠杯子任务靠视觉就饱和了,而捋耳机线的任务又非常小众,所以大家往往看到触觉的论文,里面的任务有些刁钻,甚至会想:真能琢磨呀,这个任务还真必须要触觉。我做触觉研究的时候也是这么做的——我们的DO-Glove[8]工作我很喜欢,把机器人触觉和人类触觉联通起来,并且找到了一系列需要“力感”或“触觉”的任务。但这么做是会有一个恶性循环的,做触觉的人只做需要触觉的任务,这样无法进入到具身智能的大闭环里。

什么是大闭环?就是后面要讲的VLA和RL这些需要大量数据的模型。我们近期和上海交大合作的RDP[9]以及Gelsight的发明人Ted Adelson做的PolyTouch[10]让我们看到了把触觉融入这条大闭环的一些努力。所以在我看来,触觉有两条路,第一条触觉效果很好,可以解决很困难的任务(例如让一杯水在你手中滑落而不脱手),但我怀疑这条路会掉入第一种失败模式中;第二条路, 把触觉做便宜做鲁棒,便宜到大家买他轻轻松松,顺手就把数据采了,说不定触觉有新的一片天







请到「今天看啥」查看全文