正文
因为 2017 年参加亚马逊机器人挑战赛(日本站夺冠)时我们发现,纯靠视觉完成抓取放置(pick and place)的成功率很难突破 70%+。现在很多具身智能公司也在做抓取放置任务,大家现在能做到 90% 左右。
在当时,我们发现纯靠视觉很难提升成功率。许多失败案例源于执行器缺乏与物体接触瞬间及后续短时间内的感知,视觉易受遮挡、视角等限制。因此我们意识到必须为末端执行器赋予触觉感知能力,让灵巧手、夹爪能像人类一样,在接触物体时感知接触力、纹理、温度、滑动、运动等多模态触觉信息。
近两年人形机器人热潮带动灵巧手成为焦点,我们对此既感欣喜也保持冷静。灵巧手是具身机器人系统中最复杂且关键的模组。如果从单臂加手部的执行机构看,其自由度占整个系统的 80% 以上,动作自由度高、协同逻辑复杂、控制难度极大。正如刚才叶老师所言,高自由度的灵巧手在有限空间内与物体进行物理交互时,仅从运动控制精度层面便面临严峻挑战:如何在接触瞬间使生成模型精准预判接触状态,以及接触后通过微小动作影响目标物体?
我一直觉得这一控制复杂度远超 Locomotion ——尽管 Locomotion 对物理环境的感知具有不确定性,但它的核心是围绕自身状态进行确定性调控,例如质心平衡、倾斜度等,有一个明确的目标;而灵巧手操作的控制目标高度依赖场景和操作对象。在此过程中,单纯依靠视觉、动作感知或局部触觉信息,难以完成任务,因为各类信息不仅模态不同,信息流特征也存在显著差异,必须实现多源信息的有效融合。
视觉获取的全局信息通常呈连贯状态,比如视频中每两帧或一段时间内的数据流相对连续;而触觉在与物体真实接触前几乎无感知,接触后才触发局部信号——每个手指仅能感知所在区域的触觉,且需在同一框架内实现多手指信号的协同与互补。
二者在感知特性上差异显著。视觉对物体位置的感知精度可达毫米级,而触觉往往需要微米级、至少 0.0 几毫米的精度。面对这类精度不同、模态各异、连续性状态有别的多源信息,首先需解决高效采集问题,其次要将其有效整合到融合模型中,当前热议的 VLA 模型未来可能进一步升级为包含触觉的 VTLA 模型,以突破信息融合的技术瓶颈。
在灵巧手的多模态信息处理中,如何通过网络架构实现信息编码与协同、生成控制信号以及设定控制目标等问题,蕴含相当多的技术难点。当前 VLA 模型的进展很大程度依赖模仿学习(Imitation Learning),需采集大量数据支撑,但向强化学习进阶时又面临新挑战。
总体而言,灵巧手不仅硬件复杂度高,需要攻克可靠性、耐用性、易用性等难题,其数据获取与组织更是核心挑战。
乐金鑫:
马老师,今天谈到灵巧手,也会讨论两指、三指、五指,既有数据、模型等层面的训练,也有构型上的选择,从你们研究重点的逻辑顺序来看,是否会有一个先后循序?哪一个可能更重要?
马道林:
我觉得都重要,这可能是分工的问题。
乐金鑫:
接下来请邵老师分享一下你们与灵巧手的故事,分别做了哪些工作。
邵林:
刚才叶老师和马老师都分享了非常精彩的故事,我的故事也很久了。当时在斯坦福 AI lab 读博,那时斯坦福有各种各样的灵巧手设备,我开始思考如何让灵巧手具备抓取任意物体的能力。值得注意的是,斯坦福当时不止一款灵巧手,是有多种不同构型的设备,这引发了我们最初的思考:是否存在统一的构型或框架,让不同灵巧手完成对物体的抓取与操作?
我们的核心关注点是物体操作,灵巧手只是其中一个切入点。正如马老师所说,灵巧手基本是机器人应用系统中最复杂的体系之一,它集成并代表了具身智能与物体操作领域的各类挑战——从数据收集、感知到多模态融合等难点均蕴含其中。这也正是灵巧手兼具趣味性、巨大挑战性与未来机遇的原因,也是我们持续围绕这一方向展开各类研究的初衷。
乐金鑫:
邵老师你们聚焦在操作上,当下有做了哪些具体工作吗?你们是怎么看待灵巧手的?
邵林:
我们希望抓取模型的软件层能适配各类硬件层,这是我们关注的模式。由于硬件迭代速度远快于软件,如果软件能适配硬件会是很好的选择,这也是我们很早就开展相关工作的原因。
早在斯坦福时,我们就提出了较早期的数据驱动灵巧手工作 UniGrasp ,并测试了多种不同灵巧手。目前该方向研究持续推进,近期在 ICRA 会议上,我们的工作 D(R,O)Grasp 荣获机器人操作和运动领域最佳论文奖,这是对我们的认可,我们也会继续努力。
乐金鑫:
邵老师,你们从软件角度做了很多适配硬件的工作。刚才我问马老师的最后一个问题也在探讨,构型在不同任务场景中千差万别,还没最终确定,那在这种现状下,软件层面要做哪些工作?是做好中间层去适配所有可能出现的不同构型的灵巧手,还是掌握一套方法论,让整个体系更高效有效地运行?
邵林:
我们不光做算法,也参与硬件设计。之前和斯坦福的朋友Shenli Yuan做过 Rolller Grasper v2 和 v3 相关工作。Shenli当时把灵巧手的指尖从简单接触面换成小球这种构型,这是很有创意的想法。我们觉得这种构型对于手内操作有独特优势,所以我们在硬件、软件方面都有思考与经验。
关于如何回答刚才提到的问题,实际要分两部分来看。一部分是以物体为中心去描述如何抓取物体,本质就是机器人手对物体不同区域施加操作,使物体状态改变,这是从物体视角考虑的。从机器人本体视角考虑,则要关注各种构型,以及如何设计其运动空间与运动模式。
我们要做的是将两者结合,因为本质上是机器人的手通过与物体接触来改变物体状态,所以我们考虑的是如何从交互角度去设计灵巧手的各类算法。
乐金鑫:
把灵巧手概念泛化,从执行末端角度看,这个领域有没有亮眼、前沿的研究或解决方法?前段时间网上传播的中科大相关研究,像章鱼手之类的软体方案。这是个比较开放的话题,老师们怎么看?
邵林:
很开心看到灵巧手受到了社会各界越来越多的关注,对于我们研究这个领域的人来说,是一件令人高兴的事。就像您刚才提到的柔性手,它有着自身独特的优势,无论是抓取方式还是接触稳定性方面,都有可取之处。
灵巧手其实是个很复杂的系统,需要硬件、软件、电子等各方向的人共同努力。我觉得比较关键的一点是要有一个方便高效的交流平台,这对促进整个行业、整个领域向前发展极为重要。像柔性夹爪、各类传感器,还有感知以及生成各种各样的位姿合成(pose synthesis)这些方面,不同背景的人对它们的理解都会有各自独特的见解。那如何融会、综合并收集不同领域人的认知?我觉得这是推动这个领域继续发展的一个关键方向。
马道林:
在这个领域中我们特别关注到,不同生态位的公司和学术团队都在做事,毕竟这是个很复杂的事,需要多领域协同合作。
在这两年大家对灵巧手高度关注的形势下,我们能看到其产生的牵引作用,上游的零部件企业开始为这个领域打下基础,比如在驱动单元方面,无论是做灵巧手整体设计的,还是研究团队自己要搭建相关硬件平台的,都有了很好的选择。以前大家可能只能用舵机或者别的电机来做驱动,而现在,在有效需求的牵引下,产业链上游能为大家提供很不错的驱动设备了。
我们自身从传感器角度出发,也在努力为灵巧手的感知提供能获取高质量触觉数据的硬件和算法。从整体来看,这是很有益的。而且有不少年轻团队在做灵巧手相关的创业项目。
这个领域高度工程化,存在诸多工程化挑战。我觉得学校团队就别去攒灵巧手的硬件了,不妨等着产业界做出便宜又好用的硬件来使用。学校里的老师更应该从更深刻、更底层的前沿研究入手,前瞻性地去发现其中的科学问题以及有挑战性的地方。
就像叶老师刚才讲的,对于接触、约束这些内容,该如何有效地建模,又怎样在拟合器、仿真器、生成器里进行处理?我觉得这得往产业界前沿去探寻。
我在 MIT 的时候,受益很深的一点是我导师 Alberto Rodriguez 说的话,他如今是波士顿动力 Manipulation 方向的负责人。当时他讲,博士生或者学术领域的年轻人在选题时,要选未来 5 到 10 年有重要需求的方向,如果当下已经有公司在做的事,从研究角度来说,就别涉足了。要看得更远,要有前瞻性的判断,看到 5 到 10 年之后所需的事,无论是在理论方面、算法层面,还是更高层级的控制模型层面。这本身就是学术研究的意义所在,要做基础性、前瞻性的研究,也要敢于做有风险的研究。
叶琦:
刚才马老师说的话让我挺有感触的。就拿谷歌的 RT 系列来说,在它通过 VLA 采集数据之前,我们其实也考虑过用遥操的方式去采数据,比如做一些演示数据,我们课题组也有老师在做这方面工作。
我自己也尝试过用遥操去抓取,可尝试之后,我就感觉这不是我们课题组短期内能做成的事。后来 RT 火了,很多创业公司按此技术路径采集数据,我去不少工厂参观,也用了他们的遥操设备,结果发现也挺难的,我大概操作了一分钟,都没能采出一条 Pick and Place(拾取和放置)的轨迹来。
所以从这个角度来看,大公司通过 VLA 去采集数据,或者采用众包(cloud sourcing)这种方式,把现有的数据融合起来,确实是很不错的途径。但我自己觉得,像马老师说的,这些事可以由能集成很多资源的公司去做。
对于高校而言,像这种大规模的数据采集工作,我们很难去做。所以我就一直在思考,怎样用更高效的方式去获取数据,以此来解决相关问题。
近些年来,尤其是近一年,我看到了一些挺亮眼的工作。一方面,我原本就一直秉持从人的角度去采集数据的思路,毕竟人是天然的智能体,向人学习是很自然的事。最近我学生跟我分享了一些工作,比如做三维视觉的老师,他们从人的角度出发,学习人在操作过程中的动作轨迹,把动作轨迹拼凑出来,再提取出接触区域,然后用这些数据去训练,全程没有用到一点机器人的数据,却能直接让机器人实现相应操作,虽说不是特别复杂的操作,但这恰恰体现了研究界的可贵之处,通过这样的 demo,为我们指明了一种可能性,也就是不一定要通过遥操作去做这件事,我觉得这是挺亮眼的一项工作。