正文
Helix 是一个通用的“视觉-语言-感知”(VLA)模型,将感知、语言理解和学习控制统一起来,取得一系列首创:
-
整个上身控制:首次对人形机器人上半身(包括手腕、躯干、头部和各个手指)进行高速率连续控制的VLA。
-
多机器人协作:首个同时在两个机器人上运行的VLA,能够使用从未见过的物品解决共享的远程操作任务。
-
拿起任何东西:只需按照自然语言提示,就能拿起几乎任何小型家居物品,包括数千种它们从未遇到过的物品。
-
一个神经网络:与之前的方法不同,使用一组神经网络权重来学习所有行为(挑选和放置物品、使用抽屉和冰箱以及跨机器人交互),而无需任何针对特定任务的微调。
-
已做好商业准备:首款完全在嵌入式低功耗 GPU 上运行的 VLA,可立即进行商业部署。
在对机器人上半身的控制上,Helix 能以 200Hz 频率协调 35 自由度动作空间,让机器人的上半身从手指、手腕到头部的动作流畅高效。头部与躯干控制存在独特挑战——当头部移动时,将会改变机器人的接触距离和视线范围,以往这种变化会导致机器人不稳定。
视频中,机器人用头部平稳地跟踪双手,同时调整躯干以获得最佳范围,同时保持精确的手指控制以抓握物品。Figure 表示,此前还没有 VLA 能展示这种程度的实施协调,同时保持多任务泛化能力。
Figure 还尝试了将 Helix 运用在一个高难度多智能体操作场景中:
两台 Figure 机器人之间协作实现零样本杂货存放。
这两台机器人都采用了相同的 Helix 模型权重进行操作,不再需要对机器人进行训练或分配角色,它们之间能通过自然语言进行合作。
如下面视频中所展示的,“将一袋饼干递给你右边的机器人”或“从你左边的机器人那里接过一袋饼干并将饼干放在打开的抽屉里”,两台机器人能灵活协同处理问题。
搭载 Helix 的机器人还展现出了强大的泛化能力。
只要一个简单的“拿起 [X]”命令,机器人几乎能拿起所有的小型家庭用品。
在系统测试中,机器人成功处理了杂乱无章的数千件新物品),不需要任何事先演示或自定义编程。
更难得的是,Helix 能弥合语言理解与机器控制之间的距离。例如,当指示机器人“捡起沙漠物品”时,Helix 不仅能识别出玩具仙人掌,还能选择最近的手去抓住物品。这种通用的“语言到动作”的掌握能力,让机器人部署在非结构化环境中有了新可能。
Figure 创始人 Brett Adcock 表示,团队花了一年多的时间研发出了 Helix,让人形机器人无需经过任何训练、代码,就能抓取几乎任何家庭用品。