正文
Hanna:
再比如它打包午餐的能力,它对“香蕉”是有概念性的理解的。那么它能抓起香蕉吗?因为你不能让它像抓陶罐那样去抓香蕉。
Carolina:
这些机器人最令人印象深刻的一点在于,它们其实非常简易,没有触觉、没有深度感知,也没有力传感器。
基本上,它们依赖的是手眼协调,靠视觉学习如何抓取香蕉。它们先观察物体,然后进行抓取。当它看到香蕉已经在自己手中时,就知道它成功识别并拿住了。
虽然也有更复杂的物体和机器人系统,
但这些机器人迫使模型真正思考它“看到”的东西,并决定如何去抓取。
这正是它们最有独创性的地方。这方面的关键在于,
它不是因为我们教了它上千次如何抓香蕉,而是它从Gemini那里获得了关于“如何抓取物体”的知识,然后将这些知识应用到现实世界的动作中。
Hanna:
过去几年网络上出现过很多机器人展示视频,看上去非常惊艳,有机器人翻跟头、爬山等等。相比之下,把香蕉放进面包盒似乎是一项很简单的任务,对吧?但我们现在讨论的其实是完全不同类型的机器人。
Carolina:
这是另一个要解决的问题。很多炫技视频里的机器人执行的是事先学习并死记硬背的动作序列。虽然我们确实对它们印象深刻,但我们现在面对的是不同的挑战。
我们希望机器人能根据手头的物体推断出“打包午餐”意味着什么,比如要把一片面包装进袋子里、并理解“封口”的意义。那种方式永远无法按你预期工作,因为我们处理的是非常灵活、柔软、并会移动的物体。所以机器人必须实时应对眼前的变化,真正去完成任务。这就是“通用性”的核心理念。
Hanna:
你们是如何判断一个机器人是否比另一个更具通用性的?你们是怎么比较的机器人的表现的?
Carolina
:这实际上是我们在为这个版本录制demo时遇到的一个难题。因为demo本质上是预设好的,就像剧本一样。我们觉得这并不能完全体现我们想表达的能力。所以我们请团队成员带一些玩具来,直接与机器人互动,看看会发生什么。最有效的方法是我们可以通过语言来控制机器人的行为。在视频中你也能看到这一点。我们实际上可以放置一些机器人从未见过的物体,并且我们还会故意移动这些物体,以确保人们明白这些行为并非事先编排好的。实际上,在我们的基准测试中,我们用各种方式来评估模型的泛化能力。例如,我们会更换视觉背景;改变场景布置;引入新的物体;添加干扰元素来吸引机器人的注意力;我们还会要求它执行完全陌生的任务。你甚至可以用另一种语言与它交流。我可以直接用西班牙语给它下指令,它也能立即执行。
Hanna:
我还想谈谈“交互性”。在你们的一些视频中,有一个画面是一个人坐在办公桌前,机器人在他身后整理东西。另一个视频中,一个人移动了一只杯子,机器人则跟着杯子走并试图把东西放进去。这些交互场景相较于静态任务到底难多少?
Carolina:其实,很多更高级的行为和互动并不是我们特意编程出来的,而是模型自己实现的。
比如我们从未明确设定“当物体移动多快时机器人要如何应对”。我们只是知道我们需要一个能快速反应的模型。而视频中展示的很多例子,都是团队成员与模型互动并观察它如何表现的反应。整理办公桌也是一样,那其实是有人在与机器人互动,我们想知道互动多少次才能让机器人理解动作意义并完成全部任务。
当你将 Gemini 中已经具备的许多其他功能应用到机器人身上时,它们实际上非常有价值,这真是令人惊奇,因为机器人现在能够根据你所说的内容进行调整。因此,你实际上可以进行完整的对话,并在机器人移动时改变其行为。所以你可以说:我希望你这样做,或者我希望你做另外一件事,它实际上会follow你。然后您还可以改变周围的物体,他也会follow你。
Hanna:
我有时觉得这些机器人没有感觉其实挺好。因为它被研究人员“追着跑”时,就会感到非常孤独。而让这一切成为可能的,是背后运行的大型语言模型,它为机器人提供了操作对象的概念性理解。
Carolina:我们利用Gemini的多模态理解能力,将机器人通过摄像头接收到的视觉输入和从人类那里听到的自然语言结合起来,转化为具体的操作指令。
而且,它也会回应。你可以问它是否完成了任务,或者它现在折纸折到哪一步了,它都能理解并作出回答。
Hanna:
我记得当Gemini刚推出时,大家都在讨论它的多模态特性。这是不是其中的主要原因?这是否是此前所有努力的回报,例如让模型理解视频、图片等等?
Carolina
:我们人类本来就是通过多种感官来感知世界的。我认为如果我们想要开发出像人脑那样强大的智能系统,就必须能以多模态的方式处理输入。
机器人学正是一个完美的例子,它需要理解自然语言和视觉输入,而且未来很可能还需要触觉感知,才能做出像人类那样的行为决策。
Hanna:
但为什么机器人必须要对自己的行为有概念性的理解呢?我的意思是,也许它们不需要被称为“智能”,但比如洗碗机或割草机这些机器人,它们并不知道什么是盘子或者草,这似乎也没问题。那是否真的有必要?
Carolina:确实有些应用场景中,机器人只需重复某种动作就足够了。但我们感兴趣的是构建真正会思考、具备通用行动能力的机器人。
因为现实世界本身就是混乱的,事情从来不会完全按计划进行,很多任务中情况总在不断变化,而这正是机器人真正发挥作用的机会。它们可以被应用到任何有人类执行任务的地方,从家庭到生产场景都能派上用场。
Hanna:
你提到了机器人需要识别和标记边界框等功能。能简单解释一下这是什么吗?
Carolina:
这是我们为了让Gemini更好服务于机器人而特意强化的能力之一。比如,当你面前有一个物体时,“指向”就意味着我可以准确地识别出这个物体上的任意一个点。想象一下你面前有一件 T 恤,如果我指着领口,它就应该能说出“这是衣领”,并正确识别这个区域。
你可能觉得这类事情没那么重要。但如果你想把这件 T 恤叠好,你必须知道领口在哪里、底部在哪里,以及其它各个组成部分的位置。“边界框”就是指能够识别出物体的所有边缘,从而知道物体在哪结束、环境从哪开始。
对于我们人类来说,这些事情看似微不足道,我们甚至不会意识到自己在做这些判断。但如果机器人也能获取这些信息,它们在现实世界中的行为就会更聪明。这正是我们所说的“具身推理”。
Hanna:
这和Gemini标准模型中的思维方式有什么不同?
Carolina:我们所说的“具身思维”指的是对物理世界更细致入微的理解,就像人类在执行动作时会做的那样,比如打包孩子的午餐时。你需要知道所有物体在三维空间中的位置。
然后你必须知道该如何抓取每个物体,把它们装进盒子里。接着你还得思考如何安排这些物体的位置,让它们都能装进去。这就是我们所说的具身思维。
Hanna:
假设我们有两个相机视角。你在那里,我在这里。我能看到你的麦克风,你也能看到,但我们看的角度完全不同。这也是具身思维的一部分吗?
Carolina:
是的,比如它可以理解麦克风距离我的脸有多远,而且即使我移动了,它也能建立物体对应关系。也就是说,它知道我从另一个角度看到的是同一个麦克风。你可以想象到,当机器人在移动并感知周围环境时,这种能力是多么重要。
Hanna:
那从二维图像,比如某个单一的相机视角,过渡到三维空间感知有多难?
Carolina:实际上,如今的机器人会从多个位置获取相机视角。它的手腕上装有摄像头,顶部也有一个摄像头。它会自动整合来自三个视角的输入,并独立处理这些信息。
它会推理:“我现在离物体更近了,因为这个视角显示物体更大。”它还能识别自己的手出现在镜头中,并自行建立关联。
我们并没有明确给它添加“深度”这种额外输入,而只是提供多个相机视角,让它自己学会如何利用这些信息来理解深度。
Hanna:
那这些能力中有多少是你们刻意设定的?又有多少是通过Gemini模型的概念理解自然产生的?