专栏名称: 美团技术团队
10000+工程师,如何支撑中国领先的生活服务电子商务平台?数亿消费者、数百万商户、2000多个行业、几千亿交易额背后是哪些技术在支撑?这里是美团、大众点评、美团外卖、美团配送、美团优选等技术团队的对外窗口。
目录
相关文章推荐
字节跳动技术团队  ·  基于LLM的AI应急:多模态信息智能化分析整 ... ·  昨天  
字节跳动技术团队  ·  远程访问代理+内网穿透:火山引擎边缘网关助力 ... ·  2 天前  
字节跳动技术团队  ·  稀土掘金 x Trae ... ·  2 天前  
51好读  ›  专栏  ›  美团技术团队

具身智能:从 “走近” 到 “走进”,寻找和突破人机共融边界

美团技术团队  · 公众号  · 架构  · 2025-01-09 19:58

正文

请到「今天看啥」查看全文



所以我觉得今天我们应当基于一个成熟的硬件本体,去快速地推进像自动驾驶端到端技术一样的具身智能端到端大模型,也就是视觉语言动作大模型,这块是当下更重要的事情。


丁文伯: 既然说到自动驾驶端到端模型,我们就得请赵行老师讲讲了。赵行老师在回国加入产业和学术之前,在Waymo做了很多的工作。


赵行: 其实自动驾驶和机器人有很类似的地方,也有不同的地方。首先来看「具身」和「智能」,对于车来说,即便没有「智能」,它也是一个存在的「具身」本体,这是车最大的特点。在机器人时代,我觉得「具身」它会有挑战,但不是瓶颈。因为我相信随着我们中国的电子机械技术的发展,我们有非常完整的供应链,在当下我们能把机器人做得非常好,而且我能相信在不久的将来,我们也能把机器人的成本做到非常的低廉,能够进入到每一个人的家庭,所以我觉得具身的挑战更多在我们该设计一个什么样的形态,并且能够以最合适的、最具有性价比的方式把它生产出来,把它给普罗大众推广出去,这是「具身」的挑战。


「智能」更多是瓶颈。我们对比自动驾驶, 机器人的「智能」包含着非常多的维度,从场景的理解、推理、决策、感知、规划,最后到控制等等这一系列的技术,我觉得都有不少的挑战。非常幸运的是在去年和前年,我们看到了大语言模型的技术突破,能够帮我们在理解推理决策这些方面做出了巨大的突破。那么接下来我相信对于机器人来说,感知到规划到控制,这些技术是我们真正要去努力突破和实现的。


丁文伯: 因为谭博士研究的是芯片,其实是我们现在所有的智能和硬件,包括未来决策中间最核心的一点,有一种开玩笑的说法,如果你不给计算机或者机器人提供芯片,这个机器人就是一堆废铁。所以谭博您从芯片出发,是怎么看「具身」和「智能」的?


谭章熹: 我从来不按常理出牌,所以我想谈一下我的观点。我觉得你们问的「具身」还是「智能」,其实机器人走进千家万户最大的问题是在于产业化,是整个上下游供应链的事情,因为之前我那家公司在美国的时候,也做了Waymo的生意,后来卖给了Aurora。


我们当时做的是一个相当于自动驾驶的sensor,非常fancy的all-solid-state的固态雷达,which we made it,我们确实当时也做出来了,但后来为什么我觉得那个时候不ready呢,为什么公司会要销售掉?当我跑遍了整个的产业链以后,我觉得这个是highly fragmented的supply,因为当时最大的一个market是光通信,全球也就大概5~6个billion dollars的market。


所有的供应链在机器人也是同样的道理,我相信现在我们看到了包括大语言模型,所有的basic building block,hardware也好、software也好,都存在,但是机器人是非常挑战的,你把所有东西都整合到一起的时候,这个东西是不ready的。To be honest,我认为可能还有10年左右的时间,把所有的东西放到一起再进行产业界的磨合。Fundamentally,我们看到很多的改变,整个我们人类生活的technology,其实它的cycle并不是我们说几年,大家一热去投资就可以,大概在20年到30年左右的时间。


上一个我们 举个例子,我们说到芯片,上面运用的flash technology实际上是在30年前我们学界就已经有了的,但是真正把它做爆发的、上量的,是 iTunes,就像盗版的MP3,所以机器人也需要这样上量的、推动全产业链的东西 ,这是我的点。


丁文伯: 吴翼老师的研究方向更多是偏重于多智能体,他也是国际上做多智能体强化学习最突出的青年学者之一,代表了中国的水平,你可以从这两方面谈一谈。


吴翼: 我就讲得更高一点,我更偏「智能」,因为「具身」没有王老师和师兄懂。很多人考虑机器人,往往会考虑场景,会考虑任务,考虑一个机器人本体长成什么样,它能做什么。我稍微跳高一点,我们假设有个机器人可以做一些事之后,它还需要什么能力?我会觉得它需要空间上的理解和推理的能力,它不光是需要完成一个任务,它还需要能把很多事串起来。我举个例子,比如说大家都是学生,一般在家里去找东西,因为你妈帮你把东西都收好了,你找不着会跟你妈打电话说“我的袜子在哪,我的某个东西放哪了”,你妈跟你说,“它在一个白色的盒子里,或者它在某一个箱子的柜子的后边”,于是你在家里翻箱倒柜地找。


这是一个大家看起来稀松平常的事,但如果机器人要完成的话,它需要什么能力?需要理解“在白色箱子后边”这是件什么事,甚至还要说“我找不着了,妈”,它需要很多的交互能力,需要记忆、理解、推理。所以我在想, 有没有一天,不管它本体长成什么样,它能做各种各样的任务之后,还有一个更大的、能长context、有空间理解、有记忆,同时也知道问什么话的大脑来驱动AI,真正地能和人进行像人一样的、长时间的、比较通用的交流和推理。 我希望这个事情是最后能走进千家万户,解决所有这种长尾需求是我觉得蛮重要的点。



丁文伯: 接下来第二个问题,我问得稍微刁钻一点。赵行老师和王鹤老师,现有的具身智能的路径中,本体、算法、数据都是我们的主战场,有的公司就是聚焦本体,低成本、高质量、可量产,有的公司可能就是聚焦于算法,甚至有的公司聚焦于产生大量的好用数据。除此之外,在真正做一线的产业化、包括落地推广的时候,你们觉得有没有什么技术或者市场的东西被我们忽略了,或者容易被我们忽略的地方?想请两位老师谈一谈在一线的感觉,请王老师先讲。


王鹤 : 我刚刚讲的「智能」,它背后其实就是算法、算力和数据,那么「具身」本质就是本体对吧,丁教授问还有什么被忽略了?可能把这些东西串在一起构成一个系统,从真实世界真地能够去落地,然后回流数据、提升模型,真正把这件事情从0到1推动起来。 虽然具身智能这个词 “Embodied AI”是大约在19年之后在美国复兴,在中国大约是22年后逐渐为大家所知,但其实背后的这些思想连贯了50年以上。为什么今天我们要推动具身智能,本质上这些要素在当下的市场和当下的需求侧已经齐备,并且需求侧给了我们很强的需求。


在很强的需求的驱动下,现在银河通用也是把数据、算法和算力结合在一起,开始在一些场景里落地尝试。我们是从合成的大数据作为数据的源泉,这部分数据不需要真实世界采集,成本相对低廉,同时可扩增scalable,这样的要素完成了具身智能的冷启动。像自动驾驶它是典型的热启动,因为你把车卖出去以后,有用户替你开,数据就直接回来了。每一个能卖出去车的车企,它后续做自动驾驶都很有能力,但是如果是一个没有作用的人形机器人,卖不出去,卖出去了以后也不会有想象的那种神奇数据回流回来。







请到「今天看啥」查看全文