专栏名称: 腾讯科技
只供应最有营养的科技大餐!
目录
相关文章推荐
51好读  ›  专栏  ›  腾讯科技

人形机器人1:1复刻真人:技术执念、场景刚需,还是资本故事?|具身之路03期

腾讯科技  · 公众号  · 科技媒体  · 2025-05-09 16:27

正文

请到「今天看啥」查看全文



胡书捷:也就是说,在“像人”这件事上,目前行业内部存在明显的技术分歧?


刘迅: 我不觉得是分歧,更像是路径不同。我们选的是电机驱动这条路,它本质上是“电机智能”——基于绿色能源背景,走城市化、智能化路线。虽然还不能说完全成熟,但这条技术路径具备多端通用性,逻辑是清晰的。


在人形机器人里,电机智能可以支撑我们在“像人”这件事上实现表情和语言的能力。人是高度集成的生物,我们希望机器人也具备这种复合能力。


但像Clone Robotics,他们更像是在做生物动力系统。他们上肢用气动,骨骼结构用液压,目标是从结构层面全面仿生。这条路很硬核,技术天花板很高,但难度也大。我觉得他们现在做的是体验性探索,也许未来会打开一个新世界。


我是认可他们的方向的,但现在更现实的是看我们能不能在材料、结构、驱动这些方面突破,把液压真正工程化,这方面我们也在关注。而我们做表情这条线,既是技术驱动,也是业务驱动。市场确实需要可交互、能服务的“类人”机器人,这不是空谈。


程建: 目前整个行业仍处于早期发展阶段,而表情、肌肉等仿人化技术更是处于探索的前沿。目前的技术路径尚未收敛,各种路线都值得尝试,每一种探索都具有重要意义。


以Clone Robotics为例,其采用液压和气动技术,而其他公司,包括数字华夏,大多采用电机驱动。电机驱动的优势在于控制更加精准、易于数字化,且精度较高,这为后续的智能化发展提供了便利。相比之下,液压和气动系统则显得较为复杂,控制难度大,调试成本高。因此,在产品落地方面,电机驱动更具现实性,开发速度也更快。


Clone Robotics所选择的液压和气动路线可能更偏向于实验性研发,其商业化周期可能会更长。


刘迅: 波士顿动力本身就是一个典型案例,他们在去年正式从液压系统转向电驱动。对于我们这些学工科的人来说,几乎是看着他们的视频长大的。从最初的双足机器人,到类人形,再到四足机器狗,波士顿动力一步步走到了如今的人形机器人。


气动这条路确实很有想象力,比如柔性和结构控制,但它的问题在于精度和可控性。相比之下,电机的控制更精准,成本也更可控。虽然人形机器人整体系统很复杂,但电驱还是目前比较可行的路径。


胡书捷: 两位都认为电驱在当前阶段是更可行的路线,而液压和气动更多是技术层面的探索。回到微表情这个点——刘总,你们现在在做很多面部表情的工作, 你觉得这些仿人表情,在不同的场景里,有什么实际价值?


刘迅: 人形机器人这个“具身智能”,我把它分成三块: 运控智能、交互智能、业务智能。 交互是最基础的,人类最早的沟通方式就是交互,语言是核心工具。


但语言不只有语音,它包括动作语言、表情语言,还有语音语言。甚至还有“神韵”,也就是表情传递出的情绪。这些维度综合起来,才构成完整的交互。


我们的目标是让机器人不只是“speech to speech”,而是“多模态”的交互能力,说话时要有肢体动作,有面部表情,有情绪状态。尤其是表情,它在情感共鸣上的作用很大。我们在机器人面部上加了几十个电机,用来还原这些细微的情绪变化——有些是主动表达,有些是被动反馈。


这背后不是单纯为了“像”,而是为了实现更顺畅的交互体验,有了这些能力,用户才不会感受到“恐怖谷效应”。


现在大家都在讲恐怖谷,就是你做得像人,但又不够自然,看起来反而怪。所以,我们强调“smooth”的交互体验,这才是“像人”的关键。


当然,有些场景比如工业作业,它对表情要求不高。但在一些安全、应急场景里,一个恰当的面部表情能在毫秒级内传达关键信息,这是语音做不到的。


所以我们认为表情语言不是可有可无的,而是一个不可或缺的技术点。这也是我们在表情交互这个方向上“出圈”的地方。


胡书捷:确实,情绪价值本身也是一种很重要的价值。程总怎 么看?


程建: 归根结底,是否需要表情和人形化,还是要看机器人的应用场景。


目前的机器人大致分为两类: 一类是用于工业生产的, 比如优必选的搬运机器人。在工厂场景中,机器人只需完成搬运任务即可,根本不需要表情,甚至不需要人形化。一个底盘加上机械臂,就能高效完成工作,任务完成后即可离开,无需与人进行情绪交流。


另一类是面向人类用户的, 比如陪伴机器人或客服机器人。在这种场景下,“像人”变得至关重要。丰富的表情和微表情能够产生真正的情绪价值,从而更好地与人类用户互动。


以酒店的送餐机器人为例。如果它只是一个简单的桶状机器人,将物品送到你面前后,你拿完就会转身离开,不会与它有任何交流。但如果它是一个具有表情和神态的人形机器人,你可能会多看它一眼,甚至与它交谈几句。


因此,是否需要表情和人形化,从根本上取决于机器人的应用场景。如果机器人需要与人互动,那么它就必须“像人”;如果它只需要完成任务,那么人形化和表情就并非必要。


胡书捷:关于技术这块,我们说表情拟人、结构拟人、运动拟人、感知拟人——这些分别涉及哪些底层技术?在难度和技术成熟度上有什么差异?


刘迅: 我简单拆一下。


第一是表情拟人。 底层核心是电机控制,所有电机动作都要做到平滑、有节奏,才能还原出人的“神态”。比如微笑时嘴角怎么拉、嘴巴怎么张,都是一套控制模型。而且不仅是静态的模仿,更重要的是“个性感”——因为每个人的表情风格都不一样。


第二层,我们会用扩散模型来实现表情的自动生成。







请到「今天看啥」查看全文