人形机器人1：1复刻真人：技术执念、场景刚需，还是资本故事？｜具身之路03期

腾讯科技 · 公众号 · 科技媒体 · 2025-05-09 16:27

正文

请到「今天看啥」查看全文

胡书捷：也就是说，在“像人”这件事上，目前行业内部存在明显的技术分歧？

刘迅： 我不觉得是分歧，更像是路径不同。我们选的是电机驱动这条路，它本质上是“电机智能”——基于绿色能源背景，走城市化、智能化路线。虽然还不能说完全成熟，但这条技术路径具备多端通用性，逻辑是清晰的。

在人形机器人里，电机智能可以支撑我们在“像人”这件事上实现表情和语言的能力。人是高度集成的生物，我们希望机器人也具备这种复合能力。

但像Clone Robotics，他们更像是在做生物动力系统。他们上肢用气动，骨骼结构用液压，目标是从结构层面全面仿生。这条路很硬核，技术天花板很高，但难度也大。我觉得他们现在做的是体验性探索，也许未来会打开一个新世界。

我是认可他们的方向的，但现在更现实的是看我们能不能在材料、结构、驱动这些方面突破，把液压真正工程化，这方面我们也在关注。而我们做表情这条线，既是技术驱动，也是业务驱动。市场确实需要可交互、能服务的“类人”机器人，这不是空谈。

程建： 目前整个行业仍处于早期发展阶段，而表情、肌肉等仿人化技术更是处于探索的前沿。目前的技术路径尚未收敛，各种路线都值得尝试，每一种探索都具有重要意义。

以Clone Robotics为例，其采用液压和气动技术，而其他公司，包括数字华夏，大多采用电机驱动。电机驱动的优势在于控制更加精准、易于数字化，且精度较高，这为后续的智能化发展提供了便利。相比之下，液压和气动系统则显得较为复杂，控制难度大，调试成本高。因此，在产品落地方面，电机驱动更具现实性，开发速度也更快。

Clone Robotics所选择的液压和气动路线可能更偏向于实验性研发，其商业化周期可能会更长。

刘迅： 波士顿动力本身就是一个典型案例，他们在去年正式从液压系统转向电驱动。对于我们这些学工科的人来说，几乎是看着他们的视频长大的。从最初的双足机器人，到类人形，再到四足机器狗，波士顿动力一步步走到了如今的人形机器人。

气动这条路确实很有想象力，比如柔性和结构控制，但它的问题在于精度和可控性。相比之下，电机的控制更精准，成本也更可控。虽然人形机器人整体系统很复杂，但电驱还是目前比较可行的路径。

胡书捷： 两位都认为电驱在当前阶段是更可行的路线，而液压和气动更多是技术层面的探索。回到微表情这个点——刘总，你们现在在做很多面部表情的工作， 你觉得这些仿人表情，在不同的场景里，有什么实际价值？

刘迅： 人形机器人这个“具身智能”，我把它分成三块： 运控智能、交互智能、业务智能。 交互是最基础的，人类最早的沟通方式就是交互，语言是核心工具。

但语言不只有语音，它包括动作语言、表情语言，还有语音语言。甚至还有“神韵”，也就是表情传递出的情绪。这些维度综合起来，才构成完整的交互。

我们的目标是让机器人不只是“speech to speech”，而是“多模态”的交互能力，说话时要有肢体动作，有面部表情，有情绪状态。尤其是表情，它在情感共鸣上的作用很大。我们在机器人面部上加了几十个电机，用来还原这些细微的情绪变化——有些是主动表达，有些是被动反馈。

这背后不是单纯为了“像”，而是为了实现更顺畅的交互体验，有了这些能力，用户才不会感受到“恐怖谷效应”。

现在大家都在讲恐怖谷，就是你做得像人，但又不够自然，看起来反而怪。所以，我们强调“smooth”的交互体验，这才是“像人”的关键。

当然，有些场景比如工业作业，它对表情要求不高。但在一些安全、应急场景里，一个恰当的面部表情能在毫秒级内传达关键信息，这是语音做不到的。

所以我们认为表情语言不是可有可无的，而是一个不可或缺的技术点。这也是我们在表情交互这个方向上“出圈”的地方。

胡书捷：确实，情绪价值本身也是一种很重要的价值。程总怎 么看？

程建： 归根结底，是否需要表情和人形化，还是要看机器人的应用场景。

目前的机器人大致分为两类： 一类是用于工业生产的， 比如优必选的搬运机器人。在工厂场景中，机器人只需完成搬运任务即可，根本不需要表情，甚至不需要人形化。一个底盘加上机械臂，就能高效完成工作，任务完成后即可离开，无需与人进行情绪交流。

另一类是面向人类用户的， 比如陪伴机器人或客服机器人。在这种场景下，“像人”变得至关重要。丰富的表情和微表情能够产生真正的情绪价值，从而更好地与人类用户互动。

以酒店的送餐机器人为例。如果它只是一个简单的桶状机器人，将物品送到你面前后，你拿完就会转身离开，不会与它有任何交流。但如果它是一个具有表情和神态的人形机器人，你可能会多看它一眼，甚至与它交谈几句。

因此，是否需要表情和人形化，从根本上取决于机器人的应用场景。如果机器人需要与人互动，那么它就必须“像人”；如果它只需要完成任务，那么人形化和表情就并非必要。

胡书捷：关于技术这块，我们说表情拟人、结构拟人、运动拟人、感知拟人——这些分别涉及哪些底层技术？在难度和技术成熟度上有什么差异？

刘迅： 我简单拆一下。

第一是表情拟人。 底层核心是电机控制，所有电机动作都要做到平滑、有节奏，才能还原出人的“神态”。比如微笑时嘴角怎么拉、嘴巴怎么张，都是一套控制模型。而且不仅是静态的模仿，更重要的是“个性感”——因为每个人的表情风格都不一样。

第二层，我们会用扩散模型来实现表情的自动生成。