RSS 2025｜从说明书学习复杂机器人操作任务：NUS邵林团队提出全新机器人装配技能学习框架Man...

机器之心 · 公众号 · AI · 2025-05-29 12:53

主要观点总结

本文介绍了研究团队提出的基于视觉语言模型（VLMs）的机器人装配框架Manual2Skill，解决了机器人执行复杂长程任务（如家具装配）的难题。该框架通过解析人类设计的说明书，使机器人能够自主执行装配任务。研究团队在仿真和真实环境中对多款宜家家具进行了实验，验证了Manual2Skill的鲁棒性和有效性。

关键观点总结

关键观点1: 研究背景

家具装配是一项复杂的长时程任务，要求机器人理解所有零件的拼接关系和顺序，估计每一步拼接时部件的位姿，生成物理可行的动作以完成部件组装。尽管许多计算机视觉方法取得了显著成果，但它们大多忽视了同样关键的拼接顺序理解和动作生成环节。现有的端到端机器人装配系统通常依赖模仿学习或强化学习，在某些场景下有效，但通常需要大规模数据集和大量计算资源，难以推广至真实环境中的通用长时程操作任务。

关键观点2: 研究目标

研究团队的目标是开发一种创新框架，利用VLMs将基于说明书的视觉指令转化为机器人装配技能，解决复杂长程装配的局限性。

关键观点3: 研究方法

研究团队提出了Manual2Skill框架，包括三个核心阶段：层级化装配图生成、分步骤位姿估计、机器人装配动作生成与执行。其中，层级化装配图生成通过VLM解析说明书图像，构建描述家具部件结构关系的层级化装配图；分步骤位姿估计预测每个装配步骤中涉及的家具部件的精确6D位姿；动作生成与执行则将位姿信息转化为可执行的机器人轨迹。

关键观点4: 实验与结果

研究团队在仿真和真实环境中进行了实验，验证了Manual2Skill框架的有效性。实验结果表明，该框架可以准确生成层级化装配图，有效估计部件的位姿，并在仿真测试中达成58%的成功率。在真实世界家具装配任务中，该框架也表现出了可行性和出色表现。

关键观点5: 结论与展望

本文提出的Manual2Skill框架为机器人从为人类设计的说明书中学习复杂长程操作技能提供了一种新方法，显著降低了复杂操作技能获取的成本和复杂度。此外，该框架还具有零样本扩展能力，可以推广至其他手册引导式装配任务。展望未来，研究团队将继续改进和完善Manual2Skill框架，提高机器人在真实环境中的装配成功率。

正文

请到「今天看啥」查看全文

通过 VLM 解析说明书图像，构建描述家具部件结构关系的层级化装配图。

分步骤位姿估计：预测每个装配步骤中涉及的家具部件的精确 6D 位姿。

动作生成与执行：将位姿信息转化为可执行的机器人轨迹。

图 1：Manual2Skill 框架

该框架解决了现有机器人装配方法的两大核心限制：

通过将人类理解的抽象示意图转化为结构化装配层级图与部件位姿，使机器人能从说明书提取可操作信息，避免了对大规模高质量演示数据集的依赖。
将装配层级图作为结构化装配信息的核心表征，为真实装配任务提供通用解决方案，适用于所有多步骤复杂装配问题。

阶段 I: 层级化装配图生成

Manual2Skill 的首阶段将人类可理解的说明书转化为机器人可执行的任务规划。通过视觉语言模型（GPT-4o）对说明书示意图和预装配场景图像进行联合推理，生成编码家具部件与子组件结构关系的层级化装配图。

在此图中：

叶节点代表原子部件。
非叶节点表示通过连接部件/子组件形成的复合结构。
从叶节点向根节点遍历可获得完整的逐步装配流程。

为构建该图，Manual2Skill 通过整合多模态输入，特别是多张图像的视觉信息与文本指令组成的多轮提示序列，完成两个关键子阶段：

跨域视觉理解：通过视觉提示技术（如 Set-Of-Marks 和 GroundingDINO）和几何视觉推理，GPT-4o 将预装配场景图片中的物理部件与其说明书图示进行语义关联，从而解析每个部件的作用与位置。

结构化信息提取：基于已识别的部件信息，使用链式思维（Chain-of-Thought）、由简至繁（Least–To–Most）和上下文学习（In-Context Learning）等提示技术，判断说明书中每个步骤涉及的特定部件。

该结构化图表征为下游位姿估计与运动规划奠定基础，确保复杂装配任务的精准顺序执行。

阶段 II: 分步骤装配位姿估计

在层级化装配图确定部件组合与装配顺序后，本阶段预测每个装配步骤中所有部件的 6D 位姿，实现部件间的精确物理对齐。

与过往方法通常一次预测整个装配过程中所有零件的位姿不同，这里我们对每个装配步骤，预测这一步中涉及到的所有部件/子组件的位姿，这一设置既更贴合真实世界中的拼装过程，也能使模型避免单次输入部件数量过多引起的性能下降。

同时我们还发现，尽管家具的形态有很大差别，但其基本部件的连接方式（比如板和棍的连接）较为固定，这种分步预测的方法能使模型更好地学习到这种基本连接方式，从而对测试集的物体实现更高的预测精度。

为实现此目标，跨模态位姿估计模型对说明书图像与家具部件 3D 点云进行联合推理。模型架构包含四个核心组件：

图像编码器（