正文
VLM融合视觉编码器与语言解码器,实现跨模态信息对齐。Flamingo通过冻结语言模型参数并引入可学习融合模块,支持少样本视觉问答;BLIP-2通过QFormer结构提取视觉特征并与语言指令耦合,实现“图像描述生成-任务执行”端到端流程。在机器人应用中,RT-2模型直接将互联网规模视觉-语言数据映射为机器人动作,显著提升未知场景泛化能力,如根据“将香蕉放入篮子”指令完成跨物体类别操作。
一种视觉–语言大模型BLIP训练架构
(四)视觉生成大模型
扩散模型(如DALL-E、Stable Diffusion)和VQVAE通过噪声迭代消除或向量量化,实现文本驱动的图像/视频生成。在机器人训练中,此类模型用于构建虚拟仿真环境(如VideoGPT生成工厂流水线场景),降低真实数据采集成本。同时,视觉生成模型支持机器人路径预测,如通过生成未来场景序列辅助运动规划。
视觉生成大模型的发展历程
(五)具身多模态大模型
具身多模态大模型整合视觉、语言、触觉等多源数据,典型架构包括VATT(视频-文本-音频联合建模)和ChatBridge(视觉-语言-动作协同)。VLA(视觉-语言-动作)模型通过分层策略实现“指令理解-环境感知-动作生成”闭环,例如OpenVLA在零样本场景中根据“清理桌面”指令自主规划机械臂轨迹,结合触觉反馈调整抓取力度。
多模态生成式大模型架构
三、大模型驱动的关键技术架构
(一)分布式模块化大模型技术
1. 感知模块:大模型技术在人形机器人规划领域的应用,往往结合具体的作业任务,通过获取作业环境感知数据,利用多模态大模型技术进行认知规划、常识推理等.人形机器人作业任务的规划往往伴随着任务的决策与控制执行.
一种用于人形机器人环境感知的视觉感知与定位多模态大模型
2. 规划模块:大模型技术的发展能够不断提升人形机器人在复杂任务的推理决策能力.通过利用大模型技术将人形机器人作业环境或观察目标的语言、视觉等数据与作业行为进行建模,生成复杂作业行为的操作策略.
一种基于大模型的人形机器人自我引导作业轨迹规划控制技术图
3. 控制模块:
人形机器人通过利用大模型技术,将人形机器人作业环境中的控制指令、环境感知数据与行为运动控制进行训练.控制指令可以利用大模型技术生成人形机器人相应的控制代码,结合视觉–语言–动作等多模态数据,综合人类动作运动等先验知识,实现人形机器人作业行为的运行控制.