专栏名称: 大语言模型和具身智体及自动驾驶
讨论计算机视觉、深度学习和自动驾驶的技术发展和挑战
目录
相关文章推荐
三峡小微  ·  高风速潮汐带上的绿色电站 ·  3 小时前  
三峡小微  ·  十秒扎根一棵树 一键灌溉万亩沙 ·  昨天  
三峡小微  ·  @党员干部 这些饭,吃不得! ·  2 天前  
51好读  ›  专栏  ›  大语言模型和具身智体及自动驾驶

OG-VLA:通过正交图像生成的 3D-觉察视觉-语言-动作模型

大语言模型和具身智体及自动驾驶  · 公众号  ·  · 2025-06-07 05:58

正文

请到「今天看啥」查看全文




在部署时,系统的输入是一条语言指令 l,以及一组观测值 O_k = {I_k, D_k, P_k, K_k},其中 I_k 是 RGB 图像,D_k 是对应的深度图像,P_k 是相机姿态,K_k 是相机内参,相机索引为 k。系统的输出是末端执行器状态 s = ⟨p, ω⟩,它由位置目标 p 和旋转目标 ω 组成。为了完成一项任务,按顺序执行系统,在每个时间步使用运动规划器达到预测的 s,并获得下一组观测值。如图展示模型架构:


多模态视觉与语言模型

系统的核心是一个大型语言模型 (LLM)。LLM 将一系列输入token(向量)⟨t_1,...,t_i⟩作为输入,并生成一系列输出 token(向量)⟨t_i+1,...,t_i+j⟩。用三种类型的输入和输出 token:(1) 文本token,由文本 token 化器和嵌入表计算得出;(2) 输入图像 token,可以是图像块 token 或图像 CLS token [29],由视觉编码器计算得出,并通过学习的 MLP 输入投影,投影到 LLM 空间;(3) 输出图像(动作)token,将其添加到 LLM 词汇表中,并使用额外的 MLP 解码器将其解码为特殊 token。输出图像 token 代表机器人的下一个动作。用图像扩散模型,通过生成包含注释的图像将图像 tokens 解码为动作,这些注释描述夹持器在一组输入场景视图上的位置和旋转。末端执行器状态 s 是从这些图像注释中解码出来的。







请到「今天看啥」查看全文