专栏名称: 大数据文摘
普及数据思维,传播数据文化
目录
相关文章推荐
51好读  ›  专栏  ›  大数据文摘

比美国Figure AI更进一步!“稚晖君”团队抛出最新具身基座大模型GO-1,提出ViLLA架构

大数据文摘  · 公众号  · 大数据  · 2025-03-10 18:00

正文

请到「今天看啥」查看全文


他们部署了100台双臂人形机器人AgiBot G1,用于采集多模态移动操作演示数据,还配有专业的远程操作员以及检测环验证机制来确保数据质量。
据了解,GO-1是一种新颖的通用策略,它能利用潜在动作表征来最大化数据利用率,展现出随着数据量增加,性能可预测地提升的特点,与在Open X-Embodiment上训练的策略相比,平均性能提升了30%,在复杂任务上实现了超过60%的成功率,比先前的RDT方法高出32%。
操作能力是机器人的一项基本功,它使机器人能够与物理世界进行交互并适应物理世界,在受控的实验室环境中,机器人的操作能力和适应能力已经得到了很大改进,但对于现实世界开放的场景而言,从对物体的精细操作、移动操作到协作任务等一系列任务,仍然是一个巨大的挑战,机器人在不同环境和场景中进行能力泛化仍然不足。
ViLLA架构比VLA架构改进体现在哪里? 智元官方表示,ViLLA通过预测Latent Action Tokens(隐式动作标记),能够有效磨合图像-文本输入与机器人执行动作之间的转化。
具体而言,ViLLA架构是由VLM(多模态大模型) + MoE(混合专家)组成,其中VLM借助海量互联网图文数据获得通用场景感知和语言理解能力,MoE中的Latent Planner(隐式规划器)借助大量跨本体和人类操作数据获得通用的动作理解能力,MoE中的Action Expert(动作专家)借助百万真机数据获得精细的动作执行能力。
三者合力能让机器人的推理和操作能力得到大幅改善:
VLM 采用InternVL-2B,接收多视角视觉图片、力觉信号、语言输入等多模态信息,进行通用的场景感知和指令理解;
Latent Planner是MoE中的一组专家,基于VLM的中间层输出预测Latent Action Tokens作为CoP(Chain of Planning,规划链),进行通用的动作理解和规划;
Action Expert是MoE中的另外一组专家,基于VLM的中间层输出以及Latent Action Tokens,生成最终的精细动作序列;
智元团队将GO-1与之前的通用策略RDT-1B以及不含潜在规划器的基线模型进行评估对比,所有策略均在AgiBot World测试版数据集上进行了预训练,在所有任务和对比中,GO-1在很大程度上优于基线模型,提高了策略的泛化能力。
机器人想要具备现实物理操作上的灵活性,就需要在不同的环境和场景中进行泛化,而限制这样泛化能力的原因,被广泛认为是缺乏高质量的数据。
基于AgiBot World数据集的训练也正在突破这样的问题,智元展示了在该数据集上预训练的策略,无论是在已知场景(得分0.77对比0.47)还是分布外场景(得分0.67对比0.38),表现都优于在 Open X-Embodiment(OXE)数据集上训练的策略。






请到「今天看啥」查看全文


推荐文章
总裁俱乐部  ·  请远离负能量的人!
8 年前
HR实名俱乐部  ·  【天津】7.13HRBP公益巡讲,我们来啦!
7 年前