专栏名称: 大语言模型和具身智体及自动驾驶
讨论计算机视觉、深度学习和自动驾驶的技术发展和挑战
目录
相关文章推荐
旅拍誌  ·  他拍的蓝绿色调,也太治愈了叭! ·  19 小时前  
贵州日报  ·  湖南一烟花厂爆炸,已致1死6失联9伤 ·  昨天  
51好读  ›  专栏  ›  大语言模型和具身智体及自动驾驶

SLAC:用于全身真实世界强化学习的模拟预训练潜动作空间

大语言模型和具身智体及自动驾驶  · 公众号  ·  · 2025-06-08 01:55

正文

请到「今天看啥」查看全文


在粗略对齐的低保真模拟器中学习与任务无关的潜动作空间 [22, 23, 24, 25]。SLAC 采用动作空间塑造成:(1) 时间扩展,通过降低决策频率,实现比直接使用低级动作空间更有效的探索;(2) 解缠结,允许每个潜动作维度独立地影响状态,从而促进多个目标的联合优化而不会发生冲突;(3) 安全,避免可能损坏机器人的危险行为。第二步,一种 离线策略强化学习算法 使用学习的 SLAC 潜动作空间,直接在现实世界中高效地学习下游任务。至关重要的是,这种设计为现实差距提供了稳健性:即使潜动作在模拟和现实世界之间表现出轻微的行为不匹配,下游策略仍然可以通过根据现实世界的奖励信号直接选择有效的潜动作来学习解决任务。

SLAC 如图所示:



SLAC 旨在为移动机械手等高自由度机器人实现样本高效且安全的真实世界强化学习 (RL)。将现实世界的强化学习问题表述为部分可观测马尔可夫决策过程 (POMDP),由元组 M = (S, A, O, P, R_task , γ) 定义,其中 S 是底层环境状态集,A 是高维原生动作空间(例如关节速度或扭矩),O 是观测空间(例如相机图像),P(s′|s,a) 是状态转换函数,R_task (s, a) = sum R_i (s, a) 是具有 m ≥ 1 个项的复合奖励函数,γ ∈ (0, 1] 是折扣因子。目标是学习一个最大化预期回报的策略 π(a|o)。

由于 A 的高维性和现实世界任务的复杂性,在现实世界中直接优化 π(a|o) 会严重降低样本效率且不安全。为了解决这些问题,用在低保真模拟中学习的 N 维多离散潜动作空间 Z,它不能精确复制现实世界的视觉或物理属性,也不能实现任务奖励 R_task,但近似地保留关键的物理 affordance 并共享相同的机器人动作空间 A。

具体来说,目标是学习一个潜动作解码器 π_dec (a|o_dec, z),它基于在模拟和现实世界中共享的低维解码器观测 o_dec,将潜动作 z 转换为低级动作 a(例如,本体感受状态、家具姿势)。

一旦学习了潜动作解码器,SLAC 就会在给定下游任务奖励的情况下,在现实世界中训练一个感知到任务的策略 π_task (z|o)。π_task (z|o) 根据高维现实世界观测 o(例如,相机图像)的历史选择潜动作,并使用样本高效离线策略强化学习方法,在现实世界中进行完全训练。

任务策略和潜动作解码器共同定义针对低级机器人动作的分层视觉运动策略,该策略可直接在配备机载传感器的真实机器人上运行。如图展示两步方法的完整流程:







请到「今天看啥」查看全文