SLAC 旨在为移动机械手等高自由度机器人实现样本高效且安全的真实世界强化学习 (RL)。将现实世界的强化学习问题表述为部分可观测马尔可夫决策过程 (POMDP),由元组 M = (S, A, O, P, R_task , γ) 定义,其中 S 是底层环境状态集,A 是高维原生动作空间(例如关节速度或扭矩),O 是观测空间(例如相机图像),P(s′|s,a) 是状态转换函数,R_task (s, a) = sum R_i (s, a) 是具有 m ≥ 1 个项的复合奖励函数,γ ∈ (0, 1] 是折扣因子。目标是学习一个最大化预期回报的策略 π(a|o)。
由于 A 的高维性和现实世界任务的复杂性,在现实世界中直接优化 π(a|o) 会严重降低样本效率且不安全。为了解决这些问题,用在低保真模拟中学习的 N 维多离散潜动作空间 Z,它不能精确复制现实世界的视觉或物理属性,也不能实现任务奖励 R_task,但近似地保留关键的物理 affordance 并共享相同的机器人动作空间 A。
具体来说,目标是学习一个潜动作解码器 π_dec (a|o_dec, z),它基于在模拟和现实世界中共享的低维解码器观测 o_dec,将潜动作 z 转换为低级动作 a(例如,本体感受状态、家具姿势)。