专栏名称: 大语言模型和具身智体及自动驾驶
讨论计算机视觉、深度学习和自动驾驶的技术发展和挑战
目录
相关文章推荐
星火之声网  ·  “给自己的一段话” ·  12 小时前  
星火之声网  ·  “给自己的一段话” ·  12 小时前  
猎聘  ·  会吵架,是在一家公司最基本的生存技能 ·  23 小时前  
猎聘  ·  会吵架,是在一家公司最基本的生存技能 ·  23 小时前  
浙江大学团委  ·  《博雅集》: 随笔漫谈古今二三事 ·  2 天前  
51好读  ›  专栏  ›  大语言模型和具身智体及自动驾驶

R2S2:通过现实世界现成的技能空间释放人形机器人的潜力

大语言模型和具身智体及自动驾驶  · 公众号  ·  · 2025-06-13 23:39

正文

请到「今天看啥」查看全文


首先,构建一个包含 n 个共享且易于定义基于强化学习的原始技能库 {π^prim^_1,...,π^prim^_n},其中每个技能 π^prim^_i 都经过单独调优,并进行 sim2real 评估(可用于实际应用)。然后,将这些技能集成并编码,将学习过程 (IL) 和强化学习 (RL) 结合成一个集成学生策略 π^ensem^,并包含一个潜技能 z 空间。学习的技能空间包含各种可用于实际应用的运动技能,作为技能先验,并以 sim2real 可迁移的方式辅助任务执行。利用学习的技能 z 空间,训练高级规划器 π^plan^ 来采样潜技能,从而完成实际任务。该流程如图所示。用 PPO [50] 进行所有策略训练,使用域随机化进行 sim2real 迁移,并使用 Isaac Gym [51] 进行模拟。


原始技能库

为了释放人形机器人的伸展潜能,设计原始技能库 {π^prim^_1,...,π^prim^_n},涵盖运动、身体姿势调整(例如改变身高、弯腰)和伸手。每个技能都经过单独调优和 sim2real 评估,以最大限度地提升其能力和现实世界的稳定性。

原始技能可以理解为目标条件化的强化学习策略 π^prim^ : G^prim^ × S^prim^ → A^prim^,其中 G^prim^ 包含指定技能目标的目标命令 g_t;S^prim^ 包含机器人在每个时间步 t 的本体感受观察和历史动作信息 s_t = [ω_t, gr_t, q_t, q ̇_t, a_t−1],其中 ω_t、gr_t、q_t、q ̇_t、a_t−1 分别为基准坐标系中的角速度、投影重力、身体部位自由度位置、身体部位自由度速度和最后一帧的低级动作。值得注意的是,对于 q_t、q ̇_t、a_t−1,每个策略仅将相关身体部位信息作为不同技能的观察值。A^prim^ 包含机器人身体部位动作(PD 目标)a^prim^,该动作被输入到 PD 控制器中进行扭矩计算。a^prim^ 仅控制每个技能的相应身体部位,其他关节是固定的。它们的训练奖励可以写成:r_prim = r_command + r_behavior + r_regularization,其中 r_task 表示技能命令跟踪目标,r_behavior 描述针对 sim2real 稳定性的技能特定行为约束,r_regularization 是与技能无关的正则化。

对于运动,G^loco^ = ⟨v_x^c^ , v_y^c^ , ω^c^⟩ 驱动人形机器人在机器人基框架内追踪机器人基所需的线速度和角速度。为了约束运动行为并复制类似人类的双足步态,将每只脚的运动建模为摆动和站立阶段的交替序列,并引入周期性奖励框架。

对于身体姿势调整,G^body^ = ⟨h^c^ , p^c^⟩ 跟踪全局坐标系中的基准高度和俯仰角。对于这样的技能,运动学和动力学对称性对于现实世界的稳定性至关重要。







请到「今天看啥」查看全文