主要观点总结
本文介绍了陈源培,灵初智能的联创,关于其创业经历、技术理解、以及灵初智能的发展计划等。文章还涉及陈源培对灵巧手技术、分层端到端模型、数据收集等话题的看法。
关键观点总结
关键观点1: 陈源培的创业经历和技术理解
陈源培曾在福布斯发布“30 Under 30”榜单上位列其中,他通过自学机器人技术并应用强化学习等先进技术,不断追求技术进步并探索新的应用场景。他认为技术和商业落地需要平衡,关注真实场景需求,注重落地价值。
关键观点2: 灵巧手技术和强化学习的应用
陈源培介绍了灵巧手技术和强化学习在机器人控制中的应用,他表示目前灵巧手技术面临诸多挑战,如数据收集、模型训练等。他认为未来需要结合人类专家的经验进行训练,以提高机器人的样本效率和泛化能力。
关键观点3: 分层端到端模型的发展和应用
陈源培介绍了Psi R1模型等分层端到端模型的发展和应用,他认为这种模型可以提高机器人的泛化性和数据采集效率,未来将是技术发展的一个重要方向。
关键观点4: 灵初智能的落地计划和通用机器人愿景
陈源培表示灵初智能专注于算法而非硬件,通过算法优化和软硬结合的方式实现机器人的商业化落地。他强调了物流场景的重要性,计划率先在该领域落地,并透露了灵初智能在打造通用机器人方面的想法和计划。
正文
AI科技评论:第一个灵巧手的工作是什么?当时面临了哪些难题?
陈源培:
我做的第一个项目是开源的 Benchmark——Bi-DexHands。当时国内用 Isaac 的比较少,但是我们看到了仿真在强化学习这种高自由度控制上的潜力。我们用灵巧手实现了一些当时看来比较 fancy(酷炫) 的任务,比如抛铅球、转魔方等大概 20 种不同的操作技能。这个开源工作我还是比较喜欢的,后面不少灵巧手的工作都是基于我们的代码。
当时面临两个问题。第一个问题是工程,当时的仿真器比较初级,我用的 Isaac 还是 Preview 第二个版本,基本没什么人用过,所以搭建整一套 pipeline(综合解决方案) 会比较难。第二个问题是强化学习的调试,强化学习训练一个任务就已经很难了,多任务的情况下非常考验强化学习的能力和算法的实现,当时NV官方的库rl-games还没出来,我们所有的算法都是自己写的。
AI科技评论:Bi-DexHands 和 Sequential Dexterity 这两个项目给你之后的工作带来了哪些启发?
陈源培:
Bi-DexHands 是做仿真环境,后面工作都是基于 Bi-DexHands 的 Benchmark 继续做的。Sequential Dexterity 是我在斯坦福的项目,这个工作给我的启发更多是长程的概念,之前强化学习很少能做这么长的任务。我们发现可以扩展强化,把多个技能连接在一起。灵初发布的 Psi R0 和 R1 很重要的一个点就是怎么在 low level 上打通长程,我们采纳了之前的工作经验,所以完成得比较快。现在的 Sim2Real、一些长程的串联,基本上 Psi R0 都用上了。
AI科技评论:在你接触灵巧手的这些年,灵巧手发生了哪些变化?可以划分为哪几个发展阶段?
陈源培:
灵巧手不是一个新问题,很早就有很多人在研究。
我在斯坦福的导师 Karen Liu,她早在上世纪九十年代就开始发灵巧手操作相关的论文。90 年代 Shadow 的灵巧手其实就出来了。后来 2000 年到 2020 年间灵巧手上面的进展非常有限,因为传统的控制方法对于灵巧手这种高维控制来说非常难,基于神经网络的强化学习,模仿学习这些“学习”理论又还没发展的特别好。
OpenAI 在 2019 年用 Sim2Real 的强化学习复原打乱的魔方,是灵巧手领域出现的第一个拐点,让大家看到了强化学习算法在灵巧手控制上的效果。当时他们拿了非常多的 CPU 集群做并行仿真,迁移也非常吃力,没有更多的数据做更多事,后面团队也解散了。第二个拐点是 Isaac 这种 GPU 并行仿真的出现,让我们能非常轻易地运行几万个并行环境,使得数据问题得以解决了一部分。
目前第三个拐点还没有出现,但可以看到,下一个可能是人类世界的数据利用率。未来如果能把人类活动里提取的数据转化成灵巧手能用的数据,我觉得会出现第三个拐点。
AI科技评论:强化学习是做灵巧手必不可少的一个部分吗?与传统的模仿学习相比,强化学习有哪些不可替代的优势?
陈源培
:灵巧手控制是一个比较高维的问题,跟环境的交互也相对复杂,不用强化学习会非常难解。奖励在强化学习里是一个非常重要的机制,也是强化学习跟模仿学习比较重要的区别。模仿学习本质上是拟合数据,没有明确目标,只要把数据拟合好就行。但是强化学习不一样,强化学习有奖励机制,所以它有目标。
因为灵巧手的自由度比较高,所以传统控制方法特别难解决。假设灵巧手有24个自由度,那策略输出可能需要 24 维的向量来控制它,要知道夹爪只要输出一维的向量就可以了。
AI科技评论:当前灵巧手技术研发中,强化学习的自主探索能力会面临哪些挑战?会结合人类专家的经验进行训练吗?
陈源培:
强化学习可以分为两种,一种是仿真强化学习(Sim2Real),在仿真里面训练然后迁移到真机里面;另一种是真机强化学习,直接在真实世界的机器人上面做强化学习。这两种各有各的问题,但也各有各的优势。仿真环境里可以自己设置奖励,训练也不难,主要难度是后面的 Sim2Real Transfer(Sim2Real迁移),会产生Sim2Real Gap(Sim2Real差距)。真机不像仿真有这么多个环境,机器人样本效率低、训练难,奖励奖励也很难设置。
而且真机强化学习奖励的噪声相比仿真会很大,比如训练一个机器手到物体的移动,过程中可能会因物体Pose Estimation的抖动造成奖励机制的不精确。
现在都是结合人类专家经验进行训练。一个说的比较多的就是 Offline to Online (从离线到在线)的强化学习,把人类以前的数据用在一些强化学习的预训练上,提高强化学习样本效率。比如一个叫 RLPD 的算法,每次在真机强化学习创作过程中采样一半人类的数据,再采样一半机器人自己探索的数据,结合起来更新网络。这样每次更新的时候机器人都会把人类完成得比较好的数据作为参考。还有一种叫逆强化学习的方法,比如用人类的示教数据训一个奖励模型,用这个模型输出奖励来进行真机强化学习训练。
AI科技评论:2025 ICRA 大会上灵巧手大放异彩,有很多人说高精度、高级程度、视触觉融合会是下一代灵巧手竞争的关键,你怎么看待这个观点?
陈源培:
从技术上来说,
高精度和视触觉融合一直是下一代灵巧手竞争的关键
。视触觉其实都研究好多年了,后面也很多人拿它做工作。但我觉得视触觉传感器的这个领域甚至可能比灵巧手还初级,所以这个东西肯定是未来研究的重点。但是我们要想好一个落地指标,比如视触觉到底能做到多小、怎么解决不稳定性等。
Psi R1 分层端到端 VLA 模型
AI科技评论: Psi R1 模型这个工作的契机和背景是什么?在 Psi R0 的基础上增加了哪些亮点?