主要观点总结
本文围绕大模型在机器人领域的应用现状展开,介绍了机器人学习、具身大脑等概念,以及机器人与大模型、芯片厂商之间的三角拉力关系。文章详细阐述了机器人端侧模型发展的难点,包括数据不足、算力瓶颈、芯片适配等问题,并探讨了如何解决这些问题,如通过合作、优化模型、提高芯片性能等方式。最后,文章指出模型厂商、芯片厂商和机器人厂商需要共同合作,解决出货量问题,以提升机器人智能水平和场景应用。
关键观点总结
关键观点1: 机器人与大模型、芯片厂商的三角拉力关系
机器人领域的发展需要大模型的智能支持和芯片的算力支撑,但三者之间存在复杂的依赖关系,形成了一种三角拉力关系。
关键观点2: 机器人端侧模型发展的难点
机器人端侧模型面临数据不足、算力瓶颈、芯片适配等难点,限制了模型在机器人领域的应用和发展。
关键观点3: 解决机器人端侧模型发展的途径
通过合作、优化模型、提高芯片性能等方式,可以解决机器人端侧模型发展的难点,推动机器人领域的发展。
正文
具体来看,一方面,目前机器人依然在执行逐个任务,更多停留在交互层面,没有看到学习能力的增强,多模态任务的实现;另一方面,机器人也更多在执行短期动作(叠衣服、做菜、打开微波炉),很少用到大模型的规划能力,如能一次做几十上百步。
例如,面壁智能目前聚焦的目标是让机器人能够完成更加多样复杂的、长线的、多步操作的任务,执行准确率更高、纠错能力更好,当下正在逐个击破。
事实上,前述目标往往是需要在长程规划、工具调用、模型协同等全方位能力上具备极高专业性的,这是大模型厂商所擅长的领域。相比之下,机器人公司在这些方面的积累和突破可能会较为困难,因此,通过合作引入端侧模型,也能够更高效地解决问题。
就泛化性而言,大模型掌握世界知识、常识知识以及物理建模的能力,帮助机器人实现泛化能力的提升十分关键,但从前沿成果上来看,泛化性这一部分也还属于初期摸索阶段。
RockAI 所选择的路径便是如此,其旗下 Yan 架构大模型的技术路线是,将文本、语音、视频以及机体参数做一个整体对齐,然后一起输入给大模型。
VLA 大脑模型则通过提升物理建模能力来增强泛化性的,如操纵未见过的东西、理解每个物体的重量等等。不过,在业内看来,VLA 的实际效果离消费级可用的精度和准确率要求都还相差较远。
整体看来,大模型原有的能力暂未在机器人侧发挥出来,大模型的泛化、规划、纠错等能力在机器人侧的应用都还比较初步。此前,字节跳动 GR-2 就曾将文生视频的尝试加入到 default 的 policy model 里,但机器人做若干具体的任务这方面也还在探索中。
字节 GR-2 通用机器人
而大模型能力无法发挥、智能化难以提升的背后,其一是行业还没摸索到真正适合机器人的模型框架:目前有的工作基于多模态大模型,也有的工作基于Diffusion Policy的(如RDT 1B),也有两者结合各自负责大小脑建模的,但还没有像 LLM 一般走向统一的架构。
此外,不同形态的机器人对大模型会有不同的要求,短时间内可能实现的设备泛化是形态一致,但不同参数的机器人,形态可能还是相对比较一致的。
不同的输入方式对于大模型也存在挑战,如四足机器人和双足机器人的行走控制方式差异非常大,在大脑层面,向前走可以统一,但底下细致的操控方面差异很大。
这意味着,并没有哪种机器人形态更有利于大模型快速实现设备泛化。当下,大模型的大脑派与机器人的肢体派的融合情况,存在知识壁垒,正在摸索互相打通。
除前述以外,其中最大的难点当属数据——模型厂商很难获取到大量的、多元化(从视觉、语言到动作)的预训练数据,还处在 case by case 的阶段,很难提升模型执行任务的泛化性,以及在这基础上去探索更难的场景。
举例来看,目前的机器人还无法做到精确控制手部动作,就是因为缺乏多元指令微调数据集:
大模型精准控制机器人用手拿东西,要先输出目标物的坐标,而如果是一个五指灵巧手,还要输出五个手指握东西的点位。而模型先通过视觉与传感器判断坐标,然后握住再拿起来,这样的操作在理论上可行,但现在的模型水平甚至无法达到这种程度。
RockAI CMO 邹佳思告诉 AI 科技评论,「目前,手部控制还是交给机器人厂商的小脑来做,我们只需要告诉机器人要执行的动作,比如挥手,我们核心解决的问题是对指令尤其是模糊指令的识别。」
过往指挥机器人得要用特别精确的指令,而且很多指令都是写死的。今年的 WAIC 在进行机器人直播时,有的机器人翻车就是因为指令说得不对,更本质是机器人无法理解自然语言,端侧模型则能提高机器人对自然语言的理解能力。
再回到数据不足本身,当中的关键问题其实在于机器人厂商暂未实现量产,还无法从专业级转变为消费级产品。
从此前无人驾驶的演进历程来看,特斯拉起初也并非依靠自动驾驶获取第一批用户,而是靠车机本身的性能,之后随着用户数量增多,产生的数据也愈发变多,这样才有了数据训练模型,进而改进无人驾驶,形成所谓正循环。
但反观机器人当下的实际应用场景,现如今机器人的购买对象主要还是研究人员和偏业务的团队,并且还要先交钱再生产,实际应用场景显然不够多。
针对这一情况下,也有业者向曾向 AI 科技评论分析过破局的关键:依赖所有数据都采集自用户不太现实,如果有团队能够标注出第一版数据,可能可以解决这一问题。