专栏名称: 大数据文摘
普及数据思维,传播数据文化
目录
相关文章推荐
51好读  ›  专栏  ›  大数据文摘

七问具身智能:谁是下一代 AI 范式的关键变量 | 未来人工智能先锋论坛圆桌

大数据文摘  · 公众号  · 大数据  · 2025-04-04 18:00

正文

请到「今天看啥」查看全文


我们在研发具身机器人时也面临关键问题:究竟需要采集哪些数据?虽然现有模型的数据标准看似完备,但其实际任务能力仍需验证。 目前有两个核心疑问:是否需要更高层次的抽象模型?现有数据模态(如视觉、触觉等)是否足够? 尤其值得注意的是,当前硬件在触觉数据采集上存在明显局限,通常只能获取基础力反馈。更根本的挑战在于:由于技术路线尚未定型,我们面临数据采集的"迭代风险",即投入大量资源获取的数据,很可能被后续模型升级所淘汰。

王鹤: 具身智能发展的关键瓶颈在于数据,主要分为真实数据和仿真合成数据两类。真实数据包括无动作标签的被动观测数据(如互联网视频)和机器人遥操作采集的交互数据。 虽然互联网视频数据量庞大,但训练价值有限,因为模型需要先具备基础运动能力才能有效模仿学习。 因此,银河通用主张优先使用大量合成数据进行预训练,之后再用真实机器人数据精调。

在人形机器人尚未达到自动驾驶百万量级规模的现阶段,合成数据是最具价值的数据资产。 采用"99%合成数据+1%真实数据"的混合训练范式 ,能高效推进技术发展,在最后关键环节利用真实数据完成应用落地,是目前最行之有效的策略。

图注:星动纪元创始人、清华大学助理教授陈建宇

陈建宇: 在多个模型中,视觉最重要,我为其赋予 80 分的权重。 视觉信息获取方便,可来自互联网或仿真生成。其次是触觉。若要实现精细操作,必须依赖触觉数据;最后是声音。声音不仅可用于语音识别转文字,还能辅助操作过程。例如倒水时,流水声有助于控制动作。然而,目前大多数 AI 模型不具有这些反馈能力。

卢策吾: 关于方法论和技术路线,目前已有诸多争议,但现阶段无需纠结优劣。不同类型的数据各有信息价值,关键在于合理分配和搭配使用。这就像配方优化,随着技术发展,自会趋于平衡。

常见的数据来源包括:

互联网数据 规模大,但缺乏操作细节,多为动作表象,虽不完美,仍能提供识别线索。

仿真数据 同样丰富,但在处理复杂接触和数据管理上存在挑战,尤其当识别容错率低时,使用成本高。

真机数据 在缺乏力反馈时噪声大,加入反馈系统又提升成本。新兴的“伴随式操作”则通过人类替身方式,降低了采集难度与成本。

03

三问算法:跨本体是实现泛化的最后一步

李亚洲: 自深度学习时代以来,数据始终是人工智能的重要组成部分,而核心算法同样不可或缺。

请问:在具身机器人研究中,如何定义其泛化问题?当任务规模与复杂度不断提升时,如何实现跨本体、跨场景、跨任务的泛化能力,迈向更高水平的通用性?

图注:宇树科技的春晚机器人,现场扭秧歌

王仲远: 泛化能力是具身智能的核心挑战。尽管网络上机器人演示精彩纷呈,真正能现场稳定运行的团队并不多,我们是其中之一。另外,我观察到现在一个2岁的小朋友通过刷短视频自学,再通过尝试和练习掌握,自主 学会了拆糖果、用牙签串蓝莓。 这正体现了“预训练 + 后训练”的学习范式。 我们希望未来机器人也能像人一样自主学习、积累技能,拓展更多实际应用。

王鹤: 我非常认同王仲远院长关于人类学习的观察。一个2岁小朋友通过观看拆糖果的视频并获得“糖果奖励”,展现出类似多模态大模型+强化学习的能力。而具身智能领域对此仍处在早期探索阶段。 在讨论任务通用性、能力泛化和跨本体迁移时,我们应意识到:人类其实也不具备真正的跨本体能力。 例如,长期卧床会导致肌肉萎缩,需要康复训练才能恢复功能,这只是生理状态的变化,已说明跨本体对任何智能体都是极大挑战。因此,应先在单一本体上实现泛化,再拓展技能,最后再考虑跨本体迁移。

从产业角度看,应优先聚焦具备生产价值的基础任务,如抓取、放置、移动等。这些动作虽简单,却是工厂、零售等场景的基本组成,支持大量真实应用。

图注:银河通用机器人在操作拿取杯子和水

只要结合大模型和少量数据,让机器人在基础任务上实现较强泛化,就能显著提升生产力。







请到「今天看啥」查看全文