专栏名称: 大数据文摘
普及数据思维,传播数据文化
目录
相关文章推荐
软件定义世界(SDX)  ·  阿里云:AI应用开发新范式 ·  昨天  
数据派THU  ·  ICML 2025 | ... ·  2 天前  
数据派THU  ·  【ICML2025】MARGE:通过引导式探 ... ·  2 天前  
51好读  ›  专栏  ›  大数据文摘

机器人的“ChatGPT时刻”来临?英伟达带火世界模型,国内厂商紧跟而上,谷歌也坐不住了!

大数据文摘  · 公众号  · 大数据  · 2025-01-16 18:04

正文

请到「今天看啥」查看全文


这很大程度上是因为扩展物理AI的训练数据要困难得多,因为所需的数据必须包含交叉的观察结果和行动序列,这些行动会干扰物理世界,并且可能会对系统以及世界造成严重破坏。

因此,世界基础模型(WFM)作为物理AI能够安全与之交互的物理世界的数字孪生体,就成为科学家们长期寻求的解决数据扩展问题的良方。

英伟达团队提出了一种 “先预训练再后训练” 的范式。

预训练的世界基础模型(WFM)是世界模型通用型产物,他们利用大规模、多样化的视频数据集进行训练的,这些数据集捕捉了现实世界物理现象的不同方面。由于预训练的世界基础模型提供了良好基础,所以用于后训练的数据集规模可以小得多。这种方式为构建物理AI系统提供了一种更高效的策略。

Cosmos等于是为行业打了个底子,在2000万小时的现实世界人际互动、环境、工业、机器人和驾驶数据中对9000万亿个token进行了训练。

开发者可以使用Cosmos的开放模型进行文本到世界或者视频到世界的一键生成:

简单来讲,有了这样的世界基础模型就可以实现海量合成数据生成,以增强训练数据集,在物理AI模型(如机器人)部署到现实世界之前对其进行大量的测试和调试,实现在虚拟世界里进行强化学习以加速AI代理进步。

比如合成逼真的自动驾驶数据或者机器人抓取数据:

技术报告中概述了搭建Cosmos的综合方法,涵盖了数据筛选流程、连续型和离散型标记器的设计、扩散式和自回归式世界基础模型的架构,以及针对各类下游物理人工智能任务的微调过程等。

但是也强调了这种生成出来的“世界”有着很多局限性,比如缺乏物体恒存性,在富含接触的动力学方面不够准确,例如所生成视频的逼真度虽然可以,但并非总能体现出对基本物理原理(如重力、光的相互作用以及流体动力学)的遵循情况。而且,以怎样的评估标准来评判物理逼真度目前是困难的。

最后值得一提的是,英伟达Cosmos背后的核心贡献者,华人几乎占据着半壁江山。







请到「今天看啥」查看全文