专栏名称: 机器之心
专业的人工智能媒体和产业服务平台
目录
相关文章推荐
爱可可-爱生活  ·  [LG]《Solving ... ·  14 小时前  
新机器视觉  ·  机械手视觉引导相关算法 ·  昨天  
爱可可-爱生活  ·  【[198星]LiteRT-LM:为边缘设备 ... ·  2 天前  
人工智能那点事  ·  你抢不到的专家号,他们0.02秒就能挂一个… ... ·  2 天前  
爱可可-爱生活  ·  战略思维 (解读见长图) ... ·  2 天前  
51好读  ›  专栏  ›  机器之心

刚刚,LeCun亲自出镜,Meta推出新世界模型!

机器之心  · 公众号  · AI  · 2025-06-12 08:53

主要观点总结

文章介绍了Meta推出的基于视频训练的世界模型V-JEPA 2,它能够实现最先进的环境理解与预测能力,并在新环境中完成零样本规划与机器人控制。文章还提到了Meta使用自监督学习训练V-JEPA 2的方法,以及该模型在基准测试中的表现。

关键观点总结

关键观点1: Meta推出基于视频训练的世界模型V-JEPA 2

V-JEPA 2是Meta新推出的世界模型,能够实现最先进的环境理解与预测能力,并在新环境中完成零样本规划与机器人控制。

关键观点2: V-JEPA 2的特点与性能

V-JEPA 2包含两个主要组件:编码器和预测器。编码器接收原始视频并输出嵌入,这些嵌入能够捕捉世界状态的语义信息;预测器接收视频嵌入以及关于预测内容的附加上下文,并输出预测后的嵌入。在训练中,Meta使用基于视频的自监督学习来训练V-JEPA 2,无需额外的人工注释即可在视频上进行训练。

关键观点3: Meta在V-JEPA 2方面的创新

Meta在V-JEPA 2的训练中采用了两个阶段:无动作预训练和后续的动作条件训练。此外,Model还结合了语言模型,在视频问答基准上实现了最先进的性能。在训练的第二阶段,Meta利用机器人数据提升模型的规划能力,使模型能够在进行预测时考虑具体动作,然后用于控制。

关键观点4: V-JEPA 2与其他模型的比较

V-JEPA 2在Hugging Face关于物理推理榜单上排名第一,超越了GPT-4等其他模型。

关键观点5: Meta的未来计划

Meta计划在多个领域进一步探索世界模型,并专注于训练能够跨多个时间和空间尺度进行学习、推理和规划的分层JEPA模型,以及多模态JEPA模型。


正文

请到「今天看啥」查看全文



这次,Meta 首席 AI 科学家 Yann LeCun 亲自出镜,介绍世界模型与其他 AI 模型的不同。


他说,世界模型是一种现实的抽象数字孪生,AI 可以参考它来理解世界并预测其行为的后果。与理解语言不同,世界模型使机器能够理解物理世界,并能够规划行动路线以完成任务,而无需进行数百万次的试验,因为世界模型提供了对世界运行方式的基本理解。能够使用世界模型进行推理和规划的 AI 将产生广泛影响。例如,它可以用于帮助视障人士的辅助技术、在混合现实中为复杂任务提供指导、使教育更加个性化,甚至可以理解代码对程序状态和外部世界的影响。


此外,世界模型对于自动驾驶汽车和机器人等自主系统至关重要,它将开启机器人技术的新纪元,使现实世界中的 AI 智能体能够在不需要大量机器人训练数据的情况下帮助完成家务和体力任务。



V-JEPA 2 拥有 12 亿参数 ,基于联合嵌入预测架构(JEPA)构建。在此之前,Meta 已经证明,JEPA 架构在处理图像和 3D 点云等模态方面出色的表现。


此次发布的 V-JEPA 2 是在去年首个基于视频训练模型 V-JEPA 的基础上,进一步提升了动作预测和世界建模能力,使机器人能够通过与陌生物体及环境交互来完成任务。


我们先看几个示例:


开启对世界的理解。 V-JEPA 2 与语言建模相结合,可提供卓越的运动理解以及领先的视觉推理能力。当视频中的人跳向水面时,V-JEPA 2 给出了解读:向前,1.5 周空翻,无转体。



预测下一步会发生什么。 V-JEPA 2 可以预测世界将如何发展。示例中,当人正在做当前事情时,V-JEPA 2 能够预测接下来会发生什么。



下面是 V-JEPA 2 的一些性能指标:


image.png


目前,V-JEPA 2 相关论文、下载链接等已经放出。


image.png


  • 论文标题:V-JEPA 2: Self-Supervised Video Models Enable Understanding, Prediction and Planning

  • 论文链接:https://ai.meta.com/research/publications/v-jepa-2-self-supervised-video-models-enable-understanding-prediction-and-planning/







请到「今天看啥」查看全文