正文
不仅如此,该团队也宣布将会开源与该研究成果相关的一切,包括代码、数据、权重、架构和研究。另外,Enigma Labs 也发布了一篇技术博客,介绍了 Multiverse 背后的一些故事和技术。
-
GitHub:https://github.com/EnigmaLabsAI/multiverse
-
Hugging Face:https://huggingface.co/Enigma-AI
-
技术博客:https://enigma-labs.io/blog
团队介绍
该团队来自以色列,成员包括以色列的前 8200 部队成员以及一些领先的创业公司成员,拥有丰富的研究和工程开发经验,涵盖漏洞研究、算法、芯片级研究和系统工程。
他们写到:「我们秉持第一性原理思维,解决了 AI 生成世界中的一项开放性挑战:多人世界模型。」
Multiverse 架构解读
单人游戏架构回顾
要了解多人世界模型的架构,首先回顾一下单人世界模型中使用的现有架构:
该模型接收视频帧序列以及用户的操作(如按键),并利用这些信息根据当前操作预测下一帧。
它主要由三个部分组成:
多人游戏架构
为了构建多人游戏世界模型,该团队保留了上面的核心构建模块,但对结构进行了拆解 —— 重新对输入和输出进行了连接,并从头开始重新设计了训练流程,以实现真正的合作游戏:
-
动
作嵌
入器
——获取两个玩家的动作,并输出一个代表它们的嵌入;
-
去噪网络
——一个扩散网络,它能基于两个玩家之前的帧和动作嵌入,以一个实体的形式同时生成两个玩家的帧;
-
上采样器
——此组件与单人游戏组件非常相似。不过这里的上采样器会分别接收两个玩家的帧,并同时计算上采样后的版本。