专栏名称: APPSO

让智能手机更好用的秘密。

详解一夜刷屏的视频生成 AI Magi-1 ：现实世界的模拟器，又一个来自中国的重磅开源

APPSO · 公众号 · app · 2025-04-26 11:57

主要观点总结

本文介绍了开源视频生成模型Magi-1的相关信息和特点，包括其物理真实性、自回归架构、全球首个高质量自回归视频模型等。同时，文章还提到了Magi-1的团队背景和创始人曹越的相关信息，以及Magi-1的技术原理、解决思路、训练方法、模型结构等。最后，文章强调了Magi-1的目标是让视频生成符合规律，构建更真实的物理世界模拟器。

关键观点总结

关键观点1: Magi-1是全球首个高质量自回归视频模型，为开源形式，给中国开源涨了波脸。

Magi-1在物理真实性上表现优秀，特别是在物理真实性测试中高于谷歌的VideoPoet。其采用自回归架构，遵循现实的因果律，使模型在相关推理任务中遥遥领先。

关键观点2: Magi-1背后的团队是Sand.ai，创始人曹越具有深厚的科研背景。

Sand.ai团队在视频生成领域有着出色的表现，团队人员构成主要是技术人员，其中包括科研出身的算法专家。团队从底层通信元语到上层调度算法都进行了全栈创新。

关键观点3: Magi-1的技术原理包括chunk-by-chunk的自回归生成方法、block-causal attention机制等。

Magi-1采用chunk-by-chunk的自回归生成方式处理视频数据，通过block-causal attention机制保证每一段的生成都带着「记忆」，并且不会被未来的信息干扰。

正文

请到「今天看啥」查看全文

各类相关量表

然后，这个 Magi 开源了，从4.5B到24B：

https://huggingface.co/sand-ai/MAGI-1

4.5B 模型预计4月底上，最低 4090 就能跑

再然后，他们还上线了一个可以开箱即用的产品：

https://sand.ai/magi

Magi-1 背后的团队，是 Sand.ai

创始人是曹越，「光年之外」联合创始人。

之前，在他办公室里聊了半个下午， 问了大量私货，有了这篇文章

本篇，应是对 Sand.ai 最全面的介绍了

是谁做的？

创始人是曹越。

清华特等奖学金，ICCV 马尔奖（Marr Prize）， Swin Transformer 共同一作，博士毕业后加入微软亚洲研究院，后任智源研究院视觉中心负责人 。

null

摸来了 ICCV 的 PPT

2023 年年初，他和王慧文、袁进辉共同创立了大模型公司「 光年之外 」，担任 算法联创 。

之后，光年之外被收购。

袁进辉成立了「硅基流动」，而曹越则继续深耕视频生成方向， 并 2024 年正式创立 Sand.ai（三呆科技...这名字太抽象了） ，Magi-1 便是团队推出的首个模型产品。

我眼中的曹越

曹越非常敏锐，思维 极为清晰 ，不讲玄虚， 会把一个个概念拆成因果 讲清楚。

有一天，在 Sand.ai 的办公室，我们就视频生成的未来，聊了整个下午。

主题很直接

视频能不能被真正「生成」？

如果能，路径应该是怎样的？

我们聊了视频生成的各类方法，比如 DiT。看起来高效、效果也不错，但它本质上是 把几秒钟的视频，一次性生成 。

生成视频的时候， 过去和未来是同时出现，不存在时间 。

因此，在视频生成的 AI 中： 控制「场景」容易，控制「发生」很难 。

问题很直白

如果视频是时间的表达，那生成它的方式，就必须能处理时间。

这也是 Magi-1 的起点： 如果想让视频更符合人的认知，就要有时间因果性，就不能假装时间是静态的 。

于是，Magi-1 便开始了此路径上的探索： 秒内 Dit，秒外自回归，每一段视频都是基于前面的内容，往下推进 。

这也便有了后面会看到的 chunk-by-chunk 结构 ，也是为什么 它可以精确到每一秒发生什么 、能接着拍下去，而不是只是「画出一段动图」。

团队不大，出身很硬

Sand.ai 的团队不大， 三十人的团队，几乎都是技术人员，其中不乏科研出身的算法专家 。

联合创始人张拯，也是 Swin Transformer 的作者之一，ACM 亚洲金牌，MSRA 老同事。他和曹越在微软合作了五年，一起打磨过不少视觉模型。Google Scholar 引用接近 5 万，算是这条路线里默默干活、极少抛头露面的那种人。