专栏名称: 差评X.PIN

这些东西，大佬们肯定不想让你知道...

对话被引数 3 万+论文作者：AI视频的未来属于自回归

差评X.PIN · 公众号 · 热门自媒体 · 2025-06-02 00:00

主要观点总结

本文介绍了基于自回归模型生成视频的技术路径、优势以及未来发展趋势。文章通过对 Sand.ai 联合创始人张拯的采访，深入探讨了扩散模型和自回归模型在视频生成领域的研究历程、优缺点，以及融合趋势。张拯指出，自回归模型更适合生成长时间的视频内容，并在建模因果结构上具有天然优势。同时，他也提到了在数据准备和数据质量上的挑战，以及开源和创业的决定。文章还讨论了扩散蒸馏技术在提高模型推理效率上的作用，以及未来在视觉质量和物理仿真方面的提升方向。张拯及其团队对视觉模型技术界的贡献是突破性的，其开源模型 MAGI-1 为视频生成领域提供了新的可能性。

关键观点总结

关键观点1: 自回归模型与扩散模型的融合趋势

自回归模型更适合生成长时间的视频内容，并在建模因果结构上具有优势。扩散模型则在生成短视频片段上表现较好。两者结合可形成新的模式，实现优势互补。

关键观点2: 数据准备和数据质量的挑战

在视频生成领域，特别是在物理仿真方面，数据准备和数据质量是限制模型性能的关键因素。需要收集更多与碰撞、物理效应相关的数据集。

关键观点3: 开源与创业的决定

张拯选择开源模型，旨在推动视频生成技术的发展，并希望借助开源社区的力量。他认为，开源模型所带来的损失并不大，且有助于推动技术进步。

关键观点4: 扩散蒸馏技术在提高推理效率上的作用

扩散蒸馏技术可大幅减少模型在推理阶段的生成步骤，提高生成效率，从而节省计算成本。

关键观点5: 未来在视觉质量和物理仿真方面的提升方向

尽管模型在视觉效果方面已有所进步，但在物理仿真方面仍有改进空间。未来的研究需集中在数据准备、模型设计和算法优化上，以提高模型的物理一致性。

正文

请到「今天看啥」查看全文

但与此同时，我们也不会把长期目标完全局限在视频内容生成这件事本身。从更长远的视角来看，我们其实更关注的是模型是否具备对物理世界、对客观规律进行结构性建模和刻画的能力。

：可否用一些代表性例子说明自回归模型与扩散模型在建模物理效果上的天然差距？

：有两个代表性的例子可以说明。第一个是我们在训练自己模型的非常早期，就发现自回归模型有一个特点：对 “ 走路 ”、“ 跑步 ” 这样的动作刻画得非常好。

如果我们回头去看第一版 Sora 刚发布时放的一些 demo，以及后来其他一些友商的案例，即便是相对比较大的 model 生成的 demo，其实在 “ 走路 ” 或 “ 跑步 ” 这个动作上经常会出现一些问题。比如说：人物在走路时会顺拐；原本应该是左右腿交替前进，但在某个瞬间，突然就会变成连续两次迈左腿，或者连续两次迈右腿；这些动作在视觉上看起来不协调、不自然，很容易 “ 穿帮 ”。

知危在 MAGI-1 上测试的 “ 走路 ” 案例

而像这类情况，在 MAGI-1 的架构下，我们在非常小的模型、非常早期的阶段就发现：对于 “ 走路 ” 这种在时序上有明确节奏和规律的运动，模型的刻画效果就非常好。几乎不会出现像顺拐、左右腿交替出错这类问题。这确实是一个很重要的证据点，说明自回归建模对时序规律、物理效果的捕捉有天然优势。

知危在 MAGI-1 上测试的 “ 跑步 ” 案例

第二个例子是关于 video 续写（ video continuation ）。如果单纯指从一段已经生成的视频后面接着继续生成的能力，很多其它模型也可以做。但其它模型大多数采用的策略是基于前一段视频的最后一帧，以 “ 图像续写 ” 的方式来进行生成。这种方式有一个明显的弱点是：它很难获取之前整段视频中较长时间范围的信息；因此生成的新片段在动作连续性上经常会出现问题。

比如说给一段 5 秒钟的视频，内容是一个小球在屏幕上移动，它原本是按照某种明确的运动规律在运动的。如果只是拿前一段视频的最后一帧作为起点，用图像续写的方式继续生成，新视频往往就不再符合前 5 秒小球的运动规律，比如方向、速度可能就突然变了。但在我们目前的实现里，在运动连续性上表现显著更好，不会出现那种前后断开的感觉。

技术篇

：扩散模型和自回归模型在训练复杂度上有什么不同？根源是什么？如何解决？

：关于训练复杂度，可以从两个方面来说：第一个方面是由于算法本身的内在复杂度不同，第二个方面是我们目前对这两种模型的理解程度不同，导致训练策略、优化范式上的复杂度不同。

从这两种模型内在的复杂度来看。这里说的自回归模型，其实更多是指像 MAGI-1 这种本质上由自回归和扩散耦合在一起的模型。它实质上试图通过这种耦合结构，结合两种不同建模范式的优点。也正因为如此，它天然就会继承两种模型的复杂性，这也意味着它在系统设计和训练过程中的复杂性，显著高于纯粹的扩散模型或纯粹的自回归模型。这是它内在复杂度的一个直接来源。

具体实现里，因为现在不管是扩散模型还是自回归模型，其实底层大多都是基于 Transformer 架构来实现的。这也带来了进一步的工程挑战。 Transformer 架构里面有一个最关键的基础计算单元是 Attention。在扩散模型里传统上使用的是一种叫 Full Attention 的机制，也就是在一个 Attention 模块内部，任意两个元素都可以相互 “ 看见 ”，信息可以完全双向流通。而在自回归模型里通常采用的是 Causal attention，也就是所谓的因果掩码机制：当前这个元素只能看见它之前的历史元素，不能看未来的内容，而历史元素也看不到当前的内容。

那在 MAGI-1 架构下，必须同时处理这两种不同的 Attention 机制。而目前在整个业界，其实还没有一个特别成熟、标准化的实现方案，可以很好地统一并高效地调度这两种不同的 Attention 模式。这就带来了架构设计上的显著复杂度。

关于复杂度，第二点是，我们对这两类方法的理解程度不同，也导致了训练和系统实现上的一些复杂度差异。像传统的扩散模型，从 2021 年底开始，无论是在图像生成的学术研究还是工业应用中，其实已经有了非常广泛的探索。所以在这条线上，业界已经积累了很多 know-how 和成熟的工程实践。但是对于纯粹的自回归模型，或者是扩散 + 自回归耦合模型，在处理 video 和 image 等多模态任务时，大家整体的理解还相对较浅，包括我们自己在内。所以在实际的研发过程中，会遇到很多不确定性和复杂度。

：目前在结合扩散和自回归的优势方面，有哪些比较值得关注的成果？

：其实在我们刚开始研发 MAGI-1 的时候，业界在不同模态里其实各自都有一套成熟的最佳实践。

并且，除了视频这一领域目前还普遍使用纯粹的扩散模型之外，在很多其他模态和任务里，扩散 + 自回归的混合范式已经成为主流做法。比如说：Audio （语音）模型，Robotics （机器人/决策建模）中的 Decision making （决策建模）模型，在图像生成方面，尤其是 GPT-4o 发布之后，图像领域也能看到明显的类似转向。

在 Audio 方面，我最近关注到的就是 Kimi 和阶跃星辰，这两家国内在语音模型上表现很好的公司。他们近期也都在做 Audio 方向的探索，分别提出了 Kimi-Audio 和 Step-Audio，而且他们的 Audio 模型几乎清一色采用的是 Diffusion 与自回归相结合的方式。在整个决策建模领域（ Decision making ），也有一批工作沿着这条融合路线在走，比如：TransFusion，Diffusion Forcing等。

它们能够结合两类模型各自的优势。一方面，它结合了自回归模型在建模因果结构上的能力，另一方面，又结合了扩散模型在建模细粒度、高保真度内容上的能力，特别适合那些不一定涉及高阶智能，但对人类体验非常关键的信号，比如图像纹理、声音质感、微表情、微动作等。

：目前，语言方向也在探索扩散模型和自回归模型的选择或结合，您认为视频方向可以为此提供哪些经验或启发？两个方向在这方面有哪些共同点和不同点？

：总体来说，语言方向的出发点和视频方向，是有明显不同的。至少我目前观察到，语言方向的这类探索大致分为两个主要动因：第一类是偏学术导向的探索，就是出于一种 “ 既然扩散模型在图像、音频等其他模态中都取得了不错的效果，那么在语言这边是否也可以尝试看看 ” 的想法。这类工作更多体现为一种开放性实验，希望看看扩散模型是否能在语言生成中带来一些新的建模特性或生成风格，属于典型的探索性研究。

第二类则是更偏工程和系统性能导向的探索：这类动因源于自回归语言模型在每个 token 的生成过程中存在并行性瓶颈。因为自回归天然是顺序依赖的，所以在实时生成、低延迟交互等场景下，无法像扩散模型那样实现大规模并行。而扩散模型在这一点上具有优势，因此在一些需要高吞吐、快速响应的语言应用中，大家开始尝试将扩散机制引入语言建模中。

相比之下，视频方向的扩散+自回归结合则更加自然，因为视频天然就涉及时间建模（需要因果结构）和空间细节建模（需要高分辨重建）这两个维度，扩散和自回归分别恰好适合这两个方向。

所以我们在这两个不同方向的结合上，确实积累了一些关于特点和 knowhow 的观察，这些经验可以为语言模型提供一些有价值的参考。为了能够更快速、高效地在训练阶段同时支持扩散与自回归两种建模特性，我们也开源了一个基础算子，叫 MagiAttention，它本质上是一个偏 infra 层的组件。我们认为，视频方向后续在这类 infra 工具上的迭代上会有越来越多的工作。

视频生成在训练层面也和语言模型有很大不同，和超长的上下文有很大关系。比如MAGI-1的论文中有提到 “ 视频 token 的上下文长度极长，训练期间可达 400 万个token ” ，那么视频 token 与秒数、分辨率之间的关系是什么呢？

在处理视频数据时，会引入类似于语言中的 token 的概念。也就是说，我们会把一段视频离散化、分块编码成一组 token，这组 token 就是模型的输入。对于 token 的压缩方式，目前主流的做法是：把视频看作是时间维度上一系列图像的集合；然后在图像层面进行空间压缩；举个例子，比如原始图像是 1080P （即 1920×1080 ），我们将其压缩到像 240P 左右（即 320×240 ）的分辨率；接下来，一帧图像就会被表示成若干个 patch （小块）组成的 token 序列。例如，使用 16×16 的 patch 作为最小单元，那么一张 240P 的图像（即 320×240 ）就会被划分成大约 20×15 = 300 个 patch，也就是 300 个 token 。

在时间维度上，比如我们日常观看的视频通常是 30 FPS 或更高帧率，但在模型处理时，我们也会对帧率进行压缩——比如只保留 4 FPS 或 6 FPS，这样每秒钟就只取 4 到 6 帧来建模，如果保留 4 帧，那 1 秒钟视频就是 4 × 300 = 1200 个 token。所以，从整体来看：视频的总 token 数 ≈ 视频时长（秒） × 压缩后帧率 × 每帧压缩后 token 数。

计算视频 token 数通常会得到一个非常大的数字，这直接导致：视频任务在训练阶段所要处理的 token 数，是目前所有模态中最多的。远远超过语言模型（即使语言模型上下文已经在扩展到几十万 token ），也远超 Audio 模型，甚至比图文多模态模型（比如图文）处理的 token 总量还要大得多。

所以，一方面是需要对视频本身做压缩，另一方面就是在 infra 层面也需要针对视频这种特性做特定优化。比如在语言模型里，早期像 Kimi 那种强调 long context 的尝试，其实跟视频这边追求的 long context 是很相似的 —— 都是希望模型能处理更长时间范围、捕捉更大上下文的结构关系。

但这两者在实践中其实还是有一些差异的：在语言模型这边，不管是 long context 还是普通 context，整个训练流程通常会分成 pretraining 和 post-training 两个阶段；语言模型的 pretraining 阶段几乎不会使用 long context，哪怕模型最终是支持 long context 的；这是因为 pretraining 阶段计算成本极高，语言模型的训练者通常会选择性价比最高的 context 长度（比如 2K~4K ）进行训练；而真正的 long context 能力，往往是在 post-training 阶段，或者在 pretraining 最末尾花极小一部分算力的方式实现。

但这一点在 video 上非常不一样。在 video 任务中，其实从非常早期、甚至整个 pretraining 阶段开始，就持续面对特别长的上下文。这就使得：整个 video 领域对 long context 的优化需求，从一开始就是一个高优先级、不可回避的问题，其优先级比语言模型高很多。

： MAGI-1 基于扩散模型 DiT 构建，并且是扩散模型和自回归模型的结合体，具体是如何结合的？

：整体训练方式的主体仍然是使用扩散式的 loss ，也就是说优化的是一个基于逐步去噪过程的目标函数；但在信息流通的建模方式上，采用的是完全自回归的结构。

也就是：未来帧可以访问历史帧的信息，但历史帧完全无法看到未来帧。从实现层面讲，这种结合的核心就在于我们对 Transformer 的 Attention 机制进行了定制化改造：在 Attention 中引入了时间方向的因果掩码（ causal mask ），从而实现这种 “ 结构上自回归、优化上扩散 ” 的混合建模框架。

：论文中提到 “ MAGI-1 在每个块内采用 full attention 机制，并在块间采用 causal attention 机制 ”，如此设置的考虑是什么？

：这个设计背后主要有几个方面的出发点：第一点：提高算力利用率。我们在最初设计这套机制的时候，一个重要的目标是提升整体的算力效率；正如前面提到的，语言模型在尝试将自回归和扩散结合时，也有一部分原因是因为纯粹的自回归结构在算力利用率上的表现不佳；MAGI-1 这边也出于同样的考量，希望找到一种性能与建模能力的平衡方式。

第二点考虑是：对于块内，可以把它理解为一个非常短的视频片段，比如可能是一秒钟甚至更短的长度。在这样的时间尺度内，采用双向的 diffusion（full attention）机制来刻画内容，其实在现阶段的技术条件下效率更高、建模效果更成熟。

然后也有考虑到自回归模型的的特性。所以我们会选择采用相对较短的块，比如说一秒左右的长度。在这样一个非常短的时间范围内，其内容本质上就像一个小视频片段。在这种尺度下，是否建模因果关系其实影响不大。但当我们处理的是更长的视频序列时，时间维度上的结构性就变得更重要了。

：这是不是也要求，在短时长（比如一秒）的视频内容里，它的动态变化相对来说是比较小的？

：我们从数据设计的角度来说，并不会刻意去控制动态变化的大小，不会明确地筛掉高动态片段。但从实践观察上来看，确实是这样。如果是剧烈碰撞、快速爆炸、瞬时运动切换这类内容，在短时片段中出现高速大幅度变化，就会对模型造成压力，容易出错。

：为什么 MAGI-1 中给视频帧序列添加的噪声，是随时间（或视频帧序列）单调递增的？

：这个设计背后主要有两个方面的考量：第一个是出于自回归建模本身的逻辑：在自回归的语义下，我们的目标是根据过去较为清晰的内容，去预测未来还未发生的内容；所以模型在生成时，必须满足一个自然的方向性假设：“ 历史是确定的、清晰的，未来是未知的、模糊的 ”；因此在设计上，我们就需要让时间靠前的帧相对更 “ 干净 ”，而时间越往后噪声越强，从而模拟 “ 预测的不确定性逐渐增加 ” 这一过程。

但严格来说，标准的自回归模型并不像 MAGI-1 这样，中间不会存在一个 “ 模糊→清晰 ” 的过渡状态。而 MAGI-1 的设计之所以采用 “ 噪声随时间单调递增 ” 的结构，其实是出于两个非常实际的考虑：第一，训练效率更高；第二，推理时可以实现并行化和流式生成（ Streaming generation ）。

如果完全按标准自回归方式，你只能等前一秒视频完全生成完成（干净）后，才能生成下一秒，这就形成了严格的顺序依赖，不利于推理效率；而 MAGI-1 当前的设计是允许你在上一秒视频 “ 刚刚变得稍微清晰 ” 时，就可以去预测下一秒的视频；这使得我们可以在一定程度上实现推理过程的重叠与并行，极大地提升了流式生成（ streaming ）