正文
性能局限
:生成质量始终不如全模型微调,灵活性不足。
FullDiT 如何破局?
论文提出
统一全注意力框架
,将文本、相机、身份、深度等多模态条件直接融合为统一序列表示,从根本上解决上述问题,实现 “一次训练,多控全能”!
▲ 图1: 我们在左侧展示了多任务视频生成模型的扩散过程。出于研究目的,本文展示了仅包含时间维度的相机信息、仅包含空间维度的身份信息以及同时包含时间和空间维度的深度视频等输入条件。该模型架构还可以纳入额外的条件,以实现更广泛的应用。如图(a)所示,FullDiT 通过以下步骤对各种输入进行统一处理:(1)将输入条件进行 patchify 并转换为统一的序列表示;(2)将所有序列拼接成一个长序列;(3)利用全自注意力机制学习多种条件。相比之下,早期基于 Adapter 的方法(如图(b)所示)采用不同的 Adapter 独立运行以处理各种输入,导致分支冲突、参数冗余以及性能欠佳。每个模块的下标表示其层索引。
核心创新1:统一架构学习多种控制条件
FullDiT 摒弃传统基于 Adapter 方法的“补丁式”设计,采用 Transformer 的全注意力架构,将 3D 相机轨迹、参考图像、深度视频等多模态信号统一编码为序列 tokens,通过 3D 自注意力机制捕捉时空关联。
-
长序列建模:相机运动(提供场景整体运镜信息)、参考图特征(提供主体物体信息)、深度视频(提供结构和深度信息)统一编码为序列表征,在共享的注意力模块中联合处理条件,从而生成逻辑一致的视频序列;
-
无需额外参数:无需额外参数,仅通过共享注意力层实现多条件控制。
-
最佳效果:从根本上解决了基于 Adapter 的方法中常见的分支冲突问题,并通过有效的端到端训练实现了卓越的多任务可控生成。
-
Scaling Ability 和 Emergent Ability:该建模方式可以展现良好的 Scaling Ability 和 Emergent Ability,如使用更少数据达到更好的控制效果,训练中未见过的条件组合(如 “相机+身份” 联合控制)也能通过注意力机制推理生成合理画面。
核心创新2:分阶段训练:从基础到复杂的渐进学习
在预训练期间,我们观察到更具挑战性的任务需要更多训练,并且应该更早地被引入。相反,过早引入较容易的任务可能会导致模型优先学习它们,从而阻碍模型更好的学习到具有挑战性的任务。
基于这一观察,我们 = 采用文本 → 相机轨迹 → 参考图片 → 深度视频的递进式训练顺序,先让模型掌握语义理解(文本),再逐步学习动态控制(相机轨迹)、特征保持(参考图片)和空间结构(深度视频)。