专栏名称: PaperWeekly

PaperWeekly是一个推荐、解读、讨论和报道人工智能前沿论文成果的学术平台，致力于让国内外优秀科研工作得到更为广泛的传播和认可。社区：http://paperweek.ly | 微博：@PaperWeekly

全注意力一统多模态！快手&港中文提出FullDiT，重构可控视频生成范式

PaperWeekly · 公众号 · 科研 · 2025-06-04 12:17

正文

请到「今天看啥」查看全文

性能局限：生成质量始终不如全模型微调，灵活性不足。

FullDiT 如何破局？

论文提出统一全注意力框架，将文本、相机、身份、深度等多模态条件直接融合为统一序列表示，从根本上解决上述问题，实现 “一次训练，多控全能”！

▲ 图1: 我们在左侧展示了多任务视频生成模型的扩散过程。出于研究目的，本文展示了仅包含时间维度的相机信息、仅包含空间维度的身份信息以及同时包含时间和空间维度的深度视频等输入条件。该模型架构还可以纳入额外的条件，以实现更广泛的应用。如图（a）所示，FullDiT 通过以下步骤对各种输入进行统一处理：（1）将输入条件进行 patchify 并转换为统一的序列表示；（2）将所有序列拼接成一个长序列；（3）利用全自注意力机制学习多种条件。相比之下，早期基于 Adapter 的方法（如图（b）所示）采用不同的 Adapter 独立运行以处理各种输入，导致分支冲突、参数冗余以及性能欠佳。每个模块的下标表示其层索引。

核心创新1：统一架构学习多种控制条件

FullDiT 摒弃传统基于 Adapter 方法的“补丁式”设计，采用 Transformer 的全注意力架构，将 3D 相机轨迹、参考图像、深度视频等多模态信号统一编码为序列 tokens，通过 3D 自注意力机制捕捉时空关联。

长序列建模：相机运动（提供场景整体运镜信息）、参考图特征（提供主体物体信息）、深度视频（提供结构和深度信息）统一编码为序列表征，在共享的注意力模块中联合处理条件，从而生成逻辑一致的视频序列；
无需额外参数：无需额外参数，仅通过共享注意力层实现多条件控制。
最佳效果：从根本上解决了基于 Adapter 的方法中常见的分支冲突问题，并通过有效的端到端训练实现了卓越的多任务可控生成。
Scaling Ability 和 Emergent Ability：该建模方式可以展现良好的 Scaling Ability 和 Emergent Ability，如使用更少数据达到更好的控制效果，训练中未见过的条件组合（如 “相机+身份” 联合控制）也能通过注意力机制推理生成合理画面。