正文
研究中,他们从一个预训练的扩散
Transformer
(
CogVideo-X 5B
)开始,原本其只能以
16
帧每秒的速度生成
3
秒的短片段,或以
8
帧每秒的速度生成
6
秒的短片段。
但是,研究人员添加了从头初始化的测试时训练层,并对该模型进行微调,以便根据文本分镜脚本生成一分钟的视频。
他们将自注意力层限制在
3
秒的片段内,以便将研究成本保持在可控范围内。整个训练过程运行在
256
个英伟达
H100
上,相当于消耗了
50
小时的训练时长。
为了快速进行迭代,
研究人员基于约
7
小时的《猫和老鼠》动画片,并辅以人工标注的分镜脚本,整理了一个文本到视频的数据集。
作为概念验证,本次研究中的数据集侧重于复杂、多场景、长镜头且充满动态动作的叙事。而对于视觉和物理真实感方面,此前人们已经取得显著进展,所以本次研究未作重点强调。
(来源:资料图)
从宏观层面来看,本次方法只是在预训练的扩散
Transformer
(
Diffusion Transformer
)上添加了测试时训练层,并在带有文本注释的长视频上进行微调。
他们采用了预先添加测试时训练层、然后再进行微调的方法,这种方法原则上适用于任何主干架构。
研究中,他们选择扩散
Transformer
作为初步演示,因为它是视频生成中最流行的架构。由于在视频上预训练扩散
Transformer
的成本过高,所以研究人员从
CogVideo-X 5B
的预训练检查点开始。
他们将视频设计为包含多个场景,
每个场景包含一个或多个
3
秒的片段,并采用
3
秒片段作为文本与视频配对的最小单位,之所以这样做的原因有三个:
第一,原始预训练的
CogVideo-X
的最大生成长度为
3
秒。第二,在《猫和老鼠》的剧集中,大多数场景的时长至少为
3
秒。第三,以
3
秒为一段构建多阶段数据集最为方便。
在推理阶段,研究人员按照以下三种格式中的任何一种,以详细程度递增的顺序来编写长视频的文本提示。
• 格式
1
:用
5-8
句话简短概述情节。
• 格式
2
:用大约
20
句话详细描述情节,每句话大致对应
3
秒的片段。
• 格式
3
:分镜脚本。每一个
3
秒钟的片段都由一段
3
到
5
句话来描述,内容包含背景颜色和镜头移动等细节。一个或多个段落组成的脚本组,会被严格地界定为属于某些场景,并且要使用关键词
“