CVPR 2025 | SketchVideo让手绘动起来，视频生成进入线稿时代

机器之心 · 公众号 · AI · 2025-05-17 14:00

正文

请到「今天看啥」查看全文

图 2 基于线稿的视频编辑结果

Part1 背景

近年来，AI 视频生成模型，如 Sora [2]、可灵 [3]（商用模型）和 CogVideo [4]、Wan [5]（开源模型）等，发展非常迅速。这些模型以文本及图像作为输入生成高质量视频，但在可控性和编辑性等方面有仍有提升空间。

线稿作为一种直观且易于使用的交互方式，已广泛应用于各类生成任务。早期研究 [6] 将线稿引入生成对抗网络（GAN），以生成特定类别的图像。随着扩散模型的发展，线稿控制也被引入到文生图模型中，如 Stable Diffusion [7]。其中，ControlNet [8] 是一项代表性工作，它基于 UNet 结构，通过复制 UNet 中的编码器作为控制网络，用于提取线稿特征，从而实现对几何细节的有效控制。

然而，视频生成模型在显存占用和计算开销方面远高于图像生成模型，且通常采用 DiT 架构 —— 由一系列 Transformer 模块串联而成，缺少编码器和解码器结构。这使得直接将 ControlNet 方法迁移至视频生成模型 [9] 面临挑战：一是没有明确的编码器可用作控制网络，二是复制大规模参数会带来过高的资源消耗。此外，让用户为视频的每一帧绘制线稿并不现实，因此更合理的做法是仅绘制一帧或两帧关键帧。但如何将这些关键帧的控制信号有效传播至整段视频，仍是亟需解决的技术难题。

相比视频生成，基于线稿的视频编辑更侧重于对局部区域的修改，要求生成结果与周围区域在空间和时间上保持一致，同时确保非编辑区域的内容不被破坏。现有方法多采用文本驱动的方式进行视频编辑 [10]，或通过传播第一帧的编辑结果到整段视频 [11]。然而，这些方法主要聚焦于整体风格变化，对于实现精确的局部几何编辑存在不足，仍需进一步探索。

Part2 算法原理

图 3 SketchVideo 的网络架构图，生成和编辑流程

该工作基于预训练的视频生成模型 CogVideo-2B（图 3a 灰色部分），在其基础上添加了可训练的线稿控制网络（图 3a 蓝色部分），用于预测残差特征，从而实现基于线稿的可控视频生成。不同于 PixArt-δ[12] 中通过复制前半部分的 DiT 模块构建控制网络的做法，该工作提出了一种跳跃式残差控制结构：将条件控制模块以固定间隔均匀嵌入至预训练模型的不同层次，分别处理不同深度的特征，提升控制能力的同时降低冗余计算。具体而言，线稿控制模块 0 的权重初始化自原始模块 0，模块 1 初始化自模块 6，依此类推。该设计在显著减少参数开销的同时，仍保持了良好的控制效果。