专栏名称: 我爱计算机视觉
关注计算机视觉与机器学习技术的最前沿,“有价值有深度”,分享开源技术与最新论文解读,传播CVML技术的业内最佳实践。www.52cv.net 微博:计算机视觉与机器学习,QQ群:928997753,52CV君个人账号:Your-Word。
目录
相关文章推荐
Python爱好者社区  ·  爆笑!研究生录取通知书能有多敷衍?同学,得麻 ... ·  2 天前  
Python爱好者社区  ·  彻底崩塌!美国IT业裁员狂飙35% ·  昨天  
请辩  ·  养老金为什么不能降? ·  2 天前  
请辩  ·  房价的下一轮崩盘从哪里开始? ·  3 天前  
白话区块链  ·  从MeMe到AI:加密市场的新机会在哪里? ·  2 天前  
51好读  ›  专栏  ›  我爱计算机视觉

ICML 2025 | 加州伯克利和 MIT 提出 Sparse VideoGen,挖掘模型稀疏性,...

我爱计算机视觉  · 公众号  ·  · 2025-05-08 13:32

正文

请到「今天看啥」查看全文


  • 网页:https://svg-project.github.io/


  • 这是一种 完全无需重新训练模型 的视频生成加速方法。通过挖掘注意力机制中的 空间与时间稀疏性 ,配合 自适应稀疏选择与算子优化 ,成功将 推理时间减半 。令人惊讶的是,它生成的视频与 Dense Attention 方法相比, 几乎没有肉眼可见的差别 ,保持极高的像素保真度 (PSNR = 29)。Sparse VideoGen 也是第一个能够达到这种级别的像素保真度的方法。

    目前,Sparse VideoGen 已经支持了 Wan 2.1, HunyuanVideo, CogVideoX 等多种 SOTA 开源模型,并且 T2V(文生视频),I2V(图生视频)都可以加速。他们的所有代码均已开源。该工作已经被 ICML 2025 录取。

    扩散式视频生成的性能瓶颈

    扩散模型(Diffusion Models)已经成为图像与视频生成的主流方案。特别是基于 Transformer 架构的 Video Diffusion Transformers(DiTs),在建模长时空依赖与视觉细节方面具有显著优势。然而,DiTs 模型的一大特征 ——3D Full Attention—— 也带来了巨大的计算负担。每个 token 不仅要考虑当前帧的空间上下文,还要参与跨帧的时间建模。随着分辨率和帧数的提升,Attention 的计算复杂度以二次增长,远高于普通图像生成模型。

    例如,HunyuanVideo 和 Wan 2.1 在 1×H100 上生成 5 秒 720p 视频需要 29 分钟,其中 Attention 计算占据超过 80% 的时间 。如此高昂的代价,大大限制了扩散视频模型在真实世界中的部署能力。

    Image

    Sparse VideoGen 的核心设计

    抓住 Attention 中的稀疏性

    在 Video Diffusion Transformer 的 Attention Map 中存在两种独特的稀疏模式: 空间稀疏性 (Spatial sparsity) 和时间稀疏性 (Temporal sparsity) 。大多数 Attention Head 都可以归类为其中之一,并可以相应地定义两类 Attention Head:Spatial Head 和 Temporal Head。

    Spatial Head - 关注空间邻近的 Token

    Spatial Head 主要关注相同帧及相邻帧中的 Token,其 Attention Map 呈







    请到「今天看啥」查看全文