火山引擎 veFuser：面向扩散模型的图像与视频生成推理服务框架

InfoQ · 公众号 · 科技媒体 · 2025-05-16 15:59

正文

：针对 Attention 算子进行了高度优化，实现细粒度的通信计算重叠。在 D、A、L、H 不同架构的 GPU 上，针对扩散模型常用的算子进行了深度调优，对计算密集算子进行无损的量化和稀疏化。

稀疏 Attention ：打破传统自注意力机制对序列中所有元素进行全局计算的模式。在处理高分辨率图像或长视频的长输入序列时，它基于对数据特征的深入分析，运用特定的算法筛选出与当前计算任务最相关的关键信息。

攻克模型架构异构性难题

分布式架构：扩散模型的工作流往往包含多个独立的角色（如 Text Encoder、VAE 、LLM 等），各个阶段对显存、计算、带宽等不同资源的瓶颈不同。针对这一特点，我们为不同角色选择最适合的并行方法和资源配置，并将工作流看成一张 DAG。将耦合的一个工作流中的不同角色（如 Encoder、VAE、DiT 等），拆分为独立的微服务，并通过统一调度异步执行没有依赖的角色，比如 image encoder 和 text encoder。
异构部署：同时结合各个阶段对显存、计算、带宽等不同资源瓶颈，利用异构硬件的不同特性，优化部署成本。
灵活可扩展：支持自定义 pipeline 和服务组件，支持不同类型的模型推理的低成本接入。

突破实时性与扩展性限制

内存优化：veFuser 根据模型结构优化中间结果内存排布，消除算子激增导致的临时内存开销。在仅 24GB 显存的 GPU 上，veFuser 可流畅运行 720p 视频生成任务。
高效并行框架：集成多种并行框架，包括混合流水线并行（PipeFusion）、序列并行（USP 并行）和 CFG 并行，显著提升多卡扩展性。
通信效率提升：通过 veTurbo rpc （支持在 vpc 上实现虚拟 RDMA 传输通信协议）实现多角色的通信，同时针对 tensor 数据优化传输性能。

多 Lora 动态切换

Lora（Low Rank Adaptation）是内容生成任务中一个常用的插件能力，能够很好地控制生成内容的风格模式。然而，频繁地切换 Lora 往往会带来较高的开销。因此，veFuser 针对这一通用能力，实现了多 LoRA 动态切换功能，基于用户请求实现近乎无感的风格切换体验。

精度无损

通过严格的 GSB（Good - Same - Bad）评测，veFuser 确保速度提升不会牺牲输出质量。无论是图像还是视频生成，veFuser 始终保持与传统框架相当或更优的生成效果，实现速度与品质的完美平衡。

图 1 veFuser 产品架构

veFuser 性能优势

某 14B 开源模型视频生成任务 - 单机性能（Dit 单机 8 卡）

D 卡

I2V （Image to Video，图生视频）性能相较于业内 SOTA 水平延时降低 50% 左右，480P 每 infer-steps 平均 1.8 秒，720P 每 infer-steps 平均 5 秒。

T2V （Text to Video，文生视频）性能相较于业内 SOTA 水平延时降低 60% 左右，480P 每 infer-steps 平均 1.5 秒，720P 每 infer-steps 平均 4 秒。