专栏名称: 字节跳动技术团队
字节跳动的技术实践分享
目录
相关文章推荐
字节跳动技术团队  ·  远程访问代理+内网穿透:火山引擎边缘网关助力 ... ·  6 小时前  
字节跳动技术团队  ·  稀土掘金 x Trae ... ·  6 小时前  
51好读  ›  专栏  ›  字节跳动技术团队

火山引擎 veFuser:面向扩散模型的图像与视频生成推理服务框架

字节跳动技术团队  · 公众号  · 架构  · 2025-05-14 18:00

正文

请到「今天看啥」查看全文


降低计算复杂度与延迟

  • 高性能算子 :针对 Attention 算子进行了高度优化,实现细粒度的通信计算重叠。在 D、A、L、H 不同架构的 GPU 上,针对扩散模型常用的算子进行了深度调优,对计算密集算子进行无损的量化和稀疏化。
  • 稀疏 Attention :打破传统自注意力机制对序列中所有元素进行全局计算的模式。在处理高分辨率图像或长视频的长输入序列时,它基于对数据特征的深入分析,运用特定的算法筛选出与当前计算任务最相关的关键信息。

攻克模型架构异构性难题

  • 分布式架构 :扩散模型的工作流往往包含多个独立的角色(如 Text Encoder、VAE 、LLM 等),各个阶段对显存、计算、带宽等不同资源的瓶颈不同。针对这一特点,我们为不同角色选择最适合的并行方法和资源配置,并将工作流看成一张 DAG。将耦合的一个工作流中的不同角色(如Encoder、VAE、DiT等),拆分为独立的微服务,并通过统一调度异步执行没有依赖的角色,比如 image encoder 和 text encoder。
  • 异构部署 :同时结合各个阶段对显存、计算、带宽等不同资源瓶颈,利用异构硬件的不同特性,优化部署成本。
  • 灵活可扩展 :支持自定义 pipeline 和服务组件,支持不同类型的模型推理的低成本接入。

突破实时性与扩展性限制

  • 内存优化 :veFuser 根据模型结构优化中间结果内存排布,消除算子激增导致的临时内存开销。在仅 24GB 显存的 GPU 上,veFuser 可流畅运行 720p 视频生成任务。
  • 高效并行框架 :集成多种并行框架,包括混合流水线并行(PipeFusion)、序列并行(USP 并行)和 CFG 并行,显著提升多卡扩展性。
  • 通信效率提升 :通过 veTurbo rpc (支持在 vpc 上实现虚拟 RDMA 传输通信协议)实现多角色的通信,同时针对 tensor 数据优化传输性能。

多 Lora 动态切换

Lora(Low Rank Adaptation)是内容生成任务中一个常用的插件能力,能够很好地控制生成内容的风格模式。然而,频繁地切换Lora往往会带来较高的开销。因此,veFuser 针对这一通用能力,实现了多 LoRA 动态切换功能,基于用户请求实现近乎无感的风格切换体验。

精度无损

通过严格的 GSB(Good - Same - Bad) 评测,veFuser 确保速度提升不会牺牲输出质量。无论是图像还是视频生成,veFuser 始终保持与传统框架相当或更优的生成效果,实现速度与品质的完美平衡。

图1 veFuser 产品架构


veFuser 性能优势



某 14B 开源模型 视频生成任务-单机性能(Dit 单机 8 卡)

D卡

I2V (Image to Video,图生视频)性能相较于业内 SOTA 水平延时降低







请到「今天看啥」查看全文