专栏名称: InfoQ
有内容的技术社区媒体。
目录
相关文章推荐
51好读  ›  专栏  ›  InfoQ

火山引擎 veFuser:面向扩散模型的图像与视频生成推理服务框架

InfoQ  · 公众号  · 科技媒体  · 2025-05-16 15:59

正文

请到「今天看啥」查看全文


:针对 Attention 算子进行了高度优化,实现细粒度的通信计算重叠。在 D、A、L、H 不同架构的 GPU 上,针对扩散模型常用的算子进行了深度调优,对计算密集算子进行无损的量化和稀疏化。

  • 稀疏 Attention :打破传统自注意力机制对序列中所有元素进行全局计算的模式。在处理高分辨率图像或长视频的长输入序列时,它基于对数据特征的深入分析,运用特定的算法筛选出与当前计算任务最相关的关键信息。

  • 攻克模型架构异构性难题

    • 分布式架构 :扩散模型的工作流往往包含多个独立的角色(如 Text Encoder、VAE 、LLM 等),各个阶段对显存、计算、带宽等不同资源的瓶颈不同。针对这一特点,我们为不同角色选择最适合的并行方法和资源配置,并将工作流看成一张 DAG。将耦合的一个工作流中的不同角色(如 Encoder、VAE、DiT 等),拆分为独立的微服务,并通过统一调度异步执行没有依赖的角色,比如 image encoder 和 text encoder。

    • 异构部署 :同时结合各个阶段对显存、计算、带宽等不同资源瓶颈,利用异构硬件的不同特性,优化部署成本。

    • 灵活可扩展 :支持自定义 pipeline 和服务组件,支持不同类型的模型推理的低成本接入。

    突破实时性与扩展性限制

    • 内存优化 :veFuser 根据模型结构优化中间结果内存排布,消除算子激增导致的临时内存开销。在仅 24GB 显存的 GPU 上,veFuser 可流畅运行 720p 视频生成任务。

    • 高效并行框架 :集成多种并行框架,包括混合流水线并行(PipeFusion)、序列并行(USP 并行)和 CFG 并行,显著提升多卡扩展性。

    • 通信效率提升 :通过 veTurbo rpc (支持在 vpc 上实现虚拟 RDMA 传输通信协议)实现多角色的通信,同时针对 tensor 数据优化传输性能。

    多 Lora 动态切换

    Lora(Low Rank Adaptation)是内容生成任务中一个常用的插件能力,能够很好地控制生成内容的风格模式。然而,频繁地切换 Lora 往往会带来较高的开销。因此,veFuser 针对这一通用能力,实现了多 LoRA 动态切换功能,基于用户请求实现近乎无感的风格切换体验。

    精度无损

    通过严格的 GSB(Good - Same - Bad) 评测,veFuser 确保速度提升不会牺牲输出质量。无论是图像还是视频生成,veFuser 始终保持与传统框架相当或更优的生成效果,实现速度与品质的完美平衡。

    图片

    图 1 veFuser 产品架构

    veFuser 性能优势
    某 14B 开源模型 视频生成任务 - 单机性能(Dit 单机 8 卡)

    D 卡

    I2V (Image to Video,图生视频)性能相较于业内 SOTA 水平延时降低 50% 左右,480P 每 infer-steps 平均 1.8 秒,720P 每 infer-steps 平均 5 秒。

    T2V (Text to Video,文生视频)性能相较于业内 SOTA 水平延时降低 60% 左右,480P 每 infer-steps 平均 1.5 秒,720P 每 infer-steps 平均 4 秒。

    图片







    请到「今天看啥」查看全文


    推荐文章
    经典人生感悟  ·  人在做,天在看。(好文)
    8 年前
    懂懂日记  ·  搓出灰
    7 年前
    传媒圈招聘  ·  孟京辉戏剧工作室大招募(含实习生)
    7 年前