正文
:针对 Attention 算子进行了高度优化,实现细粒度的通信计算重叠。在 D、A、L、H 不同架构的 GPU 上,针对扩散模型常用的算子进行了深度调优,对计算密集算子进行无损的量化和稀疏化。
稀疏 Attention
:打破传统自注意力机制对序列中所有元素进行全局计算的模式。在处理高分辨率图像或长视频的长输入序列时,它基于对数据特征的深入分析,运用特定的算法筛选出与当前计算任务最相关的关键信息。
攻克模型架构异构性难题
-
分布式架构
:扩散模型的工作流往往包含多个独立的角色(如 Text Encoder、VAE 、LLM 等),各个阶段对显存、计算、带宽等不同资源的瓶颈不同。针对这一特点,我们为不同角色选择最适合的并行方法和资源配置,并将工作流看成一张 DAG。将耦合的一个工作流中的不同角色(如 Encoder、VAE、DiT 等),拆分为独立的微服务,并通过统一调度异步执行没有依赖的角色,比如 image encoder 和 text encoder。
-
异构部署
:同时结合各个阶段对显存、计算、带宽等不同资源瓶颈,利用异构硬件的不同特性,优化部署成本。
-
灵活可扩展
:支持自定义 pipeline 和服务组件,支持不同类型的模型推理的低成本接入。
突破实时性与扩展性限制
-
内存优化
:veFuser 根据模型结构优化中间结果内存排布,消除算子激增导致的临时内存开销。在仅 24GB 显存的 GPU 上,veFuser 可流畅运行 720p 视频生成任务。
-
高效并行框架
:集成多种并行框架,包括混合流水线并行(PipeFusion)、序列并行(USP 并行)和 CFG 并行,显著提升多卡扩展性。
-
通信效率提升
:通过 veTurbo rpc (支持在 vpc 上实现虚拟 RDMA 传输通信协议)实现多角色的通信,同时针对 tensor 数据优化传输性能。
多 Lora 动态切换
Lora(Low Rank Adaptation)是内容生成任务中一个常用的插件能力,能够很好地控制生成内容的风格模式。然而,频繁地切换 Lora 往往会带来较高的开销。因此,veFuser 针对这一通用能力,实现了多 LoRA 动态切换功能,基于用户请求实现近乎无感的风格切换体验。
精度无损
通过严格的 GSB(Good - Same - Bad) 评测,veFuser 确保速度提升不会牺牲输出质量。无论是图像还是视频生成,veFuser 始终保持与传统框架相当或更优的生成效果,实现速度与品质的完美平衡。
图 1 veFuser 产品架构
某 14B 开源模型 视频生成任务 - 单机性能(Dit 单机 8 卡)
D 卡
I2V (Image to Video,图生视频)性能相较于业内 SOTA 水平延时降低 50% 左右,480P 每 infer-steps 平均 1.8 秒,720P 每 infer-steps 平均 5 秒。
T2V (Text to Video,文生视频)性能相较于业内 SOTA 水平延时降低 60% 左右,480P 每 infer-steps 平均 1.5 秒,720P 每 infer-steps 平均 4 秒。