专栏名称: 极客公园
科技创新者的大本营。汇聚优秀的产品报道、评测视频和高质量的线下活动。
目录
相关文章推荐
新浪科技  ·  【#余承东称不能以差生限制行业标准##余承东 ... ·  16 小时前  
新浪科技  ·  【#特斯拉财富美国500强排名首次下滑##微 ... ·  17 小时前  
雷科技  ·  红米这机子,价格血崩了! ·  昨天  
新浪科技  ·  【#金价年内涨超25%#】#金价冲破3350 ... ·  昨天  
51好读  ›  专栏  ›  极客公园

DeepSeek 再次震惊全球:价格只有 OpenAI 1/25,利润率却超过 500%

极客公园  · 公众号  · 科技媒体  · 2025-03-01 17:50

正文

请到「今天看啥」查看全文


  • EP 涉及多个节点,因此天然需要 Data Parallelism(DP),不同的 DP 之间需要进行负载均衡。

  • 因此,本文的主要内容是如何使用 EP 增大 batch size,如何隐藏传输的耗时,如何进行负载均衡。

    01

    大规模跨节点专家并行
    (Expert Parallelism / EP)

    由于 DeepSeek-V3 / R1 的专家数量众多,并且每层 256 个专家中仅激活其中 8 个。模型的高度稀疏性决定了我们必须采用很大的 overall batch size,才能给每个专家提供足够的 expert batch size,从而实现更大的吞吐、更低的延时。需要大规模跨节点专家并行(Expert Parallelism / EP)。
    我们采用多机多卡间的专家并行策略来达到以下目的:
    • Prefill:路由专家 EP32、MLA 和共享专家 DP32,一个部署单元是 4 节点,32 个冗余路由专家,每张卡 9 个路由专家和 1 个共享专家
    • Decode:路由专家 EP144、MLA 和共享专家 DP144,一个部署单元是 18 节点,32 个冗余路由专家,每张卡 2 个路由专家和 1 个共享专家

    02

    计算通信重叠

    多机多卡的专家并行会引入比较大的通信开销,所以我们使用了双 batch 重叠来掩盖通信开销,提高整体吞吐。
    对于 prefill 阶段,两个 batch 的计算和通信交错进行,一个 batch 在进行计算的时候可以去掩盖另一个 batch 的通信开销;
    Prefill 阶段的双 batch 重叠
    对于 decode 阶段,不同阶段的执行时间有所差别,所以我们把 attention 部分拆成了两个 stage,共计 5 个 stage 的流水线来实现计算和通信的重叠。
    Decode 阶段的双 batch 重叠
    关于更多双 batch 重叠的细节,可以参考我们的 profiling 数据的 GitHub 仓库:https://github.com/deepseek-ai/profile-data。

    03







    请到「今天看啥」查看全文