专栏名称: 极客公园

科技创新者的大本营。汇聚优秀的产品报道、评测视频和高质量的线下活动。

目录

相关文章推荐

新浪科技 · 【#余承东称不能以差生限制行业标准##余承东 ... · 16 小时前

新浪科技 · 【#特斯拉财富美国500强排名首次下滑##微 ... · 17 小时前

雷科技 · 红米这机子，价格血崩了！ · 昨天

新浪科技 · 【#金价年内涨超25%#】#金价冲破3350 ... · 昨天

新浪科技 · 【#深蓝汽车辟谣行驶中推送广告#：车辆处于P ... · 昨天

51好读 › 专栏 › 极客公园

DeepSeek 再次震惊全球：价格只有 OpenAI 1/25，利润率却超过 500%

极客公园 · 公众号 · 科技媒体 · 2025-03-01 17:50

正文

请到「今天看啥」查看全文

EP 涉及多个节点，因此天然需要 Data Parallelism（DP），不同的 DP 之间需要进行负载均衡。

因此，本文的主要内容是如何使用 EP 增大 batch size，如何隐藏传输的耗时，如何进行负载均衡。

01

大规模跨节点专家并行

（Expert Parallelism / EP）

由于 DeepSeek-V3 / R1 的专家数量众多，并且每层 256 个专家中仅激活其中 8 个。模型的高度稀疏性决定了我们必须采用很大的 overall batch size，才能给每个专家提供足够的 expert batch size，从而实现更大的吞吐、更低的延时。需要大规模跨节点专家并行（Expert Parallelism / EP）。

我们采用多机多卡间的专家并行策略来达到以下目的：

Prefill：路由专家 EP32、MLA 和共享专家 DP32，一个部署单元是 4 节点，32 个冗余路由专家，每张卡 9 个路由专家和 1 个共享专家
Decode：路由专家 EP144、MLA 和共享专家 DP144，一个部署单元是 18 节点，32 个冗余路由专家，每张卡 2 个路由专家和 1 个共享专家

02

计算通信重叠

多机多卡的专家并行会引入比较大的通信开销，所以我们使用了双 batch 重叠来掩盖通信开销，提高整体吞吐。

对于 prefill 阶段，两个 batch 的计算和通信交错进行，一个 batch 在进行计算的时候可以去掩盖另一个 batch 的通信开销；

Prefill 阶段的双 batch 重叠

对于 decode 阶段，不同阶段的执行时间有所差别，所以我们把 attention 部分拆成了两个 stage，共计 5 个 stage 的流水线来实现计算和通信的重叠。

Decode 阶段的双 batch 重叠

关于更多双 batch 重叠的细节，可以参考我们的 profiling 数据的 GitHub 仓库：https://github.com/deepseek-ai/profile-data。

03

请到「今天看啥」查看全文

推荐文章

新浪科技 · 【#余承东称不能以差生限制行业标准##余承东称不能一个人乱搞让集-20250603094623

16 小时前

新浪科技 · 【#特斯拉财富美国500强排名首次下滑##微软苹果特斯拉排名集体-20250603080112

17 小时前

雷科技 · 红米这机子，价格血崩了！

昨天

新浪科技 · 【#金价年内涨超25%#】#金价冲破3350美元关口##金价#现-20250602175855

昨天

新浪科技 · 【#深蓝汽车辟谣行驶中推送广告#：车辆处于P档才弹出，可自主关闭-20250602145628

昨天

齐鲁晚报 · 披着白大褂的“泰迪精”?网曝上海一医生利用手术机会多次性侵女患者！

8 年前

金融行业网 · 交易员独白：我是如何一步步输光2016年终奖的！

8 年前

煮酒论史 · 日本兵胯下为什么都包块三角白布？可别小看了它的作用

8 年前

药智网 · 【独家】非酒精性脂肪性肝炎新药研发（下篇）

8 年前

电子商务研究中心 · 收藏|95页PPT：《中国互联网未来5年趋势白皮书》

7 年前

移动版

51好读 - 微信公众号文章