万卡集群真实部署，已节省数百万 GPU 小时！MoE 通信优化技术 COMET 开源

字节跳动技术团队 · 公众号 · 架构 · 2025-03-25 12:00

正文

因此，团队认为现有的系统级 MoE 解决方案仍面临两大困境：

MoE 架构的稀疏特性导致计算和通信间的依赖动态且复杂。MoE 会动态地将 Token 分配给不同专家，而传统的粗粒度矩阵分块方式，会导致 GPU 频繁等待远程数据，从而造成计算资源闲置。

如图 1 所示，当专家 0 需要在紫色「数据块」中进行 Tile-level 的计算时，必须先通过 Token-level 的通信接收远程数据（Token B），这种由于复杂数据依赖导致的计算-通信粒度上的错配，使得效率严重下滑。

图 1：单层 MoE 模型示意图

（专家分布在 GPU0 和 GPU1 两张卡上）

另一个问题是，现有方法无法精确控制计算任务和通信任务对硬件资源的使用，因而，也无法根据不同的模型结构和动态输入，来自适应地调整资源分配。这导致计算和通信无法实现无缝重叠，进而产生大量流水线气泡，增加了系统的延迟。

因此，团队认为：解决 MoE 模型中计算与通信的 粒度不匹配问题 是实现两者高效重叠的关键，同时，还需要根据负载情况自适应调整通信和计算的资源分配，以进一步实现无缝重叠。

COMET 是一个针对 MoE 模型的通信优化系统，通过细粒度计算-通信重叠技术，助力大模型训练优化。

团队分析发现，MoE 架构包含两条不同的生产-消费流水线:「计算-通信流水线」和「通信-计算流水线」。如图 2 所示，数据在流水线中流动时，各流水线内的操作会通过一个共享缓冲区链接，该缓冲区被称作「共享张量」。

图 2：COMET 的设计结构

基于此，COMET 引入 两项关键机制 ，以最小化整体延迟并提升流水线性能。

通过分解和重调度共享张量，解决通信与计算之间的粒度错配问题，实现细至单 Token 级的重叠。

推荐文章

美团技术团队 · 可信实验白皮书系列04：随机轮转实验

2 天前

美团技术团队 · 可信实验白皮书系列03：随机对照实验

2 天前

架构师之路 · 包你不知道，究竟如何从架构上保证，区块是匀速生成的？（第71讲）

昨天

架构师之路 · 这么多人聊比特币，大部分人压根不懂什么是“挖矿”？（第70讲）

4 天前

字节跳动技术团队 · 掘金 AI 编程社区- 人人都是 AI 编程家竞赛

昨天

B座12楼 · 当人工智能来袭，未来我们的职业都将被机器奴役？

8 年前

钱眼 · 观点｜持续拉升藏主力罕见意图，明日或迈入攻坚期

8 年前

穿衣搭配女王 · 这个春天流行在裙子里穿它?！好看又时髦!

8 年前

健身课代表 · 五个原因告诉你练腿的重要性

7 年前

FIBO · 健身神器 - 完美线条从弹力绳开始

7 年前