专栏名称: 雷峰网
中国智能硬件第一媒体
目录
相关文章推荐
51好读  ›  专栏  ›  雷峰网

昇腾超大规模MoE模型推理优化技术揭秘:MTP调度10倍提速,INT打平FP8

雷峰网  · 公众号  · 科技媒体  · 2025-05-21 21:08

正文

请到「今天看啥」查看全文


(2)批处理推理场景的适配问题
在实际应用中,批处理推理可以提高系统的整体吞吐量。然而,投机推理技术在批处理场景下的应用并不简单。投机推理本质上来说是用空闲的算力换取更高的吞吐,需要处理好投机模型和投机框架引入的耗时,不然无法发挥投机推理在批处理场景下的加速潜力。
4、昇腾高吞吐推理投机框架FusionSpec
针对投机推理在模型解码阶段的高计算密度天然匹配昇腾高计算带宽比的特点,为了充分发挥这一优势,在低时延大并发场景下实现高吞吐,解决上面提到的诸多问题,华为团队提出了投机推理框架 FusionSpec 深度优化 MTP 在昇腾上的推理性能,框架耗时从1 0 ms优化至小于1ms,其主要特性为:
(1)投机框架优化
为了充分发挥昇腾的计算能力,减少 NPU 的空闲时间,我们对投机推理的框架进行了优化:
  • 考虑 DeepSeek 的模型架构,MTP 层需要主体模型的最后一层结果作为输入,将 MTP 层的执行直接排在主体模型执行之后。
- 优化后的调度顺序避免了推理的步间数据传输
- 同时在 PD 分离的部署场景下也有效减少了节点间的数据传输。
  • 参考 MTP 层训练模式,将 MTP 层视为模型的一部分,注意力算子复用主体模型的控制参数。参数复用省去了控制参数的重新构造,降低了框架耗时。
通过优化点1和2,我们压缩了单步推理内主体模型与投机模型间的框架耗时,实现了较低时延下的高并发、大吞吐。为了进一步压缩框架内的前后处理耗时,无论是 Multi-step 还是前后处理全异步方案,都需要提供投机场景昇腾上的轻量步间准备能力。
  • 我们通过 NPU 上的轻量步间准备,实现了 MTP 场景下的 CPU 单次准备、NPU 多次推理,进一步降低了步间的框架耗时。
(2)投机场景算子优化
为了在投机推理开启时进一步发挥昇腾的计算能力,压缩端到端时间,我们对采样操作以及投机场景的多头潜在注意力(MLA)计算进行了优化。
5、投机推理的发展方向
(1)多头投机
DeepSeek V3 在训练中使用了多层 MTP,并开源了第一层 MTP 的权重。我们利用轻量的算子,使用该层 MTP 权重,实现了对复数 token 的自回归预测。当然,也可以使用多层 MTP 进行复数 token 的投机,未来我们会对此进行支持。
(2)拒绝采样的昇腾适配加速
投机 token 的接受率直接决定了投机推理的收益上限。在保证主体模型生成概率不变的情况下,提升投机的接受率是进一步提升 FusionSpec 的关键所在。
当前 FusionSpec 采用直接判定主体生成的 token 与投机 token 是否一致这一基本方案。该方案的优势在于无需维护投机 token 的生成概率,但其接受率在模型的信息熵较大时较低。但事实上,只要投机模型的 token 生成概率接近主体模型的生成概率时,就应当尽可能接受投机 token 。Rejection Sampling方案就基于投机模型的生成概率,提升了投机 token 的接受率,但也同时极大增加了 PD 分离场景下节点间的数据传输量和 decode 步骤间的数据维护量。为此,我们将进一步优化FusionSpec 框架:1)增量维护 decode 阶段的概率矩阵;2)优化昇腾算子提升计算效率。
(3)采样优化
采样操作一般包含温度、TopK、TopP 三步,其中 TopK、TopP 朴素算法需对长度为词表大小(在 DeepSeek V3 模型中为 129280)的概率表进行排序、计算前缀和,是采样操作的瓶颈。未来可以采用流式过滤策略、利用昇腾归并排序API,优化TopK、TopP的计算,避免全量排序、全量前缀和。

OptiQuant量化框架和算法,加速昇腾大模型MoE推理性能

1、何为大模型量化技术
大模型量化技术是一种用于减少 A I模型大小和提高其运行效率的技术。通过量化,模型的权重从高精度的浮点数转换为比特数更少的整数或浮点数表示,从而减少模型的存储需求 、带宽 和计算量 将模型权重、激活值、以及 KV cache 量化为低精度格式(如 INT4 INT8 )成为缓解资源约束、优化部署效率的关键手段 能够在 大幅压缩 显存占用的同时尽量 保留 模型 的原始能力 ,使得 诸如DeepSeek类的大 模型的高效部署成为可能。
2、现有的大模型量化技术
大模型量化技术可以分为两类:激活值无感的权重量化和激活值感知的量化。 经典的量化不需要使用校准 技术 ,不依赖于大模型的输入数据及其分布,而直接对模型参数进行量化。






请到「今天看啥」查看全文