专栏名称: 数据派THU
本订阅号是“THU数据派”的姊妹账号,致力于传播大数据价值、培养数据思维。
目录
相关文章推荐
艺恩数据  ·  2025人生四双鞋:京东趋势白皮书 ·  3 天前  
产品可靠性报告  ·  截图确认大数据杀熟!涉及电商、外卖、旅游等平台 ·  昨天  
产品可靠性报告  ·  截图确认大数据杀熟!涉及电商、外卖、旅游等平台 ·  昨天  
51好读  ›  专栏  ›  数据派THU

ICLR 2025 | 精度近乎无损!首个Mamba系列模型量化方案MambaQuant

数据派THU  · 公众号  · 大数据  · 2025-05-10 17:00

正文

请到「今天看啥」查看全文



创新点


  • 作者首次系统分析了 Mamba 模型在量化过程中面临的独特挑战,在门控投影(gate projection)、输出投影(output projection)和矩阵乘法(matmul)层中存在显著的异常值。针对上述问题,作者提出了首个专门针对 Mamba 模型的后训练量化(PTQ)框架 MambaQuant,解决了现有量化方法(如 Hadamard 变换)在 Mamba 模型上效果不佳的问题。
  • 本文通过将 Hadamard 矩阵与 Karhunen-Loève 变换(KLT)矩阵相结合,生成的旋转矩阵能够适应不同通道的数据分布,从而实现方差对齐。在离线模式中,KLT 增强的旋转方法能够有效平衡不同通道的方差,使得量化前的数据分布更加均匀,从而提高量化精度。
  • 本文通过引入平滑参数,对数据进行预处理,使通道间的方差更加均匀。这些平滑参数可以灵活地融入 Mamba 模型的权重中,避免了额外的存储开销。


方法


本文提出了一种名为MambaQuant的后训练量化(PTQ)框架,专门针对 Mamba 模型家族的量化问题。其核心方法是通过KLT 增强的旋转方法和Smooth-Fused 旋转方法来解决 Mamba 模型量化中的关键挑战。KLT 增强的旋转方法通过将 Hadamard 矩阵与 Karhunen-Loève 变换(KLT)矩阵相结合,生成能够适应不同通道分布的旋转矩阵,从而实现方差对齐,使量化前的数据分布更加均匀。Smooth-Fused 旋转方法则通过在 Hadamard 变换之前引入平滑技术,进一步优化通道方差的对齐,并将平滑参数融入模型权重中,避免额外的存储开销。这两种方法共同作用,使得 Mamba 模型在量化后能够保持较高的精度。

Mamba量化中硬层的可视化分布


本图展示了 Mamba 模型中一些难以量化的层的权重和激活值的分布情况。这些层在量化过程中面临显著的挑战,主要原因是它们的数据分布具有显著的异常值(outliers),并且这些异常值会被 Mamba 模型中独特的并行扫描(Parallel Scan, PScan)操作进一步放大。


图片







请到「今天看啥」查看全文