专栏名称: PaperWeekly
PaperWeekly是一个推荐、解读、讨论和报道人工智能前沿论文成果的学术平台,致力于让国内外优秀科研工作得到更为广泛的传播和认可。社区:http://paperweek.ly | 微博:@PaperWeekly
目录
相关文章推荐
研之成理  ·  浙江大学,Nature Catalysis! ·  2 天前  
PaperWeekly  ·  博士申请 | ... ·  2 天前  
环球科学科研圈  ·  手机上也能刷论文,还自带解读? ·  2 天前  
科研大匠  ·  Science重磅:全球首例!复旦科学家团队 ... ·  3 天前  
51好读  ›  专栏  ›  PaperWeekly

告别O(n²)!上海AI Lab开源Linear-MoE:线性注意力+MoE的终极缝合术

PaperWeekly  · 公众号  · 科研  · 2025-06-06 13:42

正文

请到「今天看啥」查看全文



已有研究工作表明,这些模型实际上可以通过统一的递归形式进行表达,如下表所示。这也反映出,尽管三类方法分别出自不同的技术流派,但已逐渐收敛至统一的表达形式。



混合专家MoE成为事实标准

另外一方面,从国际上的 GPT-4 系列、Gemini 系列、Claude 系列到国内的 DeepSeek 系列、Qwen 系列、腾讯混元 LLM、字节豆包、MiniMax-01、Moonshot-Kimi 等,都在步伐一致地 All in MoE。其重要性不言而喻,本文不做过多展开。



Linear-MoE:模型架构与高效训练

Linear-MoE 的核心贡献在于构建了一个从 Modeling 到 Training 的完整系统,支持线性序列建模层与 MoE 层的灵活组合,同时兼容传统的 Softmax Attention Transformer 层,支持形成 混合架构 。其设计亮点包括:


1. 模块化架构:


  • LSM 层(线性序列建模层):支持各类线性序列建模方法(如 Lightning Attention、Gated-DeltaNet、Mamba2 等)。

  • MoE 层:集成多种 MoE 实现(如 Qwen-MoE、DeepSeek-MoE、Mixtral-MoE),以及一种 Dense 实现(Llama3)。

2. 高效训练技术:


  • 基于 Megatron-Core 框架开发,确保系统稳定性和可扩展性。

  • 支持张量并行、流水线并行、专家并行、LASP(线性注意力序列并行)和 MegaBlocks 等优化技术,显著提升训练效率。







请到「今天看啥」查看全文