专栏名称: AIGC新智界
区块链/数字货币/比特币中文资讯,创立于2011年,200多位专栏作入驻平台,国内最大区块链资讯原创基地(公众号【原创】认证),我们为以下合作伙伴供稿:火币、OKCoin、BTC.com、BTCC、币看、BTC123、比特时代、挖币网
目录
相关文章推荐
闪电HSL  ·  EOS套利往事,350 天 ICO 里的一级 ... ·  3 天前  
51好读  ›  专栏  ›  AIGC新智界

杨植麟和梁文锋,论文撞车了

AIGC新智界  · 公众号  · 比特币  · 2025-02-20 17:49

正文

请到「今天看啥」查看全文



3)滑动窗口 ——前两者是摘要和划重点的话,滑动窗口就是查看最近的上下文信息,这样可以保持连贯性,而通过硬件级显存复用技术可以将内存访问频次降低40%。


这些思路每一个都不是DeepSeek的发明,但可以把它想象成ASML式的工作——这些技术元素已经存在,散落在各处,但工程上把它们组合在一起成为一个可以规模化的方案,新的算法架构,还没人做过。现在有人通过强大的工程能力做出来了一台“光刻机”,其他人可以用这个来在真实工业环境里训练模型。



而月之暗面在同天发布的论文,提出了一个在核心思想上非常一致的架构:MoBA。(MoBA: MIXTURE OF BLOCK ATTENTION FOR LONG-CONTEXT LLMS)


从它的名字就可以看到,它同样使用了把“词”变成块的方法。 在“切块”后,MoBA 里有个像 “智能筛选员” 一样的门控网络,它负责挑选与一个“块”最相关的 Top-K 个块,只对这些选中的块计算注意力。在实际实现过程中,MoBA 还结合了 FlashAttention(能让注意力计算更高效)和 MoE(专家混合模型)的优化手段。



与NSA相比,它更强调灵活性,没有完全离开现在最主流的全注意力机制,而是设计了一套可以自由切换的方式,让这些模型可以在全注意力和稀疏注意力机制之间切换,给已有的全注意力的模型更多的适配空间。


根据论文,MoBA的计算复杂度随着上下文长度增加而优势明显。在1M token的测试中,MoBA比全注意力快了6.5倍;到10M token时,则提速16倍。而且,它已经在Kimi的产品中使用,用来处理日常用户们的超长上下文的处理需求。


杨植麟最初创办月之暗面受到关注的一个重要原因,是他的论文影响力和引用量,但K1.5论文之前,他最后一篇论文类的研究停留在2024年1月。而梁文锋虽然作为作者出现在DeepSeek最重要的模型技术报告里,但这些报告的作者名录几乎相当于DeepSeek的员工名录,几乎所有人都列在里面。而NSA的论文作者则只有几人。由此可以看出这两个工作对这两家公司创始人来说的重要性,以及对了解这两家公司技术路线的意义。


另一个可以为这种重要性做注脚的细节是,有网友发现,arxiv 上NSA这篇论文的提交记录显示,它在2月16日提交,提交者正是梁文锋自己。



02



这不是月之暗面和DeepSeek第一次“撞车” 。在R1发布的同时,Kimi难得的发布了K 1.5的技术报告,此前这家公司并不以对外展示它的技术思考为优先重点。当时这两篇论文同时把目标瞄准了RL推动的推理模型。事实上,仔细阅读这两篇技术报告,在K1.5的论文里,月之暗面对如何训练一个推理模型做了更详细的分享,甚至单从信息度和细节程度上,它是高过R1论文的。 但之后DeepSeek的风潮掩盖掉了不少对这篇论文本身的讨论。


一个可以作为印证的,是OpenAI最近难得发布的一篇对其o系列模型推理能力讲解的论文里,同时点了DeepSeek R1和Kimi k1.5的名字。“DeepSeek-R1和Kimi k1.5通过独立研究显示,利用思维链学习(COT)方法,可显著提升模型在数学解题与编程挑战中的综合表现。”也就是说,这是OpenAI自己选来用来对比的两个推理模型。







请到「今天看啥」查看全文