专栏名称: 机器之心
专业的人工智能媒体和产业服务平台
目录
相关文章推荐
爱可可-爱生活  ·  回顾下前两天的提示词迭代优化流程 ... ·  13 小时前  
黄建同学  ·  下半场//@未知海苔2:模型公司慢慢开始做应 ... ·  15 小时前  
爱可可-爱生活  ·  《爱可可微博热门分享(6.6)》 ... ·  昨天  
爱可可-爱生活  ·  【[73星]FastPlaid:一款高性能多 ... ·  2 天前  
51好读  ›  专栏  ›  机器之心

谷歌之后,英伟达入局扩散大语言模型,Fast-dLLM推理速度狂飙27.6倍

机器之心  · 公众号  · AI  · 2025-05-30 11:28

正文

请到「今天看啥」查看全文




一、 核心技术

分块 KV 缓存与置信度感知并行解码


1. 分块 KV 缓存(Block-Wise KV Cache):激活重用率超 90% 的双向加速


传统扩散模型因双向注意力机制难以直接复用计算结果,导致长序列推理效率低下。Fast-dLLM 提出分块 KV 缓存机制,通过以下设计实现高效计算:


  • 双向缓存策略:采用 DualCache 同时缓存前缀(Prompt)和后缀(Masked Tokens)的注意力激活值(KV Cache),如图 1 (a)(b) 所示。在分块生成时,前序块的 KV 激活可直接复用于后续块,减少重复计算🔄。

  • 高相似度验证:实验表明,相邻推理步骤的 KV 激活余弦相似度接近 1(图 2),证明缓存复用的可行性。例如,在 LLaDA 模型中,通过缓存可实现 90% 以上的激活重用,单步计算量显著降低。




2. 置信度感知并行解码(Confidence-Aware Parallel Decoding)







请到「今天看啥」查看全文