ICML 2025｜如何凭「自动补全」实现100K生成3×加速？

机器之心 · 公众号 · AI · 2025-05-18 12:25

主要观点总结

介绍了一种名为TokenSwift的推理加速框架，该框架旨在解决在生成超长文本时面临的计算成本、长时间等待、巨大内存负担和重复乏味输出的问题。TokenSwift提出了一套可插拔、无损、高效的生成加速策略，专为100K Token级别的长文本推理而设计，在保持原始模型输出一致性的前提下，加速比达到3倍以上。

关键观点总结

关键观点1: TokenSwift的背景和重要性

随着具备「超级上下文窗口」能力的大模型的发展，生成超长文本的需求越来越大。然而，生成这些文本背后隐藏着令人咋舌的计算成本，严重制约了这些模型的真正潜力。面对这一挑战，BIGAI NLCo团队提出了TokenSwift，一项全新的推理加速框架。

关键观点2: TokenSwift的主要技术特点

TokenSwift通过多Token并行草拟、n-gram启发式补全、树结构验证机制等技术手段，实现了超长文本的高效生成。此外，还通过动态KV管理、重复惩罚等机制，解决了KV缓存膨胀和语义重复堆叠的问题。

关键观点3: TokenSwift的实验评估

在多个主流模型上进行了大规模实验，序列长度涵盖从20K到100K，TokenSwift表现均极其亮眼。加速比普遍在3倍以上，生成质量与原模型一致，Distinct-n指标显著优于原始AR路径。

关键观点4: TokenSwift的部署和应用

TokenSwift不是一个另起炉灶的新模型，而是一种可直接嵌入现有主流模型的通用加速策略，具备极强的兼容性与部署便利性。它为大模型推理、代码生成、Agent计划编排等长文本场景提供了坚实的技术支撑。

正文

请到「今天看啥」查看全文

主要原因有三：

模型重复重载：每生成一个 Token，都会触发一次完整的前向推理过程；在多进程或流水线执行时，模型需要不断读取参数，造成 I/O 瓶颈。
KV 缓存无限膨胀：Transformer 架构要求保留所有历史 Token 的 Key/Value 信息，用于后续 Token 的注意力计算。随着生成进程推进，KV 缓存占用不断增加，导致计算与内存开销雪上加霜。
语义重复堆叠：生成越长，模型越容易陷入句式与主题的复读循环，降低输出多样性与用户体验。

尤其在当前日益增长的多轮对话、大模型代理（Agent）、逐步推理等任务中，一个 Query 可能会触发几千甚至上万的推理 Token 输出。传统自回归的效率显然已经难以满足需求。

🚀 TokenSwift：拥抱并行的超长推理时代

TokenSwift 的提出，正是为了解决上述超长生成中的三大瓶颈。它通过一个极为轻量且高效的框架，对传统自回归推理进行了「重构」，提出了以「多 Token 草拟 + 并行验证 + 动态缓存更新」为核心的全新机制。

让我们来逐步拆解 TokenSwift 的关键技术理念：

✳️ 多 Token 并行草拟：告别一次一 Token 的低效时代

在 TokenSwift 中，不再坚持「一步一 Token 」的生成模式，而是通过对已有模型的最小化修改（添加极少量的线性层），实现了「一次性草拟多个 Token 」。这意味着，模型每一次前向传播，都可以并行生成 γ 个候选 Token，大幅降低模型重载频率，显著节省 I/O 时间。

更关键的是，草拟阶段并非「胡乱猜测