专栏名称: 机器之心
专业的人工智能媒体和产业服务平台
目录
相关文章推荐
51好读  ›  专栏  ›  机器之心

ICML 2025|如何凭「自动补全」实现100K生成3×加速?

机器之心  · 公众号  · AI  · 2025-05-18 12:25

主要观点总结

介绍了一种名为TokenSwift的推理加速框架,该框架旨在解决在生成超长文本时面临的计算成本、长时间等待、巨大内存负担和重复乏味输出的问题。TokenSwift提出了一套可插拔、无损、高效的生成加速策略,专为100K Token级别的长文本推理而设计,在保持原始模型输出一致性的前提下,加速比达到3倍以上。

关键观点总结

关键观点1: TokenSwift的背景和重要性

随着具备「超级上下文窗口」能力的大模型的发展,生成超长文本的需求越来越大。然而,生成这些文本背后隐藏着令人咋舌的计算成本,严重制约了这些模型的真正潜力。面对这一挑战,BIGAI NLCo团队提出了TokenSwift,一项全新的推理加速框架。

关键观点2: TokenSwift的主要技术特点

TokenSwift通过多Token并行草拟、n-gram启发式补全、树结构验证机制等技术手段,实现了超长文本的高效生成。此外,还通过动态KV管理、重复惩罚等机制,解决了KV缓存膨胀和语义重复堆叠的问题。

关键观点3: TokenSwift的实验评估

在多个主流模型上进行了大规模实验,序列长度涵盖从20K到100K,TokenSwift表现均极其亮眼。加速比普遍在3倍以上,生成质量与原模型一致,Distinct-n指标显著优于原始AR路径。

关键观点4: TokenSwift的部署和应用

TokenSwift不是一个另起炉灶的新模型,而是一种可直接嵌入现有主流模型的通用加速策略,具备极强的兼容性与部署便利性。它为大模型推理、代码生成、Agent计划编排等长文本场景提供了坚实的技术支撑。


正文

请到「今天看啥」查看全文



主要原因有三:

  • 模型重复重载 :每生成一个 Token,都会触发一次完整的前向推理过程;在多进程或流水线执行时,模型需要不断读取参数,造成 I/O 瓶颈。

  • KV 缓存无限膨胀 :Transformer 架构要求保留所有历史 Token 的 Key/Value 信息,用于后续 Token 的注意力计算。随着生成进程推进,KV 缓存占用不断增加,导致计算与内存开销雪上加霜。

  • 语义重复堆叠 :生成越长,模型越容易陷入句式与主题的复读循环,降低输出多样性与用户体验。


尤其在当前日益增长的多轮对话、大模型代理(Agent)、逐步推理等任务中,一个 Query 可能会触发几千甚至上万的推理 Token 输出。传统自回归的效率显然已经难以满足需求。


🚀 TokenSwift:拥抱并行的超长推理时代


TokenSwift 的提出,正是为了解决上述超长生成中的三大瓶颈。它通过一个极为轻量且高效的框架,对传统自回归推理进行了 「重构 」,提出了以 「多 Token 草拟 + 并行验证 + 动态缓存更新 为核心的全新机制。


让我们来逐步拆解 TokenSwift 的关键技术理念:



✳️ 多 Token 并行草拟:告别一次一 Token 的低效时代


在 TokenSwift 中,不再坚持 「一步一 Token 」 的生成模式,而是通过对已有模型的最小化修改(添加极少量的线性层),实现了 「一次性草拟多个 Token 。这意味着,模型每一次前向传播,都可以并行生成 γ 个候选 Token,大幅降低模型重载频率,显著节省 I/O 时间。


更关键的是,草拟阶段并非 「胡乱猜测







请到「今天看啥」查看全文