专栏名称: 机器之心
专业的人工智能媒体和产业服务平台
目录
相关文章推荐
爱可可-爱生活  ·  今日推介(第1789期):探寻Adam的秘密 ... ·  21 小时前  
机器学习研究组订阅  ·  斯坦福华人天团意外爆冷!AI用纯CUDA-C ... ·  2 天前  
51好读  ›  专栏  ›  机器之心

叶子豪、陈天奇等人开源项目FlashInfer入选,MLSys2025最佳论文奖公布

机器之心  · 公众号  · AI  · 2025-05-14 12:36

正文

请到「今天看啥」查看全文


  • 项目主页:https://flashinfer.ai/
  • GitHub 仓库:https://github.com/flashinfer-ai/flashinfer

  • Transformer 结构以注意力机制(Attention Mechanism)为核心,是大型语言模型(Large Language Models,LLMs)的基础。随着模型规模的不断扩大,高效的 GPU 注意力计算模块(attention kernel)对于实现高吞吐和低延迟(即更快、更高效)的推理至关重要。面对多样化的 LLM 应用场景,亟需灵活且高性能的注意力解决方案。


    研究团队提出了「FlashInfer」:一款可定制且高效的注意力推理引擎,专为 LLM 部署优化设计。其主要特点如下:


    • 优化内存访问并减少冗余 :FlashInfer 通过采用块稀疏格式(block-sparse format)与可组合格式(composable formats)解决键值缓存(KV-cache)存储的异构性问题。

    • 可定制的注意力计算模板 :支持基于即时编译(Just-In-Time,JIT)的灵活配置,以应对不同应用需求。

    • 高效的任务调度机制 :FlashInfer 引入了基于负载均衡的调度算法,既能适应用户请求的动态变化,又与要求静态配置的 CUDAGraph 保持兼容性。


    经过内核级(kernel-level)及端到端(end-to-end)的完整评估,FlashInfer 在多种推理场景下显著提升了计算性能:与当前最先进的 LLM 部署方案相比,FlashInfer 在 token 间延迟方面提高显著,相较通用编译器后端,能减少 29% 至 69% 的 inter-token 延迟;在长上下文推理任务中延迟降低 28% 至 30%;在并行生成场景下,推理速度提升达 13% 至 17%。


    系统设计


    f1.png

    FlashInfer 系统设计概览:在编译时提供注意变量规范、任务信息和键值缓存布局细节,用于 JIT 编译;在运行时输入序列长度信息,用于动态调度。

    1、优化的 KV-Cache 存储结构

    近年来,为提升内存效率,KV-Cache 存储机制(如 PageAttention、RadixAttention)开始采用 非连续内存布局 ,以块或 token 为最小存储单元。


    FlashInfer 证明,这些不同的非连续 KV-Cache 数据结构都可以 统一抽象建模为块稀疏矩阵格式 如图 2 所示 )。


    image.png

    在此基础上,FlashInfer 进一步引入组合式稀疏格式(Composable Sparse Formats)来提升内存效率。与单一固定块大小的格式不同,组合式格式允许在同一稀疏矩阵中灵活采用多种块稀疏形式,从而显著提高内存利用率。


    单一块格式的局限在于其固定大小(特别是行块大小 Br)导致的碎片化风险和共享内存互访限制。组合式格式则可以根据数据特征(如共享前缀形成逻辑上的稠密子矩阵)选用合适的块形式(例如为稠密子矩阵选用较大的 Br)。


    如图 3 所示,这种方式无需数据移动,仅通过索引即可实现基于共享内存的高速访问,进一步优化内存效率。







    请到「今天看啥」查看全文