专栏名称: GiantPandaLLM
专注于机器学习、深度学习、计算机视觉、图像处理等多个方向技术分享。团队由一群热爱技术且热衷于分享的小伙伴组成。我们坚持原创,每天一到两篇原创技术分享。希望在传播知识、分享知识的同时能够启发你,大家一起共同进步(・ω<)☆
目录
相关文章推荐
GiantPandaLLM  ·  【博客转载】Row-Major VS ... ·  昨天  
51好读  ›  专栏  ›  GiantPandaLLM

图解KV Cache:加速大模型推理的幕后功臣

GiantPandaLLM  · 公众号  · 3D  · 2024-10-14 15:34

正文

请到「今天看啥」查看全文


为了更加形象理解上面提到的自注意力机制的“回顾机制”,下面我画了一张图。它是 大语言模型推理,用动画一看就懂! 中那个文本生成步骤的第四步,其中计算 self-attention 时所需的 Key 和 Value 的示意图。

注意:Prompt 是 "The future of AI is" 有五个 token,第一步推理时模型输入的是整个 prompt,会计算出每个 prompt token 对应的 key 值和 value 值,为了清晰起见图里仅用 K1 和 V1 来代表它们。

接下来的动画演示了每一步计算自注意力的过程,清晰起见去掉了其他算子。







请到「今天看啥」查看全文