专栏名称: GiantPandaLLM

专注于机器学习、深度学习、计算机视觉、图像处理等多个方向技术分享。团队由一群热爱技术且热衷于分享的小伙伴组成。我们坚持原创，每天一到两篇原创技术分享。希望在传播知识、分享知识的同时能够启发你，大家一起共同进步(･ω<)☆

图解KV Cache：加速大模型推理的幕后功臣

GiantPandaLLM · 公众号 · 3D · 2024-10-14 15:34

正文

为了更加形象理解上面提到的自注意力机制的“回顾机制”，下面我画了一张图。它是大语言模型推理，用动画一看就懂！中那个文本生成步骤的第四步，其中计算 self-attention 时所需的 Key 和 Value 的示意图。

注意：Prompt 是 "The future of AI is" 有五个 token，第一步推理时模型输入的是整个 prompt，会计算出每个 prompt token 对应的 key 值和 value 值，为了清晰起见图里仅用 K1 和 V1 来代表它们。

接下来的动画演示了每一步计算自注意力的过程，清晰起见去掉了其他算子。

推荐文章

GiantPandaLLM · 【博客转载】Row-Major VS Column-Major

昨天

创业邦 · 趁阳光正好，去喜欢的地方遇见喜欢的人吧~

8 年前

健康时尚百科 · 建议你看完了也保存下，百万都买不到这张表！

8 年前

老虎财富 · 董明珠的职业操守不及格，凭什么说没道德时别谈法律？

8 年前

贤二机器僧 · 我师父说：磨尽内心的染污，断除一切烦恼

8 年前

美食家常菜谱做法 · 冬天必吃的腌菜！方法太实用啦~赶紧收了

8 年前