专栏名称: 数据派THU
本订阅号是“THU数据派”的姊妹账号,致力于传播大数据价值、培养数据思维。
目录
相关文章推荐
大数据文摘  ·  “程序员炸锅”!Claude一夜撤离 ... ·  3 天前  
数局  ·  飞书深诺:2025欧洲春夏时尚潮流图鉴 ·  3 天前  
51好读  ›  专栏  ›  数据派THU

独家|魔术背后:张量如何驱动变换器(Transformer)

数据派THU  · 公众号  · 大数据  · 2025-06-07 17:00

正文

请到「今天看啥」查看全文



在进入 换器之前,原始输入标记(单词、子单词或字符)会通过嵌入层转换成密集的向量表示。该层的功能是作为一个查找表,映射每个标记向量,捕捉与其他词的语义关系。


作者提供的图片:通过嵌入层的张量

对于一批五个句子,每个句子的序列长度为 12 个词组,嵌入维度为 768 ,张量形状为


  • 张量形状: [batch_size, seq_len, embedding_dim] → [5, 12, 768]

嵌入后,添加位置编码,确保在不改变张量形状的情况下保留顺序信息。


研究论文中的修改图片:工作流程情况


多头 注意力 机制


多头注意力( MHA )机制是 Transformer 最关键的组成部分之一。该机制对从输入嵌入中提取的三个矩阵进行操作:


  • Query (Q)

  • Key (K)

  • Value (V)


这些矩阵是使用可学习的权重矩阵生成的:


  • Wq, Wk, Wv 的形状为 [embedding_dim, d_model] (例如 [768, 512] )。

  • 得到的 Q K V 矩阵的维数为 [batch_size, seq_len, d_model]


图片由作者提供:显示嵌入、 Q K V 张量形状 / 维数的表格


Q K V 分割为多个头







请到「今天看啥」查看全文