专栏名称: GiantPandaLLM

专注于机器学习、深度学习、计算机视觉、图像处理等多个方向技术分享。团队由一群热爱技术且热衷于分享的小伙伴组成。我们坚持原创，每天一到两篇原创技术分享。希望在传播知识、分享知识的同时能够启发你，大家一起共同进步(･ω<)☆

【博客转载】Row-Major VS Column-Major

GiantPandaLLM · 公众号 · 3D · 2025-06-17 18:46

正文

的列是缓慢的且会使缓存失效。

在内存中存储矩阵的方式会影响许多处理器（如CPU和GPU）上矩阵乘法的性能。通常，根据矩阵乘法是否需要对矩阵进行数学转置，有四种计算矩阵乘法的方式：、、和。尽管这些操作的理论MAC数相同，但根据矩阵和的存储顺序，每种方式的性能表现会有所不同。

假设矩阵的形状为，矩阵的形状为，要计算，其中是形状为的矩阵，中的每个元素都是矩阵中大小为的一行与矩阵中大小为的一列的累积和。

根据两个矩阵的存储顺序，有四种情况：

矩阵存储顺序	矩阵存储顺序	矩阵行读取	矩阵列读取
列主序	列主序	慢	快
列主序	行主序	慢	慢
行主序	列主序	快	快
行主序	行主序	快	慢

当以行主序存储，以列主序存储时，由于现代处理器的缓存机制，从读取行和从读取列都很快，而更快的读取会带来更好的性能（在相同的计算量下）。

因此，矩阵乘法更适合以行主序存储、以列主序存储的情况。

假设矩阵的形状为，矩阵的形状为，要计算，其中是形状为

推荐文章

GiantPandaLLM · 【博客转载】Row-Major VS Column-Major

18 小时前

GiantPandaLLM · 【博客转载】CUDA Coalesced Memory Access/CUDA Shared Memory Bank

3 天前

河北交通广播 · 注意！限号措施有变！

8 年前

军事机密 · 罕见，罕见，太罕见了，一辈子都不曾见过！

8 年前

注册风险管理师 · 风控靠满嘴跑火车就可以做？哪里有那么简单啊！

8 年前

中央广电总台中国之声 · 泪目！让某国航母舰队后退100海里的科学家黄大年生前朋友圈曝光

7 年前

21世纪经济报道 · 用手洗脸十次，也不如用她洗一次干净

7 年前