专栏名称: GiantPandaLLM
专注于机器学习、深度学习、计算机视觉、图像处理等多个方向技术分享。团队由一群热爱技术且热衷于分享的小伙伴组成。我们坚持原创,每天一到两篇原创技术分享。希望在传播知识、分享知识的同时能够启发你,大家一起共同进步(・ω<)☆
目录
相关文章推荐
GiantPandaLLM  ·  【博客转载】Row-Major VS ... ·  18 小时前  
GiantPandaLLM  ·  【博客转载】CUDA Coalesced ... ·  3 天前  
51好读  ›  专栏  ›  GiantPandaLLM

【博客转载】Row-Major VS Column-Major

GiantPandaLLM  · 公众号  · 3D  · 2025-06-17 18:46

正文

请到「今天看啥」查看全文


的列是缓慢的且会使缓存失效。

矩阵乘法

在内存中存储矩阵的方式会影响许多处理器(如CPU和GPU)上矩阵乘法的性能。通常,根据矩阵乘法是否需要对矩阵进行数学转置,有四种计算矩阵乘法的方式: 。尽管这些操作的理论MAC数相同,但根据矩阵 的存储顺序,每种方式的性能表现会有所不同。

假设矩阵 的形状为 ,矩阵 的形状为 ,要计算 ,其中 是形状为 的矩阵, 中的每个元素都是矩阵 中大小为 的一行与矩阵 中大小为 的一列的累积和。

根据两个矩阵的存储顺序,有四种情况:

矩阵 存储顺序
矩阵 存储顺序
矩阵 行读取
矩阵 列读取
列主序
列主序
列主序
行主序
行主序
列主序
行主序
行主序

以行主序存储, 以列主序存储时,由于现代处理器的缓存机制,从 读取行和从 读取列都很快,而更快的读取会带来更好的性能(在相同的计算量下)。

因此,矩阵乘法 更适合 以行主序存储、 以列主序存储的情况。

假设矩阵 的形状为 ,矩阵 的形状为 ,要计算 ,其中 是形状为







请到「今天看啥」查看全文