专栏名称: 企业存储技术

企业存储、服务器、SSD、灾备等领域技术分享，交流 | @唐僧_huangliang （新浪微博）

MLPerf Llama大模型推理测试：一款GPU独战NVIDIA群雄

企业存储技术 · 公众号 · · 2024-12-29 12:03

正文

；而 AMD 则是 ROCm+PyTorch+vLLM 。 PYTorch 的流行度不用我说了吧， TensorRT 可以理解为 NVIDIA 进一步加速的框架； vLLM 如今的评价也是挺高的。

上图中的测试结果处，可以看到 llama2-70b- 99 和 llama2-70b- 99.9 两栏，而它们之间的 Tokens/s 数值又完全相同。我觉得这是一个有点容易让人混淆之处，具体区别指的什么呢？

参考上面图表， Llama2 测试中的 99% 和 99.9% 似乎指的是 FP32 所占的比重？但事实上推理计算通常不需要这么高精度的模型——另外载入显存的数据量也太大了。下表只是个简单的参考， KV Cache 部分与上下文长度相关，就不展开讨论了。

70b 模型推理

模型占用显存

KV Cache…

8bit

约 70GB

16bit

约 140GB

32bit

约 280GB

MLPerf Llama-2-70b 推理测试实际上是用的 FP8 量化模型，下文中有我发现的证据。

在 MLPerf Llama-2-70b 推理测试结果中还分为 Offline 和 Server 两项，参考介绍如下：

Server ： LoadGen 在启动时会在单个查询中将所有样本发送到被测系统（ SUT ）。

Offline ：一旦被测系统（ SUT ）完成上一个查询， Loadgen 就会发送下一个查询。

可以理解为 Server 是模拟服务器在响应查询请求，而 Offline 则是离线生成最大的压力，应该能把 GPU 跑得更满一点吧。

8x GPU ： AMD MI300X 与 NVIDIA H100-SXM 旗鼓相当

首先我特别挑选出 8x GPU （单机 8 卡）的测试结果，对于相同 GPU 型号和数量的多个测试结果，挑成绩最高的进行对比。另外对于 70b 这种尺寸的模型和数据中心 GPU 配置，单节点服务器就能容纳全部推理数据到显存，多节点的结果参考意义不大（类似于只是跑个多副本）。

在 SXM/OAM GPU 模组的比较中， 8 个 AMD MI300X 的 Token/s 测试数据与 8 个 NVIDIA H100-SXM-80GB 相当接近； 8 个 H200-SXM-141GB 则表现最好，还要领先 40% 左右。

与上面的 3 款 GPU 相比， 8 卡 H100-NVL-94GB （ 4 组双卡 NVLINK ）、 H100-PCIe-80GB 和 L40S-48GB 的性能差距依次都比较大。其原因我在下文中会具体分析。

推荐文章

中国上海国际艺术节 · 乐评 | 听！故宫在歌唱

昨天

昨天

赛雷三分钟 · 教科书删除“康乾盛世”：清朝的统治，被美化了吗？

昨天

康石石 · 哥大、卡梅、清华都在开艺术与科技~

昨天

康石石 · 都说新国立 & 南洋理工扩招了，今年新加坡艺术留学更容易申了？

昨天

有味读书 · 一百多年前中国的世界首富是怎样没落的

8 年前

一起神回复 · 怎么样才能做到让男生一直喜欢你

8 年前

来自星星 · 这样的女生才配拥有YSL，和男票接吻再也不尴尬

7 年前

盘古智库 · 美外交关系委员会会长：全球该如何走入失序时代

7 年前

大炮评级 · 【诚邀矿工入驻】ETH场外交易每日成交量公告【20171009】

7 年前