正文
内存应选择 64GB,因为 12 路 64GB 共 768GB 总容量装下 Q8 量化后的模型权重后,剩下的存储空间做为 KV Cache 还能支持 22K 的模型上下文。
主板选择的时候不应选择支持 2DPC(2 DIMMs Per Channel)内存插槽的主板,即使使用这类主板也要确保每个通道只插一根内存,否则主板会对该通道进行降频,如 5600MHz 降到 4800MHz,从而导致总体带宽大幅下降。
CPU 使用风冷即可,但内存的散热非常重要,长时间内存过热可能会导致降频,内存降频后会损失高达 20% 的生成速度。
基于以上研究结果,
我们规划了一套基于
AMD EPYC 5th Gen 9005 系列处理器的
方案(价格为
当前零售市场报价
):
MZ33-AR1(
5950 元)
EPYC 9115(5400 元)或者 EPYC 9135(7900 元)
DDR5 5600MHz 64GB x 12(22800 元)
1TB SSD(338 元)
850W 电源(349 元)
CPU 散热器(294 元)
内存散热器(368 元)
机箱(187 元)
总计:35686 元(选择
EPYC 9135 则为
38186 元)
如追求更好的扩展性,也可将主板更换为支持双路的
MZ73-LM1。这样成本仍然在 4 万元以内,但未来可增加另一颗 CPU 和相应内存,同时运行两个实例。
在硬件优化上,最重要的就是前面提到的内存散热。其次,由
于
CPU 和主板均支持 6000MHz,因此可以对内存进行小幅度超频处理,
将频率从默认频率 5600MHz 提升到 6000MHz。
超频选择的入口位置:
AMD CBS -> UMC Common Options -> Enforce PDR -> Memory Target Speed -
> DDR6000,如下图所示: