专栏名称: 企业存储技术
企业存储、服务器、SSD、灾备等领域技术分享,交流 | @唐僧_huangliang (新浪微博 )
目录
相关文章推荐
51好读  ›  专栏  ›  企业存储技术

DeepSeek-R1 671B最小化部署实验:CPU+192GB内存

企业存储技术  · 公众号  ·  · 2025-02-24 07:40

正文

请到「今天看啥」查看全文


4


我只使用CPU+6通道DDR5内存(无GPU),DeepSeek-R1-UD-IQ1_S跑到了5.47 Token/s。测试硬件平台,与《 一次无需调优的测试:SMT多线程对存储服务器IOPS的贡献 》基本相同。我主要是验证了一点,大模型 Decode输出的性能与内存或显存带宽直接相关

建议:

1、 在以上测试中,我发现Ubuntu Linux下Ollama有时不够稳定?后来改用 llama.cpp 效果还好,包括从SSD加载模型都更快。尽管核心也是基于llama.cpp,但Ollama也有不少优点,特别是与前端软件对接的生态方面。


2、 用纯CPU来跑DeepSeek,建议 每个核心只用单线程 ——也就是64核跑64线程就好;如果跑128线程(即SMT用满)还会稍慢点。另外根据LLM大模型的特点,AMD的NPS设置建议设置为1(单CPU)或0(双CPU),即 禁用NUMA 内存亲和。







请到「今天看啥」查看全文