正文
硬盘:60G 通用型SSD
模型:DeepSeek-R1-Distill-Qwen-7B(bf16)
batch size:1
输入token个数:30-60
输出token个数:256
性能数据
平均token生成速率:
首token时延:
在天翼云c8e系列24vcpu云主机上,启用AMX加速能力后,DeepSeek 7B蒸馏模型(BF16)推理速度能够超越9token/s,满足日常使用需求。
基于
英特尔
®
至强
®
6处理器部署满血版DeepSeek-R1 671B实践
性能指标
DeepSeek R1 671B 满血版模型以其卓越的性能,为用户带来了极致的效果体验,不过其部署成本也不容小觑。若采用传统的 GPU 部署方式,需要8-16张 GPU 才能提供足够的支持,这无疑大幅增加了硬件购置、能耗以及维护等方面的成本。
在这样的背景下,天翼云基于
英特尔
®
提供的
至强
®
6处理器服务器进行了DeepSeek R1 671B满血版Q4_K_M模型的部署尝试,测试结果如下:
1-instance 1-socket:
平均吞吐性能9.7~10 token/s
2-instance 1-socket:
平均7.32 token/s和7.38token/s, 共14.7token/s
从上面测试数据可以看到,采用单实例单socket部署下,DeepSeek R1 671B满血版模型可达到平均9.7~10 token/s的吞吐量,而在双实例部署模式中,总体吞吐量提升至14.7 token/s。单颗CPU系统的吞吐性能可以达到普通用户正常使用的需要。
英特尔
®
至强
®
6处理器简介
英特尔
®
至强
®
CPU 为 DeepSeek R1 671B 模型的部署提供了一个极具竞争力的方案。
英特尔
®
至强
®
CPU 具备支持 T 级超大内存的能力,这使得它在权重存储与加载方面表现高效。对于像 DeepSeek R1 671B 这样的超大模型,其所需的显存容量在多卡 GPU 配置下才能满足,而
英特尔
®
至强
®
CPU 能够凭借其强大的内存支持能力,为该模型提供良好的运行环境。
此外,DeepSeek R1 模型采用的 MOE(Mixture of Experts)结构,通过参数稀疏化的方式,使得在单 token 推理时仅需激活少量专家参数。这种特性显著降低了推理过程中的算力要求,与 CPU 的计算特点相契合,使得模型在 CPU 系统上的运行更加高效。这意味着在