天翼云CPU实例部署DeepSeek-R1模型最佳实践

C114通信网 · 公众号 · · 2025-05-20 15:32

正文

请到「今天看啥」查看全文

硬盘：60G 通用型SSD

模型：DeepSeek-R1-Distill-Qwen-7B（bf16）

batch size：1

输入token个数：30-60

输出token个数：256

性能数据

平均token生成速率：

首token时延：

在天翼云c8e系列24vcpu云主机上，启用AMX加速能力后，DeepSeek 7B蒸馏模型（BF16）推理速度能够超越9token/s，满足日常使用需求。

基于英特尔 ^® 至强 ^® 6处理器部署满血版DeepSeek-R1 671B实践

性能指标

DeepSeek R1 671B 满血版模型以其卓越的性能，为用户带来了极致的效果体验，不过其部署成本也不容小觑。若采用传统的 GPU 部署方式，需要8-16张 GPU 才能提供足够的支持，这无疑大幅增加了硬件购置、能耗以及维护等方面的成本。

在这样的背景下，天翼云基于英特尔 ^® 提供的至强 ^® 6处理器服务器进行了DeepSeek R1 671B满血版Q4_K_M模型的部署尝试，测试结果如下:

1-instance 1-socket：

平均吞吐性能9.7~10 token/s

2-instance 1-socket：

平均7.32 token/s和7.38token/s，共14.7token/s

从上面测试数据可以看到，采用单实例单socket部署下，DeepSeek R1 671B满血版模型可达到平均9.7～10 token/s的吞吐量，而在双实例部署模式中，总体吞吐量提升至14.7 token/s。单颗CPU系统的吞吐性能可以达到普通用户正常使用的需要。

英特尔 ^® 至强 ^® 6处理器简介

英特尔 ^® 至强 ^® CPU 为 DeepSeek R1 671B 模型的部署提供了一个极具竞争力的方案。英特尔 ^® 至强 ^® CPU 具备支持 T 级超大内存的能力，这使得它在权重存储与加载方面表现高效。对于像 DeepSeek R1 671B 这样的超大模型，其所需的显存容量在多卡 GPU 配置下才能满足，而英特尔 ^® 至强 ^® CPU 能够凭借其强大的内存支持能力，为该模型提供良好的运行环境。

此外，DeepSeek R1 模型采用的 MOE（Mixture of Experts）结构，通过参数稀疏化的方式，使得在单 token 推理时仅需激活少量专家参数。这种特性显著降低了推理过程中的算力要求，与 CPU 的计算特点相契合，使得模型在 CPU 系统上的运行更加高效。这意味着在

天翼云CPU实例部署DeepSeek-R1模型最佳实践

正文

请到「今天看啥」查看全文

基于 英特尔 ® 至强 ® 6处理器部署满血版DeepSeek-R1 671B实践

性能指标

英特尔 ® 至强 ® 6处理器简介

请到「今天看啥」查看全文

基于英特尔 ^® 至强 ^® 6处理器部署满血版DeepSeek-R1 671B实践

英特尔 ^® 至强 ^® 6处理器简介