专栏名称: C114通信网
中国知名通信行业网站
目录
相关文章推荐
51好读  ›  专栏  ›  C114通信网

天翼云CPU实例部署DeepSeek-R1模型最佳实践

C114通信网  · 公众号  ·  · 2025-05-20 15:32

正文

请到「今天看啥」查看全文


硬盘:60G 通用型SSD

模型:DeepSeek-R1-Distill-Qwen-7B(bf16)

batch size:1

输入token个数:30-60

输出token个数:256

性能数据

平均token生成速率:


首token时延:

在天翼云c8e系列24vcpu云主机上,启用AMX加速能力后,DeepSeek 7B蒸馏模型(BF16)推理速度能够超越9token/s,满足日常使用需求。

基于 英特尔 ® 至强 ® 6处理器部署满血版DeepSeek-R1 671B实践

性能指标

DeepSeek R1 671B 满血版模型以其卓越的性能,为用户带来了极致的效果体验,不过其部署成本也不容小觑。若采用传统的 GPU 部署方式,需要8-16张 GPU 才能提供足够的支持,这无疑大幅增加了硬件购置、能耗以及维护等方面的成本。

在这样的背景下,天翼云基于 英特尔 ® 提供的 至强 ® 6处理器服务器进行了DeepSeek R1 671B满血版Q4_K_M模型的部署尝试,测试结果如下:

1-instance 1-socket:

平均吞吐性能9.7~10 token/s

2-instance 1-socket:

平均7.32 token/s和7.38token/s, 共14.7token/s

从上面测试数据可以看到,采用单实例单socket部署下,DeepSeek R1 671B满血版模型可达到平均9.7~10 token/s的吞吐量,而在双实例部署模式中,总体吞吐量提升至14.7 token/s。单颗CPU系统的吞吐性能可以达到普通用户正常使用的需要。

英特尔 ® 至强 ® 6处理器简介

英特尔 ® 至强 ® CPU 为 DeepSeek R1 671B 模型的部署提供了一个极具竞争力的方案。 英特尔 ® 至强 ® CPU 具备支持 T 级超大内存的能力,这使得它在权重存储与加载方面表现高效。对于像 DeepSeek R1 671B 这样的超大模型,其所需的显存容量在多卡 GPU 配置下才能满足,而 英特尔 ® 至强 ® CPU 能够凭借其强大的内存支持能力,为该模型提供良好的运行环境。

此外,DeepSeek R1 模型采用的 MOE(Mixture of Experts)结构,通过参数稀疏化的方式,使得在单 token 推理时仅需激活少量专家参数。这种特性显著降低了推理过程中的算力要求,与 CPU 的计算特点相契合,使得模型在 CPU 系统上的运行更加高效。这意味着在







请到「今天看啥」查看全文