专栏名称: 特大号
IT B2B 特大号!每日八卦最香艳2B绯闻!
目录
相关文章推荐
51好读  ›  专栏  ›  特大号

总吞吐高达6708 token/s!联想AMD AI服务器单机部署满血版DeepSeek大模型,创业...

特大号  · 公众号  ·  · 2025-03-17 11:03

正文

请到「今天看啥」查看全文


依托 联想万全异构智算平台 ,联想通过 访存优化、显存优化、PCIe 5.0全互联架构创新以及精选SGLang框架中性能最优算子 等诸多创新方式,对大模型从预训练、后训练到推理的全流程进行持续优化。
在单台部署DeepSeek 671B大模型的联想问天WA7785a G3上实测最高吞吐量达6708 token/s

在模拟问题对话场景(上下文序列长度128/1K)时,最高可支持并发数158,TPOT 93毫秒, TTFT 2.01秒;
而在模拟代码生成(上下文序列长度512/4K )时,并发数可达140,TPOT 100毫秒, TTFT 5.53秒。

这一成绩意味着单台联想问天WA7785a G3可以 支撑1500人规模企业 的正常使用,是继联想问天WA7780 G3服务器单机部署满血版DeepSeek 大模型总吞吐量突破2500 token/s之后,单机部署该大模型推理性能的又一次突破。






请到「今天看啥」查看全文