专栏名称: 百度智能云
聚焦人工智能(AI)、大数据(Big Data)、云计算(Cloud),以“ABC”三位一体战略,帮助企业客户实现数字化、智能化转型。百度云,智能,计算无限可能!
目录
相关文章推荐
白鲸出海  ·  OpenAI覆盖会议纪要场景,苹果有意用Pe ... ·  20 小时前  
阿里云开发者  ·  SQL玩转多模态AI,轻松搞定图片+文本混合搜索 ·  昨天  
阿里云开发者  ·  MCP Java 开发指南 ·  2 天前  
阿里云开发者  ·  AI IDE正式上线!通义灵码开箱即用 ·  3 天前  
51好读  ›  专栏  ›  百度智能云

首日调用客户破1.5万!DeepSeek-V3/R1上线背后的超低推理成本技术揭秘

百度智能云  · 公众号  · 科技公司  · 2025-02-06 17:43

正文

请到「今天看啥」查看全文


推理引擎性能优化技术

基于百度智能云在大模型推理性能优化方向的技术积累,针对DeepSeek模型MLA结构的计算进行了极致的性能优化,并通过计算、通信、内存不同资源类型算子的有效重叠及高效的Prefill/Decode分离式推理架构等,在核心延迟指标TTFT/TPOT满足SLA的条件下,实现模型吞吐的大幅度提升,进而显著降低模型推理成本。

推理服务的工程架构创新

在推理服务层面,进行了深入的优化与创新。 针对推理架构,做了严格的推/拉模式的性能对比。 经验证拉模式在请求处理的成功率、响应延时以及吞吐量等关键指标上均展现出更为卓越的性能。 为了进一步提升系统的稳定性和用户体验,巧妙地设计了一种请求失败的续推机制,这显著增强了系统的容错能力和服务SLA达标率。 同时针对多轮对话和system设定等场景中存在重复Prompt前缀的情况,实现了主流的KV-Cache复用技术,并辅以全局Cache感知的流量调度策略。 这一举措有效避免了Token KV的重复计算,从而大幅降低推理延迟,提高了推理吞吐。







请到「今天看啥」查看全文