专栏名称: InfoQ
有内容的技术社区媒体。
目录
相关文章推荐
新浪科技  ·  【#曝iOS26适配iPhone11及更新机 ... ·  22 小时前  
新浪科技  ·  【#OPPO将5G专利许可予大众#】OPPO ... ·  昨天  
新浪科技  ·  #骑手离职后突发意外仍获10万救助#5月25 ... ·  3 天前  
51好读  ›  专栏  ›  InfoQ

AI Infra 的“中场战事”:推理业务,还在提速

InfoQ  · 公众号  · 科技媒体  · 2025-04-24 16:32

正文

请到「今天看啥」查看全文


但以全链路服务套件的形式推出,目前来看,仅有火山引擎一家。

火山引擎云基础产品负责人罗浩对 InfoQ 分享了背后的思考:

在服务客户的过程中,火山引擎发现,有一类客户,原本就是做企业服务的,他们可能在开发 AI 中间件,甚至正在推动 AI 平台类产品的诞生。这类客户可能会有模型开发和定制服务。

还有一类客户是大体量的 C 端互联网公司,他们往往具有很强的科研驱动力。

第三类客户像金融行业、汽车行业,可能会组建 AI 相关业务部门,专注 AI 带来的业务效率提升与品牌增值效果。

因此不同客户群体对 AI 技术的底层需求完全不同,可能会用三种不同的工具来实现 AI 的能力。且不想将自己的能力完全绑定在某个技术提供方身上,这是可以理解的。 所以今天的 AI Infra 升级,不仅需要为客户提供资源层面的能力,还需要提供解决方案层面的能力和服务。

从技术上要看懂 ServingKit ,也不麻烦。简单来说,就是推理业务的主要流程,在各个核心节点做优化。

总体来说,在推理服务启动前,需完成模型仓库调度与异构资源适配:即从 Hugging Face 拉取模型文件及依赖库,通过分级缓存策略(如火山引擎 ServingKit 的 Onion 镜像权重加速引擎)加速分发。

模型加载与预热完成后,来自公网或私网的推理请求流量,通过智能网关进行分发与治理。

与此同时也要注意资源的运维和调度,包括将 Prefill 预填充与 Decoder 生成阶段解耦,按负载独立扩缩容器实例。通过统一的 KV Cache 管理将高频访问的 Cache 常驻 GPU 显存低频模型动态卸载至主机内存、SSD 或远程存储等。

在 ServingKit 中,镜像服务提供对推理引擎镜像的加载提速,同时用 VKE、APIG、GPU 算子加速器、KV Cache 来分别解决模型加载预热、流量调度、推理执行流水线等环节的工作。

最终实现两项核心成绩:

  1. 部署提速:拉取 DeepSeek-R1 满血版(671B 参数)模型仅需 109 秒,40 秒完成集群内模型缓存预热,13 秒加载至多节点 GPU 显存。

  2. 推理优化:TPS 提升 2.4 倍,首字节响应时间(TTFT)降低 60%,长文本推理 KV Cache 命中率提升十倍。







请到「今天看啥」查看全文