正文
而从阿里云在 4 月 9 日 AI 基础设施峰会上的众多发布来看,情况也是如此。阿里云搞定这事儿的核心思路之一,是 PAI 。
据官网介绍,PAI 是阿里云专为开发者打造的一站式机器学习平台,主要由可视化建模(Designer)、交互式建模(DSW)、分布式训练(DLC)、模型在线服务(EAS)等核心功能模块组成。简单理解就是,PAI 解决的是 AI 落地问题,AI 开发在基础设施搭建、工具框架部署、运维合规等方面的复杂工作,帮助企业从 0 到 1 开发、训练、部署、推理一个模型服务,与 AWS SageMaker、Google Vertex AI 相似。
而 PAI 则是通过全新的模型权重服务来解决大模型冷启动,以及提升扩容效率、应对流量洪峰的问题;通过分布式推理引擎 Llumnix 以及流量感知的 PD 分离推理服务共同完成推理加速,最后通过提升 KV Cache 的命中率,来进一步降本。
模型权重服务,简单来说就是围绕模型权重进行管理、存储、分发等操作的一系列服务。模型在首次启动或长时间未使用后重新启动时,需要加载模型权重并准备好进行推理,也就是模型的“冷启动”。所谓“全新模型权重服务”,和冷启动效率的提升关系颇大。
根据本次发布,阿里云官方给出的优化成绩是:缩短大参数模型冷启动时间,0 到 100 节点冷启动加速 21X;50 到 100 节点扩容加速 12X;降低模型存储侧网络压力,减少带宽成本。
而分布式推理引擎 Llumnix,看起来是对标 NVIDIA 开源的 Dynamo 推理框架。Llumnix 通过跨模型实例的请求运行时重新调度来解决 LLM 推理服务中的负载均衡、资源碎片化、优先级区分等问题,通过高效可扩展的实时迁移技术来迁移请求及其内存状态。用一句话总结就是, Llumnix 可以直接影响终端感受到的推理速度。
根据大会发布数据,相比 Round-robin 请求调度,Llumnix 可以将 TTFT P99 响应延迟(从发出请求到第一个 Token 返回)降低最高 92%;TPOT P99 (后续每个 Token 的平均返回时间)响应延迟降低最高 15%。
当然,改善 TPOT 数据表现是一个复合型工程,PD 分离的技术实现情况,也必须被纳入计算。
大模型推理可以笼统分为 Prefill(预填充)阶段和 Decode(解码)阶段,前者处理用户输入的 prompt,生成 KV 缓存(Key-Value Cache),属于计算密集型任务,需要高并行度和显存带宽;后者基于 KV 缓存逐 Token 生成输出,属于存储密集型任务,依赖低延迟的显存访问和高效的批处理调度。
传统操作方式是允许两阶段在同一 GPU 集群运行,但资源争抢会导致吞吐下降和长尾延迟增加。例如,prefill 阶段占用大量算力时,decode 阶段的实时生成能力会被挤压。
所谓 PD 分离,就是对 Prefill(预填充)阶段和 Decode(解码)阶段进行隔离,分别进行资源调度。但仅实现预填充与解码阶段的物理资源隔离也不够好,这缺乏动态调整能力,容易导致预填充集群空闲时解码任务无法抢占资源。
所以阿里云本次发布的是 PAI-EAS 多机 PD 分离部署架构,其核心在于通过分层调度与动态资源协同实现更高效的算力利用和延迟控制,给出的答卷是端到端服务吞吐提升 91%。