专栏名称: InfoQ
有内容的技术社区媒体。
目录
51好读  ›  专栏  ›  InfoQ

郑纬民院士携最佳论文出席 QCon:月之暗面 Kimi 大模型推理架构 Mooncake全网最权威解...

InfoQ  · 公众号  · 科技媒体  · 2025-03-28 19:30

正文

请到「今天看啥」查看全文


Mooncake 采用一种以键值缓存(KVCache)为中心的分离架构,不仅将预填充和解码集群分开,还高效利用了推理集群中未充分利用的 CPU、DRAM、SSD 和 NIC 资源,建立了一个分离的 KVCache 缓存池。其核心创新在于以 KVCache 为中心的全局缓存和调度器,旨在严格的延迟相关服务级别目标(SLOs)下最大化吞吐量。

实验表明,Mooncake 在处理长上下文输入的场景中表现出色。在使用真实数据进行的测试中,与基线方法相比,Mooncake 在符合 SLOs 的情况下,将有效请求处理能力提高了 59%~498%。目前,Mooncake 已在数千个节点上运行,每天处理超过 1000 亿个 token。在实际部署中,Mooncake 的创新架构使 Kimi 在 NVIDIA A800 和 H800 集群上分别比以前的系统多处理 115% 和 107% 的请求。

相关文章: Mooncake 分离式推理架构创新与实践

郑纬民院士在本次会议的详细演讲内容如下:

演讲提纲






请到「今天看啥」查看全文