专栏名称: 机器学习算法与Python学习
作为沟通学习的平台,发布机器学习与数据挖掘、深度学习、Python实战的前沿与动态,欢迎机器学习爱好者的加入,希望帮助你在AI领域更好的发展,期待与你相遇!
目录
相关文章推荐
房地产投资融资俱乐部  ·  13个富有的习惯:逼自己养成,习惯即命运。 ·  昨天  
仙桃电视台  ·  恭喜!仙桃这些人,搬新家啦! ·  昨天  
跟宇宙结婚  ·  小伙子的四十三岁生日感言|跟宇宙结婚 ·  2 天前  
51好读  ›  专栏  ›  机器学习算法与Python学习

什么?Kimi推理架构宣布:开!源!了! Github标星1.7K

机器学习算法与Python学习  · 公众号  ·  · 2024-11-29 21:14

正文

请到「今天看啥」查看全文


大模型推理架构Mooncake

今年6月,月之暗面和清华大学MADSys实验室联合发布了Kimi底层的Mooncake推理系统设计方案。 在这篇名为《 Mooncake: A KVCache-centric Disaggregated Architecture for LLM Serving 》的论文中,作者详细介绍了Mooncake这种系统架构。

该系统基于以KVCache为中心的PD分离和以存换算架构,大幅度提升了推理吞吐。

具体而言,Mooncake采用以KVCache为中心的解耦架构,将预填充集群与解码集群分离,并充分利用GPU集群中未充分利用的CPU、DRAM和SSD资源,实现KVCache的解耦缓存。

其核心在于 以KVCache为中心 的调度程序:

在最大化整体有效吞吐量和满足与延迟相关的服务级别目标 (SLO) 要求之间取得平衡

当面对流量高峰期时,Mooncake通过早期拒绝策略和预测未来负载的方法,来处理超载问题。

早期拒绝策略(Early Rejection Policy)

简单说,其核心思想是在请求实际开始处理之前,根据当前系统的负载情况预测是否有足够的资源来处理新的请求。

如果预测结果表明系统资源不足以保证请求的及时处理,系统就会在请求到达之前予以拒绝,从而避免了无效的资源占用和不必要的延迟。

预测未来负载(Predicting Future Load)

在Mooncake中,系统需要能够预测在未来一段时间内的负载情况,以便做出更准确的接受或拒绝请求的决策。







请到「今天看啥」查看全文