专栏名称: InfoQ
有内容的技术社区媒体。
目录
51好读  ›  专栏  ›  InfoQ

推理性能提升13倍,延时缩短超4倍丨实测焱融YRCloudFile KVCache

InfoQ  · 公众号  · 科技媒体  · 2025-04-09 17:48

正文

请到「今天看啥」查看全文


在推理场景中的性能优化数据

为了验证将 GPU 内存扩展至 YRCloudFile KVCache 对 token 处理效率的显著提升效果,并充分展示焱融 AI 存储架构的卓越性能,我们进行了多轮测试。通过针对不同 token 数量和配置的测试,深入探索该架构在实际应用中的优化潜力。 以下测试均是基于原生 vLLM,以及 vLLM+YRCloudFile KVCache 进行的数据对比。


测试一:长上下文提问下,推理 TTFT 的对比数据。

  • 背景:输入长上下文,对比单次提问的回答总耗时(指超过 20K 长度的 token)

  • 显卡:NVIDIA T4

  • 模型:Qwen/Qwen2.5-7B-Instruct-GPTQ-Int4

  • 测试方法:基于同样的上下文,使用相同的问题,通过 QA chatbot 上进行提问模拟







请到「今天看啥」查看全文