专栏名称: InfoQ

有内容的技术社区媒体。

目录

相关文章推荐

新浪科技 · 【#今年新股0破发##打新人数创2年多新高# ... · 昨天

新浪科技 · 【奇瑞尹同跃：降价是应对竞争的最无奈一招，是 ... · 2 天前

新浪科技 · 【#睡眠拖延症患者大多都有这些特征#】当下年 ... · 2 天前

新浪科技 · 【#宝洁启动十年来最大规模重组##宝洁裁员7 ... · 2 天前

新浪科技 · 【#当智搜写高考作文#】2025年高考作文题 ... · 2 天前

51好读 › 专栏 › InfoQ

推理性能提升13倍，延时缩短超4倍丨实测焱融YRCloudFile KVCache

InfoQ · 公众号 · 科技媒体 · 2025-04-09 17:48

正文

请到「今天看啥」查看全文

在推理场景中的性能优化数据

为了验证将 GPU 内存扩展至 YRCloudFile KVCache 对 token 处理效率的显著提升效果，并充分展示焱融 AI 存储架构的卓越性能，我们进行了多轮测试。通过针对不同 token 数量和配置的测试，深入探索该架构在实际应用中的优化潜力。以下测试均是基于原生 vLLM，以及 vLLM+YRCloudFile KVCache 进行的数据对比。

测试一：长上下文提问下，推理 TTFT 的对比数据。

背景：输入长上下文，对比单次提问的回答总耗时（指超过 20K 长度的 token）
显卡：NVIDIA T4
模型：Qwen/Qwen2.5-7B-Instruct-GPTQ-Int4
测试方法：基于同样的上下文，使用相同的问题，通过 QA chatbot 上进行提问模拟

请到「今天看啥」查看全文

推荐文章

新浪科技 · 【#今年新股0破发##打新人数创2年多新高#】今年以来，打新人数-20250608151559

昨天

新浪科技 · 【奇瑞尹同跃：降价是应对竞争的最无奈一招，是饮鸩止渴】奇瑞控股集-20250607155239

2 天前

新浪科技 · 【#睡眠拖延症患者大多都有这些特征#】当下年轻人，睡觉时间越来越-20250607125000

2 天前

新浪科技 · 【#宝洁启动十年来最大规模重组##宝洁裁员7000人#】宝洁启动-20250607142500

2 天前

新浪科技 · 【#当智搜写高考作文#】2025年高考作文题目新鲜出炉，@新浪科-20250607120407

2 天前

THLDL领导力 · 企业管理从管理人到管理模式，48小时帮你塑造突破的利刃！

8 年前

彬彬有理 · 啪啪后最应该做的可能不是这个

8 年前

言安堂 · 你真的会洗头吗？

8 年前

车买买 · 这7款上半年上市的新车性价比高值得买

8 年前

CareerIn投行PEVC · 破产的玩具反斗城准备把亚洲业务在香港上市

7 年前

移动版

51好读 - 微信公众号文章