正文
DeepSeek
选择了与现有开源项目(特别是 vLLM)紧密合作的路径,以更灵活、更易于集成的方式分享其技术积累。具体策略包括
提取可复用的独立特性,
将其模块化后作为独立的库贡献出来;以及
直接分享优化细节,
向 vLLM 等项目贡献设计思想、实现方法甚至具体的代码补丁。
这一合作策略获得了社区的普遍理解和积极响应。vLLM 项目官方账号在社交平台
X
上明确表示支持,认为 DeepSeek“以正确的方式开源引擎”,即将改进带回社区使人人受益,而非创建一个独立的仓库。技术社区的讨论也倾向于认为,这种分享“know-how”和可集成模块的方式,比发布一个难以维护的代码“僵尸”更有价值。
图丨相关推文(来源:X)
社区对 DeepSeek 贡献内容的期待值很高。此前已有分析指出,vLLM 在吸收 DeepSeek 2 月的“开源周”所公布论文中的部分优化后,处理 DeepSeek 模型的性能已有显著提升(约 3 倍)。
图丨不同 LLM 服务框架中每秒令牌数的性能提升,突显了 vLLM 中的优化。(来源:Red Hat)
而根据
DeepSeek
此前公布的推理系统内部测试结果,每个 H800 节点在预填充期间平均吞吐量达到 73.7k tokens/s 输入(包括缓存命中),或在解码期间达到 14.8k tokens/s 输出。相比之下,有开发者使用 vLLM 在高并发下,使用 sharegpt 数据集时基准测试约为 5K total tokens/s,随机 2000/100 测试达到 12K total token/s 的吞吐量。这表明推理性能优化领域仍有巨大提升空间。
值得注意的是,DeepSeek 在公告中特别澄清,本次宣布的开源路径
仅针对其推理引擎代码库。
对于未来模型发布,公司将继续秉持开放协作的态度,致力于在新模型推出前与社区及硬件伙伴同步推理优化工作,
确保社区能在模型发布首日(Day-0)获得最先进(SOTA)的推理支持(或许这项工作也是为不久后到来的 R2 做铺垫)。
其最终目标是构建一个同步生态,让前沿 AI 能力能在多样化硬件平台上无缝落地。