专栏名称: 大数据文摘

普及数据思维，传播数据文化

DeepSeek开源周压轴神器：3FS文件系统，读取吞吐量达6.6TiB/s！再次打脸OpenAI？

大数据文摘 · 公众号 · 大数据 · 2025-03-02 14:00

正文

它利用现代SSD和RDMA网络来提供共享存储层，从而简化分布式应用程序的开发，主要功能和优势包括包括两个方面：

1、性能和可用性

分解式架构结合了数千个SSD的吞吐量和数百个存储节点的网络带宽，使应用程序能够以不受位置影响的方式访问存储资源。

强一致性实现带有分配查询（CRAQ）的链式复制以实现强一致性，从而使应用程序代码简单且易于推理。

文件接口开发由事务键值存储支持的无状态元数据服务，文件接口众所周知且随处可用，无需学习新的存储API。

2、多样化的工作负载

数据准备将数据分析管道的输出组织成分层目录结构，并有效地管理大量中间输出。

数据加载器通过跨计算节点随机访问训练样本，消除了预取或混洗数据集的需要，此外，检查点支持大规模训练的高吞吐量并行检查点。

用于推理的KVCache提供了一种基于DRAM的缓存的经济高效的替代方案，可提供高吞吐量和更大的容量。

DeepSeek展示了一个大型3FS集群的读压测吞吐情况。

该集群由180个存储节点组成，每个存储节点配备2×200Gbps InfiniBand网卡和16个14TiB NVMe SSD。大约500+个客户端节点用于读压测，每个客户端节点配置1x200Gbps InfiniBand网卡。在训练作业的背景流量下，最终聚合读吞吐达到约6.6TiB/s。

关于灰度排序，DeepSeek团队利用GraySort基准对smallpond进行了评估，该基准可衡量大规模数据集的排序性能。

测试集群由25个存储节点和50个计算节点组成。对8192个分区中的110.5TiB数据进行排序耗时30分14秒，平均吞吐量为3.66TiB/分钟。

从技术布局来看，基于DuckDB和3FS构建的轻量级数据处理框架smallpond，已经为扩展处理PB级数据集做好了技术准备。

至此，堪称技术干货满满的DeepSeek开源周正式结束，关键技术点在github社区吸引了非常高的关注度。

推荐文章

网信内蒙古 · 解读2024年全国数据资源调查情况

15 小时前

网信内蒙古 · 解读2024年全国数据资源调查情况

15 小时前

IDC咨询 · Data+AI市场快速演进，数据管理分析与GenAI发展趋势及最佳实践发布

2 天前

IDC咨询 · Data+AI市场快速演进，数据管理分析与GenAI发展趋势及最佳实践发布

2 天前

InfoTech · DeepSeek更新了！

4 天前

InfoTech · 工信部教考中心--AI人工智能类10种职业证书介绍

3 天前

人工智能与大数据技术 · AI编程新王Claude 4，深夜震撼登基！连续编码7小时，开发者惊掉下巴

4 天前

日本窗 · 宜家在日本居然遭到爆炸威胁！？幸亏店内购物袋帮了大忙……

8 年前

反裤衩阵地 · 千万不能和现任一起去看《爱乐之城》！

8 年前

枕边阅读 · 人生 | 30岁之后的姑娘，这些伎俩就别用了

8 年前

河北卫视 · 【健康】味精吃多了会致癌、脱发？关于味精的真相，这次全为你说清楚。

8 年前

冯站长之家 · 今日聚焦：今天，必须让他们上头条！

8 年前