专栏名称: 大数据文摘
普及数据思维,传播数据文化
目录
相关文章推荐
网信内蒙古  ·  解读2024年全国数据资源调查情况 ·  15 小时前  
网信内蒙古  ·  解读2024年全国数据资源调查情况 ·  15 小时前  
IDC咨询  ·  Data+AI市场快速演进,数据管理分析与G ... ·  2 天前  
IDC咨询  ·  Data+AI市场快速演进,数据管理分析与G ... ·  2 天前  
InfoTech  ·  DeepSeek更新了! ·  4 天前  
人工智能与大数据技术  ·  AI编程新王Claude ... ·  4 天前  
51好读  ›  专栏  ›  大数据文摘

DeepSeek开源周压轴神器:3FS文件系统,读取吞吐量达6.6TiB/s!再次打脸OpenAI?

大数据文摘  · 公众号  · 大数据  · 2025-03-02 14:00

正文

请到「今天看啥」查看全文


它利用现代SSD和RDMA网络来提供共享存储层,从而简化分布式应用程序的开发,主要功能和优势包括包括两个方面:
1、性能和可用性
分解式架构结合了数千个SSD的吞吐量和数百个存储节点的网络带宽,使应用程序能够以不受位置影响的方式访问存储资源。
强一致性实现带有分配查询(CRAQ)的链式复制以实现强一致性,从而使应用程序代码简单且易于推理。
文件接口开发由事务键值存储支持的无状态元数据服务,文件接口众所周知且随处可用,无需学习新的存储API。

2、多样化的工作负载
数据准备将数据分析管道的输出组织成分层目录结构,并有效地管理大量中间输出。
数据加载器通过跨计算节点随机访问训练样本,消除了预取或混洗数据集的需要,此外,检查点支持大规模训练的高吞吐量并行检查点。
用于推理的KVCache提供了一种基于DRAM的缓存的经济高效的替代方案,可提供高吞吐量和更大的容量。
DeepSeek展示了一个大型3FS集群的读压测吞吐情况。
该集群由180个存储节点组成,每个存储节点配备2×200Gbps InfiniBand网卡和16个14TiB NVMe SSD。大约500+个客户端节点用于读压测,每个客户端节点配置1x200Gbps InfiniBand网卡。在训练作业的背景流量下,最终聚合读吞吐达到约6.6TiB/s。
关于灰度排序,DeepSeek团队利用GraySort基准对smallpond进行了评估,该基准可衡量大规模数据集的排序性能。
测试集群由25个存储节点和50个计算节点组成。对8192个分区中的110.5TiB数据进行排序耗时30分14秒,平均吞吐量为3.66TiB/分钟。
从技术布局来看,基于DuckDB和3FS构建的轻量级数据处理框架smallpond,已经为扩展处理PB级数据集做好了技术准备。
至此,堪称技术干货满满的DeepSeek开源周正式结束,关键技术点在github社区吸引了非常高的关注度。






请到「今天看啥」查看全文