2 月 28 日,DeepSeek 开源周第五日迎来了 Fire-Flyer File System (3FS):一套基于现代 SSD 与 RDMA 网络全部带宽的并行文件系统。
按照官方的说法,3FS 专为应对 AI 训练和推理工作负载的挑战而设计,将为 DeepSeek 的数据访问全程加速。它以高吞吐、低延迟和强一致性为核心设计理念,为分布式应用开发者提供了一个简化的共享存储层。
在具体应用中,3FS 涵盖了从数据准备(将数据分析管线的输出组织成分层目录并高效管理海量中间结果)、数据加载(无需额外预取或洗牌数据集,支持跨节点随机访问训练样本)、检查点(提供并行高吞吐的检查点保存与重载)到推理阶段的 KVCache(为大规模语言模型推理提供高吞吐且容量更大的缓存)等多种关键环节。据悉,在 V3 与 R1 版本模型中,3FS 正是通过在这些环节的出色表现,大幅提升了训练与推理过程的效率与稳定性。
为满足这些高负载需求,3FS 在架构设计上具备以下核心特性与优势:
分离式架构:整合数千块 SSD 与数百个存储节点的网络带宽,无需考虑数据局部性即可完成大规模并行存储访问。
强一致性:利用链复制与分配式查询(CRAQ)实现强一致性,简化了上层应用的开发难度。
文件接口:基于成熟的元数据服务与事务型键值存储(如 FoundationDB),提供通用而熟悉的文件 API,无需额外学习新协议。
性能表现方面,在一个由 180 个存储节点组成的大规模集群中(每节点含 2×200Gbps InfiniBand 网卡与 16 块 14TiB NVMe SSD),3FS 在同时运行训练任务的背景流量下,依然实现了约 6.6 TiB/s 的整体读取吞吐量。
在大型 3FS 集群上进行读取压力测试的吞吐情况。
同时,其 GraySort 基准测试突破 3.66 TiB/ 分钟。在由 25 个存储节点和 50 个计算节点构成的集群上,3FS 通过两阶段(基于键前缀位的 Shuffle 分区 + 分区内排序)读取 / 写入数据,完成了对 110.5 TiB 数据、8192 个分区的排序,仅耗时 30 分钟 14 秒,平均吞吐量达到 3.66 TiB/ 分钟。
在推理场景下,为优化大规模语言模型(LLM)的 KVCache 查找速度,3FS 提供了高吞吐、强一致性的数据访问能力,单个客户端节点峰值可达 40+ GiB/s,同时支持高效的垃圾回收操作。
DeepSeek-V3 的项目地址:https://github.com/deepseek-ai/3FS
目前,业界已有多款专为 AI 时代设计的存储系统,其中既有老牌厂商 DDN(DataDirect Networks),也涌现出像 VAST Data、Weka.io 等初创公司。
DDN 起源于 HPC 时代。当时,尽管 HPC 拥有强大的计算能力,但存储性能无法跟上需求。为此,DDN 开发了与 HPC 框架匹配并加速运行的存储技术。随着 AI 的崛起,DDN 也不断适应新挑战,成为支持大规模 AI 应用的关键技术。
值得一提的是,NVIDIA 也选择 DDN 来展示其基础设施能力,据 DDN 的说法,如今七年过去了,DDN 仍是 NVIDIA 内部唯一使用的数据存储技术,并广泛应用于 X 公司的 Colossus AI 集群和众多客户的 AI 应用中。但基于 DDN 的背景,它还是更偏向传统 HPC 存储,面向超算中心、AI 训练、金融等高性能存储需求。
根据 DeepSeek 的介绍,3FS 每个存储节点配备了 2×200Gbps InfiniBand 网卡,整体集群性能达到了 6.6TiB/s,特别是在实际业务场景中展现出的性能,使得单一集群的表现能够位居国内前列。同时,值得注意的是,DDN 在今年 2 月推出了基于 Infinia 2.0 的存储平台的“重大更新”。
相较之下,虽然 WEKA 和 VAST 在技术上仍然是初创公司,但也受到了一些大模型明星公司的青睐。比如大模型六小虎中的月之暗面,采用的正是 WEKA。通过与 WEKA 集成,并利用其 KVCache 技术,实现了高效的令牌缓存,极大地提升了数据处理的容量、速度和效率。
需要注意的是,上述这些公司提供的解决方案通常是商业级专用技术,而 3FS 的出现被部分业内人士视为“在开源层面填补了高性能并行文件系统的空白”。
针对 3FS 的开源,一位匿名受访的资深存储技术专家也对 InfoQ 表示:“DeepSeek 的开源周肯定让不少人失眠,各种 AI Infra 基础架构都被陆续开源出来,向全球展示了中国企业在技术研发上的深厚积累和创新能力。3FS 的开源让大家直观地了解到分布式文件系统在大模型训练场景的作用,让业界意识到高性能文件系统已成为大模型训练不可或缺的一环。”
他进一步总结了 3FS 的几个特点:
其一是高性能。“单节点 40 GB/s 的读带宽基本上把网络性能压满,也达到了国际上一线品牌产品的性能指标。高性能全闪文件系统通常都能做到这个级别,IO500 榜单里也有不少集群能达到 TB/s 的总带宽。但幻方在 Infiniband 网络大规模集群组网时,还解决了拥塞问题,这一点非常了不起。”
其二是 AI 训练和推理的全流程优化。“AI 训练和推理的全流程优化,把业务和存储整合成一个基础平台,发挥出了存储的极致性能,给模型厂商和存储厂商提供了新的优化思路。”
其三是提供 KVCache 访问协议,在大规模 AI 推理场景下有优势。他指出 DeepSeek 的 KVCache 访问协议,提供了更具性价比的推理解决方案,对于业界来说是“一个很大的突破”。
把 KVCache 放到高性能分布式文件系统缓解了推理对显存容量的要求,把 KVCache 卸载到存储上,以存代算,可以节省算力出来支撑更多的计算任务。这推动了高性能文件系统在推理场景的落地,帮助存储厂商拓展了一个新的场景,对整个业界是影响非常大的事情。
不过,该存储技术专家也提醒道,业界应理性看待 3FS,“高性能文件系统的使用和运维门槛相对较高,尤其是 3FS 这类专有的高性能文件系统,在充分理解它的工作原理前避免盲目跟进,毕竟不是所有公司都具备幻方的基础设施和人才储备。”
与此同时,JuiceFS 苏锐也从分布式文件系统与大模型训练的角度发表了看法。他指出,AI 业务涉及大量非结构化数据,包括文本、图像和视频等格式,同时企业还必须应对数据量的急剧增长。在这样的背景下,分布式文件系统成为 AI 训练中一项关键的存储技术。
“3FS 是一个高性能并行文件系统,设计上它采用高性能 SSD 和高性能的 IB 网络,适合在数据中心部署,进行 LLM 需要的 IO 密集型的任务和计算密集型任务,如数据清洗和预训练。对 IO 性能要求高的业务,提供结合 FUSE 和基于共享内存的异步 IO 的原生客户端,以获得接近内核客户端的性能。”苏锐说道。