国产高性能存储,悄悄爆发
4 天前 / 阅读约11分钟
来源:凤凰网
AI存力卡位战,国产存储如何破局?

今年开年后,当DeepSeek等搅动的大模型应用热潮在各行业迅速蔓延时,一场更底层的竞赛,已在AI基础设施领域悄然爆发。国产存储企业,正在高性能存储市场上发起攻势。

“DeepSeek等在应用侧产生的效果,彻底点燃了企业应用AI的信心。”京东云相关负责人告诉数智前线,大中型企业今年普遍在AI基础设施上投入更多资源和预算。但第三方调研显示,超过76%的企业AI项目,因存储性能利用率不足,直接造成15%-30%的算力损耗。

存储,这个此前被经常“忽视”的赛道,在今天正变得举足轻重。高性能存储已成为智算中心标配,占AI Infra的15%左右,而今年新增市场将是之前的数倍。

仅第一季度,京东云就已基本完成两个超大智算中心项目实施。客户对存储的要求惊人地一致,就是高性能,以满足他们大模型训练和应用的需求。京东云提供存储系统,适配了业界最高的400G IB网络,并成功将存储带宽利用率推升至84%。

此前,高性能存储几乎是国际厂商的天下。而在新一轮AI变局中,市场争夺和重塑的背后,是国内企业在技术商业以及人才团队上,长达10多年的积累。

01

新一轮AI趋势下,存力变化几何?

新一轮人工智能,对高性能存储的技术商业影响极大。

DeepSeek推出后,推理市场正在爆发。IDC预测,2025年推理工作负载的占比,将达到近7成。人们可能认为,推理对AI基础设施的性能要求要低于训练,但事实并非如此。

“从DeepSeek发布的产品特征来看,对于存储性能的需求,还会再上一个台阶。理论上,推理对存储的读取性能要求,会远超训练。”京东云资深人士说,以DeepSeek的671B模型为例,要求存储读取速度突破每秒TB级,才能支撑GPU推理集群的秒级扩展。而只有这样的弹性扩展能力,才能达到人们缩短首次token输出时间的期望。

随着AI应用落地,很多企业也开始重视推理成本。DeepSeek已采用如PD分离技术,将推理的预填充(Prefill)和解码(Decode)阶段分开部署,分配不同硬件资源,来提升推理性价比。在一些真实场景中,PD分离让长文本生成速度提升5倍以上。京东云人士则告诉数智前线,PD分离结合存储、kv缓存,可进一步大幅提升推理性价比,该团队已在这一方向上展开技术攻关。

除了推理市场给高性能存储带来的挑战,后训练的增加,对存力市场的影响也不小。业界的共识是,全球只有少数几家企业将继续做预训练,在大模型技术上持续摸高。而大多数大中型企业,做后训练的频率将增加。

相比于预训练,后训练对语料数量要求更少,训练周期也会缩短,但与预训练一样,对存储在时延、吞吐和带宽等性能以及可靠性上,同样提出极致高要求。这就像“数据输油管”,如果输送得不够快、不够稳定,耗资巨大的GPU集群就无法工作。

在行业市场,汽车智驾、AI医疗等赛道,成为存储性能的角斗场。

某医疗AI企业影像诊断系统,因小文件处理延迟,导致急诊响应超时率升高至12%。2024年,国家医保局在放射检查类相关指南中,首次将人工智能辅助诊断列入立项指南,在一些三甲医院,AI辅助阅片已落地应用。AI辅助阅片要求在10多分钟内,就要完成1T数据的读取、加载和训练,医疗市场的原有存储系统正受到挑战。

在汽车行业,多家车企在智驾系统上展开了“军备竞赛”。频繁的模型训练,对有强大并行处理能力的文件存储系统,提出强烈需求。一台L3级别的自动驾驶测试车,平均每天产生60TB的数据,完整测试产生的数百PB数据,需要存储30年以上。车企也对低成本海量存储提出明确需求。

此前,高性能存储市场,基本被海外产品覆盖。最近两年,国产存储企业崭露头角,竞赛已在日夜吞吐数据的存储系统中,悄然打响。

02

国产高性能存储在激烈争夺市场

早期,国内企业如新能源车企,在构建AI Infra时,从算力、网络到存储,几乎都要花天价,采购海外厂商的全套技术栈。当时,国内没有相应的自研高性能存储技术,主要以海外企业DDN、IBM GPFS为主。

不过,市场已发生快速转变。国产高性能存储在近几年介入市场,并展现出强劲势头。2024年,京东云高性能存储平台“云海”,营收增长就高达10倍。云海是京东云在2022推出的国产全自研并行文件存储系统。他们期望抓住当下新一轮AI发展中,头部用户构建、升级AI Infra的时机,重塑市场格局。

某头部银行训练金融大模型时,原有存储系统性能无法满足需求,在训练过程中出现了数据流动低效、带宽不够大、吞吐性能不足、算力闲置等痛点,大模型训练跑不起来。在替换成云海高性能存储后,通过存算分离技术架构,实现了超50GiB/S吞吐带宽,文件响应延迟低至100微秒,大幅减少GPU等待时间,让模型训练周期缩短40%。

在一些新能源车企,在数千卡规模模型训练集群中,结合云海,比使用海外技术,成本降低了大约一半以上。

但国产高性能存储,并不是横空出世,需要企业突破性能、可靠性、成本以及自主可控四大难关。

在这个过程中,云海经历了三大发展阶段:存算分离阶段、AI及大模型训练阶段、推理潮阶段,并聚焦研发了高性能并行文件存储系统、统一引擎等相关核心技术,以自研、高性能、低成本的系统角逐市场。

以高性能的并行文件系统为例,它更适合人工智能场景下,频繁小文件随机读写和低延迟场景。比如,在AI辅助诊断系统,可将数十万个CT切片,多个节点同时对数据进行读写操作、并行分析。

为了提升大模型训练速度,需要对大规模数据集进行快速加载,且一般采用数百甚至上万张GPU构成计算集群进行高效的并行计算,需要高并发输入/输出(I/O)处理,而训练数据集呈现海量小文件的特点,文件量在几亿到几十亿量级,对应的带宽需求可能每秒要达到上TB,这就要求存储系统具备强大的数据管理能力。

目前,业界有一些开源技术,而自研高性能并行文件的企业仅寥寥几家。京东云是其中之一,将系统性能“压榨”到极致。一家客户在选型时,将云海与海外产品PK,最终得出的结论是,云海性能与海外产品相当,但网络带宽利用率,高出近3个百分点。以单节点95GB/s的读带宽、60GB/s的写带宽,进一步拉低了国产存储与国际老牌厂商的差距。

在另一个创新点——统一存储引擎上,传统上有不同存储类型,导致企业内部的存储系统五花八门。之前有客户买了五套存储系统,导致数据很难统筹,成了大模型训练应用的掣肘。得益于京东云团队在存储技术上多年的积累、在多业务场景下的实战,云海在设计时,得以实现高度的抽象化,从而让一个引擎,满足企业内部多元场景的需求。

存储系统的可靠性,几乎是企业构建底座的底线。存储一旦出问题,数据丢失,将带来灾难性问题。而可靠性的追求永无止境,关键要找到它与性能、成本之间的最佳平衡点。京东云的创新涉及算法、架构,并获得了国家相关专利。“京东云云海未出现任何导致客户服务中断的故障。”上述资深人士说。

根据信通院测试,云海代码自研率达到98.9%+,并全面支持国产硬件环境,这需要与国产多元芯片、操作系统,做大量对接、优化和相互认证。而在支持国产化的情况下,云海能做到在一些主流算力平台上,在CPU主频相同的情况下,性能与X86平台近乎等同,而性价比更高。这让客户能落地大模型,并获得正向收益。

03

商业化两年,从怀疑到认可

在替代国外存储产品时,国产存储经历了客户态度从怀疑到认可的转变过程。

“起初,客户难免会有所顾虑,国产全自研的云海高性能存储,是否能稳定可靠地支持AI Infra的要求?”京东云相关负责人对数智前线说。但随着与客户的持续沟通、PoC测试,以及越来越多头部客户案例的出现,“大家逐渐认识到云海不仅能够替代,甚至在成本和性能上可能优于国外存储产品”。

这个过程中,京东云云海也逐渐形成一套自己的落地方法论和典型案例集。

例如,客户在做存储产品选择时,一般会重点关注两大因素:第一,是否有品牌背书,以避免产品厂商突然消失或停止运维的风险。第二,技术和服务能力如何。

云海在这两方面都进行了强化,借助于京东云品牌,以技术能力打动客户。

京东云资深人士告诉数智前线,在品牌背书方面,云海不仅历经了京东集团10多年大规模高流量场景验证,也是国内互联网厂商中,唯一一家支持存储系统与云平台解耦,以独立产品组件实现轻量化向线下输出的。

而在技术能力方面,云海80%以上的项目都通过了用户的PoC测试。在PoC过程中,客户能够清晰了解存储产品的性能、稳定性、故障处理等能力。

另外,是否有在头部企业的成熟应用案例,并能快速复制到其他企业,也是打动客户的关键。上述人士透露,商业化两年间,云海已在智能驾驶、银行、券商、泛互联网等行业的头部企业中,实现了成功落地。

在解决传统基础设施存算分离问题的阶段,云海曾协助中信证券、中信建投等头部券商和银行完成了存算分离的工作。在泛互联网行业,云海帮助荔枝FM和墨迹天气实现了综合存储成本直降30%……

这些云海的第一阶段的客户,在最新这波大模型浪潮中,基于之前建立的信任基础,实现了延续。“只要之前用我们存算分离存储系统的,现在在AI Infra层面,有并行文件高性能存储需求的,几乎100%都选择了云海。 ”上述人士告诉数智前线。

某头部券商的传统存储架构,随着其金融业务扩大,逐渐暴露出资源利用率低、存储架构不够灵活、存储性能不足、故障难恢复等问题,为支撑业务发展,该券商基于云海构建了统一云原生存储架构体系,实现数据高效存储与流动,满足了“小微化、高频化”的业务新模式,支撑证券业务系统频繁变更。同时,存储平台兼容多存储接口类型,与用户业务系统无缝链接。

国内某汽车厂商在做大模型训练时,面临GPU集群闲置的问题,希望存储厂商能帮忙提升集群使用效率。“我们之前给它做了估算,GPU集群闲置5%左右的时间,成本就已经与重建一套分布式存储集群相当。”京东云资深人士告诉数智前线,为了将GPU的等待时间降下来,云海做了一套高性能并行文件系统解决方案,来支撑它约100T的数据集训练,实现秒级读写。

随着大模型应用的爆发式增长,AI基础设施领域正经历一场前所未有的变革。从金融到汽车,从互联网到医疗,各行业对高性能AI基础设施都提出迫切需求。而在激烈角逐中,高性能存储作为关键环节,正见证国产力量的强势崛起。