消息称OpenAI筹划自建数据中心,年内算力将提升八倍
2 天前 / 阅读约4分钟
来源:36kr
OpenAI拟自建数据中心减对微软依赖,存储需求5EB。

3月26日消息,据知情人士透露,OpenAI近期讨论了购买价值数十亿美元的数据存储硬件和软件计划。两位知情人士表示,为了容纳这些硬件,该公司首次考虑建设自己的数据中心。

这一计划将使OpenAI迅速成为全球最大的存储客户之一,并表明它在开发人工智能过程中,希望对关键数据拥有更多的控制权。

此次讨论恰逢OpenAI努力减少对微软的依赖之际,后者是其长期的云计算服务提供商。这表明,OpenAI不想完全依赖外部企业来满足存储需求。截至目前,OpenAI尚未独立运营任何数据中心。

自建数据中心还可能帮助OpenAI节省成本。随着该公司使用更多来自甲骨文和CoreWeave的服务器(除微软外),在不同提供商之间迁移数据的成本,可能高于将数据存储在自有设施中的成本。

目前,OpenAI尚未最终敲定任何计划,且可能会利用存储计划作为与云服务提供商议价的筹码。

OpenAI的存储硬件采购计划将与其今年1月与投资方软银宣布的“星门”数据中心计划相关,后者计划投入5000亿美元开发新设施。OpenAI已讨论过将存储服务器部署在得克萨斯州阿比林市“星门”数据中心附近,并计划从云服务提供商甲骨文租赁大量英伟达的GPU。

一位知情人士透露,数据中心通常包含为AI提供算力的计算机机架和存储机架,但OpenAI希望建设一个专门用于存储的独立数据中心。该设施将能够与其位于阿比林的GPU数据中心及该地区可能使用的其他设施进行数据交互。

容量扩充三倍,算力提升八倍

OpenAI的存储计划正好与“星门”计划同步。该计划的目标是通过拥有更强的计算能力,成为全球最大的数据中心客户之一,从而在AI竞争中获胜。

OpenAI已经告知投资者,计划在今年将数据中心容量扩充三倍以上,达到近2吉瓦(Gigawatt,2000000000瓦)的能耗规模,这一数字包括其从微软租赁用于开发AI和运行ChatGPT的服务器。

一位知情人士称,OpenAI领导层已告知员工,到今年年底,其研究人员用于训练新AI的计算能力将比2024年底提升约八倍,但这一数据不包括OpenAI用于支撑ChatGPT的服务器。

尽管AI计算主要集中在用于开发新模型的英伟达GPU大型服务器集群上,但研究人员也需要能快速访问存储。从OpenAI自有设施访问数据,可能比从微软的存储服务器更为迅速。

保存检查点(Checkpoints)

在长达数周或数月的开发新AI模型过程中,研究人员需要频繁保存工作成果,这时存储显得尤为重要。

OpenAI正在寻找最多5 Exabyte的存储空间。与之相比,截至2021年,苹果公司使用的所有云提供商的存储总量约为8 Exabyte,主要用于处理其iCloud服务中的媒体和文档数据。

研究人员会保存用于开发新模型的算法快照(称为检查点)以及权重(即决定模型性能的参数设置)。保存这些检查点使得AI开发者能够在修改权重后遇到问题时,从特定节点恢复训练,而无需从头开始。

OpenAI的潜在存储采购计划已成为存储行业的热门话题。其存储软件合同的潜在竞标者包括Pure Storage、VAST Data、DDN、MinIO和Weka等。戴尔和惠普等服务器制造商也可能竞标OpenAI交易中的服务器硬件部分。

目前尚不清楚OpenAI计划如何支付这些存储设备的费用。OpenAI和软银已分别承诺向“星门”合资企业投资190亿美元,用于开发数据中心或从其他公司的设施租赁计算能力。OpenAI计划在3月底前筹集约100亿美元资金。