英伟达今年的“坏消息”实在是有点多。
早在今年早些时候,就有媒体爆料今年刚发布的Blackwell GPU出了一点小小的问题,其指出这款GPU存在设计缺陷,影响了量产进度,据称该问题与台积电的CoWoS先进封装有关,最终通过更改GPU的光罩解决了问题。
尽管英伟达官方并未正面回应这一问题,但英伟达首席执行官黄仁勋后续在10月份驳斥了台积电应承担责任的谣言,强调台积电帮助解决了问题并“以惊人的速度”恢复了生产。
而在他驳斥的一个月后,新的问题诞生了,这次轮到了机架。据The Information报道,英伟达的Blackwell GPU安装在高容量服务器机架中时,遇到了过热问题,这一问题导致了GPU设计的修改和延迟,还引发了谷歌、Meta和微软等主要客户对Blackwell能否及时部署的担忧。
Blackwell的量产进度一拖再拖,具体交付迟迟未确定,即使是英伟达最忠实的粉丝,也禁不住会问一句:英伟达,怎么了?
据熟悉情况的内部人士向外媒透露,英伟达的Blackwell GPU用于AI和高性能计算(HPC),在搭载72颗处理器的服务器中容易过热,这类服务器预计每个机架的耗电量高达120千瓦。过热问题迫使英伟达多次重新评估服务器机架的设计,因为过热不仅限制了GPU性能,还可能损坏组件。客户担心,这些问题可能会阻碍新处理器在其数据中心的部署时间表。
报道称,英伟达已指示供应商对机架进行多项设计修改以解决过热问题,公司与供应商及合作伙伴密切合作,进行工程改进以提升服务器的散热能力,尽管这些调整在大型技术发布中属于常见做法,但仍然增加了延迟,进一步推迟了预期的发货时间。
针对延迟和过热问题,英伟达发言人表示,公司正在与云服务提供商合作,并将设计变更描述为正常的开发流程的一部分,其表示,与云服务商和供应商的合作旨在确保最终产品满足性能和可靠性的期望,同时继续努力解决这些技术挑战。
此前,因Blackwell处理器的设计缺陷影响良率,英伟达不得不推迟生产计划。据拆解分析,Blackwell B100和B200 GPU使用台积电的CoWoS-L封装技术,将其两颗芯片通过RDL中介层及本地硅互连(LSI)桥连接起来,该设计支持高达10 TB/s的数据传输速度。
然而,由于GPU芯片、LSI桥、中介层和主板基板之间的热膨胀特性不匹配,导致了器件翘曲及系统故障。为了解决这个问题,英伟达对GPU芯片的顶部金属层和焊点结构进行了修改,以提高生产可靠性。尽管英伟达未披露具体修改细节,但表示修复过程中需要新掩膜。
最终版本的Blackwell GPU直到10月底才进入量产阶段,这意味着英伟达将于明年1月底开始发货。
过热似乎是英伟达两次出现问题的主要原因,封装内的过热,机架的过热,很难保证未来Blackwell其他地方不会出现过热的问题。
事实上,此前英伟达准备要用的HBM就传出了过热问题,据今年5月来自路透社的报道,三星最新的HBM3和HBM3E由于过热和功耗问题,它们未能通过英伟达的测试,直到好几个月后,三星才解决了这一问题并正式供货给英伟达。
有意思的是,半导体分析公司Semianalysis的首席分析师表示,虽然随着Blackwell的加速推出以及后续所有芯片,散热将是一个主要关注点,但与散热相关的Blackwell设计问题已得到解决。
帕特尔说:“我认为过热问题已存在数月,并且大多已得到解决。”他说,过热芯片的传言可以追溯到夏天,“当我们追踪这些传言时,发现它们被夸大了,”帕特尔8月在X上发布道。
今年8月,Semianalysis报告说,散热系统出现了问题,导致几家供应商进行了重新设计,负责报告的分析师称这些改动“较小”。
Semianalysis指出,大型数据中心需要液冷来作为散热手段,其分析师在10月写道:“任何不愿意或无法提供更高密度液冷的数据中心都将错过为其客户带来巨大性能总拥有成本(TCO)改进的机会,并将在生成式人工智能的竞赛中落后。”
也有其他学者提出了不同的观点,乔治亚理工学院教授Bara Cola认为,热量本身并不是Blackwell面临的最大挑战。
“真正的挑战是机械应力,而不是热量。我相信英伟达会找到为客户运行这些芯片的办法。像这样的高性能芯片总是会运行得很热,关键在于如何平衡温度——聪明的工程师会解决这个问题,”Cola通过电子邮件告诉《PCMag》。“但当界面无法承受热膨胀应力带来的影响时,就会发生早期失效。这是一个困难的材料科学问题。”
但不管是Semianalysis,还是Bara Cola,他们都会承认这样一个观点,那就是热量已经成为了英伟达崛起之路上的最大绊脚石。
首先要指出的是,过热所导致的问题非常致命,过热的芯片在冷却之前会停止工作,而保持芯片冷却的能力会影响每个芯片在给定时间段内能完成多少计算工作,停机时间和散热成本会影响芯片使用寿命期间的总拥有成本,简而言之,它决定了每一个数据中心是赚钱还是亏钱。
目前半导体行业中大部分担忧都集中在GB200 NVL72上,它代表了数据中心的新前沿。名称中的“72”指的是服务器中的72个Blackwell图形处理单元,此外还有36个传统中央处理单元。由于这么多芯片被紧密地组合在一起以作为一个超级芯片发挥作用,因此单个机架会变得非常热,需要引入新的散热手段。
Semianalysis所提到的液冷并非新鲜事物,但迄今为止,在数据中心规模上应用液冷的情况相对较少,据报道,Meta已重新设计了其数据中心,以适应未来几代AI芯片更高的功率密度和散热需求。
随着超大规模企业和少数其他英伟达客户在2024年末至2025年上半年开始收到他们的芯片,液冷可能会成为更多企业的选择。未来,新的数据中心将配备液冷设施,许多现有设施也正在进行改造。这是一项相当艰巨的任务,除了所有组件都必须完美配合以避免任何泄漏外,液体还必须在精确的温度下循环。
除了工程和运营挑战外,大规模液冷还带来了一系列环境问题。亚马逊内部文件显示,亚马逊在一些地区正在“给当地政府的现有基础设施带来压力”,以获取水资源,并“依赖长期基础设施升级或建立自己的解决方案”来缓解这一问题。
尽管转向液冷需要付出艰苦的努力并给环境带来压力,但这样做的激励因素也很强烈,随着越来越多的Blackwell被交付,数据中心必然会采取这一更优异的散热手段。
不过英伟达显然远比数据中心更早看到热量这一问题,随着服务器芯片的TDP不断增加,B200芯片的TDP已经达到了1000W,传统的空气冷却解决方案已无法满足需求,GB200 NVL36和NVL72完整机架系统的TDP分别达到了70kW和近140kW,因此必须用到液冷的解决方案。
去年,英伟达对于数据中心散热提出了一个想法,即同时用上液体冷却和浸没式冷却这两种方式。这一概念结合了直接液体冷却(DLC)硅片和为其他组件提供浸没式冷却,是美国能源部(DOE)在其COOLERCHIPS计划下授予的500万美元资助的研究主题。该计划旨在将数据中心冷却所消耗的电力降低到IT本身所消耗电力的5%以下。
“很快,当今的空气冷却系统将无法满足需求。当前的液体冷却技术将无法应对研究人员预期未来数据中心中的硅片每平方厘米需要散发的超过40瓦的热量,”英伟达的文章解释道。
英伟达的服务器冷却概念与之前在Submer或LiquidStack等公司看到的罐式浸没冷却设置大相径庭。它保留了大多数空气冷却和直接液体冷却机箱中使用的标准机架式外形,其采用相变制冷剂——类似于冰箱和空调中使用的物质。随着主板温度升高,液体会沸腾、冷凝,然后滴落回原处。然而,英伟达的概念也要求对CPU和GPU进行传统的直接液体冷却。
从理论上讲,这应该能让英伟达实现双温区:一个用于高热设计功耗(TDP)组件(如CPU和GPU),另一个用于较冷的组件(如内存或网卡)。
英伟达对液体冷却并不陌生。这家加速器巨头已经为其SXM GPU模块提供了几年的液体冷却外形,然而直到2022年5月的台北电脑展,它才开始为其流行的A100 PCIe卡提供直接液体冷却外形,并计划从2023年开始推出液体冷却的H100。
英伟达计划在2026年交付一个结合液体和浸没式冷却的测试系统,并承诺会尽快提供实现该目标的进展更新。据介绍,在第一年,工程师们将专注于组件测试,然后在2025年进行部分机架测试。为此,英伟达已邀请液体冷却专家BOYD Corp协助设计冷板;两相冷却冠军Durbin Group负责研制泵;Honeywell提供制冷剂;数据中心基础设施提供商Vertiv负责散热。
更有意思的是,英伟达并不是唯一一家致力于数据中心冷却技术的公司,英特尔也在去年分享了其在开发能够从单个芯片中散发千瓦热量的多种系统方面取得的进展。
其中许多设计都聚焦于类似的概念,比如将整个系统浸入装满绝缘液体的容器中,还探索使用先进制造技术将3D蒸汽室嵌入“珊瑚形散热器”中,而向芯片热点喷射冷却水的微型喷嘴是另一种想法。
不过,尽管该领域的研究仍在继续,但英特尔的财务困境导致了一些障碍,包括取消了在俄勒冈州耗资7亿美元的液体和浸没式冷却“超级实验室”。