【导读】英伟达的圣诞大礼包曝光,最强B300、GB300算力和显存直接提高50%,模型推理训练性能史诗级提升,同时还打破了利润率下降的魔咒。
多亏了老黄,圣诞节如期而至。
尽管Blackwell GPU多次因硅片、封装和底板问题而推迟发布,但这并不能阻挡他们前进的脚步。
距离GB200和B200的发布才刚刚过去几个月,英伟达便推出了全新一代的AI GPU——GB300和B300。
更为有趣的是,这次看似普通的更新背后,实则内含玄机。其中最为突出的,便是模型的推理和训练性能得到了大幅增强。
而随着B300的推出,整个供应链正在进行重组和转型,赢家将从中获益(获得礼物),而输家则处境不妙(收到煤炭)。
这正是英伟达送给所有超大规模云计算供应商、特定供应链合作伙伴、内存供应商以及投资者的特别「圣诞礼物」
不过就在上周,天风国际分析师郭明錤却在研报中曝出,B300/GB300的DrMOS存在严重的过热问题!
而这,很可能会影响B300/GB300的量产进度。
具体分析如下——
这已经不是Blackwell第一次被曝出存在设计问题了
根据SemiAnalysis的最新爆料,B300 GPU对计算芯片的设计进行了优化,并采用了全新的TSMC 4NP工艺节点进行流片。
相比于B200,其性能的提升主要在以下两个方面:
1. 算力
FLOPS性能提升50%
功耗增加200W(GB300和B300 HGX的TDP分别达到1.4KW和1.2KW;前代则为1.2KW和1KW)
架构改进和系统级增强,例如CPU和GPU之间的动态功率分配(power sloshing)
2. 内存
HBM容量增加50%,从192GB提升至288GB
堆叠方案从8层HBM3E升级为12层
针脚速率保持不变,带宽仍为8TB/s
序列长度的增加,导致KV Cache也随之扩大,从而限制了关键批处理大小和延迟。
因此,显存的改进对于OpenAI o3这类大模型的训练和推理至关重要。
下图展示了英伟达H100和H200在处理1,000个输入token和19,000个输出token时的效能提升,这与OpenAI的o1和o3模型中的思维链(CoT)模式相似。
H100和H200的Roofline模拟,通过FP8精度的Llama 405B模型完成
H100到H200的升级,主要在于更大、更快的显存:
而对运营商而言,这H100和H200之间的性能与经济差异,远远超过技术参数的数字那么简单。
首先,此前的推理模型时常因请求响应时间长而影响体验,而现在有了更快的推理速度后,用户的使用意愿和付费倾向都将显著提高。
其次,成本降低3倍的效益,可是极为可观的。仅通过中期显存升级,硬件就能实现3倍性能提升,这种突破性进展远远超过了摩尔定律、黄氏定律或任何已知的硬件进步速度。
最后,性能最顶尖、具有显著差异化优势的模型,能因此获得更高溢价。
SOTA模型的毛利率已经超过70%,而面临开源竞争的次级模型利润率仅有20%以下。推理模型可突破单一思维链限制,通过扩展搜索功能提升性能(如o1 Pro和o3),从而使模型更智能地解决问题,提高GPU收益。
当然,英伟达并非唯一能提供大容量显存的厂商。
ASIC和AMD都具备这样的能力。而AMD更是凭借更大的显存容量(MI300X:192GB、MI325X:256GB、MI350X:288GB)占据了优势地位。
不过,老黄手里还有一张「绝对王牌」——NVLink。
NVL72在推理领域的核心优势在于,它能让72个GPU以超低延迟协同工作、共享显存。
而这也是全球唯一具备全连接交换(all-to-all switched connectivity)和全规约运算(all reduce)能力的加速器系统。
英伟达的GB200 NVL72和GB300 NVL72,对以下这些关键能力的实现极其重要——
总体而言,NVL72可以在经济效益上实现10倍以上提升,尤其是在长推理链场景中。
而且,NVL72还是目前唯一能在高批处理下,将推理长度扩展至10万以上token的解决方案。
此前GB200时期,英伟达提供完整的Bianca主板(包含Blackwell GPU、Grace CPU、512GB LPDDR5X内存以及集成在同一PCB上的电压调节模块VRM),同时还提供交换机托盘和铜质背板。
但随着GB300的推出,供应链的结构和产品内容,将发生重大调整。
在新方案GB300中行,英伟达只提供三个核心组件的供应:
终端客户将需要直接采购计算板上的其他组件。同时,第二级内存方案,从焊接式LPDDR5X改为可更换的LPCAMM模块,主要由美光供应。交换机托盘和铜质背板仍由英伟达全权负责。
相比此前仅有纬创和富士康工业互联网(FII)能够制造Bianca计算板的局面,SXM Puck方案打破了原有的市场格局。
它的采用为更多OEM和ODM厂商参与计算托盘制造创造了机会:
其次,是VRM供应链。
尽管SXM Puck上仍保留部分VRM组件,但主要的板载VRM将由超大规模数据中心运营商和OEM直接从供应商采购:
第三,英伟达在互联技术也取得了突破。
GB300平台搭载了800G ConnectX-8网络接口卡,可在InfiniBand和以太网上提供双倍的扩展带宽。
相较于上一代ConnectX-7,ConnectX-8具有多项显著优势:
在2024年第三季度,受GB200和GB300发布延迟影响,大量订单转向了英伟达价格更高的新一代GPU。
截至上周,所有超算中心均已决定采用GB300方案。这一决策基于两个因素:
此前,由于上市时间压力以及机架、散热和供电密度的重大调整,超算中心此前难以对GB200服务器进行深度定制。
这迫使Meta完全放弃了同时向博通和英伟达采购网络接口卡的计划,转而完全依赖英伟达。类似地,谷歌也放弃了自研网络接口卡方案,转而采用英伟达的解决方案。
对于那些一向精于优化从处理器到网络设备,甚至到螺丝和钣金等各个环节成本的超算中心数千人研发团队来说,为其带去了极大的困扰。
另外,亚马逊的案例最具代表性。他们选择了一个次优配置,导致总拥有成本(TCO)超过了参考设计。
由于使用PCIe交换机和需要风冷的低效200G弹性网络适配器,亚马逊无法像Meta、谷歌、微软、甲骨文、xAI和Coreweave那样部署NVL72机架。
受限于其内部网卡方案,亚马逊被迫采用NVL36架构,却因更高的背板和交换机成本推高了每个GPU的支出。
总体而言,因定制化受限,导致亚马逊的配置方案并不理想。
GB300的推出,为超算中提供了更大自主权,比如可以自主定制主板、散热系统等。
这使得亚马逊能够开发自己的定制主板,将此前需要风冷的组件(如Astera Labs PCIe交换机)整合进水冷系统。
随着更多组件采用水冷设计,加上K2V6 400G网卡将在2025年第三季度实现规模化量产,亚马逊有望重返NVL72架构,显著提升TCO效率。
然而这也带来了一个显著挑战:超算中心需要投入更多资源进行设计、验证和确认工作。
这无疑是超算中心面临的最复杂系统设计项目(除谷歌TPU外)。部分超算中心能够快速完成设计,但设计团队较慢的机构则明显落后。
尽管市场传闻有公司取消订单,但SemiAnalysis观察到由于设计进度较慢,微软可能是最晚部署GB300的机构之一,他们在第四季度仍在采购GB200。
随着部分组件从英伟达转移到原始设计制造商(ODM),客户的总采购成本出现较大差异。
这不仅影响了ODM的收入,更重要的是导致英伟达全年的毛利率产生波动。下面将更详细分析这些变动对英伟达利润产生的影响。
值得一提的是,三星在未来至少9个月内,都无法进入GB200或GB300的供应链。
怀着「圣诞精神」的英伟达,在新的定价策略上也颇有看点——这将直接影响Blackwell系列的利润。
随着显存方案从SK海力士和美光的8层HBM3E堆栈升级至12层HBM3E堆栈,显存容量获得了显著提升。
这一升级,直接导致英伟达芯片级物料清单(BOM)成本增加约2,500美元。
成本的增加主要来自——
第三点也反映出高带宽显存(HBM)在物料成本中的主导地位(随着推理模型对显存容量和带宽需求增加,这一趋势将持续加强)。
总体而言,GB300的平均售价较GB200提高约4,000美元,其中HBM成本增加约2,500美元,而增量利润率不足40%,而GB200整体的利润率维持在70%的中低水平。
然而,由于前述内容变化,英伟达减少了整体供应内容,转由超算中心自行采购,由此,英伟达实现了成本平衡。
首先,英伟达不再提供每个Grace CPU配套的512GB LPDDR5X内存,这抵消了大部分额外的HBM成本支出。
其次,PCB的成本节省最为显著。
综合各项因素,在平均销售价格提升4,000美元的同时,英伟达的物料成本仅增加略超1,000美元。
GB300相对于GB200的增量毛利率达到73%,这意味着在良率保持稳定的情况下,该产品的利润水平基本持平。
这一结果虽然看似平常,但值得注意的是,HBM升级周期通常会导致利润率下降(例如H200、MI325X的情况),而这次这一惯例被打破了。
此外,随着各项工程技术问题的逐步解决,良率将会提升,在度过Blackwell初期的产能爬升期后,利润率预计会在年内逐步改善。
参考资料:
https://semianalysis.com/2024/12/25/nvidias-christmas-present-gb300-b300-reasoning-inference-amazon-memory-supply-chain/#hyperscaler-impacts-with-gb300