英特尔正式推出Gaudi3 AI芯片:比英伟达H100慢,成本更低
2024-09-25 / 阅读约4分钟
来源:集微网
英特尔近日正式推出用于AI工作负载的Gaudi3加速器。新芯片的速度比英伟达广受欢迎的H100和H200 GPU(用于AI和HPC)要慢,因此英特尔将其Gaudi3的成功押注于其较低的价格和较低的总拥有成本(TCO)。

英特尔近日正式推出用于AI工作负载的Gaudi3加速器。新芯片的速度比英伟达广受欢迎的H100和H200 GPU(用于AI和HPC)要慢,因此英特尔将其Gaudi3的成功押注于其较低的价格和较低的总拥有成本(TCO)。

英特尔的Gaudi3处理器使用两个芯片,包含64个张量处理器核心(TPC,带有FP32累加器的256x256 MAC结构)、8个矩阵乘法引擎(MME,256位宽矢量处理器)和96MB片上SRAM缓存,带宽为19.2TB/s。此外,Gaudi3集成24个200GbE网络接口和14个媒体引擎,后者能够处理H.265、H.264、JPEG和VP9,以支持视觉处理。该处理器配备128GB HBM2E内存,分为八个内存堆栈,可提供3.67TB/s的巨量带宽。

与Gaudi2相比,英特尔的Gaudi3有了巨大的改进,后者拥有24个TPC、2个MME,并配备96GB HBM2E内存。然而,看起来英特尔简化TPC和MME,因为Gaudi3处理器仅支持FP8矩阵运算以及BFloat16矩阵和矢量运算(即不再支持FP32、TF32和FP16)。

在性能方面,英特尔表示,Gaudi3可以提供高达1856 BF16/FP8矩阵TFLOPS以及高达28.7 BF16矢量TFLOPS,TDP约为600W。与英伟达的H100相比,至少在明面上,Gaudi3的BF16矩阵性能略低(1,856 vs 1,979 TFLOPS),FP8矩阵性能低两倍(1,856 vs 3,958 TFLOPS),BF16矢量性能明显较低(28.7 vs 1,979 TFLOPS)。

比原始规格更重要的是Gaudi3的实际性能。它需要与AMD的Instinct MI300系列以及英伟达的H100和B100/B200芯片竞争。这还有待观察,因为很大程度上取决于软件和其他因素。目前,英特尔展示了一些幻灯片,声称与英伟达的H100相比,Gaudi3可以提供显著的性价比优势。

今年早些时候,英特尔表示,基于8个Gaudi3芯片的加速器套件售价为125000美元,这意味着每个芯片售价约为15625美元。相比之下,英伟达H100目前的售价为30678美元,因此英特尔确实计划在价格上比竞争对手更具优势。然而,由于基于Blackwell的英伟达B100/B200 GPU可能具有巨大的性能优势,英特尔能否保持相对于竞争对手的优势仍有待观察。

“对人工智能的需求正在导致数据中心发生巨大转变,行业要求在硬件、软件和开发工具方面有更多选择,”英特尔执行副总裁兼数据中心和人工智能集团总经理Justin Hotard表示。“随着我们推出配备P核和Gaudi3 AI加速器的Xeon 6,英特尔正在建立一个开放的生态系统,使我们的客户能够以更高的性能、效率和安全性实施所有工作负载。”

英特尔的Gaudi3 AI加速器将通过IBM Cloud和英特尔Tiber开发者云提供。此外,基于英特尔Xeon 6和Gaudi3的系统将于第四季度通过戴尔、慧与(HPE)和Supermicro(美国超微电脑)全面上市,戴尔和Supermicro的系统将于10月出货,Supermicro的设备将于12月出货。(校对/张杰)


简体中文 繁體中文 English 日本語 Deutsch 한국 사람 русский بالعربية TÜRKÇE português คนไทย Français