英特尔周一发布了其 Xeon 6 服务器处理器的新版本,旨在在其数据中心产品线中普及人工智能处理,以抵御来自 AMD 和 ARM Holdings 两方面的入侵。
这两款新处理器被称为 Xeon 6 6500 和 6700,扩展了这家芯片巨头于 2024 年 9 月首次发布的产品阵容。代号为“Granite Rapids”的 Xeon 6 芯片具有所谓的性能核心,即数十个独立的计算元素,旨在提供该公司芯片阵容中最强大的计算活动。
英特尔于 9 月份发布的首款 6900 Xeon 6 芯片,每块芯片提供 128 个性能核心,而 6500 和 6700 芯片则提供较少的核心数,从 16 到 86,价格更低,功耗更低。(另一系列芯片“E”系列旨在专注于 Xeon 6 的能效。)
在周一发布之前的媒体吹风会上,英特尔首席架构师 Ronak Singhal 强调了 6500 和 6700 与 AMD 最新的基于 x86 的 CPU 9005(代号为“Turin”)相比的能力。
Singhal 表示,与 AMD 的 9005 相比,Xeon 芯片使用更少的内核执行更高的计算,从而降低了总体运营成本 (TCO)。他展示了一张幻灯片,其中提到“使用三分之一的内核,AI 性能提高了 50%。”
辛加尔表示:“即使核心数量较低,我们也能够在各种工作负载下提供更高的性能。”工作负载范围从运行数据库等“一般计算”到运行科学模型等“高性能计算”,再到广义的人工智能,包括人工智能模型的推理和训练。
辛加尔强调,该公司在 Granite Rapids 芯片中大量采用了特殊的 AI 友好型操作,即高级矩阵扩展 (AMX)。这些芯片指令允许内核执行线性代数的矩阵乘法,这构成了 AI 处理的大部分内容,同时还执行传统的计算机指令。
辛加尔表示,AMX 指令让 Xeon 在云计算巨头中获得了更多的应用。
“例如,去你最喜欢的云服务提供商那里,看看他们如何与最终客户一起使用 AMX,”Singhal 说。“你会看到他们谈论他们的最终客户如何租用 Xeon 实例来利用 AMX,以及他们如何在一些机密计算场景中做到这一点。”
500 和 6700 的发布基本符合预期,这是英特尔在保持其产品至少能与竞争对手相媲美方面迈出的又一步,因为近年来英特尔在芯片领域的领先地位已经急剧下降。
由于 AMD 和 ARM 在数据中心的销售额不断增加,英特尔的财务业绩却大幅下滑。
去年9月份季度,AMD数据中心季度营收为35亿美元,首次超过英特尔的33亿美元。
因此,根据行业研究公司TechInsights的数据,英特尔在x86服务器芯片市场的份额(该市场由英特尔和AMD垄断了数十年)已从2020年第一季度的96%下降到目前的65%,而AMD的份额则从4%飙升至35%。
ARM 不生产芯片,而是将设计作为知识产权出售给芯片制造商,其收入基础要小得多,但其设计在数据中心的使用中取得了显着增长。谷歌等云计算巨头都依赖 ARM 的设计来制造定制芯片,例如谷歌的 TPU 和亚马逊的 Graviton 处理器,而不是英特尔的 x86 技术。
分析师称,在过去 12 个月中,ARM 预计 36 亿美元的收入中约有 10% 来自网络和数据中心应用。ARM 表示,预计今年收入增长 26%,这在很大程度上要归功于数据中心销售额的增长。
ARM 在数据中心处理器总销售额中所占份额的确切数字尚不清楚,但随着谷歌和其他公司部署更多非 x86 芯片,ARM 获得的任何专利费都只会给 ARM 带来好处,而对英特尔(以及 AMD,程度较小)来说则是损失。
英特尔表示,Xeon 部件(尤其是新款 6500 和 6700)可以更广泛地用于广泛的企业应用程序,从而与采用 AMD 或 ARM 芯片相比,可以降低公司的 TCO。
辛加尔表示:“这实际上侧重于广大企业及其所有不同的用例,特别关注人工智能和安全,以及我们如何为客户提供能够改善其基础设施投资的产品。”
辛加尔表示,这个想法是“允许企业将旧的基础设施整合到新的基础设施中,以便更好地处理新的工作负载,并能减少其耗电量”。
然而,TechInsights 称,英特尔——其首席执行官帕特·基辛格 (Pat Gelsinger) 已于去年年底离职——仍然面临着提供最前沿技术进步的压力。
在新闻发布会上,辛加尔强调,该公司的 Granite Rapids 继任者、代号为 Clearwater Forest Xeon 芯片将“按计划”于明年上半年投产。辛加尔表示,“我们今天已经在实验室中对其进行了测试”,并进行了客户测试。
然而,据 TechInsights 称,这与 Clearwater Forest 预计于今年晚些时候首次亮相相比有所延迟。
此外,据 TechInsights 称,英特尔专用的 AI 芯片 Gaudi 3 去年未能达到英特尔自己的内部销售目标。这意味着“英特尔实际上已经退出了 AI 加速器竞赛,只剩下 AMD 和 NVIDIA 两家主要参与者。”
后续芯片 Falcon Shores 已被搁置,英特尔正在考虑推出新产品 Jaguar Shores,预计在 2027 年某个时候推出。
英特尔推出一系列芯片
众所周知,芯片制造商英特尔最近在多个方面都遇到了困难,但重要的是要记住,数据中心销售的每三块处理器中,几乎有两块是 Intel Inside。这是一项不错的业务,可以带来适度的利润,英特尔可以(而且经常)在 X86 服务器 CPU 方面与竞争对手 AMD 竞争,还可以提供超大规模和云构建者在台湾半导体制造公司制造的各种自主研发的 Arm 服务器 CPU 所不具备的优势。
英特尔于 2024 年 6 月推出了“Sierra Forrest”Xeon 6 处理器,该处理器基于其基于 Atom 风格内核的 E 核“高效内核”设计。这是 Xeon 6 代中的首批产品,代表着传统 Xeon 内核(现称为 P 核(性能内核的缩写))合并到一组插槽上,这些插槽具有相同的外部馈送和速度,并基于插槽内相同的 I/O 芯片来提供这些馈送和速度。首款基于 P 核计算芯片的“Granite Rapids”Xeon 6 处理器于 2024 年 9 月发布,这款高端芯片主要针对超大规模企业和云构建者,他们希望将尽可能多的内核塞进一个插槽,为其庞大的服务器群制造尽可能少的服务器。
E 核和 P 核服务器处理器之间的差异发生在具有计算核心的芯片内部,这是芯片的合理划分,即使你可能会争论在本质上仍然是 Atom 和 Xeon 核心之间维持计算分叉的一些优点。
市场会决定它想要什么。这就是市场的作用。
今天,Xeon 6 系列的其他产品也已发布,英特尔研究员、Xeon 系列长期首席架构师、现任产品经理的 Ronak Singhal 在发布前向我们介绍了剩余的 Xeon 6 处理器。Granite Rapids SP 变体的命名方式为 Xeon 6500P 和 6700P,它们实际上是 Xeon 6 系列的核心,面向企业客户,这些客户仍然比整体市场更偏爱 Xeon 芯片,而整体市场中的超大规模计算和云构建者在 X86 架构处理器方面更偏爱 AMD Epyc 服务器 CPU。
“这实际上侧重于广泛的企业及其所有不同的用例,特别关注人工智能和安全,以及我们如何为客户提供一些可以改善其基础设施投资的东西,使他们能够将旧基础设施整合到这种新的基础设施中,这种新基础设施具有更好的能力来处理新的工作负载,并可以减少他们的功耗,”Singhal 在提到 Xeon 6500P 和 6700P 处理器时解释道。“或者,当他们希望通过其基础设施推出新功能或新服务时,他们为什么要选择 Xeon?”
在我们深入研究 Xeon 6300P、Xeon 6500P 和 Xeon 6700P 之前,我们先做一些简单的介绍。
首先,基于“Crestmont”E 核心的 Granite Rapids Xeon 6900E 不会大规模发布。英特尔早在 2023 年 9 月就透露,它正在开发一款最多有 288 个核心的 Sierra Forrest 芯片,而 Singhal 证实 Xeon 6900E 目前正在加速生产。
“288 核现已投入生产,”Singhal 说道。“我们实际上已经为一家大型云客户部署了该芯片,当他们准备好谈论他们正在做什么时,我认为这将非常有趣。我们确实在与每位客户密切合作开发 288 核芯片,以根据他们的需求定制我们在那里构建的产品。所以你不会看到我们从广泛的部署场景中谈论它。它首先是为那些定制的云场景而构建的。”
英特尔还按照承诺推出了 Xeon 6 P 核平台的片上系统版本,面向电信公司和其他服务提供商,用于网络和边缘用例。我们现在不会花太多时间在这上面,因为我们专注于数据中心。
最后,提醒一下,几周前英特尔已下调现有 Granite Rapids Xeon 6900P 芯片(最多 128 个内核)的价格。以下是 Xeon 6900P 的最新价格和性价比表,在查看当今 Granite Rapids 系列的其他产品时,这些表非常有用:
下面,让我们深入了解 Granite Rapids 队其他阵容的详细信息。
中间地带
与许多代 Xeon 服务器处理器一样,英特尔不会只蚀刻一块大芯片,然后根据该设计的核心和 I/O 产量充实产品线。该公司设计了多种不同尺寸的芯片,因为小芯片的产量通常要好得多。即使英特尔已经进入了芯片时代,每个芯片都有自己的产量曲线(通常越小越好),但更少的芯片可以提高封装制造的产量。在 Granite Rapids 芯片和插槽设计中,您可以看到这种相互作用,以最大限度地提高产量以及 Xeon 6 产品线的深度和广度,而不会牺牲盈利能力。
四种不同的 Xeon 6 芯片封装在名称上很熟悉:超多核心数 (UCC)、极限核心数 (XCC)、高核心数 (HCC) 和低核心数 (LCC)。无论使用哪种类型的核心芯片组合,所有 Granite Rapids 核心组合均采用英特尔 3 工艺蚀刻而成(大致类似于台积电的 3 纳米工艺),并具有一个、两个或三个计算组合,其中有三种设计。一个小核心组合有 16 个核心,中间一个有 48 个核心,有趣的是,在 Granite Rapids 插槽中使用的具有多个核心组合的第三个核心组合有 44 个核心,为互连留出了空间,以将核心组合及其缓存相互连接起来,从而创建虚拟单片芯片。
所有 Granite Rapids 芯片都有一对 I/O 小芯片,其中有 DDR5 内存控制器、PCI-Express 控制器和各种加速器,这些加速器包含在之前的 Xeon 4 和 Xeon 5 CPU 中,并且会不时更新新的哈希或加密算法或以其他方式进行压缩。这些加速器概述在 Xeon 6 系列的以下显着特性表的底部:
今天发布的 Xeon 6500P 和 6700P 处理器及其平台可扩展至 86 个核心,并且支持 AVX512 矢量单元和 AMX 张量单元加速,前者对于 HPC 和 AI 都很重要,而后者可能成为 AI 工作负载和未来 HPC 例程的真正区别因素。
我们感到有些困惑,四路或八路机器中使用的 Xeon 6700P 处理器通过片上 NUMA 集群技术(所谓的无缝 NUMA)连接,每个处理器上只有四个 UltraPath Interconnect (UPI) 链路。诚然,这些 UPI 链路的运行速度为 24 GT/秒,速度非常快。但是 Xeon 6900P 只能扩展到单个 NUMA 映像中的两个处理器,因此与具有四个或八个处理器的 NUMA 集群相比不需要大量互连,它有六个 UPI 链路,运行速度为 24 GT/秒。Sierra Forest Xeon 6700E 和 6900E 变体也是如此,它们也有更多的 UPI 链路,但只能扩展到最多两个插槽。
我们原本以为,制造大型 NUMA 机器来运行后端关系数据库或内存数据库及其应用程序的 OEM 会希望使用 Xeon 6900P 将插槽更紧密地耦合在一起。链接越多越好,因为它可以减少 NUMA 内存中的跳数。六个 UPI 链接允许任何一个处理器直接链接到六个处理器,第二个跳数只需要到达八 CPU 机器中的第七个 CPU。您可以像英特尔那样使用四个链接进行八路连接,方法是覆盖两个四路并使用第四个 UPI 链接交叉连接这两个四路,如上图所示。但是,使用六个链接,您也可以在单个 NUMA 映像中使用 16 个插槽制作无缝机器。这将有助于英特尔的 OEM 客户更好地与 IBM Power Systems 铁矿石竞争。
我们无法理解为什么有人希望将八个八核可扩展 SKU 连接在一起形成一个节点,但这样的机器可以拥有 32 TB 的主内存、4.8 TB/秒的总内存带宽和 64 个核心,以 4 GHz 基本频率和 4.3 GHz Turbo Boost 速度运行。这是一个内存容量和内存带宽 CPU 集群,与具有 128 或 288 个核心的单个插槽相反。也许有人需要的是内存肌肉服务器?
也许那些购买 Granite Rapids 6900P、6700E 和 6900E 处理器的超大规模企业和云构建者正在利用这两条额外的 UPI 链路做一些有趣的事情。它们不是偶然出现的……我们知道的就这么多。
除了可扩展至四或八个插槽的 Granite Rapids 芯片版本外,还有一些版本经过调整,仅在单插槽数据中心级用例中运行,这与针对电信公司和服务提供商的 Xeon 6 SoC 不同且更强大。
Granite Rapids 6500P 和 6700P 芯片的单插槽变体很有趣,它们证明了 AMD 在向超大规模计算和云构建商推销单插槽设备作为 HPC 和 AI 头节点以及更通用的服务器托架方面取得了成功。(AMD 没有四插槽或更高的 NUMA 配置,并且一直保持在两个插槽的上限。但如果 AMD 想要分一杯羹 SAP HANA 和其他大型数据库的羹,这种情况可能会改变。)
Xeon 65X1P 和 67X1P - X是变量,末尾的1表示单插槽 - 用于单插槽服务器的 Granite Rapids 芯片从 16 核到 80 核不等,虽然核心数量并不多,但足以完成某些类型的计算工作 - 以软件定义存储的控制器为例 - 并具有大量的 I/O。
“我认为,我们今天看到很多人对这个平台非常感兴趣。”Singhal 表示,他指的是该平台的单插槽设计。“事实上,我们已经看到一些案例,我们利用这个平台从竞争对手手中夺回了设计,随着我们在市场上逐渐扩大规模,我预计会看到更多这样的情况。”
英特尔还必须满足 SMB 和边缘计算的需求,在这些情况下,具有强大 P 核的真正 Xeon 处理器非常重要,而 Xeon 6300P 芯片可以做到这一点。这些芯片可能会进入数据中心,但它会成为特洛伊木马,比如交换机或其他设备。Xeon 6300P 系列中一个计算单元的成本相当低——大约是性能 SKU 和英特尔所谓的 1 插槽 SKU 的一半,大约是四路和八路机器中使用的 Xeon 6500P 和 6700P 芯片版本价格的四分之一到一半。
Xeon 6300P 的主内存限制为 128 GB,并且仅以 4.8 GT/秒的速度运行,因此根本不适合繁重的内存工作负载。
编译器触及核心的地方
我们将进行更彻底的性能分析,但目前,以下是 Granite Rapids 系列中的 64 核 (Xeon 6 6767P) 和 86 核 (Xeon 6 6787P) 与之前的“Emerald Rapids”系列中的 64 核 Xeon 5 8592+ 的相对性能。
就同类核心数量而言,Granite Rapids 芯片在各种工作负载(对计算、内存带宽和 I/O 的压力不同)中性能提升了 14% 至 41%。86 核顶级 Granite Rapids 6700P 系列中增加了 22 个核心,与 64 核 Emerald Rapids 芯片相比,性能提升了 30% 至 54%。
在我们看来,对于相同的 64 个核心,平均性能提升约 25%,而对于增加到 86 个核心,平均性能提升约 40%。但当然,性能总是取决于细节,虽然数据中心运行大量工作负载,但它们不会平均这些工作负载。每个工作负载的发挥取决于系统配置的优劣。如果没有足够的内存或 I/O,即使是世界上最好的 CPU 也毫无意义。
在 100% CPU 利用率下推动绝对性能通常不是 CPU 设计师的目标,即使是那些自己制造 Arm 服务器芯片的人也是如此。他们试图在典型工作负载下获得性能、散热和价格的适当平衡。对于许多超大规模和云构建者来说,40% 的峰值 CPU 是典型负载,因此英特尔优化了 Granite Rapids P 核设计,使其比 Emerald Rapids 前代产品更高效。就像这样:
因此,这为您提供了此公告的总体情况。事不宜迟,以下是今天宣布的其他 Granite Rapids 芯片的 SKU 表:
参考链接
https://www.zdnet.com/article/intel-touts-new-xeon-chips-ai-power-in-bid-to-fend-off-amd-arm-advances/
https://www.nextplatform.com/2025/02/24/intel-rounds-out-granite-rapids-xeon-6-with-a-slew-of-chips/
来源:内容编译自zdnet