搭载AMD的“El Capitan”成为世界上最快的超级计算机,性能达到1.7百亿亿次浮点运算
2024-11-19 / 阅读约8分钟
来源:Tomshardware

(图片来源: AMD)

AMD和劳伦斯利弗莫尔国家实验室(LLNL)今天宣布,搭载AMD的“El Capitan”在半年一次的Top500榜单上名列榜首,成为地球上已知的最快超级计算机,性能达到1.742百亿亿次浮点运算。El Capitan在榜单上首次亮相便一举夺魁,超过了之前的领头羊——性能为1.3百亿亿次浮点运算的Frontier。搭载英特尔的Aurora系统则跌至榜单第三位——该系统没有提交新的基准测试运行,这意味着这个部分运行的系统仍在多个方面存在故障问题(详情见下文)。

El Capitan的规模之大令人瞠目结舌——该系统拥有11,136个节点,配备了44,544个AMD的MI300A APU,5.4拍字节的主内存,以及性能极为出色的“Rabbit”近节点存储子系统(详情见下文)。在基准测试中,El Capitan实现了每秒1.742万亿亿次运算(百亿亿次浮点运算)的性能,相当于每秒进行一次计算,持续540亿年——但El Capitan每秒就能完成这么多工作。这比榜单上第二快的系统快45%。

美国国家核安全管理局(NNSA)将使用该系统通过模拟爆炸来升级美国核武库,从而消除地下核试验的需求,并模拟核武库的老化效应、安全性和可靠性。该系统还将用于开发两种新型洲际弹道导弹。该系统将用于高性能计算(HPC)和人工智能(AI)工作负载,或是两者的融合。

水平滑动查看更多
Top500榜单前三名超级计算机
系统核心数Rmax (PFlop/s)Rpeak (PFlop/s)功耗 (kW)
El Capitan - HPE Cray EX255a, AMD 第四代 EPYC 24核 1.8GHz, AMD Instinct MI300A, Slingshot-1111,039,6161,7422,74629,581
Frontier - HPE Cray EX235a, AMD 定制 第三代 EPYC 64核 2GHz, AMD Instinct MI250X8,699,9041,3532.05522,786
Aurora - HPE Cray EX - Xeon CPU Max 9470 52核 2.4GHz, Intel 数据中心 GPU9,264,1281,0121,98038,698

El Capitan的理论峰值性能(Rpeak)为2.746百亿亿次浮点运算。然而,这个数字是基于所有系统组件以最高速度运行且性能呈完美线性扩展的情况下计算得出的,这在现实中是不可行的。

El Capitan的Rmax是在高性能Linpack (HPL)基准测试中的实际性能测量值,也是衡量顶级超级计算机的标准,其在实际使用中达到了1.742百亿亿次浮点运算。随着系统的进一步优化,Rmax未来可能还会增加,该机构表示,在El Capitan被移至机密网络之前,将再进行一次全面的HPL基准测试。

值得注意的是,在HPL中测量超级计算机系统性能时使用的是双精度FP64。相比之下,以AI为中心的超级计算机则使用较小的数据类型,这使得其“AI百亿亿次浮点运算”评分更高,但这些评分与Top500榜单上的列表并不直接可比。

El Capitan在满负荷运行时功耗超过35兆瓦,可提供58.89 Gigaflops/瓦特,在Green500最高效超级计算机排名中位列第18位。

(图片来源: AMD)

(图片来源: AMD)

(图片来源: AMD)

(图片来源: AMD)

(图片来源: AMD)

(图片来源: AMD)

(图片来源: AMD)

(图片来源: AMD)

(图片来源: AMD)

(图片来源: AMD)

(图片来源: AMD)

(图片来源: AMD)

(图片来源: AMD)

El Capitan总共拥有惊人的11,039,616个计算核心(CPU+GPU),分布在44,544个AMD MI300A处理器上。这些APU将CPU和GPU核心集成在同一个物理封装中。每个MI300A芯片都有13个芯片模块,其中许多是3D堆叠的,以创建一个包含24个Zen 4 CPU核心、一个CDNA 3图形引擎和8个HBM3内存堆栈(总计128GB)的单芯片封装。

总体而言,MI300A芯片拥有1460亿个晶体管,使其成为AMD投入生产的最大芯片。9个计算芯片模块(5纳米CPU和GPU的混合)以3D堆叠方式放置在4个6纳米基础芯片模块之上,后者是活跃的中介层,负责处理内存和I/O流量等其他功能。你可以在这里深入了解El Capitan的拓扑结构。该架构采用缓存一致性内存来减少CPU和GPU之间的数据传输,这通常会消耗比计算本身更多的功耗,从而降低延迟,提高性能和功耗效率。这也极大地简化了旧代码的移植和新代码的创建。

(图片来源: AMD)

HPE采用其Shasta架构构建了El Capitan系统,该系统由高密度液冷EX4000机柜和EX225a加速器刀片组成,并通过Slingshot-11网络互连连接在一起。该平台为美国能源部的另外两台百亿亿次超级计算机提供动力:之前世界上最快的超级计算机Frontier和经常推迟的Aurora(由英特尔芯片提供动力)。这使HPE在Top500榜单上占据了前三名,且这三台都是榜单上首批也是唯一的百亿亿次级系统。

相比之下,El Capitan比Top500榜单上第二快的超级计算机Frontier快45%。现在,搭载AMD的Frontier在Top500榜单上位居第二,为AMD再添一荣誉——AMD芯片为世界上两台最快的超级计算机提供动力。有趣的是,Frontier超级计算机在榜单上也有了新的基准测试结果,性能达到1.353百亿亿次浮点运算,高于之前提交的1.194百亿亿次浮点运算。其理论峰值性能也从1.714百亿亿次浮点运算提升至2.055百亿亿次浮点运算。

虽然El Capitan现在是世界上已知的最快超级计算机,但我们必须提到,中国也有几台自己的百亿亿次级机器。这些机器笼罩在神秘之中,并未提交给Top500榜单,以免因美国制裁而遭到报复。

美国能源部没有为英特尔的Aurora提交新的基准测试,这颇为令人惊讶。六个月前,Aurora的提交使其稳居Top500榜单第二位,但当时该系统并未完全运行。相反,基准测试运行仅包含系统87%的活跃部分。当时,英特尔表示Aurora存在许多硬件问题,包括硬件和冷却系统故障、操作错误和网络不稳定。没有提交新的测试结果意味着这些问题尚未得到完全解决。Aurora仍在AI为中心的HPL-MxP混合精度基准测试中领先,使其成为世界上已知的最快AI超级计算机,性能达到10.6 AI百亿亿次浮点运算。

事实上,AMD为榜单上前十名中最快的五台超级计算机提供动力,而英特尔有三台,英伟达有一台,日本定制的Arm Fugaku仍占有一席之地。LLNL还评论称,该系统是部署的同类规模中成本效益最高的系统,这表明El Capitan不仅是世界上最快的超级计算机,而且在尖端技术方面也是最经济的。