CXL 2.0加速到来,2024年底将成产品应用落地重要时点
2024-11-04 / 阅读约8分钟
来源:集微网
随着下半年首批支持CXL 2.0的服务器CPU问世,近来有关CXL产品应用的消息多了起来。作为一种新型的高速互联技术,CXL旨在提供更高的数据吞吐量和更低的延迟,以满足现代计算和存储系统的需求,其在数据中心、处理器互联,尤其是在AI等领域,都有着广阔的应用前景。

随着下半年首批支持CXL 2.0的服务器CPU问世,近来有关CXL产品应用的消息多了起来。作为一种新型的高速互联技术,CXL旨在提供更高的数据吞吐量和更低的延迟,以满足现代计算和存储系统的需求,其在数据中心、处理器互联,尤其是在AI等领域,都有着广阔的应用前景。业界预期,2024年底将是CXL产品应用落地的一个重要时点。

大厂加速布局,推出新品

CXL是继 HBM 之后存储领域的一项重要创新技术,因而备受瞩目。众多芯片及计算设备厂商均对其给予高度重视。CXL技术的应用落地需要CPU以及设备层面的软硬件支持。

在芯片方面,英特尔在今年6月6日和9月26日相继推出配备能效核(代号Sierra Forest)与性能核(代号Granite Rapids)的至强6处理器产品。AMD也在10月10日举行的“Advancing AI 2024”大会上正式发布第五代EPYC服务器处理器EPYC 9005系列(代号Turin)。这些产品均第一代支持了CXL 2.0规范,可将CXL技术应用到服务器端,完善了CXL 的应用环境。

在设备方面,三星今年1月宣布与开源软件商Red Hat合作,在Red Hat Enterprise Linux (RHEL) 9.3操作系统中,首次成功验证了CXL在真实用户环境中的运行,包括内存识别、读取和写入操作。6月,随着实际应用研究进入最后阶段,三星宣布已建立由Red Hat认证的CXL基础设施。7 月 ,三星电子内存部门新业务规划团队负责人 Choi Jang Seok 表示,三星将在年底开始量产符合 CXL 2.0 协议的 256GB CMM-D 2.0 模块。

SK 海力士9月宣布,其已成功将用于优化CXL内存运行的自研软件HMSDK的主要功能在 Linux操作系统上运行。SK海力士宣称,即使不调整现有应用程序,HMSDK也可提高至少30%内存整体带宽。该软件可以根据内存与CXL内存的差异灵活分配存储资源。而在5月举办的Compute Express Link 联盟开发者大会(CXL DevCon 2024)上,SK 海力士展示了 CMM-DDD5 CXL内存模组,与仅配备传统DDR5内存的系统相比,带宽提升50%、容量提升 100%。据悉,SK海力士正在对96GB及128GB容量的CXL2.0存储器进行客户验证,并计划在年底实现量产。

国内厂商方面,计算设备提供商超聚变在今年9月的英特尔至强6性能核处理器发布会上发布了CXL2.0内存池解决方案,支持高达80根内存条,实现低于300纳秒的访问时延,显著提升数据处理效率。存储控制芯片及解决方案提供商得一微电子目前正在研发新一代的CXL系列存储解决方案,利用CXL技术,显著减少存储设备与计算资源之间的通信延迟,实现存储资源与CPU的紧密集成,为SSD的应用提供了新的可能性。佰维存储则研发了支持CXL 2.0规范的CXL DRAM内存扩展模块,内存容量96GB,同时支持PCIe 5.0×8接口,理论带宽32GB/s,可与支持CXL规范及E3.S接口的背板和服务器主板直连,扩展服务器内存容量和带宽。上述举措表明,国内外厂商均在积极推动CXL技术的商业化进程。

2024年底将是重要落地时点

当下主流的计算系统依赖于数据存储与数据处理分离的多级存储,通常采用高速缓存(SRAM)、主存(DRAM)、外部存储(NAND Flash)的三级存储结构。系统运作时,需要不断在内存中往复传输信息。数据在三级存储间传输时,后级的响应时间及传输带宽都将拖累整体性能,也就形成所谓的“存储墙”。而且由于数据量庞大,系统往往还需要借助外部存储并用网络IO来访问数据,这也会致使访问速度的进一步下降。Google 报告就指出,该公司数据中心的DRAM利用率只有40%,微软Azure也表示,其数据中心内,当所有的处理器核心都分配给VM之后,仍有25%的DRAM资源未被配置,处于闲置状态。

因此,CXL 于 2019 年由英特尔、AMD 联合推出,并得到了包括谷歌、微软等公司在内的支持,正是旨在提供更高的数据吞吐量和更低的延迟,同时实现内存共享、提高内存利用效率。甚至有开发人员将CXL视为继HBM之后的“下一个竞争战场”。

CXL 技术至今经过几次版本升级,CXL1.0于2019年3月发布,后历经1.1、2.0、3.0版本。去年11月CXL联盟发布了最新的CXL3.1版本。根据得一微首席市场官罗挺的介绍,从产品端来看,当前CXL的应用仍处于早期部署阶段,2024年CXL 1.1和CXL 2.0陆续有落地产品,CXL 3.0的落地还需要更长时间,到2025年落地有望加速。Yole机构的分析数据也显示,CXL在2024年开始爬坡,在2025年将会大规模上量。

不过罗挺也指出,CXL的应用落地目前仍有一些障碍需要克服,包含开发与 GPU、CPU 和 DRAM 兼容的CXL交换设备、设计CXL DRAM 模块以及快速开发支持软件等挑战都是当务之急。同时,建立CXL完整生态系统和产业链也是非常重要和迫切的。

令人欣慰的是,CXL内存扩充模组的应用环境已经较为完善,主要的内存厂商均已推出自家的CXL内存扩充模组产品,虽然现在的服务器只能支持CXL 1.1标准,但基本上已经可以连接与运行,等到下一代也就是支持CXL 2.0服务器上线后,就能更好地利用它的优势,从而实现这一标准的普及。

超聚变服务器产品总经理朱勇则指出,大模型的训练(包括推理)带来了整个内存的需求旺盛增长。如果我们把CXL技术落地得更好,对于内存也是一个利好。也就是说从应用场景来看,内存会驱使着CXL的技术发展。

AI时代CXL未来成长可期

正是由于人们对内存带宽的渴求,业界对CXL的未来成长也十分看好。国联证券从市场角度分析认为,未来采用CXL协议服务器的占比将会持续提升。据Yolo的预测,全球CXL市场规模预计在2028年将达到150亿美元。尽管目前只有不到10%的CPU与CXL标准兼容,但预计到2027年,所有CPU 都将被设计为支持CXL接口,这将进一步推动 CXL 市场的发展。朱勇也预期,SSD未来也有可能通过E3.S,甚至PCIe I/O设备池化。除去超大存储需求之外,这也会是有特有的需求。

从版本技术升级角度罗挺分析认为,CXL的早期版本1.0和1.1主要聚焦于单个计算节点内,实现主机与设备间的高效内存一致性互连。随后,CXL 2.0扩展了这一概念,将互连的范围扩展至整个机柜,使得不同节点间的内存和其他设备资源能够被汇聚成一个大型资源池,从而实现资源共享。最新的CXL 3.0和3.1版本进一步扩展了这一理念,将互连能力跨越机柜,通过增强CXL交换机的路由功能和构建交换机网络,实现了跨机柜的资源解耦、池化和共享,为构建更大规模的计算和存储资源池提供了可能。

随着人工智能领域的大模型应用逐渐成为现实,推理任务正在成为智能计算资源的主要消费者。然而,AI的商业可行性很大程度上取决于成本控制。在GPU上集成大量HBM会显著提高成本,这并不是一个经济高效的推理解决方案。相反,采用CXL技术来扩展内存或构建内存池,可以将部分HBM或显存需求转移到这些更经济的内存资源上,从而提供一个成本效益更高的推理方案。此外,CXL作为主机与设备间互连的解决方案,其地位正变得越来越重要,为数据中心的内存扩展和资源优化提供了新的视角。

总之,CXL技术作为一种新兴的高速互连技术,给了业界一个新的发展机会,特别是对中国芯片厂商来说,有了更多新的发展机会。随着国内外对高性能计算和存储技术的需求增长,中国具有更为庞大的CXL需求市场,中国芯片厂商将有机会在这个领域不断扩大市场份额。