近日,Marvell展示了其用于下一代 AI 和云基础设施的首款 2nm 硅片 IP。该工作硅片采用台积电的 2nm 工艺生产,是 Marvell 平台的一部分,用于开发定制 XPU、交换机和其他技术,以帮助云服务提供商提升其全球运营的性能、效率和经济潜力。
Marvell表示,公司的平台战略以开发全面的半导体 IP 产品组合为中心,包括电气和光学串行器/反串行器 (SerDes)、2D 和 3D 设备的芯片到芯片互连、先进的封装技术、硅光子学、定制高带宽存储器 (HBM) 计算架构、片上静态随机存取存储器 (SRAM)、片上系统 (SoC) 结构和计算结构接口(如 PCIe Gen 7),它们可作为开发定制 AI 加速器、CPU、光学 DSP、高性能交换机和其他技术的基础。
此外,Marvell 还提供了 3D 同步双向 I/O,运行速度高达 6.4 Gbits/秒,用于连接芯片内部的垂直堆叠芯片。如今,连接芯片堆栈的 I/O 路径通常是单向的。转向双向 I/O 使设计人员能够将带宽提高两倍和/或将连接数量减少 50%。
3D 同步双向 I/O 还将为芯片设计人员提供更大的设计灵活性。当今最先进的芯片超过了将晶体管图案描绘到硅片上的光罩或光掩模的尺寸。为了增加晶体管数量,预计所有先进节点处理器中约有 30% 将基于小芯片设计,即将多个芯片组合到同一个封装中。借助 3D 同步双向 I/O,设计人员将能够将更多芯片组合成越来越高的堆栈,以用于 2.5D、3D 和 3.5D 设备,这些设备比传统的单片硅片设备提供更多功能,同时仍能像单个设备一样运行。
Marvell表示,鉴于预计每年 TAM 增长率为 45%,预计到 2028 年定制硅片将占据加速计算市场的约 25%。换而言之,Marvell将有望给英伟达带来新的挑战。
早在2024年3月,Marvell就推出了其新的2nm IP 技术平台,该平台专门针对基于台积电 2nm 级工艺技术(可能包括 N2 和 N2P)制造的加速基础设施定制芯片而量身定制。该平台包括开发云优化加速器、以太网交换机和数字信号处理器所必需的技术。
在Marvell看来,2nm 平台将使 Marvell 能够提供高度差异化的模拟、混合信号和基础 IP,以构建加速基础设施。我们与台积电在 5nm、3nm 以及现在的 2nm 平台上的合作,对于帮助 Marvell 拓展硅片所能实现的极限起到了重要作用。”
2nm 平台基于 Marvell 广泛的 IP 产品组合,其中包括能够实现超过 200 Gbps 速度的先进 SerDes、处理器子系统、加密引擎、SoC 结构和高带宽物理层接口。这些 IP 对于开发和生产一系列设备至关重要,例如定制计算加速器和光互连数字信号处理器。它们正在成为 AI 集群、云数据中心和其他支持用于 AI 和 HPC 工作负载的机器的基础设施的通用构建块。
虽然这些 IP 对于各种处理器、DSP 和网络设备至关重要,但从头开始开发它们(尤其是对于依赖于全栅极纳米片晶体管的台积电 2nm 级工艺技术)既困难又耗时,有时效率低下,无论是从芯片空间还是经济角度来看都是如此。这正是 Marvell 的 IP 产品组合有望大显身手的地方。
在更早之前,Marvell凭借其 5nm 平台,从快速跟随者转变为将先进节点技术引入基础设施硅片的领导者。Marvell紧随其后,推出了多款 5nm 设计,并推出了首款基于台积电 3nm 工艺的基础设施硅片产品组合。
正是基于这些研究基础上,Marvell火力全开。
据相关报道,Marvell在去年12月发布的一种新的定制 HBM 计算架构,使 XPU 能够实现更高的计算和内存密度。该新技术可供其所有定制硅片客户使用,以提高其定制 XPU 的性能、效率和 TCO。Marvell 正在与其云客户和领先的 HBM 制造商 Micron、三星电子和 SK 海力士合作,为下一代 XPU 定义和开发定制 HBM 解决方案。
Marvell表示,HBM 是 XPU 中的关键组件,采用先进的 2.5D 封装技术和高速行业标准接口。然而,当前基于标准接口的架构限制了 XPU 的扩展。新的 Marvell 定制 HBM 计算架构引入了定制接口,以优化特定 XPU 设计的性能、功率、芯片尺寸和成本。这种方法考虑了计算硅片、HBM 堆栈和封装。
但是,HBM 内存牺牲了容量和可扩展性,换取了更高的带宽。一般来说,HBM 部署在 CPU 和加速器或 XPU 旁边的方式是,它通过连接两块硅片的硅中介层上的标准线路进行连接。XPU 通常有两个或更多个 HBM 堆栈,由 DRAM 堆栈和基片组成。
为此,通过定制 HBM 内存子系统(包括堆栈本身),Marvell 正在推进云数据中心基础设施的定制化。Marvell 正在与主要的 HBM 制造商合作,以实施这种新架构并满足云数据中心运营商的需求。
Marvell 定制 HBM 计算架构通过序列化和加速其内部 AI 计算加速器硅片与 HBM 基片之间的 I/O 接口来增强 XPU。与标准 HBM 接口相比,这可提高性能并将接口功耗降低高达 70%。优化的接口还减少了每个芯片所需的硅片空间,从而允许将 HBM支持逻辑集成到基片上。这些节省的空间(高达 25%)可用于增强计算能力、添加新功能,并支持高达 33% 的 HBM 堆栈,从而增加每个 XPU 的内存容量。这些改进提高了 XPU 的性能和能效,同时降低了云运营商的 TCO。
在Marvell看来,这种转变是定制 XPU 总体趋势的一部分,将对 XPU 的性能、功耗和设计产生根本而深远的影响。HBM 于 2013 年发明,由垂直堆叠的高速 DRAM 组成,这些 DRAM 位于一个称为 HBM 基片的芯片上,该芯片控制 I/O 接口并管理系统。基片和 DRAM 芯片通过金属凸块连接。
垂直堆叠有效地让芯片设计人员能够增加靠近处理器的内存量,从而提高性能。几年前,最先进的加速器包含80GB 的 HBM 2。明年,最高水准将达到 288GB。
尽管如此,对更大内存的需求仍将持续,这给设计师带来了节省空间、功耗和成本的压力。HBM 目前可占 XPU 内部可用空间的 25%,占总成本的 40% 。HBM 4是当前的尖端标准,具有由 32 个 64 位通道组成的 I/O - 巨大的尺寸已经使芯片封装的某些方面变得极其复杂。
Marvell 定制 HBM 计算架构涉及优化基础 HBM 芯片及其接口,目前围绕 JEDEC 标准设计,其解决方案经过独特设计,以与主机 AI 计算芯片的设计、特性和性能目标相吻合。
想象一下,超大规模企业想要一个 AI 推理 XPU,用于挤进密集商业区或城市走廊的边缘数据中心。成本和功耗将处于高位,而绝对计算性能可能不那么重要。定制 HBM 解决方案可能涉及减小 AI 计算芯片的尺寸,以节省芯片尺寸和功耗,而其他考虑则高于其他考虑。
另一方面,为大规模 AI 训练集群提供动力的 XPU 的 HBM 子系统可能会针对容量和高带宽进行调整。在这种情况下,重点可能是减小 I/O 接口的大小。减小 I/O 大小会在芯片侧面所谓的“beachfront ”上为更多接口腾出空间,从而提高总带宽。
在推出定制的HBM架构之后,Marvell带来了全新的XPU。
Marvell表示,新的定制HBM架构使客户能够将 CPO 无缝集成到其下一代定制 XPU 中,并将其 AI 服务器的规模从目前使用铜互连的机架内数十个 XPU 扩展到使用 CPO 的多个机架中的数百个 XPU,从而提高 AI 服务器的性能。创新的架构使云超大规模提供商能够开发定制 XPU,以实现更高的带宽密度,并在单个 AI 服务器内提供更长距离的 XPU 到 XPU 连接,同时具有最佳延迟和功率效率。该架构现已可供 Marvell 客户的下一代定制 XPU 设计使用。
Marvell 定制 AI 加速器架构使用高速 SerDes、芯片到芯片接口和先进封装技术,将 XPU 计算硅片、HBM 和其他芯片与 Marvell 3D SiPho 引擎整合在同一基板上。这种方法无需电信号离开 XPU 封装进入铜缆或穿过印刷电路板。借助集成光学器件,XPU 之间的连接可以实现更快的数据传输速率和比电缆长 100 倍的距离。这可以在 AI 服务器内实现跨多个机架的扩展连接,并具有最佳延迟和功耗。
CPO 技术将光学元件直接集成在单个封装内,从而最大限度地缩短了电气路径长度。这种紧密耦合可显著减少信号损耗、增强高速信号完整性并最大限度地减少延迟。CPO 利用高带宽硅光子光学引擎来提高数据吞吐量,与传统铜连接相比,硅光子光学引擎可提供更高的数据传输速率,并且不易受到电磁干扰。这种集成还通过减少对高功率电气驱动器、中继器和重定时器的需求来提高电源效率。通过实现更长距离和更高密度的 XPU 到 XPU 连接,CPO 技术促进了高性能、高容量扩展 AI 服务器的开发,从而优化了下一代加速基础设施的计算性能和功耗。
业界首款 Marvell 3D SiPho 引擎在 OFC 2024 上首次亮相,支持 200Gbps 电气和光学接口,是将 CPO 整合到 XPU 中的基本构建模块。Marvell 6.4T 3D SiPho 引擎是一款高度集成的光学引擎,具有 32 个 200G 电气和光学接口通道、数百个组件(例如调制器、光电探测器、调制器驱动器、跨阻放大器、微控制器)以及大量其他无源组件,这些组件集成在一个统一的设备中,与具有 100G 电气和光学接口的同类设备相比,可提供 2 倍的带宽、2 倍的输入/输出带宽密度和 30% 的每比特功耗降低。多家客户正在评估该技术,以将其集成到其下一代解决方案中。
八年多来,Marvell 为连续几代高性能、低功耗的COLORZ 数据中心互连光学模块提供了硅光子技术。该技术已通过众多领先的超大规模数据中心的认证并投入大批量生产,以满足其不断增长的数据中心到数据中心的带宽需求。Marvell 硅光子器件的现场运行时间已超过 100 亿小时。
Marvell 一直是改变互连技术的先驱,致力于提高加速基础设施的性能、可扩展性和经济性。Marvell 互连产品组合包括用于定制 XPU 内高性能通信的高性能 SerDes 和 die-to-die技术 IP、用于在同一板上实现 CPU 和 XPU 之间高效短距离连接的PCIe 重定时器、用于克服内存挑战的突破性CXL 设备、用于机架内短距离连接的有源电缆和有源光缆数字信号处理器、用于数据中心内机架到机架连接的不断扩展的PAM 光学 DSP以及用于连接相距数千公里的数据中心的相干 DSP 和数据中心互连模块。
正如很多文章报道,Marvell 和 Broadcom都是云超大规模企业的主要定制 ASIC 芯片提供商。例如,亚马逊多年来一直与 Marvell 合作开发 AWS Trainium,这是其用于 AI 训练和推理工作负载的内部 AI 芯片。AWS Trainium2 已被亚马逊和其他合作伙伴采用。在亚马逊最近的财报电话会议上,管理层透露,亚马逊与 Anthropic 合作建立了 Project Rainier,这是一个用于 AI 工作负载的 Trainium 2 超级服务器集群。亚马逊计划在今年晚些时候推出其下一代 Trainium 3 芯片。
因此,上述XPU的新突破对Marvell 来说很重要,因为他们的 ASIC 技术可以继续支持超大规模企业和 AI 模型公司开发自己的 GPU/XPU 芯片,为 Nvidia和 AMD提供具有成本效益的替代方案。
在 2025 财年第三季度财报电话会议上,Marvell 指出,其与 Hyperscalers 的定制硅片合作伙伴关系的产量增长强于预期。管理层对未来定制硅片的增长充满信心。换而言之,在定制硅片需求增加的推动下,Marvell 的增长将在不久的将来加速。