对话Arm:AI时代的芯片业正在经历什么?
3 天前 / 阅读约14分钟
来源:集微网
芯片行业因为AI时代的到来,正在经历什么样的转变?作为芯片产业的最上游,像Arm这样的计算平台厂商往往对于行业有着准确的前瞻性判断。日前,Arm推出行业报告,系统分享了对于AI时代芯片行业发展的洞察和思考,Arm解决方案工程部执行副总裁 Kevork Kechichian就此报告同集微网等在内的媒体进行了交流和分享。在Arm看来,生态上的广泛合作、系统层面的整体优化、接口等标准化策略,模块化定制化的设计方向以及灵活且强大的安全框架,将是AI时代芯片设计的成功之道。

当前生成式AI以及大模型技术,正以超预期的普及速度与规模,成为历史上最具影响力的技术变革之一。

从大语言模型辅助EDA设计,到构建数字孪生的晶圆厂,AI对于半导体产业的赋能,也推动后者来到新的转折点。

一方面,物理和成本极限宣告了以摩尔定律和半导体缩放技术为代表的传统芯片演进方式走到尽头,芯粒、先进封装等替代方案势起。另一方面,AI大模型快速迭代,多场景下,AI工作负载对于芯片算力和复杂度的需求也在持续增加。

芯片行业因为AI时代的到来,正在经历什么样的转变?作为芯片产业的最上游,像Arm这样的计算平台厂商往往对于行业有着准确的前瞻性判断。日前,Arm推出行业报告,系统分享了对于AI时代芯片行业发展的洞察和思考,Arm解决方案工程部执行副总裁 Kevork Kechichian就此报告同集微网等在内的媒体进行了交流和分享。

在Arm看来,生态上的广泛合作、系统层面的整体优化、接口等标准化策略,模块化定制化的设计方向以及灵活且强大的安全框架,将是AI时代芯片设计的成功之道。

能效已成关注首选项

近年来,全球范围内掀起的AI算力竞赛,成为AI时代最显著的注脚。计算工作负载的规模与复杂性持续提升,从训练庞大模型到执行多步骤推理,都伴随大量的电力与能源消耗。

与此同时,大量资金也投入其中,LessWrong网站对几大AI巨头的GPU/TPU数量进行估算,预计到2025年,微软、谷歌、Meta、亚马逊和xAI所拥有GPU的等效H100数量将超过1240万块,价值数千亿美元。

根据波士顿咨询公司数据显示,预计到2030年,美国数据中心电力消耗将占全美用电总量的7.5%(约 3900 亿千瓦时),相当于约4000万美国家庭年用电总量,接近全美家庭总数的三分之一。

显然,这种通过成千上万设备算力堆砌,耗时数月进行训练的“蛮力式”发展路径在经济上难以为继。而在空间和功耗更加受限的小型终端上,对于能耗的需求也同样如此。由此催生出对于更加智能更高能效的芯片解决方案的迫切需求。

因此,能效和功率管理已经成为推动AI计算以及芯片设计的首要关注点,这主要涉及三方面的因素:

一是计算。由于AI依赖于大量乘积累加运算,芯片中通常需要集成高能效的计算架构。

二是数据传输。多数情况下计算输出的结果需要在芯片其他组件中进一步处理,因此需要优化组件之间的数据传输和通信流程。

三是冷却。计算和内存单元合封等高性能芯片普遍采用的封装方式,可以最小化延迟和电力损耗,但却也带来了散热方面的挑战,需要对应配备高效的冷却方案。

总结而言,芯片设计正在整合优化的内存层次结构、系统设计通信机制等方案减少了数据传输,同时借助芯片堆叠、HBM以及先进封装等技术,最大程度地降低剩余数据传输过程中的能耗,辅以成熟的电源管理技术,降低能耗,维持高能效的表现。

芯片设计中的能耗降低越来越成为一项系统性工程,在谈及如何降低能耗的同时,平衡算力和能效时,Kevork Kechichian给出了他的见解:

首先,从最底层如晶体管层开始,与晶圆代工厂紧密合作,确保晶体管在功耗和性能方面实现优化,无论是动态功耗还是漏电功耗;其次是架构层面,对CPU以及各类处理引擎的指令集进行针对性优化;第三从系统级芯片(SoC)设计、封装到数据中心等层面进行优化。在此过程中,关键要点在于对数据及其传输过程的保护,降低在内存之间传输数据所消耗的电力;最后,在支撑大型数据中心运行的软件层,实现智能负载均衡,即针对AI的不同方面进行处理上的优化,合理分配工作负载,尽可能减少不同节点之间的数据传输。

标准化建设势在必行

传统缩放技术的终结,使得先进封装技术成为后摩尔定律时代芯片演进的重要方向之一,由此推动了Chiplet(芯粒)等技术的发展,该技术通过多个半导体晶粒(Die)的堆叠和互连,实现性能和能效的提升。

Chiplet为芯片设计带来了新的思路和优势。比如,某些场景下,芯片厂商无需重新设计产品,只需添加更多芯粒以增加算力和性能,甚至可以升级现有芯粒,针对特定功能对不同组件实现优化。同时,能够实现更灵活的差异化设计方案,降低成本加速研发,更快将产品推向市场。此外,也有助于提升良率,以及在不同产品之间实现更高的复用潜力等。

然而,这些优势背后也存在诸多挑战,能耗问题首当其冲。比如,当SoC的组件分散在多个晶粒上时,电源供给会变得更加复杂。3D堆叠虽然提高了功率密度,但同时也带来供电与热管理方面的挑战。此外,芯粒之间的接口还引发了关于延迟控制、功耗管理以及能效优化等诸多考量。

Kevork Kechichian指出,解决上述挑战需要行业紧密合作,制定新的协作协议,推动成果的复用,从而为企业创造更多商业价值。这一过程中,标准化建设非常重要。而作为推动芯粒发展的领先企业,Arm已在整个技术生态系统内展开合作,借助通用框架和行业标准来加速芯粒市场的发展。

“先进封装与芯粒技术的真正价值在于实现设计与接口的真正标准化,这涉及从封装厂的集成,一直到在系统中不同芯粒之间进行通信的全过程。因此,与合作伙伴就标准化问题达成共识至关重要。通过标准化,企业可以根据不同的性能需求,快速地组合和配置这些芯粒,从而打造出具有不同性能定位的芯片,确保在快速迭代的市场竞争中占据先机。”Kevork Kechichian说。

在此背景下,Arm推出了芯粒系统架构 (Chiplet System Architecture, CSA),致力于对各个芯粒之间及在整个系统内的通信方式等多个方面实现标准化。此外,Arm还携手合作伙伴共同推动AMBA CHI芯片到芯片互连协议等倡议的落地实施,确保来自不同供应商的不同芯粒通过一个统一的接口协议实现芯粒之间的互操作性。

“过去,标准化常被视为放弃自身的IP或竞争优势。但如今,鉴于系统的高度复杂性以及合作模式的演变,标准化变得尤为重要——所有参与方都将从中获得多重益处。”Kevork Kechichian强调。

定制化的显著优势

芯粒等技术的发展,为定制化芯片的崛起铺平了道路。如今,定制化芯片正展示出强大的市场需求。

为实现更高效的AI计算,并与自身业务实现更紧密的结合,塑造差异化竞争力。如今,几乎所有的半导体行业从业者都在探索和投资定制芯片,特别是全球四大超大规模云服务提供商,他们在 2024 年全球云服务器采购支出中占了近半数的份额。

例如,AWS Graviton4是基于Arm技术打造的定制芯片解决方案,专为加速数据中心和 AI 工作负载而设计,该解决方案实现了性能与能效的显著提升。2023 年,微软发布了其首款为云服务定制的芯片Microsoft Azure Cobalt,该芯片基于 Arm Neoverse 计算子系统 (CSS) 打造,旨在应对复杂的计算基础设施挑战。最近,Google Cloud也发布了其基于Arm Neoverse 平台的Axion定制芯片,专为应对数据中心复杂的服务器工作负载而设计。

通过经过验证的核心计算功能以及灵活的内存与 I/O 接口配置,Arm Neoverse CSS 加快了产品上市进程,带来显著的优势。它在确保软件一致性的同时,为SoC设计人员提供了灵活性,使其能够基于CSS周围新增定制子系统,以打造差异化的解决方案。

除超大型云服务商外,许多中小企业也在积极研发专属定制芯片解决方案,以应对日益复杂的计算需求。在Arm技术和英特尔代工服务 (IFS) 的支持下,芯片设计技术提供商智原科技正在开发面向数据中心和先进 5G 网络的 64 核定制 SoC。此外,韩国的 AI 芯片公司 Rebellions 也宣布打造新的大规模 AI 芯片平台,用以提升AI 工作负载的能效表现。

对于如何平衡定制芯片中,个性化与通用性之间的关系,以及开发成本较高的问题。Kevork Kechichian表示,关键在于确保芯片与软件具备高度的可复用性,首先底层平台必须具备一定的通用性,才能确保不同定制芯片之间实现一定程度的相互复用,从而有效应对成本与产品上市时间所带来的挑战。

其次,对于开发成本,Kevork Kechichian表示,这既涉及研发人力,也涉及大量计算资源。为此,Arm已探索出多种能够有效降低开发投入的方法,显著缩短合作伙伴产品上市周期。

“最基础的方法是从平台的角度出发,识别可复用的模块与资源,并确保定制工作是在已有基础上进行,无需一切从零开始。我们需要充分评估现有的资源,并在此基础上构建定制化产品。正是基于这种方式,Arm与SoC及各类IP提供商密切合作,将解决方案交付给我们的合作伙伴。”Kevork Kechichian说。

Arm:推动AI革新

如上所述,无论是能效、还是先进封装,以及定制化的趋势,现代芯片设计的复杂性,越来越需要系统性的思维,需要IP提供商、晶圆代工厂、封装厂与系统集成商之间建立更加紧密的合作关系。这对于处于产业生态基石层面的Arm而言,更加具有优势。

此外,Arm凭借其在技术积累和创新方面的优势,也使其在AI时代产业中的地位愈发凸显。

一方面,随着AI的崛起,尤其是生成式AI和大语言模型的广泛应用,市场对专用AI加速器的需求愈发迫切。以数据中心领域的工作负载为例,其对算力有着极为严格的严格要求,需要专用硬件才能实现高效运行。

另一方面。面对支撑这些新型工作负载所必须的强大主处理器的根本需求。无论加速器是GPU,还是谷歌TPU,微软Maia,还是AWS Tranium和Inferentia等定制加速器,都必须有出色的主处理器来发挥AI加速器的计算潜力。

如今,处理器架构已成为决定AI系统能效与性能的关键要素。凭借创新性、定制化与高能效的独特优势,Arm已成为这一领域的关键力量,具体而言,Arm计算平台的灵活性体现在三个方面,将有效支持AI创新。

一是异构计算:基于Arm架构的CPU正成为GPU和TPU等AI加速器的理想配套处理器,既能高效管理数据流和通用计算任务,又能应对工作中遇到的瓶颈,支持不同类型的工作负载。上述所有处理器都可以作为AI推理的处理引擎,部署到Arm合作伙伴所开发的SoC中。

二是推理效率:虽然大型AI模型的训练通常有赖于高性能GPU,但Arm的高能效处理器非常适合在端侧和数据中心执行推理任务。

三是可扩展性:Arm架构支持CPU、GPU与专用加速器的无缝集成,这对于打造优化的AI系统至关重要,也有助于让Arm合作伙伴的硬件和软件开发工作变得更轻松。

Arm的解决方案聚焦于现代 AI计算的以下三大关键领域:

一是持续创新:Arm 定期发布新 CPU 架构及支持功能,专注于推动定制芯片发展能够顺应不断演进的AI工作负载的需求。二是定制化潜力:随着 AI 模型在复杂度和规模上的不断增长,Arm架构的灵活性使其能够针对特定AI任务打造专用解决方案。三是出色的能效:基于 Arm 架构处理器的高能效特性,使其在管理大规模 AI 部署的总拥有成本(TCO) 方面愈发凸显价值。

机遇:从数据中心到边缘AI

由于Arm在芯片设计流程中扮演着重要角色,AI时代的到来为其提供了更多机遇。

如今,AI PC、AI手机等各种AI类的终端设备如雨后春笋般不断涌现,随着移动设备计算能力的不断提升,边缘AI处理正变得日益普遍。这主要得益于那些专为功耗受限环境设计的芯片,能够在移动设备等终端上运行多种AI工作负载。低延迟、隐私、成本……边缘AI的优势对于实现更快速的AI体验至关重要。

同时,伴随着如DeepSeek等高效AI模型的出现,也推动了AI向边缘推移。例如,Arm与Meta的优化合作使得Meta Llama 3.2大语言模型能够快速实现在基于Arm架构的移动设备上运行。可让提示词处理速度提高五倍,词元(token)生成速度提高三倍,在生成阶段实现每秒19.92个词元。这直接减少了在设备上处理 AI工作负载的延迟,大大提升了用户整体体验。此外,当边缘侧能处理的 AI工作负载越多,往返云端传输数据所节省的电量就越多,进而节省了能源和成本。

此外,凭借创新性、定制化与高能效的独特优势,Arm已成为数据中心架构的关键力量。工作负载的持续演进、技术的快速创新,以及AI 需求的日益增长,共同推动了Arm架构在数据中心领域持续发挥关键作用,与此同时,也推动了像微软、亚马逊云科技(AWS)和Google这样的全球超大规模云服务提供商日益依赖基于Arm架构的定制芯片解决方案。尽管x86处理器仍将扮演重要角色,但转向Arm架构解决方案的势头正在不断加速。

Arm高级副总裁兼基础设施事业部总经理Mohamed Awad此前曾表示,据预计,2025年出货到头部超大规模云服务提供商的算力中,将有近50%是基于Arm架构。届时,Arm从移动设备迈向数据中心核心领域的征程,也将抵达一个关键里程碑。这预示着一个全新时代的到来——一个以多样化、高能效、高度定制化的计算解决方案来满足数字时代持续演进需求的时代。