在12月2日至6日举行的2024 re:Invent全球大会上,亚马逊云科技宣布,其基于Trainium2的Amazon Elastic Compute Cloud(Amazon EC2)Trn2实例正式可用,并推出了Trn2 UltraServer,称可让客户以优越的性价比训练和部署最新的人工智能模型,以及未来的大语言模型(LLM)和基础模型(FM)。同时,亚马逊云科技还发布了新一代Amazon Trainium3芯片。
值得注意的是,苹果机器学习和人工智能高级总监Benoit Dupin现身大会,并在台上讲解了苹果如何使用云服务。Dupin表示,十多年来,苹果一直在使用AWS提供Siri、Apple Maps和Apple Music等服务。其还强调使用亚马逊的Inferencia和Graviton芯片为搜索提供服务,使效率提高了40%。
据Dupin透露,苹果目前正在评估亚马逊云科技的最新AI训练芯片Trainium2,预计使用该芯片进行预训练时效率将提高50%。
不过,苹果使用Trainium2仅限于AI模型的预训练阶段,不会用于Apple Intelligence功能。Apple Intelligence功能由苹果设备上的芯片或苹果私有云计算平台上的Apple Silicon 芯片提供支持。
界面新闻了解到,苹果愿意考虑Trainium2进行预训练,成本是一个重要因素。目前,市场上大部分公司的AI模型预训练都在使用英伟达的GPU芯片,但这种训练方式成本较高,各个公司都在寻求成本更低的替代方案,云计算厂商也看中了这一市场需求。
亚马逊云科技计算和网络副总裁David Brown在演讲中表示,Trainium2是专为支持大型、前沿的生成式AI工作负载而设计的,能够满足训练和推理的需求,并且更具备性价比。
具体来说,与当前基于GPU的EC2 P5e和P5en实例相比,最新可用的Amazon EC2 Trn2实例的性价比提升30%-40%。其配备16个Trainium2芯片,可提供高达20.8 Petaflops浮点算力的性能,非常适合训练和部署具有数十亿参数的大型语言模型(LLMs)。
全新推出的Amazon EC2 Trn2 UltraServers服务器机型配备64个相互连接的Trainium2芯片,采用NeuronLink超速互连技术,可提供高达83.2 Petaflops浮点算力,其计算、内存和网络能力是单一实例的四倍,能够支持训练和部署超大规模的模型。
目前,亚马逊云科技正在联合Anthropic打造名为Project Rainier的EC2 UltraCluster,其包含数十万颗Trainium2芯片,所达到的算力比其当前一代AI模型训练所需算力高出5倍以上。
亚马逊云科技推出的新一代AI芯片Trainium3,是首款采用3纳米工艺制造的芯片,在性能、能效和密度上都达到了新的高度。搭载Trainium3的UltraServers性能预计将是Trn2 UltraServers的4倍,这意味着其能够帮助客户更快速地构建更大规模的模型,并在部署时提供更优的实时性能。
有声音认为,亚马逊云科技推出Trainium系列将对英伟达GPU芯片形成挑战,有望争得更多市场份额。但一位云计算行业从业者表示,两者的差异非常明显,Trainium系列芯片则更侧重于对亚马逊自身业务和客户需求的优化,亚马逊并不会对外出售该芯片,而英伟达GPU芯片在科学计算、高性能计算等领域的应用更加广泛,其芯片架构和软件生态在这些领域的优化更为成熟。
随着AI的大规模应用和对算力需求的进一步增长,越来越多的企业对芯片、服务器、工具、架构、服务等提出新的定制化要求,云计算厂商通过自研芯片来训练和部署更大规模的模型、降低训练成本已是大势所趋。
除了亚马逊云科技之外,微软Azure和谷歌云也在积极探索自研芯片,这也将进一步丰富芯片市场,以减少对英伟达芯片的过度依赖。