C114讯 4月17日消息(九九)过去几年,大模型掀起算力基础设施建设的“军备竞赛”,对用于数据中心光互联的高速数通光模块需求显著增长,且速率从400G迅速迭代到800G,再到1.6T。在此背景下,“超大规模智算中心:1.6T时代的全光互联”研讨会于4月17日下午举办,就智算中心内光互联进行深入探讨,展示光互连技术的最新进展情况,介绍未来发展趋势, 推动智算中心互联技术的创新发展。
中国移动研究院基础网络技术研究所副所长程伟强在会议演讲中表示,大规模智算集群时代,高性能训练和推理服务需要超大规模算力支撑,网络成为算力效率的瓶颈。随着智算网络卡间互联提升单点算力、机间互联扩展集群规模、集群间互联拓展分布式算力集群能力,1.6T以太网成为业内关注的焦点。
1.6Tb/s以太网成为智算中心互联关键布局方向
当前,AI推动全球基础设施厂商加速1.6T技术验证和产品研发,国际标准组织IEEE、OIF等也已开展1.6TE标准制定工作。
聚焦智算中心内互联,IEEE802.3dj正在制定D1.5版本草案,覆盖单通道200G的1.6TE DR8/DR8-2单模标准,支持FECo和FECi两种FEC模式,2025年5月进入D2.0工作组阶段,预计2026年中发布;802.3NEA目前正在讨论200G/L MMF光接口、400G/L SMF光接口等技术,支持1.6TE的架构优化和技术演进。
200G/lane多模光技术是传统DC、智算中心内的1.6TE 100m内短距互联优选解决方案;目前802.3NEA已开展200G/lane MMF Optical PMDs讨论,中国移动正在参与200G/lane MMF CFI,后续将联合推动成立SG或TF。400G单通道技术对优化1.6TE系统架构、提升系统性能和降低整体功耗有重要意义,是1.6TE技术标准的演进方向。
聚焦智算中心间互联,简化相干技术在IEEE 800GE速率已下沉至10km,同时新增ER1-20标准,支持ER1-20、ER1、ZR/ZR+接口的互操作。OIF已领跑1.6T相干,同步开展1600ZR和1600ZR+标准化研究,IEEE暂未开展1.6TE相干标准研究;从技术可行性、互操作和共产业平台等方面考虑,1.6TE相干覆盖2km~40km场景并采用统一方案将会是标准化和产业化的优选方案。
目前,国内外多个OTT正逐步构建跨智算中心分布式训练环境,已开始部署彩光方案以优化网络性能,这一领域正成为业界关注的焦点。OIF 800ZR标准已于2024年底发布,将在2025年迎来试点验证元年;1.6T ZR/ZR+在智算互联带动下将进入快速发展期。
GSE-N2N和GSE-E2E满足不同GPU服务器组网需求
面向智算中心内和智算中心间组网,中国移动分别推出GSE和UDCI技术体系。
其中,全调度以太网(GSE)采用统一设计理念及技术架构,构建GSE-N2N和GSE-E2E两大场景,满足不同GPU服务器组网需求。GSE-N2N是纯网侧优化方案,在网侧运行GSE,网卡不感知网络行为,无额外功能要求,适配华为昇腾GPU等直出网卡服务器;GSE-E2E是端网协同优化方案,部分功能下沉网卡,实现端网协同,适配英伟达GPU等配置独立网卡服务器。
目前,中国移动已经完成现网百卡级GSE-N2N中试平台中试验证,网络性能较传统RoCE网络提升50%以上;并发布GSE-N2N首套千卡级商用方案和全套技术标准及GSE网卡芯片—“智算琢光”。后续希望联合合作伙伴推动GSE-N2N万卡级验证系统发布。针对GSE-E2E场景,计划年内将200G GSE网卡芯片推向商用。
IP与光融合的DCI创新技术满足智算中心互联需求
随着1.6T ZR/ZR+被广泛采用,光和IP的融合是必然趋势。中国移动基于IP+光融合打造的超级数据中心互联技术体系,面向跨智算中心高突发、多并发“大象流”传输带来的网络运力受损、算效下降等问题,突破3大创新技术,打造具备超大带宽、超精细流控、超高安全的智算互联网络基础设施,助力AI大模型分布式训练、AI普惠推理、存算分离等新型智算业务的创新及应用。
一是创新提出10T级聚合通道SuperPipe技术,基于报文组分发的广域网以太网端口聚合机制,实现单通道400G-32T自适应带宽调整,解决传统链路聚合技术(LAG、ECMP)无法满足跨智算中心出口收敛情况下的负载均衡难题。
二是创新提出微流级精准流控MicroPFC,切片ID标识微流,将拥塞情况在网络内部逐跳反压,支持百万级微流,突破传统网络仅支持端口级8队列反压瓶颈,实现长距离精准拥塞控制。
三是原创以太网物理层比特流加密机制——物理层安全PHYSec,解决传统IPSec、MACSec基于报文加密大开销、高时延问题,实现0开销、全加密、纳秒级时延的线速加解密。
截至目前,中国移动已经发布《新型智算中心以太网物理层安全(PHYSec)架构白皮书》,在CCSA完成PHYSec总体技术要求和高速直检链路数据面技术要求立项,已推动芯片和光模块厂家开始技术验证和芯片开发,下一步计划推出原型芯片和原型光模块,完成多厂家互通测试。