C114讯 1月6日消息(九九)AI时代已经来临。大模型等新兴AI应用需求海量的算力支撑,一座座智算中心拔地而起,规模庞大的万卡集群逐渐投入商用。如何更好地实现智算中心互联,服务AI应用创新发展,业界做了大量研究工作。
1月16日,作为“2025中国光通信高质量发展论坛”的开篇之作,“智算中心互联:算网协同,构筑智算互联新底座”线上研讨会顺利召开,邀约产业链专家代表,围绕智算中心间跨地域、跨层级、跨主体、高可靠的算力协同与调度,以及智算中心互联关键技术等话题展开了深入探讨。
研讨会期间,中国移动研究院副院长段晓东应邀作了题为《智算互联光传输技术创新和实践》的主题报告。段晓东指出,大算力是大模型创新落地的关键,随着大模型越来越“大”,对算力需求越来越高,国内外大型科技公司正积极投建超万卡/超十万卡集群。
当前,中国移动已在内蒙古、黑龙江建成两个万卡集群,支持内、外部大模型发展,利用计算、存储、网络、平台、集成等领域创新型先进技术,有力保障智算集群的高效、稳定运行。
智算互联光传输技术——HIC-OTN
段晓东认为,万卡向超十万卡集群跃迁面临工程和科学问题的双重挑战,例如,极致的算力使用效率、高能耗高密度机房设计,故障域扩大带来的巨系统稳定性及可用性问题,以及超多异构智算聚合成池方面的挑战。
中国移动通过系统性构建超十万卡新型智算技术体系,突破核心技术,实现性能提升,解决大规模建设工程问题,打造领先的超十万卡智算集群。特别是智算拉远全光互连技术,助力智算多集群化发展。“智算中心分地域、分时期、分阶段建设,形成多个算力资源孤岛,通过光网络能力整合碎片资源是潜在的解决方案。”段晓东说。
段晓东介绍,智算拉远全光互连技术体系之一是无损智算OTN(HIC-OTN),面向跨智算集群互联对光网络的新需求,中国移动原创提出无损智算OTN( Hitless intelligent computing OTN,HIC-OTN),从超大带宽、超高可靠、超低时延三方面构建面向智算中心的新型OTN技术体系。
在超大带宽方面,中国移动提出基于QPSK调制、130GBd超高速光器件、C6T+L6T宽谱的400G新型骨干全光网技术体系,实现400G长距传输三大世界纪录以及全球首次400G集采部署,入选2024年国资央企“大国重器”、“十大超级工程”。
段晓东提出,百公里级中短距800G光传输可共享400G骨干网130G波特技术及产业,快速催化数据中心互联等大容量、中短距传输场景向800G演进,满足智算拉远等场景超大带宽应用需求。
段晓东进一步提出,T比特级全光网有望成为后400G时代的下一个重大代际技术,目前尚且面临技术路线、频谱扩展、传输介质三大方面的技术挑战。中国移动已开展超大容量、超高速率T比特全光传输纪录性试验,面向超千公里骨干网应用还需进一步攻关超200GBd光管芯等核心组件。
在超高可靠方面,面向智算集群互联超高可靠需求,中国移动创新提出无损OTN新技术,实现由传统OTN 50ms倒换到“0丢包”保护的性能提升。
在超低时延方面,面向智算集群互联超低时延需求,中国移动创新精简电交叉架构、简洁映射机制等OTN新技术实现由传统全向电交叉、小颗粒逐级映射到针对性电交叉、大时隙高效复接的性能提升。
智算互联光传输技术——空芯光纤
段晓东介绍,智算拉远全光互连技术体系之二是空芯光纤及系统。中国移动与合作伙伴已就反谐振空芯光纤及其传输系统开展全方位持续性的系统研究与攻关,与产业合作伙伴形成“一项国际领先,二项业界首次”标志性成果。
其中包括采用四单元截断型双层嵌套结构,创0.1dB/km超低损耗和2.6万倍高阶模抑制比,现网试验实现低至0.13dB/km的光纤光缆部署损耗纪录;完成首个800G空芯光纤传输技术试验网,在深圳龙岗-东莞凤岗,基于空芯光纤实现160波×800Gb/s传输技术试验;并首次实现S+C+L超宽谱(跨156nm,共526波)下,同波长单纤双向377.6Tb/s的传输验证。
在突破损耗极限的基础上,中国移动进一步探索新型结构设计,实现特殊光学性能并提高制备良率;发现并研究气体吸收、双向损耗差、损耗谱不平坦等多种新型损伤机制,并进行系统传输性能技术攻关。
目前中国移动已经基于空芯光纤的智算拉远场景,实现百公里距离单波1.09Tb/s高性能超低时延无损传输系统验证;基于空芯光纤的骨干长距互联场景,实现突破实芯光纤传输极限的单波1Tb/s 3500km纪录。
首个百公里级PP智算互联现网技术试验
报告的最后,段晓东发布了首个百公里级PP智算互联现网技术试验成果。中国移动在全球运营商最大单集群智算中心(哈尔滨数据中心)基于无损智算OTN(HIC-OTN)完成首个104km跨智算集群PP拉远训练现网技术试验,探索和验证了百公里级跨集群PP训练的可行性。基于800G HIC-OTN互联在104km的两个智算集群场景下,实现等同单节点训练效率98%以上的高效协同训练,并创新提出无损倒换技术方案,实现断纤、误码等传输链路故障时的训练效率无损、无感知。