中国移动程伟强:GSE两大模式满足所有智算组网场景需求
2024-09-12 / 阅读约0分钟
来源:C114

C114讯 9月12日消息(九九)9月11-13日,第25届中国国际光电博览会在深圳举行,在同期举办的“智算中心光技术创新发展论坛”上,中国移动研究院基础网络技术研究所副所长程伟强表示,大模型技术发展趋势总体仍然遵循ScalingLaw,参数已迈进万亿甚至十万亿规模;模型结构在原有Transformer的基础上,引入了扩散模型、MoE专家系统,模型的泛化能力增强、性能提升。

程伟强指出,大算力仍然是大模型创新落地的关键,国内外大型科技公司正积极投建万卡/超万卡集群智算中心。近日,作为全球运营商最大单集群智算中心,中国移动智算中心(哈尔滨)正式上线投产。该智算中心单集群内超过1.8万张AI加速卡,智能算力规模达6.9EFLOPS。

以太网物理层安全(PHYSec)突破加解密性能瓶颈

程伟强强调,智算中心新一代以太网技术需要具备高带宽、高可靠、高安全等特点。

在高带宽方面,DCN和DCI正加速向800G和1.6T演进。800GE标准、产业成熟,已开始商用部署。单通道100G的IEEE802.3df标准已发布,产业已成熟;单通道200G的标准baseline已确定,800GE coherent新增20km光接口,支持传统电信场景的需求,支持20/40/80km互通和共技术平台。1.6T标准正稳步推进,产业成熟、商用部署仍需时日;IEEE802.3dj重点关注1.6TE短距光标准,OIF已领跑1.6T相干标准化。

中国移动积极参与推动IEEE P802.3df&dj工作组的800GE标准化工作,主导完成800GE 20km新目标立项,是中国公司在IEEE的首个以太网基础标准立项,同时主导通过800GE 20km/40km相干标准框架提案被工作组采纳。

在高可靠方面,FlexLane弹性通道技术,为智算网络互联提供高可靠保障。FlexLane是基于以太网物理层弹性通道的高可靠保障技术,当物理层检测到lane故障后能够进行快速故障隔离,故障恢复后可以自愈。

在高安全方面,以太网物理层安全(PHYSec)突破加解密性能瓶颈。智算中心基础设施承载大量数据传输处理,安全诉求极高;RDMASec、MACSec等安全方案在加解密带宽开销、时延、硬件支持等方面存在性能瓶颈,暴露的帧头部信息仍存在安全漏洞。中国移动探索将传统密码学思想应用到以太网物理层—PHYSec,解决现有技术方案的安全漏洞与性能瓶颈。

程伟强介绍,PHYSec具有四大优势:一是协议透明,全加密。在物理层对比特流加密,保护所有帧头部,掩盖帧长度、帧发送频率。二是随流安全,低时延。随流加密,解密时延全掩盖(~20ns),对AI训练或推理基本无影响。三是不占带宽,低开销。基于物理层原生机制承载协议,不占用用户带宽。四是兼容存量,易部署。可基于PHY芯片或光模块DSP芯片实现,安全可插拔,支持存量网络平滑升级。

全调度以太网(GSE)两大模式,满足所有智算组网场景需求

程伟强指出,传统网络技术难以适应大规模AI集群的发展需求,面临着四大难题:大规模网络拥塞控制难、突发大象流负载均衡难、巨量链路长期稳定运行难、敏感隐私数据安全保障难,亟需彻底革新底层基础网络技术。

中国移动原创提出GSE技术体系,革新以太网转发机制,基于分发粒度、发流模式、转发机制和安全加密四大原创技术,实现高精度负载均衡、网络层原生无损及低延迟。

程伟强介绍,全调度以太网(GSE)两大模式,满足所有智算组网场景:纯网络(N2N)方案交换设备需支持GSE核心能力,如GSE头解封装、多路分发、授权及排序等,网卡无感知;端网协同(E2E)方案交换设备能力弱化,负责多路分发,GSE核心能力下沉至网卡。

程伟强进一步介绍,GSE-N2N技术方案是基于报文容器的多路径喷洒及DGSQ授权。程伟强解释说,单流多路径是提升网络有效带宽、降低网络拥塞的关键手段,其核心是打破传统流转发粒度,在保证链路均衡性的前提下,充分利用网络多路径,同时减低端侧处理乱序的压力。

GSE E2E技术方案是基于报文容器的多路径喷洒及乱序处理。在现有网络报文级负载均衡且乱序交付方案中,由于接收端缺少报文到达的路径信息,无法快速判丢;GSE的容器理念可为端侧提供报文转发的路径信息,实现端侧在乱序接收情况下的快速判断。

截至目前,全调度以太网GSE1.0已经正式商用于中国移动智算中心(哈尔滨),GSE-N2N千卡集群正在试商用,GSE-E2E原型设备即将发布。程伟强透露,中国移动已经启动同厂家、异厂家千卡级GSE中试验证,配合九天、LLama-70B等大模型,验证GSE技术成熟性。GSE推进计划团队已经完成三本技术标准的制定,并于9月底进行正式发布。

智算中心互联:IP+光融合方案是重要技术方向

随着AI大模型的发展,新型智算互联业务不断涌现,以分布式训练、存算分离为代表的新型业务对网络提出了更高要求。

面向AI大模型分布式训练需求及场景,超万卡级智算中心的电力供应/机房空间等节点能力将成为建设瓶颈,智算中心分地域、分时期、分阶段建设现象较为普遍,形成多个算力资源孤岛,“可通过网络能力整合多个集群,换取更大的集群规模。”程伟强说。

面向分布式训练长距离互联,其最大的挑战是网络时延增加(受限于物理极限)和互联带宽巨增(受限于建网成本),带宽和时延的劣化,大幅降低集群有效算力,集群互联获得的规模效益降低,拉远算效目标相比同局址不能低于80%(业界红线)。

程伟强认为,百公里城域跨园区互联场景是一个技术问题,电力缓解、网络受限,通过大buffer路由器设备、高速以太网中长距技术,为AI大模型分布式训练提供更强大的算力。其中,IP+光融合方案有利于简化互联设备形态,降低功耗、尺寸、成本,实现统一管控运维,是跨智算中心互联IP广域网的重要技术方向

千公里跨省多节点互联场景是一个科学问题,网络、模型算法均受限,需要凝聚产学研用各方力量,共同攻关新大模型算法,新组网架构、路由器缓存共享、大象流负载分担、IP广域拥塞控制等关键技术,争取形成全球领先的技术突破。