杨超斌:数据中心效率提升95% Meta Llama 3频繁故障凸显差距
1 周前 / 阅读约1分钟
来源:C114

华为中国合作伙伴大会2025于3月20日在深圳开幕。3月21日上午主论坛上,华为董事、ICT BG CEO杨超斌指出,数据中心网络因负载不平衡和拥塞,集群效率通常会降低20%以上。他还提到,美国Meta在训练Llama 3模型时,54天内发生了419次故障,平均每3小时一次,其中80%的故障由硬件问题引起,尤其是处理器互联问题。针对这些问题,华为推出了NSLB(网络负载平衡)方案,通过智能化调度,将网络负载效率提升至95%以上,训练效率提升10%。科大讯飞应用该技术后,大模型训练时间从34天缩短至25天。此外,华为还设计了高可靠性光模块,用于数据中心场景,可靠性提升10倍以上。杨超斌还提到,中国移动去年的集群可靠性远高于Meta Llama 3模型的训练集群,后者平均每3小时故障一次,而中国移动的集群二十几天未出现故障。