8月23日,在第八屆未來網(wǎng)絡發(fā)展大會上,中國電信研究院發(fā)布了《分布式智算中心無損網(wǎng)絡技術(shù)白皮書》(以下簡稱“白皮書”)。白皮書首次明確提出了分布式智算中心無損網(wǎng)絡總體架構(gòu)以及長距無損、超大帶寬、超高可靠、彈性敏捷、智慧運維五大技術(shù)特征。該白皮書提出的總體架構(gòu)及關(guān)鍵技術(shù)應用于業(yè)界首個百公里、千卡、千億參數(shù)大模型分布式訓練現(xiàn)網(wǎng)試驗,分布式訓練性能達到集中式單智算中心訓練性能的95%以上,為建設超大規(guī)模智算集群提供新思路。
隨著人工智能的浪潮來襲,以大模型為代表的智算中心解決方案逐步深入千行百業(yè),算力需求日益攀升,智算基礎設施的重要性進一步凸顯,但同時也面臨組網(wǎng)、通信、能耗、成本等多重挑戰(zhàn)。為解決智算中心單點算力規(guī)模建設受限的問題,中國電信提出“以網(wǎng)強算”的技術(shù)路線,通過將IP技術(shù)與光傳輸技術(shù)的協(xié)同創(chuàng)新,將相距百公里的多個智算中心連成一個更大規(guī)模的智算集群,補齊單點算力規(guī)模不足的差距。針對跨智算中心構(gòu)建超大規(guī)模智算集群過程中遇到的問題和挑戰(zhàn),白皮書中詳細闡述了實現(xiàn)上述目標所需的核心技術(shù),包括網(wǎng)絡級負載均衡技術(shù)、交換機精準流控技術(shù)、異構(gòu)集合通信優(yōu)化技術(shù)、全流可視化技術(shù)、800G C+L傳輸技術(shù)、WSON重路由技術(shù)、波長級動態(tài)拆建技術(shù)、告警根因識別技術(shù)等,為分布式智算中心無損網(wǎng)絡建設發(fā)揮積極的引領和示范效應。
面向未來,中國電信將堅持“以網(wǎng)強算”的技術(shù)路線,打造面向智算業(yè)務的新型基礎設施,以高性能智算網(wǎng)絡作為提升集群算力性能的關(guān)鍵抓手,突破智能算力供給瓶頸,在賦能智算基礎設施方面發(fā)揮更加重要的作用,為經(jīng)濟社會發(fā)展注入新的動力。