在由中國信息通信研究院主辦的智算IP廣域網產業(yè)交流會上,中國電信股份有限公司上海分公司(以下簡稱“上海電信”)副總工程師張堅平分享了“算網筑基,智賦百業(yè),上海電信打造業(yè)界首個400GE IP彈性無損智算廣域網絡,為千行萬業(yè)提供高彈性、高吞吐、高可靠的一跳入多智算新服務”的演講。張堅平表示上海電信貫徹智云網絡“以網促算”策略,打造端到端400GE IP彈性無損智算廣域網絡,提供海量樣本高效入算,存算分離拉遠訓練,為千行百業(yè)提供像水和電一樣的公共算力服務。
當前智算業(yè)務流量變化給傳統(tǒng)網絡帶來兩大挑戰(zhàn),一是智算業(yè)務流量模型普遍流數少,單流帶寬大,容易導致網絡部分鏈路擁塞造成整體網絡吞吐量不高。二是隨著智算業(yè)務傳輸協(xié)議向RDMA協(xié)議發(fā)展,傳輸對丟包率的敏感度提升,千分之一的丟包導致智算中心計算效率下降50%。
面對上海全市300多家企業(yè)、40多所高校和研究所,11個信息化園區(qū)的用算訴求,上海電信打造具備智能運力的智算廣域網,通過網絡高吞吐使能“算得多”,RDMA廣域無損保障“算得快”,任務式彈性服務做到“用得起”,全面匹配智算時代下新供需關系帶來的網絡訴求。該網絡具備如下特點:
400GE彈性算網,一跳入多算:端到端部署400GE大帶寬接口技術,將網絡運力提升4倍。企業(yè)側部署智算CPE構筑10Mbps~100Gbps IP彈性專線,滿足企業(yè)一條專線同時訪問智算、超算以及通算等多種異構算力資源池的需求。
長距RDMA無損傳輸:部署RDMA無損傳輸技術,使網絡吞吐率逼近400GE線路帶寬,支持廣域超百公里RDMA遠距離、高吞吐無損傳輸,算效不下降。
時延可保障:智算廣域網絡結合網絡控制器智能調度能力,實現算力業(yè)務傳輸質量實時可視;诰W絡路徑秒級調優(yōu)能力,智算網絡可以保障算力業(yè)務傳輸時延,從而滿足推理業(yè)務流量毫秒級傳輸。
張堅平稍后還分享了智算廣域網絡上開展的最新實踐成果。一是在開啟負載均衡和精準流控功能下,應用層有效傳輸速率提升7倍,傳輸時間降低了86%。二是通過引入廣域RDMA無損技術,跨百公里的存算拉遠訓練效率達到99%以上,從而支撐智算廣域網滿足海量租戶進行并發(fā)訓練。
張堅平最后表示上海電信后續(xù)將分三步打造高效無損、高效協(xié)同、泛在敏捷入算的算力網絡基礎設施。最終實現智算廣域能力服務長三角算網一體化,迭代升級推理業(yè)務的智能保障能力,打造最優(yōu)用戶體驗的訓推一體算力網絡。