C114訊 1月16日消息(艾斯)AI時(shí)代已經(jīng)來(lái)臨。大模型等新興AI應(yīng)用需求海量的算力支撐,一座座智算中心拔地而起,規(guī)模龐大的萬(wàn)卡集群逐漸投入商用。如何更好地實(shí)現(xiàn)智算中心互聯(lián),服務(wù)AI應(yīng)用創(chuàng)新發(fā)展,業(yè)界做了大量研究工作。
1月16日,作為“2025中國(guó)光通信高質(zhì)量發(fā)展論壇”的開(kāi)篇之作,“智算中心互聯(lián):算網(wǎng)協(xié)同,構(gòu)筑智算互聯(lián)新底座”線(xiàn)上研討會(huì)順利召開(kāi),會(huì)議邀約產(chǎn)業(yè)鏈專(zhuān)家代表,圍繞智算中心間跨地域、跨層級(jí)、跨主體、高可靠的算力協(xié)同與調(diào)度,以及智算中心互聯(lián)關(guān)鍵技術(shù)等話(huà)題展開(kāi)了深入探討。
騰訊光網(wǎng)絡(luò)架構(gòu)師李方超應(yīng)邀作了題為《 超大規(guī)模橫向擴(kuò)展網(wǎng)絡(luò)》的主題報(bào)告。在報(bào)告中,李方超針對(duì)AI大模型飛速發(fā)展對(duì)于網(wǎng)絡(luò)提出的全新挑戰(zhàn)與需求進(jìn)行了深入分析,并詳細(xì)介紹了騰訊針對(duì)網(wǎng)絡(luò)超大規(guī)模擴(kuò)展所打造的MegaScaleOut軟硬件創(chuàng)新解決方案。
以算力換智力存在物理上限 跨IDC的ScaleOut成為剛需
大模型的能力每2-3年就會(huì)上一個(gè)全新的臺(tái)階,同時(shí)伴隨著GPU規(guī)模相應(yīng)擴(kuò)大了數(shù)倍乃至數(shù)10倍。如今,大模型訓(xùn)練已從早期GPT3的千卡規(guī)模迅速擴(kuò)展至GPT5的10萬(wàn)卡規(guī)模。顯然,AI的發(fā)展與GPU資源線(xiàn)性相關(guān)。不過(guò),以算力替換智力天然存在物理資源上限。
“從業(yè)務(wù)的需求與物理供給之間的矛盾可以推斷出,大園區(qū)的擴(kuò)展是必然的。”李方超在演講中介紹道,參考國(guó)際市場(chǎng)發(fā)展來(lái)看,以谷歌、微軟、Meta為代表的北美巨頭們正在積極布局算力園區(qū),這些Hyperscalers通過(guò)在自己的優(yōu)勢(shì)區(qū)域部署多個(gè)子園區(qū),以3-4個(gè)IDC的方式共建一個(gè)超大規(guī)模的算力集群,以此來(lái)實(shí)現(xiàn)對(duì)于電力的供應(yīng)和投資安全的保證。
作為對(duì)比,在國(guó)內(nèi)環(huán)境中,如果想訓(xùn)練一個(gè)對(duì)標(biāo)GPT5或者Llama4的大模型,由于GPU的性能限制,我們可能需要更多的GPU來(lái)實(shí)現(xiàn)相同的算力。同時(shí),隨著多模態(tài)訓(xùn)練的到來(lái),不同型號(hào)、不同性能的GPU對(duì)應(yīng)不同類(lèi)型的訓(xùn)練存在最優(yōu)選擇,這對(duì)于網(wǎng)絡(luò)的靈活和任務(wù)分配帶來(lái)了更多挑戰(zhàn)。此外,由于交付與工程的因素,會(huì)存在不同型號(hào)的GPU與不同廠(chǎng)商的GPU混布在同一個(gè)IDC的可能,這些最終會(huì)導(dǎo)致出現(xiàn)GPU碎片池化的問(wèn)題。
“因此,結(jié)合AI的發(fā)展和規(guī)模的限制,跨IDC的ScaleOut可能會(huì)成為剛需。”李方超強(qiáng)調(diào)。
跨IDC ScaleOut存在多重挑戰(zhàn) IP與光的融合成為最優(yōu)解
他進(jìn)一步分析稱(chēng),當(dāng)進(jìn)入到DCI以后,收斂比與可靠將變成一個(gè)全新的挑戰(zhàn)。
對(duì)于DCI出口而言,大象流是一個(gè)需要解決的問(wèn)題。不過(guò),通過(guò)優(yōu)化擁塞控制算法與擴(kuò)容帶寬等方式,便可以有效應(yīng)對(duì)高并發(fā)需求。更大的挑戰(zhàn)在于解決可靠性問(wèn)題,這主要?dú)w因于跨機(jī)房之后對(duì)于光纜的不可控。相比傳統(tǒng)網(wǎng)絡(luò)來(lái)說(shuō),無(wú)損系統(tǒng)在帶寬下降的時(shí)候會(huì)直接影響算力能力,網(wǎng)絡(luò)抖動(dòng)與丟包也會(huì)直接影響RDMA的性能,光纜故障與抖動(dòng)成為新的變數(shù)。
“根據(jù)我們的測(cè)算,在丟包0.1%數(shù)據(jù)的情況下,RDMA的吞吐量會(huì)下降10%,因此從機(jī)房?jī)?nèi)到機(jī)房間,對(duì)于跨IDC的場(chǎng)景,帶寬充裕、鏈路可靠是必備的基本需求!崩罘匠窒砹艘唤M詳細(xì)的測(cè)試數(shù)據(jù),并指出無(wú)法簡(jiǎn)單通過(guò)光纜與設(shè)備來(lái)?yè)Q取可靠性的絕對(duì)提升,其中深層次的原因在于“交換機(jī)無(wú)法實(shí)時(shí)預(yù)見(jiàn)到即將到來(lái)的劣化和故障”。
于是,騰訊光網(wǎng)絡(luò)團(tuán)隊(duì)意識(shí)到,如果可以讓交換機(jī)快速地了解物理層到底發(fā)生了什么,使交換機(jī)有時(shí)間去提前執(zhí)行預(yù)定好的策略,并規(guī)避物理層的一些變化,這對(duì)于IDC的無(wú)損網(wǎng)絡(luò)來(lái)說(shuō)非常有意義。因此,該團(tuán)隊(duì)提出,IP與光的融合是跨園區(qū)無(wú)損網(wǎng)絡(luò)的最優(yōu)解。
李方超談到,“針對(duì)IP over DWDM,我們正積極推動(dòng)光器件的小型化與標(biāo)準(zhǔn)化,也即微光學(xué)模塊。這一次我們將通過(guò)這些創(chuàng)新,讓IP與光可以真正地拉近,實(shí)現(xiàn)打破硬件的隔閡,完成真正的融合。通過(guò)相干芯片與交換芯片的融合創(chuàng)新,我們讓交換機(jī)具備了物理層健康度的評(píng)估能力,為跨IDC的Scaleout做好了一切準(zhǔn)備。”
此外,他還詳細(xì)介紹了騰訊在ODCC立項(xiàng)的MegaScaleOut項(xiàng)目組,及其在IP over DWDM當(dāng)中的全新硬件DTS在解決DCI可靠性問(wèn)題方面的應(yīng)用,以及通過(guò)OCS全光交換設(shè)備解決DCI側(cè)應(yīng)用解決容量按需分配的應(yīng)用。