近日,中國電信在北京成功完成了業(yè)界首個(gè)50毫秒波長交換光網(wǎng)絡(luò)(WSON)算力互聯(lián)現(xiàn)網(wǎng)驗(yàn)證。此次驗(yàn)證成功實(shí)現(xiàn)了超過1200公里跨域分布式人工智能大模型的可靠訓(xùn)練,標(biāo)志著我國在算力網(wǎng)絡(luò)高可靠承載領(lǐng)域取得關(guān)鍵性進(jìn)展,這是繼2025年率先實(shí)現(xiàn)千卡規(guī)模、千億參數(shù)大模型500公里聯(lián)合訓(xùn)練試商用后,無損智算網(wǎng)創(chuàng)新取得的又一重要成果,為落實(shí)工信部城域“毫秒用算”專項(xiàng)行動(dòng)和全國一體化算力調(diào)度提供了堅(jiān)實(shí)的技術(shù)底座。
隨著人工智能領(lǐng)域爆發(fā)式發(fā)展,AI大模型訓(xùn)練等場景對底層承載網(wǎng)絡(luò)的可靠性提出了近乎苛刻的要求。一次微小的網(wǎng)絡(luò)丟包或短暫中斷,都可能導(dǎo)致耗時(shí)數(shù)日、消耗巨大能源的AI訓(xùn)練任務(wù)失敗,造成重大損失。傳統(tǒng)網(wǎng)絡(luò)保護(hù)恢復(fù)技術(shù)通常在秒級(jí)甚至分鐘級(jí),難以滿足智算業(yè)務(wù)“零感知”中斷的剛性需求。為此,中國電信北京公司聯(lián)合中國電信研究院、華為公司,將創(chuàng)新的WSON保護(hù)機(jī)制應(yīng)用于算力互聯(lián)場景。本次驗(yàn)證的核心突破在于,通過將深度學(xué)習(xí)、智能決策等前沿AI算法深度嵌入WSON的控制平面,構(gòu)建了“實(shí)時(shí)感知—最優(yōu)決策—瞬時(shí)執(zhí)行”的全流程智能閉環(huán)。當(dāng)網(wǎng)絡(luò)發(fā)生意外中斷時(shí),該系統(tǒng)能在50毫秒內(nèi)自動(dòng)計(jì)算并建立新的最優(yōu)光通路,實(shí)現(xiàn)業(yè)務(wù)總體無感切換,牢牢守住“算力生命線”。
據(jù)悉,本次驗(yàn)證并非實(shí)驗(yàn)室環(huán)境下的理想測試,而是在真實(shí)的網(wǎng)絡(luò)環(huán)境中進(jìn)行。驗(yàn)證通過級(jí)聯(lián)每段部署WSON 50ms技術(shù)的多個(gè)光纖鏈路,構(gòu)建了跨越1200公里的分布式智算場景,模擬了北京與遙遠(yuǎn)的異地?cái)?shù)據(jù)中心協(xié)同進(jìn)行大模型訓(xùn)練的任務(wù)。驗(yàn)證結(jié)果表明,在引入50毫秒WSON保護(hù)并結(jié)合800G高速傳輸與無損調(diào)度技術(shù)后,即便在超長距傳輸環(huán)境下,網(wǎng)絡(luò)吞吐率依然保持在極高水準(zhǔn)。更關(guān)鍵的是,分布式人工智能大模型的訓(xùn)練性能達(dá)到了在單一智算中心內(nèi)集中訓(xùn)練的97%以上。這意味著地理距離不再成為算力高效協(xié)同的阻礙,千里之外的異構(gòu)算力能夠“如處一室”般穩(wěn)定,高效地共同完成復(fù)雜計(jì)算任務(wù),解決了長距離傳輸中網(wǎng)絡(luò)擁塞、丟包及鏈路故障導(dǎo)致的訓(xùn)練中斷和性能下降難題。
此次現(xiàn)網(wǎng)驗(yàn)證的成功,是中國電信北京公司在構(gòu)建“無損智算網(wǎng)”征程上取得的又一里程碑式成果。它不僅極大提升了算力網(wǎng)絡(luò)的生存性和可靠性,更對醫(yī)療、金融、政務(wù)服務(wù)等對時(shí)延和中斷極度敏感的行業(yè)應(yīng)用具有重大意義,為其提供了高可靠、低時(shí)延的確定性算力保障?!懊嫦蚺畈l(fā)展的AI時(shí)代,我們正加快推進(jìn)全光網(wǎng)3.0戰(zhàn)略轉(zhuǎn)型,致力于打造‘一環(huán)一縱’的高可靠、低時(shí)延算力網(wǎng)絡(luò)底座?!敝袊娦疟本┕鞠嚓P(guān)負(fù)責(zé)人沈鴻表示。據(jù)介紹,該底座將有力支撐國家“AI+”行動(dòng)計(jì)劃的實(shí)施,賦能京津冀乃至更廣區(qū)域的智算中心互聯(lián)互通,最終目標(biāo)是讓高品質(zhì)的算力能夠像水、電、燃?xì)庖粯樱蔀槠栈萸Ъ胰f戶、賦能千行百業(yè)、即取即用的社會(huì)級(jí)基礎(chǔ)服務(wù)。