8月9日,以“智聯(lián)萬物 網(wǎng)聚未來”為主題的2025 AI網(wǎng)絡(luò)技術(shù)應(yīng)用創(chuàng)新大會在京召開。浪潮信息旗下元脈網(wǎng)絡(luò)應(yīng)邀參會,元脈網(wǎng)絡(luò)副總經(jīng)理陳翔發(fā)表主題為“元脈高性能AI網(wǎng)絡(luò),助力算力潛能釋放”的演講,詳細(xì)介紹了元脈網(wǎng)絡(luò)在AI網(wǎng)絡(luò)上的創(chuàng)新與實踐。
元脈網(wǎng)絡(luò)副總經(jīng)理 陳翔
AI業(yè)務(wù)規(guī)模化發(fā)展 三大挑戰(zhàn)亟待解決
隨著人工智能技術(shù)的迅猛發(fā)展,智算中心的集群規(guī)模持續(xù)擴大,AI 網(wǎng)絡(luò)建設(shè)亟需攻克在“部署效率、系統(tǒng)穩(wěn)定性、資源負(fù)載”三方面的挑戰(zhàn)。
● 部署緩慢,影響業(yè)務(wù)上線效率 當(dāng)前 AI 應(yīng)用正呈現(xiàn)與業(yè)務(wù)深度滲透融合的態(tài)勢,“如何提高部署效率、實現(xiàn)業(yè)務(wù)快速上線”已成為 AI 網(wǎng)絡(luò)建設(shè)面臨的首要問題。然而,集群規(guī)模的急速擴張,大幅提升了網(wǎng)絡(luò)部署與調(diào)優(yōu)的難度。以傳統(tǒng) RoCE 技術(shù)為例,其擁塞控制主要采用DCQCN技術(shù),而該技術(shù)的參數(shù)需進(jìn)行針對性調(diào)優(yōu),這直接導(dǎo)致?lián)砣刂撇渴鹆鞒虖?fù)雜,進(jìn)而影響業(yè)務(wù)上線效率。
● 通信時長、系統(tǒng)故障,制約算力釋放 集群建設(shè)涉及 GPU、網(wǎng)絡(luò)、光模塊等大量組件及復(fù)雜協(xié)議棧,當(dāng)前訓(xùn)練流量以大象流為主,這類流量具有同步突發(fā)特性,易因通信等待造成大量算力損耗;與此同時,卡間通信還陷入“訓(xùn)練規(guī)模越大,平均無故障時間越高”的悖論。據(jù)業(yè)界公開數(shù)據(jù)顯示,在 AI 系統(tǒng)故障中,網(wǎng)絡(luò)因素占比超 10%,已成為制約 AI 技術(shù)發(fā)展的重要瓶頸。
● 大模型訓(xùn)推混跑,網(wǎng)絡(luò)資源負(fù)載不均衡 隨著大模型框架的陸續(xù)開源,在業(yè)內(nèi)激發(fā)出新一輪部署熱潮。但大模型的快速部署,也讓模型內(nèi)部出現(xiàn)“訓(xùn)練+推理”混跑的連鎖反應(yīng),在這樣多任務(wù)混跑條件下部署的網(wǎng)絡(luò),會出現(xiàn)性能下降、流量相互干擾、及網(wǎng)絡(luò)資源負(fù)載不均衡等問題。
元脈網(wǎng)絡(luò)打造高性能、高可靠AI Fabric方案
為解決上述問題,元脈網(wǎng)絡(luò)憑借前瞻性的技術(shù)洞察和創(chuàng)新能力,推出高性能、高可靠的AI Fabric方案。該方案由元脈RoCE技術(shù)、AI Fabric交換機、及智能運管平臺三大核心組件構(gòu)成,可以實現(xiàn)AI網(wǎng)絡(luò)的端網(wǎng)一鍵部署、流量精準(zhǔn)可視、故障智能預(yù)測,為大模型訓(xùn)推提供堅實的網(wǎng)絡(luò)基礎(chǔ),保障模型訓(xùn)推的高效、穩(wěn)定和可靠運行。
在部署效率和穩(wěn)定性上,元脈網(wǎng)絡(luò)智能運管平臺ICE支持端網(wǎng)一鍵部署,可以統(tǒng)一納管交換機、網(wǎng)卡、光模塊、GPU、服務(wù)器等設(shè)備,實現(xiàn)拓?fù)渑渲靡绘I校驗、全網(wǎng)自動上線。同時,支持訓(xùn)前一鍵NCCL壓力測試,將部署時間從數(shù)周縮短到數(shù)天,極大簡化用戶的運維部署成本。
此外,元脈網(wǎng)絡(luò)AI Fabric方案搭建了更先進(jìn)的高精度遙測核心技術(shù),可實現(xiàn)AI流量的精準(zhǔn)可視。并具備靈活可編程特性,不僅支持?jǐn)?shù)據(jù)的自定義監(jiān)測與網(wǎng)絡(luò)性能的AI調(diào)優(yōu),還能有效提升算力資源利用率,確保業(yè)務(wù)流量零干擾運行。
三級“可靠”加固 AI網(wǎng)絡(luò)“安全感”拉滿
為提高智算中心集群網(wǎng)絡(luò)的可靠性,元脈網(wǎng)絡(luò)從“設(shè)備-鏈路-系統(tǒng)”三個維度進(jìn)行可靠性加固,降低智算中心建設(shè)過程中的單點故障率,提升系統(tǒng)無故障訓(xùn)練時間,激發(fā)算力潛能。
● 設(shè)備級可靠:元脈網(wǎng)絡(luò)AI Fabric方案內(nèi)置獨創(chuàng)的 IGE 智能防護(hù)引擎,硬件層面采用RAS可靠性架構(gòu)設(shè)計,對所有關(guān)鍵部件實施冗余備份,真正實現(xiàn)“單一設(shè)備失效,整個系統(tǒng)無感運行”;軟件層面采用模塊化架構(gòu),將業(yè)務(wù)模塊進(jìn)行容器化隔離部署,確保各模塊獨立運行、互不干擾,同時為關(guān)鍵模塊配備熱重啟與熱升級功能,充分滿足AI網(wǎng)絡(luò)環(huán)境的高穩(wěn)定性要求;此外,通過獨立的管理監(jiān)控平臺OpenBMC,提供更高級別的安全防護(hù)與可靠性保障,全方位適配AI時代數(shù)據(jù)中心的管理需求。
● 鏈路級可靠:由于集群規(guī)模龐大,光模塊數(shù)量眾多,一旦光模塊發(fā)生故障,將極大影響大模型的訓(xùn)練進(jìn)程。對此,元脈網(wǎng)絡(luò)AI Fabric方案可實現(xiàn)對光模塊各項指標(biāo)的精準(zhǔn)監(jiān)控,能夠?qū)崟r掌握其健康狀態(tài)并提前預(yù)警,達(dá)到故障“主動預(yù)警、提前干預(yù)”的目的,有效減少訓(xùn)練中斷的情況,降低故障帶來的影響。
● 系統(tǒng)級可靠:在系統(tǒng)級可靠性設(shè)計方面,元脈網(wǎng)絡(luò)AI Fabric方案具備多重技術(shù)優(yōu)勢。一是采用智能負(fù)載均衡技術(shù),當(dāng)鏈路發(fā)生故障時,智能負(fù)載均衡可依據(jù)全局鏈路狀態(tài),重新均衡AI流量,性能較傳統(tǒng)RoCE領(lǐng)先2.3 倍;針對單平面架構(gòu)易出現(xiàn)單點故障的風(fēng)險,方案采用多平面架構(gòu)技術(shù),為算力持續(xù)可用提供堅實保障,不僅可以實現(xiàn) AI 通信零中斷,更使有效訓(xùn)練時長占比高達(dá) 99%。
AI賦能未來 互聯(lián)構(gòu)筑基石
元脈® 浪潮信息旗下網(wǎng)絡(luò)業(yè)務(wù)品牌,作為AI時代網(wǎng)絡(luò)創(chuàng)新引領(lǐng)者,可以為用戶提供面向AI時代的智算中心、數(shù)據(jù)中心、邊緣網(wǎng)絡(luò)等全棧網(wǎng)絡(luò)方案。并堅持智能、開放、可靠的發(fā)展理念,不斷深化自身在技術(shù)創(chuàng)新、場景創(chuàng)新、合作創(chuàng)新方面的能力,為AI時代算力、數(shù)據(jù)價值的釋放,打造堅實互聯(lián)基石。