在人工智能領(lǐng)域,模型發(fā)展的兩極分化趨勢愈發(fā)顯著。一方面,企業(yè)級應(yīng)用更傾向于采用小參數(shù)模型,因其在實(shí)際應(yīng)用中展現(xiàn)出高效與便捷;另一方面,通用大模型的參數(shù)規(guī)模持續(xù)攀升,已邁入萬億參數(shù)的新紀(jì)元。
MoE(Mixture of Experts)高效模型架構(gòu)的興起,成為推動大模型參數(shù)規(guī)模不斷增長的驅(qū)動力。例如,采用MoE混合專家架構(gòu)的KIMI K2開源模型,其參數(shù)量高達(dá)1.2萬億,但在推理過程中,每個Token僅需激活32B參數(shù),實(shí)現(xiàn)了高效與性能的平衡。
然而,隨著模型參數(shù)的激增,算力系統(tǒng)正面臨前所未有的挑戰(zhàn)。萬億參數(shù)模型對算力的需求極為龐大,傳統(tǒng)計算架構(gòu)難以滿足。以GPT-3為例,其1750億參數(shù)的訓(xùn)練量已相當(dāng)驚人,需要在2.5萬張A100 GPU上運(yùn)行90-100天。而萬億參數(shù)模型的算力需求更是數(shù)十倍于此,對算力系統(tǒng)架構(gòu)提出了全新要求。
算力需求的激增不僅體現(xiàn)在訓(xùn)練階段,推理階段同樣面臨巨大挑戰(zhàn)。大模型推理屬于敏感型計算,對分布式計算通信延時要求極高。MoE架構(gòu)模型在分布式訓(xùn)練過程中涉及大量跨設(shè)備通信,通信時間占比高達(dá)40%,進(jìn)一步加劇了算力系統(tǒng)的壓力。
為了應(yīng)對這些挑戰(zhàn),企業(yè)開始探索構(gòu)建大規(guī)模Scale Up系統(tǒng)。傳統(tǒng)Scale Out集群通過增加節(jié)點(diǎn)數(shù)量來擴(kuò)展算力,但節(jié)點(diǎn)間通信瓶頸在萬億參數(shù)模型訓(xùn)練中被無限放大。相比之下,Scale Up系統(tǒng)通過超節(jié)點(diǎn)技術(shù),將數(shù)百顆AI芯片封裝為統(tǒng)一計算實(shí)體,實(shí)現(xiàn)跨節(jié)點(diǎn)通信性能接近節(jié)點(diǎn)內(nèi)水平,有效解決了算力瓶頸問題。
浪潮信息副總經(jīng)理趙帥指出,構(gòu)建具有更大顯存空間、更大高速互連域、更高算力的超節(jié)點(diǎn)系統(tǒng),是應(yīng)對萬億模型算力挑戰(zhàn)的關(guān)鍵。浪潮信息近期發(fā)布的元腦SD200超節(jié)點(diǎn)AI服務(wù)器,就是這一理念的典范。該產(chǎn)品基于創(chuàng)新的多主機(jī)低延遲內(nèi)存語義通信架構(gòu),聚合64路本土GPU芯片,可單機(jī)運(yùn)行1.2萬億參數(shù)Kimi K2模型,并支持多種模型同時運(yùn)行和多Agent協(xié)同按需調(diào)用。
元腦SD200在硬件架構(gòu)上采用了多主機(jī)3D Mesh系統(tǒng)架構(gòu),通過Open Fabric Switch實(shí)現(xiàn)64路GPU高速互連,擁有更大的統(tǒng)一地址顯存空間。在軟件層面,元腦SD200針對3D Mesh系統(tǒng)架構(gòu)開發(fā)了一套PD分離框架,配合多層級通信機(jī)制,降低了通信時延,并保持了對多元算力的兼容性。
軟硬協(xié)同成為解決萬億參數(shù)大模型算力瓶頸的核心路徑。硬件能力的釋放需要軟件層的深度適配。例如,字節(jié)跳動COMET技術(shù)通過動態(tài)KV緩存重組,顯著降低了MoE模型的通信延遲,提升了硬件利用率。這一案例充分說明了軟件優(yōu)化在提升算力利用率方面的重要作用。
在構(gòu)建大規(guī)模Scale Up系統(tǒng)的同時,企業(yè)還需關(guān)注數(shù)據(jù)中心功耗與碳中和進(jìn)程的平衡。超節(jié)點(diǎn)系統(tǒng)的功耗密度已達(dá)兆瓦級,軟硬協(xié)同成為破局關(guān)鍵。若軟件未適配硬件的動態(tài)功耗調(diào)節(jié),可能導(dǎo)致芯片長期處于高功耗狀態(tài),引發(fā)過熱降頻等問題。
萬億參數(shù)大模型的爆發(fā)式增長,正推動算力系統(tǒng)進(jìn)入從“量變”到“質(zhì)變”的關(guān)鍵轉(zhuǎn)折期。面對龐大的參數(shù)規(guī)模、激增的顯存需求、復(fù)雜的通信開銷以及MoE架構(gòu)帶來的負(fù)載均衡與訓(xùn)練穩(wěn)定性挑戰(zhàn),企業(yè)需要不斷創(chuàng)新硬件架構(gòu)與軟件系統(tǒng),實(shí)現(xiàn)軟硬協(xié)同,才能將超節(jié)點(diǎn)的算力優(yōu)勢轉(zhuǎn)化為大模型落地的實(shí)際效能。