在世界人工智能大會即將拉開帷幕之際,國產芯片產業的目光聚焦于摩爾線程所打造的“AI工廠”。這一創新成果在2025年成為了行業內熱議的話題。
摩爾線程的創始人兼首席執行官張建中,在一場以“算力進化,精度革命”為主題的技術分享會上,詳細闡述了公司如何應對生成式AI的迅猛增長所帶來的大模型訓練效率瓶頸。他介紹,摩爾線程通過系統性的工程創新,構建了一個面向AI訓練的新時代基礎設施,旨在AGI(通用人工智能)時代打造一座能夠高效生產先進模型的“超級工廠”。
摩爾線程的“AI工廠”概念,類似于芯片晶圓廠的制程升級,它不僅是一次技術上的革新,更是一場全方位的系統性變革。這包括從底層芯片架構的創新,到集群整體架構的優化,再到軟件算法和資源調度系統的全面升級。這一系列變革將推動AI訓練規模從千卡級躍升至萬卡級,乃至十萬卡級,從而實現生產力和創新效率的顯著提升。
“AI工廠”的生產效率由五大核心要素共同決定,即加速計算的通用性、單芯片的有效算力、單節點的效率、集群的效率以及集群的穩定性。摩爾線程以全功能GPU的通用算力為基礎,通過一系列深度技術創新,將這些要素協同提升,從而轉化為工程級的訓練效率和可靠性保障。
摩爾線程通過軟硬深度協同的系統級創新,構建了“AI工廠”的五大核心技術支柱,旨在實現大模型訓練效率的質的飛躍。首先,他們以自主研發的全功能GPU為核心,構建了兼具功能完備性和精度完整性的通用性底座,全面滿足從AI訓練、推理到科學計算的全場景需求。
基于突破性的MUSA架構,摩爾線程的GPU單芯片集成了AI計算加速、圖形渲染、物理仿真及超高清視頻編解碼能力,完美適配多樣化的應用場景。在計算精度方面,摩爾線程支持從FP64至INT8的完整精度譜系,并通過FP8混合精度技術,在前沿大模型訓練中實現了20%-30%的性能提升。
芯片的有效算力是驅動“AI工廠”高效運轉的關鍵。摩爾線程通過自研的MUSA架構,在計算、內存、通信方面取得了三重突破,顯著提升了單GPU的運算效率。他們采用創新的多引擎、可伸縮GPU架構,構建了全局共享的計算、內存與通信資源池,不僅突破了傳統GPU的限制,還大幅提升了資源利用率。
在計算層面,摩爾線程的AI加速系統支持多種混合精度計算。作為國內首批實現FP8算力量產的GPU廠商,其FP8技術通過一系列創新設計,在保證計算精度的同時,將Transformer計算性能提升了約30%。在內存系統方面,他們通過多項技術實現了帶寬節省和延遲降低。在通信和互聯領域,獨創的ACE異步通信引擎和MTLink2.0互聯技術為大規模集群部署奠定了堅實基礎。
摩爾線程通過MUSA全棧系統軟件實現了關鍵技術突破,推動“AI工廠”從單點創新轉向系統級效能提升。他們自研的KUAE計算集群通過5D大規模分布式并行計算技術,實現了上千節點的高效協作,顯著提升了大規模集群的訓練效率。同時,他們還創新推出了零中斷容錯技術,確保在硬件故障發生時,訓練過程能夠無縫繼續,大幅降低了恢復開銷。
摩爾線程憑借全功能GPU的通用計算能力、創新的MUSA架構、優化的MUSA軟件棧、自研的KUAE集群以及零中斷容錯技術,成功構建起高效的“AI工廠”。這一完善的“AI工廠”不僅具備高效訓練大模型的能力,還擁有推理驗證能力,實現了“訓練-驗證-部署”的無縫銜接。
摩爾線程的全功能GPU正在持續加速計算領域的革新,以“KUAE+MUSA”為核心,他們將加速推動AI技術在多個關鍵領域的應用與部署,包括物理仿真、AIGC、科學計算、具身智能、醫療影像分析、工業大模型等。摩爾線程還計劃于今年10月舉辦首屆MUSA開發者大會,邀請全球開發者共同探討前沿技術,共享MUSA自主新生態。