百度智能云近日宣布,其自主研發的昆侖芯三代萬卡集群已成功點亮,這一里程碑式的成就標志著中國自研萬卡集群技術的重大突破。據悉,這不僅是國內首個正式運行的自研萬卡集群,更是百度在人工智能算力領域取得的又一重要進展。
百度智能云方面表示,這一萬卡集群的建成,不僅極大地提升了自身的算力支持能力,更為推動整個行業模型降本的趨勢提供了有力支撐。在過去的一年中,大模型使用成本高昂一直是行業痛點,而算力緊張則是導致成本居高不下的關鍵因素之一。百度通過自研芯片和大規模集群的建設,不僅解決了自身的算力需求,更為整個行業指明了新的發展方向。
從算力角度來看,萬卡集群的超大規模并行計算能力實現了訓練效率的顯著提升。這一集群能夠將千億參數模型的訓練周期大幅縮短,滿足AI原生應用快速迭代的需求。同時,它還能支持更大規模的模型、復雜任務以及多模態數據的處理,為Sora類應用的開發提供了強有力的支持。
萬卡集群還具備出色的多任務并發能力。通過動態資源切分技術,單集群可以同時訓練多個輕量化模型,并通過通信優化與容錯機制減少算力浪費,實現訓練成本的指數級下降。這一特性使得萬卡集群在國產大模型興起的背景下,逐漸從“單任務算力消耗”向“集群效能最大化”過渡。
在萬卡集群的建設過程中,百度百舸AI異構計算平臺4.0(簡稱“百舸平臺”)發揮了至關重要的作用。該平臺在2024年9月進行了升級,突破了硬件擴展性瓶頸,解決了卡間互聯的拓撲限制,避免了通信帶寬成為瓶頸。同時,它還針對芯片及集群功耗進行了優化,采用了創新性散熱方案,解決了萬卡集群的能效與散熱問題。
在模型分布式訓練優化方面,百舸平臺采用了高效并行化任務切分策略,將主流開源模型的集群MFU提升至58%。在提升穩定性方面,它提供了容錯與穩定性機制,避免了由于單卡故障率隨規模指數上升而造成的萬卡集群有效性大幅下降,保障了有效訓練率達到98%。針對機間通信帶寬需求,百舸平臺還建設了超大規模HPN高性能網絡,優化了拓撲結構,降低了通信瓶頸,帶寬有效性達到90%以上。
百舸4.0平臺還構建了十萬卡級別的超大規模HPN高性能網絡,針對跨地域通信中的高延遲問題進行了優化。通過優化的拓撲結構、多路徑負載均衡策略及通信策略,它實現了幾十公里的跨地域通信。在通信效率上,百舸平臺采用了先進的擁塞控制算法和集合通信算法策略,實現了完全無阻塞,并通過10ms級別超高精度網絡監控保障了網絡的穩定性。
在多芯混訓方面,百舸平臺展現了強大的資源整合能力。它能夠將不同地點、不同規模的異構算力進行統一管理,構建起多芯資源池。當業務提交工作負載時,百舸平臺可自動進行芯片選型,依據集群剩余的芯片資源選擇性價比最高的芯片來運行任務,從而最大化地利用集群的剩余資源,實現高達95%的萬卡多芯混合訓練效能。
在集群穩定性方面,百舸平臺也提供了全面的故障診斷手段。它能夠快速自動偵測到導致訓練任務異常的節點故障,并通過百度自研的BCCL(百度集合通信庫)快速定位故障并提供自動化的容錯能力。這一能力將故障恢復時間從小時級降低到分鐘級,提高了集群的可靠性和可用性。