在人工智能領域,百度近期通過其萬卡集群的部署,顯著提升了算力效能并優化了成本結構,為行業樹立了新的標桿。
這一壯舉不僅為百度內部的大模型訓練和推理提供了強有力的支持,更為整個行業在降低大模型使用成本方面開辟了新的道路。面對算力緊張這一長期困擾行業的難題,百度通過自主研發芯片和構建大規模集群,成功緩解了算力瓶頸,為行業的可持續發展注入了新的活力。
從技術層面來看,萬卡集群的超大規模并行計算能力使得訓練效率實現了質的飛躍。它能夠大幅縮短千億參數模型的訓練周期,滿足AI原生應用快速迭代的需求。同時,該集群還支持更大規模的模型和更復雜的多模態數據處理任務,為Sora等前沿應用的開發提供了堅實的基礎。萬卡集群還具備出色的多任務并發能力,通過動態資源切分和優化的通信機制,實現了訓練成本的顯著降低。
隨著國產大模型的蓬勃發展,萬卡集群的應用場景也在不斷拓展。它從最初的“單任務算力消耗”模式逐步過渡到“集群效能最大化”模式,通過一系列先進的模型優化和動態資源分配技術,實現了訓練、微調、推理等任務的混合部署,從而大幅提升了集群的綜合利用率和單位算力的成本效益。
在萬卡集群的建設過程中,百度百舸AI異構計算平臺4.0發揮了不可或缺的作用。該平臺在硬件擴展性、能效管理、分布式訓練優化等方面取得了顯著突破。它解決了卡間互聯的拓撲限制和通信帶寬瓶頸問題,采用了創新的散熱方案以提升能效。同時,它還完善了模型的分布式訓練策略,使得主流開源模型的訓練效率得到了大幅提升。在穩定性方面,百舸平臺提供了全面的容錯機制,保障了萬卡集群在高故障率環境下的穩定運行。
百舸4.0還構建了十萬卡級別的超大規模HPN高性能網絡。這一網絡通過優化的拓撲結構和多路徑負載均衡策略,實現了跨地域通信的高效和低延遲。在通信效率方面,百舸平臺采用了先進的擁塞控制算法和集合通信算法策略,確保了網絡的完全無阻塞和超高精度監控。
在多芯混訓方面,百舸平臺同樣展現出了強大的資源整合能力。它能夠將不同地點、不同規模的異構算力進行統一管理,構建起多芯資源池。當業務提交工作負載時,百舸平臺能夠自動進行芯片選型,選擇性價比最高的芯片來運行任務,從而最大化地利用集群的剩余資源。這一特性使得萬卡多芯混合訓練的效能達到了前所未有的高度。
在集群穩定性方面,百度自研的BCCL(百度集合通信庫)發揮了關鍵作用。它能夠快速定位故障并提供自動化的容錯能力,將故障恢復時間從小時級降低到分鐘級。這一技術的引入極大地提高了集群的可靠性和可用性,為萬卡集群的穩定運行提供了有力保障。
近期,花旗銀行發布的一份研報也對百度等中國模型的高效和低成本優勢給予了高度評價。研報指出,這些模型將有助于加速全球AI應用開發,并在全球范圍內引發更多的技術創新。同時,中國工程院院士、清華大學計算機系教授鄭緯民也表示,構建國產自主萬卡系統雖然充滿挑戰,但對于行業的長遠發展而言至關重要。