近期,DeepSeek的火爆表現無疑為資本市場注入了一劑強心針,激發了投資者對AI+產業鏈的熱情。在2月5日開工首日,DeepSeek概念指數飆升14.73%,AI應用端和科技板塊全線上漲,而2月6日早盤,A股TMT科技板塊繼續保持強勁勢頭,DeepSeek與AI算力概念尤為活躍。
就在這一片欣欣向榮之際,中國大模型市場又傳來重大消息:百度智能云成功激活昆侖芯三代萬卡集群,成為國內首個正式投入使用的自研萬卡集群。上線首日,已有超過1.5萬家客戶通過千帆平臺調用該模型。這一里程碑式的事件不僅標志著百度在自研芯片與大規模AI算力布局上取得了新的突破,更預示著AI模型訓練成本的大幅下降,為整個行業的發展注入了新的活力。
隨著各大科技巨頭紛紛加速推進AI算力基礎設施建設,萬卡集群成為了業界關注的焦點。那么,萬卡集群究竟是什么?為何各大企業都在積極自建自研萬卡集群?國產萬卡集群的不斷演進又將如何改變智算產業的面貌?
近年來,AI大模型如雨后春筍般涌現,模型規模和數據參數呈指數級增長。例如,從2018年GPT-1的1.17億參數量,到2020年GPT-3的1750億參數量,再到2023年GPT-4的約1.8萬億參數量,參數的快速增長極大地提升了AI模型的性能。然而,這也導致AI模型訓練的算力需求每3.5個月翻一番,每年所需算力增幅高達10倍,遠遠超出了摩爾定律的增速。
以GPT-4為例,其訓練過程使用了約25000個英偉達的A100 GPU,持續時間長達90至100天,算力消耗巨大。隨著大模型越來越多地應用于企業實際業務場景,后期推理的算力需求也隨之增加。因此,大規模GPU算力集群成為必然選擇,國內外科技廠商紛紛布局AI算力基礎設施,致力于搭建萬卡甚至10萬卡集群。
“萬卡集群”即由超過一萬張加速卡(如GPU、TPU等)組成的高性能計算系統,用于加速AI模型的訓練和推理過程。與訓練周期長、成本高的傳統千億參數模型相比,萬卡集群在計算能力、數據處理速度和存儲容量等方面實現了質的飛躍。通過并行計算和分布式處理,萬卡集群能夠顯著縮短模型訓練周期,提高研發效率。
作為一種靈活的計算基礎設施,萬卡集群能夠根據應用需求進行定制化配置和優化,支持更大規模模型和更復雜的多模態任務,為AI技術的創新和發展提供了更廣闊的空間。同時,萬卡集群通過提升算力利用率和簡化用戶部署流程,降低了AI技術的使用門檻,推動了其在各領域的廣泛應用。
然而,萬卡集群的搭建并非易事。要想建設萬卡集群規模的算力中心,需面臨算力使用效率、海量數據處理、多芯混訓難題、智算中心設計以及穩定性與運維等多重挑戰。這些挑戰需要運用系統工程方法、精細化設計網絡和軟硬件整合優化等技術手段來解決。
百度智能云此次成功點亮萬卡集群,得益于其在硬件和軟件方面的技術創新。硬件層面,自研昆侖芯三代在算力、能效、穩定性等方面全面升級,突破了卡間互聯拓撲限制,并采用創新性散熱方案,確保集群高效穩定運行。軟件層面,百舸AI異構計算平臺4.0在構建高性能網絡、優化分布式訓練、多芯混訓和故障診斷等方面發揮了關鍵作用。
百度智能云依托百舸AI異構計算平臺4.0,實現了從集群創建到開發實驗、模型訓練、推理的全鏈路優化,不僅提升了自身的智算實力,也為智算行業提供了新的發展思路。憑借自研昆侖芯的技術優勢和百舸平臺的有力加持,百度智能云已為眾多企業提供了高效、穩定、混合多芯的AI基礎設施。
例如,生數科技依托百度百舸的能力,在短時間內完成了Vidu大模型的上線和開放API,素材渲染加速效率提升3倍,數據拉取效率提升51倍。長安汽車通過與百度智能云的深度合作,自動駕駛模型訓練的算力總體平均使用率提升到90%以上,綜合資源利用率提升了50%。教育場景先行者好未來教育集團則借助百舸平臺自研出“九章大模型(MathGPT)”,已廣泛應用于智能硬件、學而思旗艦學習機等多個業務場景中。
百度智能云自研萬卡集群的成功點亮,不僅在國內引發廣泛關注,也在國際市場掀起熱議。花旗銀行在研報中指出,百度、DeepSeek等中國模型的高效和低成本優勢,將有助于加速全球AI應用開發,推動2025年人工智能應用的拐點。百度在港股、美股的雙雙上漲,也印證了這一點。
對于科技公司來說,擁有強大的萬卡集群意味著在AI時代奠定了堅實的基礎和競爭力。萬卡集群的建設不僅反映了企業在技術水平、資金投入和戰略規劃上的決策和能力,還能提升其在行業中的聲譽和影響力,吸引更多的人才、合作伙伴和資金,形成良好的產業生態,為企業的持續發展提供堅實支持。