馬斯克先行一步，國產大模型集體沖刺十萬卡集群？-魔扣目錄

日日操夜夜添-日日操影院-日日草夜夜操-日日干干-精品一区二区三区波多野结衣-精品一区二区三区高清免费不卡

公告：魔扣目錄網為廣大站長提供免費收錄網站服務，提交前請做好本站友鏈：【網站目錄：http://www.ylptlb.cn 】，免友鏈快審服務（50元/站），

網站：52010
待審：67
小程序：12
文章：1106242
會員：784

馬斯克先行一步，國產大模型集體沖刺十萬卡集群？

發布時間：2024-09-25 21:15:15 作者：網友整理

【ITBEAR】9月25日消息，國內大模型企業是否即將邁入十萬卡時代？這一話題近期備受關注。隨著百度發布全面升級的百舸AI異構計算平臺4.0，以及阿里云和騰訊相繼宣布其集群已拓展或支持至十萬卡級別，這一設想似乎正逐步成為現實。

百度智能云事業群總裁沈抖直言，百舸4.0專為部署十萬卡大規模集群而設計。與此同時，阿里云也宣布其靈駿單網絡集群已達到十萬卡級別，而騰訊此前也發布了支持十萬卡集群的星脈網絡2.0。這一系列的動態，使得十萬卡集群突然成為輿論的焦點。尤其是在9月初，馬斯克宣布在短短122天內建成了10萬張英偉達H100顯卡的Colossus集群，其算力可能已超過OpenAI，這一消息更是引發了廣泛關注。

由顯卡規模撐起的算力水平，是衡量大模型性能的重要指標之一。一般認為，擁有1萬枚英偉達A100芯片，是做好AI大模型的算力門檻。然而，建一個萬卡集群，單是GPU的采購成本就高達幾十億，因此國內能夠部署萬卡規模集群的，原本就只有阿里、百度等寥寥幾家大廠。想要部署十萬卡集群，其資金和技術挑戰可想而知。

除了資金成本，十萬卡集群同樣面臨巨大的技術挑戰。沈抖指出，GPU是一種非常敏感的硬件，連一天之內氣溫的波動，都會影響到GPU的故障率，而且規模越大，出故障的概率就越高。此外，大模型訓練過程需要全部顯卡同時參與并行計算，這對網絡傳輸能力也提出了更大的挑戰。

據ITBEAR了解，相比于美國同行，中國大模型企業還面臨一重特殊的困難，即無法像馬斯克那樣全部采用英偉達方案，而是需要使用包括國產GPU在內的異構芯片。這也意味著，即使同樣擁有十萬張顯卡，國內企業在算力規模上也很難與美國企業匹敵。

然而，在上述三重挑戰之下，國內大模型企業的進步速度也有目共睹。沈抖介紹，百舸4.0在萬卡集群上實現了有效訓練時長占比99.5%以上，業界領先，并通過一系列創新大幅提升了集群的模型訓練效率。而阿里云CTO周靖人也透露，目前阿里云的萬卡算力集群可以實現大于99%以上連續訓練有效時長。

但隨著性能提升，大模型成本問題也越來越引人注目。沈抖透露，十萬卡集群每天就要消耗大約300萬千瓦時的電力，相當于北京市東城區一天的居民用電量。盡管在過去一年中大模型廠商的降價幅度確實可觀，但這更多是平臺補貼開發者的結果，并非根本解決之道。對此，阿里云方面強調，AI發展仍然處在一個非常早期的階段，必須要靠降價帶動應用爆發。

關鍵詞：#國內大模型企業#、#十萬卡集群#、#算力挑戰#、#技術進步#、#成本問題#

分享到：

標簽：集群先行沖刺模型集體