
8 月 25 日報道,那個打造出世界最大計算芯片的硅谷明星創企 Cerebras Systems,正將“做大做強”的戰略貫徹到極致!
今日凌晨,Cerebras Systems 宣布推出世界上第一個人類大腦規模的 AI 解決方案,一臺 CS-2 AI 計算機可支持超過 120 萬億參數規模的訓練。相比之下,人類大腦大約有 100 萬億個突觸。
此外,Cerebras 還實現了 192 臺 CS-2 AI 計算機近乎線性的擴展,從而打造出包含高達 1.63 億個核心的計算集群。

Cerebras 成立于 2016 年,迄今在 14 個國家擁有超過 350 位工程師,此前 Cerebras 推出的世界最大計算芯片 WSE 和 WSE-2 一度震驚業界。

WSE-2 采用 7nm 工藝,是一個面積達 46225 平方毫米的單晶圓級芯片,擁有 2.6 萬億個晶體管和 85 萬個 AI 優化核,無論是核心數還是片上內存容量均遠高于迄今性能最強的 GPU。

WSE-2 被集成在 Cerebras CS-2 AI 計算機中。隨著近年業界超大規模 AI 模型突破 1 萬億參數,小型集群難以支撐單個模型的高速訓練。
而 Cerebras 最新公布的成果,將單臺 CS-2 機器可支持的神經網絡參數規模,擴大至現有最大模型的 100 倍 —— 達到 120 萬億參數。

在國際芯片架構頂會 Hot Chips 上,Cerebras 聯合創始人兼首席硬件架構師 Sean Lie 詳細展示了實現這一突破的新技術組合,包括 4 項創新:
(1)Cerebras Weight Streaming:一種新的軟件執行架構,首次實現在芯片外存儲模型參數的能力,同時提供像片上一樣的訓練和推理性能。這種新的執行模型分解了計算和參數存儲,使得擴展集群大小和速度更加獨立靈活,并消除了大型集群往往面臨的延遲和內存帶寬問題,極大簡化工作負載分布模型,使得用戶無需更改軟件,即可從使用 1 臺 CS-2 擴展到 192 臺 CS-2。
(2)Cerebras MemoryX:一種內存擴展技術,為 WSE-2 提供高達 2.4PB 的片外高性能存儲,能保持媲美片上的性能。借助 MemoryX,CS-2 可以支持高達 120 萬億參數的模型。

(3)Cerebras SwarmX:是一種高性能、AI 優化的通信結構,將片上結構擴展至片外,使 Cerebras 能夠連接多達 192 臺 CS-2 的 1.63 億個 AI 優化核,協同工作來訓練單個神經網絡。
(4)Selectable Sparsity:一種動態稀疏選擇技術,使用戶能夠在模型中選擇權重稀疏程度,并直接減少 FLOP 和解決時間。權重稀疏在機器學習研究領域一直頗具挑戰性,因為它在 GPU 上效率極低。該技術使 CS-2 能夠加速工作,并使用包括非結構化和動態權重稀疏性在內的各種可用稀疏性類型在更短的時間內生成答案。

Cerebras 首席執行官兼聯合創始人 Andrew Feldman 稱這推動了行業的發展。阿貢國家實驗室副主任 Rick Stevens 亦肯定這一發明,認為這將是我們第一次能夠探索大腦規模的模型,為研究和見解開辟廣闊的新途徑。
一、Weight Streaming:存算分離,實現片外存儲模型參數
使用大型集群解決 AI 問題的最大挑戰之一,是為特定的神經網絡設置、配置和優化它們所需的復雜性和時間。軟件執行架構 Cerebras Weight Streaming 恰恰能降低對集群系統編程的難度。

Weight Streaming 建立在 WSE 超大尺寸的基礎上,其計算和參數存儲完全分離。通過與最高配置 2.4PB 的存儲設備 MemoryX 結合,單臺 CS-2 可支持運行擁有 120 萬億個參數的模型。
參與測試的 120 萬億參數神經網絡由 Cerebras 內部開發,不是已公開發布的神經網絡。
在 Weight Streaming 中,模型權重存在中央芯片外存儲位置,流到晶圓片上,用于計算神經網絡的每一層。在神經網絡訓練的 delta 通道上,梯度從晶圓流到中央存儲區 MemoryX 中用于更新權重。

與 GPU 不同,GPU 的片上內存量很小,需要跨多個芯片分區大型模型,而 WSE-2 足夠大,可以適應和執行超大規模的層,而無需傳統的塊或分區來分解。
這種無需分區就能適應片上內存中每個模型層的能力,可以被賦予相同的神經網絡工作負載映射,并獨立于集群中所有其他 CS-2 對每個層進行相同的計算。

這帶來的好處是,用戶無需進行任何軟件更改,就能很方便地將模型從運行在單臺 CS-2 上,擴展到在任意大小的集群上。也就是說,在大量 CS-2 系統集群上運行 AI 模型,編程就像在單臺 CS-2 上運行模型一樣。
Cambrian AI 創始人兼首席分析師 Karl Freund 評價道:“Weight Streaming 的執行模型非常簡潔、優雅,允許在 CS-2 集群難以置信的計算資源上進行更簡單的工作分配。通過 Weight Streaming,Cerebras 消除了我們今天在構建和高效使用巨大集群方面所面臨的所有復雜性,推動行業向前發展,我認為這將是一場變革之旅。”

二、MemoryX:實現百萬億參數模型
擁有 100 萬億個參數的人腦規模級 AI 模型,大約需要 2PB 字節的內存才能存儲。
前文提及模型參數能夠在片外存儲并高效地流至 CS-2,實現接近片上的性能,而存儲神經網絡參數權重的關鍵設施,即是 Cerebras MemoryX。

MemoryX 是 DRAM 和 Flash 的組合,專為支持大型神經網絡運行而設計,同時也包含精確調度和執行權重更新的智能。
其架構具有可擴展性,支持從 4TB 至 2.4PB 的配置,支持 2000 億至 120 萬億的參數規模。
三、SwarmX:幾乎線性擴展性能,支持 192 臺 CS-2 互連
雖然一臺 CS-2 機器就可以存儲給定層的所有參數,但 Cerebras 還提議用一種高性能互連結構技術 SwarmX,來實現數據并行性。
該技術通過將 Cerebras 的片上結構擴展至片外,擴展了 AI 集群的邊界。

從歷史上看,更大的 AI 集群會帶來顯著的性能和功率損失。在計算方面,性能呈亞線性增長,而功率和成本呈超線性增長。隨著越來越多的圖形處理器被添加到集群中,每個處理器對解決問題的貢獻越來越小。
SwarmX 結構既做通信,也做計算,能使集群實現接近線性的性能擴展。這意味著如果擴展至 16 個系統,訓練神經網絡的速度接近提高 16 倍。其結構獨立于 MemoryX 進行擴展,每個 MemoryX 單元可用于任意數量的 CS-2。

在這種完全分離的模式下,SwarmX 結構支持從 2 臺 CS-2 擴展到最多 192 臺,由于每臺 CS-2 提供 85 萬個 AI 優化核,因此將支持多達 1.63 億個 AI 優化核的集群。
Feldman 說,CS-2 的利用率要高得多。其他方法的利用率在 10%~20% 之間,而 Cerebras 在最大網絡上的利用率在 70%~80% 之間。“今天每個 CS2 都取代了數百個 GPU,我們現在可以用集群方法取代數千個 GPU。”

四、Selectable Sparsity:動態稀疏提升計算效率
稀疏性對提高計算效率至為關鍵。隨著 AI 社區努力應對訓練大型模型的成本呈指數級增長,用稀疏性及其他算法技術來減少將模型訓練為最先進精度所需的計算 FLOP 愈發重要。
現有稀疏性研究已經能帶來 10 倍的速度提升。

為了加速訓練,Cerebras 提出一種新的稀疏方法 Selectable Sparsity,來減少找到解決方案所需的計算工作量,從而縮短了應答時間。
Cerebras WSE 基于一種細粒度的數據流架構,專為稀疏計算而設計,其 85 萬個 AI 優化核能夠單獨忽略 0,僅對非 0 數據進行計算。這是其他架構無法做到的。

在神經網絡中,稀疏有多種類型。稀疏性可以存在于激活和參數中,可以是結構化或非結構化。
Cerebras 架構特有的數據流調度和巨大的內存帶寬,使此類細粒度處理能加速動態稀疏、非結構化稀疏等一切形式的稀疏。結果是,CS-2 可以選擇和撥出稀疏,以產生特定程度的 FLOP 減少,從而減少應答時間。

結語:新技術組合讓集群擴展不再復雜
大型集群歷來受設置和配置挑戰的困擾,準備和優化在大型 GPU 集群上運行的神經網絡需要更多時間。為了在 GPU 集群上實現合理的利用率,研究人員往往需要人工對模型進行分區、管理內存大小和帶寬限制、進行額外的超參數和優化器調優等復雜而重復的操作。
而通過將 Weight Streaming、MemoryX 和 SwarmX 等技術相結合,Cerebras 簡化了大型集群的構建過程。它開發了一個全然不同的架構,完全消除了擴展的復雜性。由于 WSE-2 足夠大,無需在多臺 CS-2 上劃分神經網絡的層,即便是當今最大的網絡層也可以映射到單臺 CS-2。
Cerebras 集群中的每臺 CS-2 計算機將有相同的軟件配置,添加另一臺 CS-2 幾乎不會改變任何工作的執行。因此,在數十臺 CS-2 上運行神經網絡與在單個系統上運行在研究人員看來是一樣的,設置集群就像為單臺機器編譯工作負載并將相同的映射應用到所需集群大小的所有機器一樣簡單。
總體來說,Cerebras 的新技術組合旨在加速運行超大規模 AI 模型,不過就目前 AI 發展進程來看,全球能用上這種集群系統的機構預計還很有限。