(ChinaZ.com) 11 月 9 日 消息:在最新一輪 MLPerf 訓練 v3.1 的結果中,盡管大部分成績并不激動人心,但兩個結果引人注目。首先,NVIDIA (英偉達)使用 MLPerf 來展示其最新的霍珀(Hopper)一代超級計算機。其次,非常少見的是,英特爾和 NVIDIA 都在宣傳英特爾 Gaudi 2 加速器在價格/性能方面的出色表現。
在封閉部門和開放部門之間,共有 209 個結果跑過 83 種不同的配置。開放部門僅提交了兩種配置,每種配置只有一個不同的結果。MLPerf 訓練 v3.1 有九個測試,所以平均每個提交配置的基準測試完成率只有約 27%。209 個結果中只有 14 個不是 NVIDIA 的 GPU。其中六個是英特爾展示了其 Xeon Sapphire Rapids 在 AI 中的性能,為行業 CPU 性能設定了基線。
第一個重要的信息是,NVIDIA 正在展示其新的超級計算機。這臺被稱為 NVIDIA Eos 的系統配備了 10,752 個 H100 GPU,通過 400Gbps Quantum-2 InfiniBand 連接。從某種角度看,如果一家公司要在開放市場上購買這樣的系統,其價格很可能超過 4 億美元。
有了這臺龐大的超級計算機,NVIDIA 在 MLPerf 訓練套件中贏得了不同 GPU 數量的勝利。它甚至與運行 10,752 NVIDIA H100 GPUs 的 Microsoft Azure 云服務相匹配。
一般來說,提交 MLPerf 訓練結果的其他公司如此之少,以至于 NVIDIA 不得不制作一個總結幻燈片,顯示很少有其他公司使用其 MLPerf 訓練套件。從 AMD 的財報中可以知道,它正在出貨 MI300 變體,這將是 MLPerf 的「商業可用」產品。我們還知道,像 Cerebras 這樣的公司沒有 MLPerf 就售出了價值 10 億美元以上的晶圓規模集群。MLPerf 推理通常非常適合供應商之間的比較。MLPerf 訓練已經失去了這一點,除了一個例外。
查看 Stable Diffusion 測試,人們可能會看到 NVIDIA 的速度大約是英特爾 Gaudi2 的 8 倍。然而,當我們了解細節時,NVIDIA 使用的 H100 GPU 數量是英特爾的 16 倍才能達到這種速度提升。把這個放在一個視角中,我們預期的是,要快 8 倍,成本會超過 32 倍。換句話說,NVIDIA 的營銷幻燈片在這里顯示,與 NVIDIA 相比,英特爾在每美元性能方面的表現介于相當接近和 4 倍之間(約 8 倍的性能,約 32 倍的成本)。
在 64 個加速器的直接比較中,NVIDIA 大約快兩倍。這對英特爾來說是一個很好的結果,因為它使用的加速器成本不到 NVIDIA 對手的一半,而且系統架構要簡單得多。
NVIDIA 在調整 H100 方面比英特爾在 Gaudi2 方面更進一步,但此次 MLPerf 的重大進展是支持 FP8,這導致了約 2 倍的性能提升。
英特爾現在有了一個有趣的玩法。Gaudi2 的表現似乎介于 A100 和 H100 之間,但從了解的情況來看,它的成本不到 NVIDIA的 H100 部分的一半,如果考慮到整個系統成本,可能會更低。
英特爾 Gaudi2 獲得了足夠的關注,以至于供應受限,但沒有 H100 那么嚴重。
除了 NVIDIA 之外,大部分行業都放棄了 MLPerf 訓練,只剩下一些英特爾的結果和一個 Google 的結果。NVIDIA H100 SXM5 是當今的大型 GPU,很少有使用 MLPerf 挑戰它的。只有少數公司能夠將其硬件和軟件擴展到超過 1000 個加速器,所以在頂端,競爭并不激烈。如果您六個月后想要 10000 個加速器,那么您很可能是在購買 NVIDIA H100 SXM5 系統。
擁有 NVIDIA Eos 超級計算機,NVIDIA 擁有一臺內部價值超過 4 億美元的機器。目前,可能沒有其他任何公司能夠在這一點上與之匹敵。當然,這是零售價值,不是 NVIDIA 支付自己部件的價格,但這是一臺大機器。
NVIDIA 爭奪規模的有趣結果是,它展示了英特爾的 Gaudi 2 可以以四倍的性價比提供 Stable Diffusion 性能。NVIDIA 試圖展示它在圖表上有一個更長的條形圖,但在爭取更長條形圖的比賽中,它失去了規模效率,給了英特爾一個大勝利。