近日,浪潮信息公司正式揭曉了其最新的元腦R1推理服務器,這一創新產品的推出,標志著在AI推理領域的一次重大突破。通過深度的系統創新以及軟硬件的緊密協同,元腦R1推理服務器能夠在單機上順利部署并運行DeepSeek R1 671B這一重量級模型,從而大幅度降低了全參數模型的部署門檻與成本,同時顯著提升了推理服務的整體效能,為各行各業智能化轉型注入了強勁動力。
DeepSeek開源項目提供了多個版本的模型,旨在推動各行業快速采納大模型技術,加速業務革新。特別是DeepSeek R1 671B模型,以其強大的泛化能力、高精度及卓越的上下文理解能力,成為了全參數基礎大模型的佼佼者。然而,這一模型的運行也對硬件提出了極為嚴苛的要求,包括巨大的顯存容量、高帶寬需求以及低延遲的互連通信。具體而言,在FP8精度下,至少需要800GB的顯存支持,而在FP16/BF16精度下,則需超過1.4TB的顯存空間。DeepSeek R1作為長思維鏈模型的代表,其短輸入、長輸出的特性,使得推理解碼階段對顯存帶寬和通信延遲有著極高的依賴。
為了應對DeepSeek R1 671B模型的這些挑戰,元腦R1推理服務器推出了兩款旗艦產品——NF5688G7與NF5868G8。NF5688G7作為高算效AI計算平臺的佼佼者,原生集成了FP8計算引擎,專為DeepSeek R1 678B模型設計,部署迅速且精度無損。其配備的1128GB HBM3e高速顯存,輕松滿足了FP8精度下對顯存容量的嚴苛要求,即便在單機支持全量模型推理的情況下,仍能保留充足的KV緩存空間。高達4.8TB/s的顯存帶寬,完美匹配了DeepSeek R1模型的技術特性,使得推理解碼階段得以極致加速。GPU P2P帶寬高達900GB/s,確保了單機部署下的最佳通訊性能,單機可支持20-30用戶的并發操作。同時,3200Gbps的無損擴展網絡,提供了靈活的擴展能力,為用戶提供了成熟的R1服務器集群解決方案。
另一款旗艦產品NF5868G8,則是專為大型推理模型設計的高吞吐推理服務器。它開創了業界先河,實現了單機支持16張標準PCIe雙寬卡,提供了高達1536GB的顯存容量,使得在FP16/BF16精度下單機部署DeepSeek 671B模型成為可能。通過創新的PCIe Fabric全互連拓撲設計,任意兩張卡之間的P2P通信帶寬可達128GB/s,通信延遲降低了超過60%。軟硬件的協同優化,使得NF5868G8相比傳統2機8卡PCIe機型,在DeepSeek 671B模型的推理性能上提升了近40%,并支持多元AI加速卡的靈活選配。
浪潮信息作為全球領先的IT基礎設施提供商,一直致力于新一代以系統為核心的計算架構的發展,旨在打造開放、多元且環保的元腦智算解決方案。公司在AI計算平臺、資源平臺及算法平臺方面不斷推陳出新,并通過元腦生態體系,攜手眾多行業伙伴,共同加速人工智能的創新與應用落地。此次元腦R1推理服務器的推出,無疑是浪潮信息在推動AI技術普及與行業智能化轉型道路上的又一重要里程碑。