在近期科技圈的一連串動作中,DeepSeek無疑成為了最耀眼的明星。這家創(chuàng)新企業(yè)不僅在算法領(lǐng)域取得了突破性進展,還以前所未有的姿態(tài),推動了整個大模型行業(yè)的開源化進程。
2月24日和25日,DeepSeek相繼宣布了兩項重大開源舉措:FlashMLA代碼和DeepEP通信庫。這些開源成果,不僅彰顯了DeepSeek將大模型技術(shù)全面開放的決心,更為整個行業(yè)帶來了前所未有的機遇。
DeepSeek-R1模型的誕生與開源,如同一道曙光,照亮了因算力瓶頸而陷入困境的大模型行業(yè)。與眾多大廠不同,DeepSeek沒有盲目追求算力的疊加,而是獨辟蹊徑,通過算法的創(chuàng)新與優(yōu)化,成功解決了大模型行業(yè)的算力焦慮問題。這一創(chuàng)新路徑,無疑為整個行業(yè)提供了新的思考方向。
DeepSeek的開源行動,不僅激發(fā)了行業(yè)的熱情,更打破了國內(nèi)原有算力產(chǎn)業(yè)的格局。AI服務(wù)器出貨激增,能夠承接DeepSeek大模型相關(guān)應(yīng)用的一體機更是火爆異常。各大廠商紛紛布局,整個市場呈現(xiàn)出百舸爭流的態(tài)勢。
就在人們以為DeepSeek的開源熱潮已經(jīng)告一段落之際,2月21日,DeepSeek宣布啟動“Open Source Week”,計劃在一周內(nèi)開源5個代碼庫。這一消息再次點燃了行業(yè)的期待。
2月24日,DeepSeek如約開源了FlashMLA代碼。這是一個專為MoE(Mixture of Experts)訓練加速設(shè)計的框架,其核心創(chuàng)新在于通過低秩矩陣壓縮KV緩存,顯著減少了內(nèi)存占用與計算開銷,支持千億參數(shù)模型的高效訓練。浪潮信息相關(guān)負責人表示,F(xiàn)lashMLA算法在保持計算精度的同時,大幅降低了推理時的KV cache占用,從而提升了推理效率。
據(jù)悉,F(xiàn)lashMLA專為英偉達Hopper GPU(如H800)設(shè)計,通過優(yōu)化可變長度序列處理,實現(xiàn)了接近理論峰值的極限性能。這意味著,通過FlashMLA,用戶可以將H800的性能發(fā)揮到極致,甚至達到H100的性能水平。這一突破不僅提升了實時生成任務(wù)的效率,還降低了大模型部署成本,進一步推動了大模型在各行各業(yè)的落地。
另一方面,F(xiàn)lashMLA的開源為國產(chǎn)GPU兼容CUDA生態(tài)提供了寶貴參考。神州數(shù)碼副總裁、CTO李剛表示,DeepSeek的開源策略降低了開發(fā)者對封閉生態(tài)的依賴,加速了RISC-V、ARM等架構(gòu)的AI加速芯片發(fā)展,推動了硬件生態(tài)向多廠商競爭格局的轉(zhuǎn)變。同時,也促進了大模型在國產(chǎn)GPU芯片上的規(guī)模化使用。
緊接著,2月25日,DeepSeek又宣布了DeepEP通信庫的開源。這是第一個用于MoE模型訓練和推理的開源EP通信庫,支持低精度運算,包括FP8格式。DeepEP通過優(yōu)化All-to-All通信、支持NVLink/RDMA協(xié)議,實現(xiàn)了節(jié)點內(nèi)外的高效數(shù)據(jù)傳輸,降低了訓練與推理的延遲。其靈活的GPU資源調(diào)度策略,使得通信過程中可以并行執(zhí)行計算任務(wù),顯著提升了整體效率。
DeepSeek在算法方面的創(chuàng)新與優(yōu)化,打破了長久以來大模型算力的瓶頸。通過混合專家架構(gòu)(MoE)與FP8訓練技術(shù),DeepSeek顯著減少了模型對高算力硬件的依賴。R1模型僅需2048塊GPU即可完成訓練,純算力訓練成本降至500多萬美元,遠低于傳統(tǒng)大模型的數(shù)億美元投入。這一突破不僅推動了硬件行業(yè)向高能效、低成本方向轉(zhuǎn)型,還為更多企業(yè)提供了應(yīng)用大模型技術(shù)的可能。
DeepSeek的技術(shù)突破,不僅體現(xiàn)在性能指標上,更通過效率與成本的平衡,推動了AI技術(shù)的普惠化。業(yè)內(nèi)多位專家對此給予了高度評價。李剛認為,DeepSeek在算法架構(gòu)方面的創(chuàng)新是從“暴力堆參數(shù)”到“智能優(yōu)化”的范式轉(zhuǎn)變。趙鴻冰則表示,算力行業(yè)正從“規(guī)模驅(qū)動”轉(zhuǎn)向“效率驅(qū)動”,DeepSeek的出現(xiàn)將吸引更多參與者,形成多元化競爭格局。
據(jù)IDC數(shù)據(jù)顯示,全球人工智能服務(wù)器市場規(guī)模將持續(xù)增長。2024年市場規(guī)模為1251億美元,預(yù)計到2028年將達到2227億美元。其中,生成式人工智能服務(wù)器占比將不斷提升。在中國市場,IDC預(yù)測2023-2028年間,智能算力的年復(fù)合增長率將達到46.2%,遠高于通用算力的18.8%。這一趨勢表明,用戶對算力的需求將主要集中在智能算力方面。
DeepSeek的出現(xiàn),無疑為算力市場帶來了新的變革。在算力需求層面,DeepSeek降低了大模型的應(yīng)用開發(fā)成本,讓更多中小用戶能夠接觸到這項技術(shù)。隨著需求的下沉,算力市場的整體規(guī)模將進一步擴大。同時,DeepSeek推動了算力基礎(chǔ)設(shè)施的發(fā)展,各大廠商紛紛推出相關(guān)的一體機產(chǎn)品,滿足了市場對高效、易用服務(wù)器的需求。
不僅如此,DeepSeek還帶動了算力服務(wù)模式的變革。趙鴻冰表示,算力服務(wù)模式正在從傳統(tǒng)IaaS向MaaS升級。云廠商通過預(yù)置DeepSeek優(yōu)化模型提供端到端解決方案,降低了客戶算力采購的復(fù)雜度。這一趨勢將更面向行業(yè)落地,推動大模型技術(shù)在各行各業(yè)的廣泛應(yīng)用。