DeepSeek開源周系列活動近日迎來了第四波高潮,此次發布的焦點集中在三項針對并行計算的優化策略上。這些策略通過GitHub平臺向公眾詳細揭示了DeepSeek-V3和R1模型背后的技術細節,展示了團隊如何通過精細的計算和通信優化,最大化利用GPU的性能。
其中,DualPipe技術尤為引人注目。這是一項專為V3/R1模型訓練設計的雙向流水線并行算法,旨在實現計算與通信階段的完美重疊。通過減少“流水線氣泡”,即設備空閑等待的時間,DualPipe顯著提升了訓練效率。值得注意的是,該技術的開發團隊中包括DeepSeek的創始人梁文鋒。
第二項優化策略是EPLB(Expert Parallelism Load Balancer),專注于解決MoE(混合專家)模型在分布式訓練和推理中的負載不平衡問題。在MoE模型中,不同的專家被分配到不同的GPU上,而EPLB通過采用冗余專家策略,確保不同GPU之間的負載保持平衡,從而提高了整體訓練效率。
DeepSeek還分享了來自訓練和推理框架的性能分析數據,這些數據通過PyTorch Profiler采集,并可在Chrome或Edge瀏覽器中可視化分析。這些分析數據不僅揭示了通信計算重疊策略的有效性,還提供了低級實現細節,有助于社區更好地理解并應用這些優化技術。
DeepSeek此次發布的優化策略,被視為對AI基礎設施層的一次深入探索。OpenCSG(開放傳神)創始人陳冉對此表示,DeepSeek過去更像是直接展示了一輛續航900公里的車,而現在則是在深入剖析如何達到這一續航能力的技術細節。這些“腳手架”的開源,無疑為未來的生態搭建奠定了堅實基礎。
陳冉還指出,DeepSeek的代碼開源可能對AI基礎設施層的從業者產生深遠影響。一方面,它可能促使從業者尋找新的研究方向;另一方面,如果利用好這些開源內容,也可能帶來顯著利益,否則就可能面臨競爭壓力。
在DeepSeek開源周的前三天,團隊已經陸續發布了多項重要成果,包括讓大模型在GPU上運行更快的MLA解碼核FlashMLA、用于MoE模型訓練和推理的DeepEP通信庫,以及支持MoE的FP8 GEMM代碼庫DeepGEMM。這些項目在GitHub上獲得了廣泛關注和好評,FlashMLA的星標數已超過1萬,DeepEP和DeepGEMM也分別獲得了6000和3700以上的星標。
DeepSeek還宣布了一項API錯峰優惠政策,鼓勵用戶在夜間空閑時段使用其服務。自2月26日起,在北京時間每日00:30至08:30期間,DeepSeek-V3的API調用價格降至原價的一半,而DeepSeek-R1的調用價格更是低至原價的25%。這一政策旨在讓用戶享受更經濟、更流暢的服務體驗。
有消息稱,DeepSeek正加速推進R2模型的發布計劃,以鞏固其在AI領域的優勢地位。盡管DeepSeek尚未對此作出正式回應,但業界普遍認為,DeepSeek-R2的發布將成為AI行業的一個重要里程碑。