在AI界,一款源自中國的開源大模型近期引發了國內外廣泛關注。這款名為DeepSeek-V3的模型,由新興AI企業DeepSeek研發推出,以其卓越性能和低廉的訓練成本,在業界掀起了波瀾。
DeepSeek-V3的技術論文詳細闡述了該模型的研發過程。論文指出,DeepSeek-V3的參數規模從前代的2360億提升至6710億,在14.8T tokens的數據集上進行了預訓練,上下文長度可達128K。評測結果顯示,DeepSeek-V3的性能已成為目前最強大的開源模型之一,且在多個主流評測基準上,其表現可媲美GPT-4o和Claude-3.5-Sonnet等領先的閉源模型。
除了安德烈,阿里前副總裁賈揚清、metaAI科學家田淵棟、英偉達高級研究科學家Jim Fan等多位AI領域的大牛,也對DeepSeek-V3表示了贊賞。有網友甚至認為,這是“全球最佳開源大模型”,并預測這將推動AGI(通用人工智能)的實現比預期更早且成本更低。
DeepSeek-V3之所以能引起AI大牛的關注,很大程度上是因為其低廉的訓練成本。據悉,該模型僅用了2000多張GPU,訓練成本不到600萬美元,遠低于OpenAI、meta等在萬卡規模上訓練的模型成本。這一成本效益比,讓DeepSeek-V3在業界脫穎而出。
在知識能力方面,DeepSeek-V3在MMLU-Pro和GPQA-Diamond等基準測試中超越了阿里、meta等所有開源模型,并領先GPT-4o,但略遜于Claude-3.5-Sonnet。而在數學、代碼和推理能力方面,DeepSeek-V3在MATH500、AIME2024及Codeforces等多個主流基準測試中,不僅碾壓了阿里和meta的最新開源模型,還超越了GPT-4o和Claude-3.5-Sonnet。
不過,值得注意的是,DeepSeek-V3在某些方面還存在局限性。例如,其英文能力還落后于GPT-4o和Claude-Sonnet-3.5,同時部署要求較高,對小型團隊不太友好,且生成速度還有提升潛力。但DeepSeek在論文中表示,隨著更先進硬件的開發,這些局限性有望得到解決。
那么,DeepSeek-V3是如何在如此低的成本下,訓練出可以媲美OpenAI、meta的最強開閉源模型的呢?據從事AI算法工程師的人士透露,DeepSeek在模型架構、訓練框架、推理部署、硬件設計、數據構建等方面都進行了組合式的工程創新,提出了很多節約算力、提升效率的策略,并保證了模型效果。
DeepSeek-V3依然基于Transformer框架,但采用了MLA(多頭潛在注意力)和獨創的DeepSeekMoE(混合專家架構),共同推動了算力成本的下降。同時,DeepSeek-V3還設計了FP8混合精度訓練框架,并驗證了其可行性和有效性。該模型在訓練語料庫中提高了數學和編程樣本的比例,擴展了多語言覆蓋范圍,在后訓練階段使用了模型生成的數據,并利用強化學習的獎勵機制,從而提升了模型性能,尤其是推理能力。
DeepSeek-V3的成功出圈,也讓其背后的公司DeepSeek進一步獲得了關注。這家位于杭州的公司成立于2023年7月,創始人是量化私募四巨頭之一幻方的實控人梁文鋒。梁文鋒本碩就讀于浙江大學電子工程系AI方向,后來主要在量化投資領域進行研究。隨著2023年大模型浪潮爆發,梁文鋒把幻方做大模型的團隊獨立為DeepSeek。
DeepSeek追求的是AGI,且不做垂類和應用,短期內也不會融資。梁文鋒非常認可開源的價值,希望通過開源走到技術的前沿,參與到全球創新的浪潮中去。DeepSeek-V3論文的最后列出了約200位貢獻者,包括150位研發和工程人員,30多位數據標注人員和18位商業合規人員。其中,還包括最近引發關注的“95后天才”羅福莉,她已入職小米領導大模型團隊。
DeepSeek-V3的成功,不僅為公司帶來了更多的關注,也為大模型的發展路徑提供了新的可能。它證明了,在數據和算法方面還有很多事情可以做,優化算法的發展潛力絕不弱于堆算力。這對于整個AI行業來說,無疑是一個振奮人心的消息。
DeepSeek-V3的出色表現,也引發了業界對“算力決定論”的質疑。是否意味著前沿大模型不再需要大型GPU集群?對此,安德烈表示,并不是這樣,但你必須確保不會浪費你所擁有的。而DeepSeek-V3的成功,則是一個很好的證明,表明在數據和算法方面還有很多優化的空間。