DeepSeek成本揭秘：大模型訓練到底要花多少錢？-魔扣目錄

近日，全球科技界因DeepSeek而沸騰，這款AI模型的出現(xiàn)徹底顛覆了行業(yè)內(nèi)的既有認知。

就在不久前，科技巨頭馬斯克攜手其最新的“地球上最聰明的AI”——Gork 3，在直播中大放異彩。馬斯克自信地宣稱，Gork 3的推理能力已超越所有已知模型，并在推理測試時間上超越了DeepSeek R1和OpenAI的o1。與此同時，國民級應用微信也宣布接入了DeepSeek R1，并正在進行灰度測試。這一組合被視為AI搜索領域即將迎來巨變的前兆。

DeepSeek的熱度不僅限于科技大廠。全球多家知名企業(yè)，如微軟、英偉達、華為云、騰訊云等，都已紛紛接入。網(wǎng)友們更是腦洞大開，開發(fā)出了算命、預測彩票等新奇應用，這些熱度直接轉化為真金白銀，推動了DeepSeek估值的一路飆升，最高時已達到千億美金。

然而，DeepSeek之所以能夠出圈，并非僅憑免費和好用。更重要的是，它以僅557.6萬美元的GPU成本，就訓練出了與OpenAI o1能力相當?shù)腄eepSeek R1模型。相比之下，過去幾年的“百模大戰(zhàn)”中，國內(nèi)外AI大模型公司都投入了數(shù)十億甚至上百億美元。而馬斯克為了打造“全球最聰明AI”Gork 3，更是耗費了20萬塊英偉達GPU，累計成本高昂。相比之下，DeepSeek的訓練成本顯得尤為低廉。

盡管如此，仍有團隊在成本上向DeepSeek發(fā)起挑戰(zhàn)。近日，李飛飛團隊聲稱，他們僅以不到50美元的云計算費用，就訓練出了一款在數(shù)學和編碼能力測試中表現(xiàn)媲美OpenAI o1和DeepSeek R1的推理模型S1。但值得注意的是，S1是中型模型，與DeepSeek R1的上千億參數(shù)級別相比，仍存在一定差距。

在DeepSeek的熱度背后，人們不禁好奇，訓練一個大模型究竟需要多少錢？它涉及哪些環(huán)節(jié)？為了解答這些問題，首先需要澄清一些誤解。

DeepSeek并非只有一個模型，而是包含多個大模型，每個模型的功能各不相同。557.6萬美元的成本，實際上是DeepSeek通用大模型V3訓練過程中的GPU花費。而備受矚目的推理大模型DeepSeek-R1，則以其強大的推理能力吸引了全球關注。

通用大模型與推理大模型在技術和應用上存在顯著差異。通用大模型接收明確指令，基于概率預測快速給出答案；而推理大模型則接收簡單明了的任務，通過鏈式思維推理得到答案。兩者在訓練數(shù)據(jù)上也有所不同，通用大模型是問題+答案，而推理大模型則是問題+思考過程+答案。

在推理大模型領域，DeepSeek-R1與OpenAI的o系列、Google的Gemini 2.0以及阿里的QwQ共同構成了第一梯隊。盡管DeepSeek-R1在國內(nèi)被視為頂尖模型，但從技術角度看，與OpenAI最新的o3仍存在一定差距。然而，DeepSeek-R1的出現(xiàn)大大縮小了國內(nèi)外頂尖水平之間的差距。

在通用大模型領域，Google的Gemini、OpenAI的ChatGPT、Anthropic的Claude以及國內(nèi)的DeepSeek和阿里的Qwen均位列第一梯隊。每款大模型都有其獨特的優(yōu)劣勢，DeepSeek也并非完美無缺。

關于訓練大模型的成本，業(yè)界普遍認為，硬件、數(shù)據(jù)和人工是三大主要開銷。不同公司在這些方面的投入方式各不相同，因此成本也存在較大差異。DeepSeek以557.6萬美元的訓練成本脫穎而出，但這僅為模型總成本的一小部分。考慮到服務器資本支出、運營成本等因素，DeepSeek的總成本可能在四年內(nèi)達到25.73億美元。

然而，即便按照這一數(shù)字計算，DeepSeek的成本也遠低于其他大模型公司。DeepSeek不僅在模型訓練階段效率更高，在調(diào)用推理階段也更為高效、成本更低。其API定價遠低于OpenAI等競爭對手，使得中小企業(yè)也更容易接入。

DeepSeek之所以能夠在降低成本方面取得顯著成效，主要得益于其在模型結構、預訓練和后訓練等方面的優(yōu)化。例如，DeepSeek采用了細粒度專家分割和共享專家隔離技術，提高了MoE參數(shù)效率和性能；在處理數(shù)據(jù)時使用了FP8低精度訓練，提高了計算效率；在后訓練中的強化學習上選擇了GRPO算法，降低了算力要求；在推理層面上使用了多頭潛在注意力機制，降低了顯存占用和計算復雜度。

DeepSeek的降本不僅給從業(yè)者帶來了技術上的啟發(fā)，也影響了AI公司的發(fā)展路徑。一些公司開始注重算法效率而非單純追求算力軍備競賽，通過架構創(chuàng)新和工程化能力推出低成本高性能模型。

日日操夜夜添-日日操影院-日日草夜夜操-日日干干-精品一区二区三区波多野结衣-精品一区二区三区高清免费不卡

DeepSeek成本揭秘：大模型訓練到底要花多少錢？

數(shù)獨大挑戰(zhàn)2018-06-03

答題星2018-06-03

全階人生考試2018-06-03

運動步數(shù)有氧達人2018-06-03

每日養(yǎng)生app2018-06-03

體育訓練成績評定2018-06-03