近期,杭州的AI創業公司DeepSeek憑借其開源模型DeepSeek-V3在業界引起了軒然大波。這款模型在各類基準測試中展現出了與付費版GPT-4o相當的性能水平,但其所依賴的訓練成本卻遠低于后者。
尤為值得注意的是,DeepSeek-V3是在中國公司面臨制裁、算力受限且無法購買足量顯卡的背景下誕生的。通過采用小數據集蒸餾等創新方法,DeepSeek成功降低了模型訓練的成本,其總訓練成本僅為557.6萬美元,相比之下GPT-4o等模型的訓練成本高達1億美元。因此,DeepSeek被形象地稱為“AI界的拼多多”。
這一消息不僅挑戰了“大模型的智能程度=英偉達提供的算力”這一傳統認知,還在一定程度上影響了英偉達的股價。在消息傳播的過程中,出現了一種有趣的“出口轉內銷”再傳出的現象。國外媒體引述國內消息時,特別強調了DeepSeek對GPU需求降低的突破,這標志著美國對中國的AI封鎖戰略并未如愿,無需搭建大型GPU集群也能取得顯著效果。這一觀點在Twitter等社交媒體上被重新譯介后,引起了硅谷業內人士的廣泛關注。
與此同時,DeepSeek的團隊成員也備受矚目。此前,DeepSeek的前員工羅福莉加入小米的消息在業界流傳甚廣,盡管她早已自我官宣,但“95后天才少女”的稱號無疑為這一消息增添了更多的話題性。這一事件不僅提升了小米的關注度,更從側面證明了DeepSeek團隊的實力和吸引力。
在DeepSeek出圈之前,AI業界對其評價頗高。盡管有人指出其訓練數據集可能使用了ChatGPT的輸出結果,但這一插曲并未影響DeepSeek的聲譽。畢竟,如果僅憑ChatGPT的輸出就能取得如此成果,那么任何人都可以嘗試。事實上,谷歌也在采用類似的方法,其Gemini模型的事實核查人員是外包的,并允許他們借助其他模型生成的結果來核對答案。
在AI領域,提出新概念往往意味著巨大的商業機會。DeepSeek提出的“低成本訓練”概念正是如此。與此類似,月之暗面(Kimi)因提出“超長文本(tokens)”概念而走紅,并獲得了大量的融資和關注。然而,隨著時間的推移,Kimi的產品發布和創新能力逐漸放緩,其關注度也有所下降。這再次證明了新概念對于創業公司的重要性。
相比之下,DeepSeek憑借其低成本訓練概念在業界嶄露頭角。如果今年各大廠商還在尋找新的投資標的,那么DeepSeek無疑是一個值得考慮的選擇。畢竟,能夠定義一個新概念并引領行業潮流的創業公司并不多見。對于DeepSeek來說,其未來的發展前景充滿了無限可能。