近日,一款名為DeepSeek的國產AI大模型在國際舞臺上大放異彩,其背后的故事同樣引人矚目,特別是關于一位95后的AI“天才少女”羅福莉。
DeepSeek由中國知名量化私募公司幻方量化旗下的AI大模型研究開發部門——深度求索公司推出。最近,深度求索宣布其最新版本的DeepSeek-V3模型已正式上線并同步開源。這款由深度求索自研的MoE(混合專家大模型)不僅性能卓越,能夠媲美甚至超越全球頂級的開源及閉源模型,而且訓練成本極低,被譽為“AI界的拼多多”,引發了國內外AI領域的高度關注。
與此同時,羅福莉這個名字也隨DeepSeek一起走進了公眾視野。作為DeepSeek-V2的關鍵開發者之一,羅福莉在AI領域的才華得到了廣泛認可。據報道,小米創始人雷軍已向她拋出橄欖枝,以千萬年薪邀請她加入小米AI實驗室,領導大模型團隊。
羅福莉的學術背景同樣令人矚目。她本科就讀于北京師范大學計算機專業,碩士則畢業于北京大學計算語言學專業。早在2019年,還在北大讀碩士的她就在人工智能領域頂級國際會議ACL上發表了8篇論文,其中2篇為第一作者,這一成就迅速登上了知乎熱搜。羅福莉在回應這一熱搜時表示,這是她近一年的努力成果,同時也承認有運氣的成分。
畢業后,羅福莉加入了阿里達摩院,從事預訓練語言模型相關研究,并主導開發了多語言預訓練模型VECO。2022年,她加入幻方量化,從事深度學習相關策略建模和算法研究。隨后,她跳槽到DeepSeek,參與了MoE大模型DeepSeek-V2的研發。
在DeepSeek-V2發布后,羅福莉在知乎上發表了對該模型的看法,她認為DeepSeek-V2的中文水平處于國內外閉源模型的第一梯隊,而且性價比極高,價格僅為GPT4的百分之一。這一觀點得到了業內人士的廣泛認同。
羅福莉被小米重金招入,也是小米全面發力AI大模型的一個縮影。2023年4月,小米正式組建了AI實驗室大模型團隊,并表示將不斷挖掘AI相關的用戶場景,發揮自身技術優勢,與合作伙伴共同開拓更多機會。今年11月,小米還成立了專門的AI平臺部,由小米的元老級技術大牛張鐸負責。張鐸本碩畢業于清華計算機系,是雷軍公開稱贊的“小米的大神”。
為了在大模型研發上取得突破,小米不僅在招募人才方面下足了功夫,還在算力儲備上持續投入。據報道,小米正著手搭建自己的GPU萬卡集群,并在過去幾個月里不斷提升算力供給。雷軍在公開演講中表示,小米做大模型的思路與其他公司不同,更注重輕量化和本地部署。對于小米這樣注重“性價比”的公司而言,如何在燒錢的大模型業務中平衡成本,是雷軍考慮的核心問題。而羅福莉的加入,或許正是小米在這一領域取得突破的關鍵。