近日,人工智能領(lǐng)域傳來一則引人矚目的新聞。據(jù)多方報道,斯坦福大學(xué)和華盛頓大學(xué)的研究團隊,在李飛飛等人的帶領(lǐng)下,以極其低廉的成本——不足50美元的云計算費用,成功打造出一款名為s1的人工智能推理模型。該模型在數(shù)學(xué)和編程能力測試中,表現(xiàn)與OpenAI的O1和DeepSeek的R1等業(yè)界頂尖推理模型難分伯仲。
這一消息迅速在AI界掀起了軒然大波,引發(fā)了廣泛討論。為了揭開s1模型低成本訓(xùn)練的真相,《科創(chuàng)板日報》記者進行了深入調(diào)查和多方采訪。
經(jīng)過細致研究,記者發(fā)現(xiàn)s1模型的訓(xùn)練并非從零開始,而是基于阿里云的通義千問(Qwen)模型進行了監(jiān)督微調(diào)。這一發(fā)現(xiàn)意味著,s1模型之所以能夠以如此低的成本實現(xiàn)高性能,是因為它站在了一個已經(jīng)具備強大能力的開源基礎(chǔ)模型之上。換句話說,s1模型的“神奇”之處,在于它巧妙地利用了已有的基座模型。
上海交通大學(xué)人工智能學(xué)院的謝偉迪副教授指出,如果仔細閱讀斯坦福s1的論文,不難發(fā)現(xiàn),s1模型的訓(xùn)練過程實際上是在通義千問模型的基礎(chǔ)上進行微調(diào)。那1000個樣本數(shù)據(jù),更像是對已有模型能力的“錦上添花”,而非從零開始的全新訓(xùn)練。這一觀點得到了國內(nèi)某知名大模型公司CEO的佐證。他表示,從論文原文來看,所謂的50美元訓(xùn)練新模型,實際上是使用從谷歌模型中提煉的1000個樣本,對通義千問模型進行了監(jiān)督微調(diào)。這種微調(diào)的成本確實低廉,但顯然是在已有領(lǐng)先模型的“肩膀”上實現(xiàn)的。
斯坦福s1論文原文也明確指出了這一點,即模型是以阿里通義千問模型為基礎(chǔ)進行微調(diào)的。謝偉迪副教授進一步指出,國內(nèi)外還有其他團隊也聲稱以極低成本訓(xùn)練出了具有推理能力的新模型,但無一例外都是基于通義模型作為基座進行的。這一觀點得到了國外多位人工智能研究者的支持,他們指出,許多所謂的“新”模型,實際上都是建立在通義模型的基礎(chǔ)之上的。
謝偉迪副教授強調(diào),以通義千問模型作為基座,確實可以用很少的樣本數(shù)據(jù)就達到產(chǎn)生新的推理模型的效果。但如果換成其他基座模型,新模型的能力卻不會有任何提升。因此,他認為,真正神奇的是Qwen模型,而不是s1模型。
盡管s1模型的低成本訓(xùn)練在一定程度上展示了AI訓(xùn)練的潛力,但其局限性也不容忽視。首先,這種低成本訓(xùn)練依賴于已有的強大基座模型,如阿里通義千問模型。如果沒有這樣的基座模型作為支撐,低成本訓(xùn)練的效果將大打折扣。其次,1000個樣本數(shù)據(jù)的訓(xùn)練量在大多數(shù)情況下是不夠的,尤其是在需要處理復(fù)雜任務(wù)的場景中。低成本訓(xùn)練的成功還引發(fā)了對AI模型知識產(chǎn)權(quán)和倫理問題的討論。如果越來越多的研究依賴于已有的基座模型進行微調(diào),那么這些基座模型的開發(fā)者是否應(yīng)該獲得相應(yīng)的回報?如何確保AI技術(shù)的公平使用和共享?這些問題都需要業(yè)界進行深入探討和妥善解決。
盡管如此,s1模型的低成本訓(xùn)練仍然為AI領(lǐng)域提供了新的思考方向。如何在保證模型性能的前提下,降低訓(xùn)練成本,成為AI研究的一個重要課題。未來,或許我們能夠看到更多低成本、高性能的AI模型問世,但這需要技術(shù)的不斷進步和算法的不斷優(yōu)化。