AI界近期迎來了一項由華人科研團隊帶來的突破性進展,他們探索了擴散語言模型在Token數(shù)量受限條件下的表現(xiàn),發(fā)現(xiàn)其數(shù)據(jù)學習能力遠超自回歸模型,展現(xiàn)出了三倍的優(yōu)勢。這一發(fā)現(xiàn)無疑為語言模型的訓練策略開辟了全新的視角。
這項研究的核心成果是一個擁有10億參數(shù)的擴散模型,在僅使用10億Token進行480輪訓練后,它在HellaSwag和MMLU兩項基準測試中分別取得了56%和33%的準確率。值得注意的是,這一過程中并未采用任何特殊技巧或數(shù)據(jù)篩選方法。更令人矚目的是,即便在數(shù)據(jù)高度重復的訓練環(huán)境中,該模型的表現(xiàn)也未出現(xiàn)飽和跡象,這顯示了其從同一數(shù)據(jù)源中提取更多有價值信息的非凡能力。
深入剖析后,研究人員指出擴散語言模型之所以擁有如此強大的學習能力,主要得益于兩大因素。一方面,擴散模型通過引入雙向建模和擴散目標,打破了傳統(tǒng)自回歸模型在處理數(shù)據(jù)時面臨的因果局限,從而能夠更深入地挖掘數(shù)據(jù)中的信息。另一方面,擴散模型在計算密度上的優(yōu)勢顯著,它在訓練和推理階段投入更多計算資源,通過多次迭代數(shù)據(jù)優(yōu)化預測,進而提升了整體性能。
盡管擴散模型在數(shù)據(jù)重復利用方面表現(xiàn)出一定的穩(wěn)定性,但研究團隊也觀察到,隨著訓練周期的增加,模型存在過擬合的風險。然而,一個令人意外的發(fā)現(xiàn)是,即便在過擬合的情況下,模型在后續(xù)任務中的表現(xiàn)并未立即下滑,有時甚至會有所提升。這背后的原因在于,驗證損失的變化與下游任務準確率之間并非總是線性相關,模型在處理有限訓練數(shù)據(jù)時,可能會對某些文本片段產生過度自信的現(xiàn)象。
此次研究成果不僅為AI模型的訓練策略提供了新的靈感,特別是在Token數(shù)量受限的情境下,擴散語言模型的應用潛力巨大。接下來,研究團隊計劃進一步擴大模型規(guī)模,并引入更多樣化的數(shù)據(jù),以期進一步驗證并拓展這些令人振奮的發(fā)現(xiàn)。