谷歌最新研究突破,為大型語言模型微調(diào)帶來革命性變化,成功將訓(xùn)練數(shù)據(jù)需求量縮減至原先的萬分之一,同時顯著增強了模型判斷的準(zhǔn)確性,使之與人類專家水平更為接近,提升幅度高達(dá)65%。這一成果在廣告內(nèi)容甄別、金融數(shù)據(jù)風(fēng)控等多個領(lǐng)域具有重大意義,尤其針對那些對訓(xùn)練數(shù)據(jù)質(zhì)量有著極高要求的場景。
該創(chuàng)新流程起始于一個基礎(chǔ)薄弱的模型,它能在幾乎無樣本或僅少量樣本的情況下運作。用戶通過具體指令,比如界定一則廣告是否為誤導(dǎo)性點擊誘餌,引導(dǎo)模型進(jìn)行初步分類。這一過程雖能快速生成大量標(biāo)注數(shù)據(jù),但往往伴隨著嚴(yán)重的類別失衡問題,影響模型的精確識別能力。
面對這一挑戰(zhàn),研究者采取了巧妙策略。他們首先將模型標(biāo)記的數(shù)據(jù)按類別分組,并發(fā)現(xiàn)了某些組別間的重疊現(xiàn)象,這揭示了模型在這些特定內(nèi)容上判斷的模糊地帶。于是,從這些重疊組中精心挑選出的樣本對,被提交給專家進(jìn)行復(fù)核,以此確保審核成本得到有效控制,同時確保所選樣本具有代表性和多樣性,覆蓋了模型可能犯錯的多種情況。
在微調(diào)模型的過程中,專家提供的標(biāo)注被一分為二:一部分用于檢驗?zāi)P团c人類判斷的一致性,另一部分則直接用于模型優(yōu)化。這一循環(huán)迭代的過程持續(xù)進(jìn)行,直至模型性能達(dá)到或接近專家水準(zhǔn)。
實驗階段,谷歌選用了Gemini Nano-1和Nano-2兩款模型,并針對兩項難度各異的任務(wù)進(jìn)行了驗證。盡管初始的眾包標(biāo)注數(shù)據(jù)多達(dá)十萬條且存在不平衡問題,但實驗結(jié)果顯示,專家間的判斷高度一致,而眾包標(biāo)簽與專家意見的一致性則相對較低。采用新方法后,擁有32.5億參數(shù)的模型在簡單任務(wù)上的表現(xiàn)有了顯著提升,其所需數(shù)據(jù)量驟減至250至450條,相比原來的十萬條數(shù)據(jù)大幅縮減,卻仍能保持出色的效果。
這一研究不僅證明了,在確保專家標(biāo)注一致性超過80%的前提下,即便是少量高質(zhì)量數(shù)據(jù)也能驅(qū)動大型模型達(dá)到優(yōu)異表現(xiàn),同時也為未來的模型訓(xùn)練開辟了新的路徑,強調(diào)了在數(shù)據(jù)稀缺或獲取成本高昂的情況下,如何通過智能篩選和專家指導(dǎo),實現(xiàn)模型性能的最大化。