在AI技術(shù)的前沿探索中,阿里巴巴達摩院近期公布了一項名為“零搜索”的突破性技術(shù),該技術(shù)有望徹底改變AI模型的訓(xùn)練成本問題。5月7日,阿里巴巴達摩院在arXiv平臺上發(fā)布的一篇論文詳細闡述了這一創(chuàng)新。
據(jù)悉,“零搜索”技術(shù)通過模擬搜索引擎的訓(xùn)練機制,使得大型AI模型無需依賴真實的搜索引擎API,即可自主發(fā)展出強大的檢索能力。這一技術(shù)的問世,打破了長久以來對科技巨頭API服務(wù)的依賴,為開發(fā)者提供了前所未有的數(shù)據(jù)質(zhì)量控制手段。
阿里巴巴達摩院的研究團隊指出,“零搜索”技術(shù)已經(jīng)面向公眾開源,代碼已上傳至GitHub和Hugging Face平臺,并支持包括Qwen-2.5、LLaMA-3.2在內(nèi)的主流模型架構(gòu),既適用于基礎(chǔ)版模型,也適用于經(jīng)過指令微調(diào)的版本。尤為初創(chuàng)企業(yè)僅需配備四塊A100顯卡,即可搭建起高精度訓(xùn)練環(huán)境。
在綜合測評中,“零搜索”技術(shù)展現(xiàn)出了驚人的表現(xiàn)。研究團隊在NQ、TriviaQA、PopQA、HotpotQA等七大主流問答數(shù)據(jù)集上進行了測試,結(jié)果顯示,基于“零搜索”技術(shù)訓(xùn)練的140億參數(shù)大模型,在搜索準確率上超越了谷歌,同時訓(xùn)練成本降低了近九成。這一成績,無疑是對傳統(tǒng)AI訓(xùn)練模式的一次重大顛覆。
具體成本節(jié)約方面,據(jù)VentureBeat報道,原本需要花費586.70美元(約合人民幣4240.74元)調(diào)用商業(yè)搜索引擎API的訓(xùn)練任務(wù),現(xiàn)在僅需70.80美元(約合人民幣510.17元)即可完成。這意味著,開發(fā)者可以節(jié)省高達88%的成本,同時獲得與商業(yè)搜索引擎相媲美甚至更優(yōu)的檢索能力。
阿里巴巴的研究團隊進一步發(fā)現(xiàn),經(jīng)過海量預(yù)訓(xùn)練的大型模型已經(jīng)具備了生成擬真文檔的能力。通過監(jiān)督微調(diào),這些大語言模型可以被轉(zhuǎn)化為檢索模塊,按需生成相關(guān)或無關(guān)的文檔組合。在強化學(xué)習(xí)階段,系統(tǒng)通過逐步降低生成文檔質(zhì)量的“教學(xué)策略”,迫使模型不斷優(yōu)化檢索精度,從而形成一個自主進化的閉環(huán)。
在TriviaQA等七大主流問答數(shù)據(jù)集的測試中,“零搜索”技術(shù)展現(xiàn)出了強大的實力?;谕x千問2.5、LLaMA3.2等架構(gòu)的模型在數(shù)學(xué)視覺推理測試中得分超過了OpenAI的模型,展現(xiàn)出了卓越的圖形與數(shù)學(xué)結(jié)合分析能力。特別是在事實準確性指標(biāo)上,140億參數(shù)模型超越了谷歌搜索2.3個百分點,而70億參數(shù)模型則與商業(yè)搜索引擎持平。在相同的訓(xùn)練量下,模擬方案較谷歌搜索API節(jié)省了88%的開支。
阿里巴巴達摩院的這一突破,不僅有望大幅降低AI模型的訓(xùn)練成本,還可能對AI開發(fā)價值鏈產(chǎn)生深遠影響。隨著自模擬技術(shù)的不斷成熟,未來或?qū)⒂楷F(xiàn)出更多創(chuàng)新的AI訓(xùn)練方案,推動整個產(chǎn)業(yè)進入低成本、自主進化的新階段。這一技術(shù)的問世,無疑為AI技術(shù)的未來發(fā)展開辟了新的道路。