在人工智能領(lǐng)域的不斷前行中,一項(xiàng)旨在促進(jìn)科研合作與技術(shù)轉(zhuǎn)化的聯(lián)合基金引發(fā)了廣泛關(guān)注。CCF-網(wǎng)易雷火聯(lián)合基金自2023年成立以來,已成功助力多項(xiàng)尖端技術(shù)的研發(fā),并在2024中國計(jì)算機(jī)大會(CNCC2024)上揭曉了首批優(yōu)秀成果。其中,浙江大學(xué)軟件學(xué)院的研究員王皓波所帶領(lǐng)的團(tuán)隊(duì),憑借在“基于大小模型協(xié)同的低資源標(biāo)注技術(shù)”領(lǐng)域的突破,成為此次發(fā)布的亮點(diǎn)之一。
王皓波在大會上詳細(xì)闡述了團(tuán)隊(duì)的研究成果。他指出,數(shù)據(jù)標(biāo)注作為AI發(fā)展的“燃料”,其效率與質(zhì)量對AI應(yīng)用效果至關(guān)重要。然而,在垂直領(lǐng)域的應(yīng)用中,通用大模型往往難以直接輸出標(biāo)注結(jié)果,仍需大量人工輔助。為此,團(tuán)隊(duì)聚焦于如何利用大模型與小模型的協(xié)同作用,實(shí)現(xiàn)低資源條件下的高效、精準(zhǔn)標(biāo)注。
研究過程分為三個階段。首先,團(tuán)隊(duì)在魯棒噪聲標(biāo)簽學(xué)習(xí)方面取得進(jìn)展,提出了ProMix算法,通過創(chuàng)新的樣本選擇方式,成功解決了噪聲標(biāo)簽學(xué)習(xí)中的樣本不平衡問題。其次,團(tuán)隊(duì)研發(fā)了FreeAL框架,實(shí)現(xiàn)了大模型與小模型的協(xié)同標(biāo)注,通過迭代優(yōu)化,顯著提升了標(biāo)注的準(zhǔn)確率。最后,團(tuán)隊(duì)基于FreeAL框架,進(jìn)一步研發(fā)了CORAL協(xié)作式自動標(biāo)注系統(tǒng),通過引入人機(jī)協(xié)同的標(biāo)注范式,實(shí)現(xiàn)了高質(zhì)量的數(shù)據(jù)標(biāo)注,極大地降低了時間和人工成本。
王皓波在演講中強(qiáng)調(diào),在實(shí)際生產(chǎn)環(huán)境中,機(jī)器標(biāo)注仍需人類領(lǐng)域知識的支撐。因此,團(tuán)隊(duì)正在探索將大小模型協(xié)同標(biāo)注系統(tǒng)與網(wǎng)易有靈平臺的AOP體系深度集成,以構(gòu)建更加高效、智能的人機(jī)協(xié)同標(biāo)注體系。
CCF-網(wǎng)易雷火聯(lián)合基金的支持為團(tuán)隊(duì)的研究提供了堅(jiān)實(shí)保障。王皓波表示,感謝基金提供的平臺與合作機(jī)會,以及團(tuán)隊(duì)成員的辛勤付出。他相信,團(tuán)隊(duì)的研究成果將為數(shù)據(jù)標(biāo)注領(lǐng)域的發(fā)展貢獻(xiàn)一份力量,共同推動人工智能技術(shù)邁向新的高度。