【ITBEAR】在人工智能技術的浪潮中,數據標注作為推動AI發展的重要“燃料”,其效率和質量直接關乎AI應用的成果。近日,一項名為“基于大小模型協同的低資源標注技術”的研究成果在2024中國計算機大會上亮相,引起了廣泛關注。
該技術由浙江大學軟件學院的王皓波老師帶領團隊研發,并得到了CCF-網易雷火聯合基金的大力支持。通過整合大模型與小模型的優勢,這一技術為解決數據標注中的低資源問題提供了創新思路。
在研究過程中,王皓波團隊首先聚焦于魯棒噪聲標簽學習,針對機器學習中普遍存在的噪聲標簽問題,提出了ProMix算法。該算法通過創新的樣本選擇方式,有效提升了模型在噪聲標簽環境下的學習性能,并在首屆IJCAI-噪聲標簽學習挑戰賽中取得了卓越成績。
隨著大模型時代的來臨,團隊進一步探索了大模型與小模型的協同應用。他們提出了FreeAL框架,旨在實現無人工主動學習。在該框架下,大模型利用其豐富的知識儲備進行初始標注,而小模型則負責進行魯棒蒸餾,通過協同訓練不斷優化標注結果。
實驗結果顯示,FreeAL框架在多個任務上均取得了優異表現,甚至在部分數據集上超越了傳統的主動學習方法。這一成果不僅驗證了大小模型協同標注的有效性,也為數據標注領域帶來了新的可能性。
為了進一步提升數據標注的實用性和效率,王皓波團隊還研發了CORAL框架。這一協作式自動標注系統結合了大小模型的協同工作和人機協同的標注范式,旨在減少人工參與并確保高質量的數據標注。通過引入手動精煉模塊和迭代過程控制器,CORAL框架實現了初步的自動化標注流程,并以低成本提供了可靠的標簽數據。
目前,該團隊正致力于將這一技術與網易有靈平臺的AOP體系進行深度集成,以構建一個更加高效、智能的人機協同Agent調度體系。這將有助于提高數據標注的準確性和可靠性,并推動數據標注技術在更廣泛領域的應用。
王皓波團隊的這一系列研究成果充分展示了大小模型協同在低資源數據標注技術領域的巨大潛力,有望為人工智能技術的發展注入新的活力。