8月28日,由中國計算機學會(CCF)和中國中文信息學會(CIPS)共同發(fā)起并聯(lián)合主辦的第六屆語言與智能高峰論壇召開。會上,2021語言與智能技術競賽頒獎典禮圓滿落幕。

2021語言與智能技術競賽由中國計算機學會(CCF)和中國中文信息學會(CIPS)聯(lián)合主辦,百度公司、中國計算機學會自然語言處理專委會和中國中文信息學會評測工作委員會承辦。本屆競賽設置了機器閱讀理解、多技能對話和多形態(tài)信息抽取三大任務,與往屆競賽僅關注模型在單一數(shù)據(jù)上的效果不同,本屆競賽聯(lián)手“千言”開源數(shù)據(jù)集項目,對每項任務設置了更加豐富的數(shù)據(jù)集合和評測維度,重點關注模型的魯棒性、泛化性和多任務能力等,從多個維度對技術效果進行綜合評價。
雖然賽題難度較往年有所提升,但開發(fā)者們的參賽熱度不減。據(jù)統(tǒng)計,來自產(chǎn)學研各界4300余人次、3500支隊伍參與了賽事爭奪,累計收到有效提交結果1萬多次,較去年平均單任務提交數(shù)提升22%,競爭非常激烈。
比賽過程中,選手們提出了很多創(chuàng)新思路和方案,三大任務效果相對基線大幅提升20%以上,對話任務甚至達到80%+,有力推動了相關任務的技術進步。在頒獎現(xiàn)場,三個任務的優(yōu)勝團隊也進行了技術方案的分享和交流。
本次競賽的機器閱讀理解任務從細粒度、多維度挑戰(zhàn)了機器理解語言的能力,包括詞匯理解、短語理解、語義角色理解等五大考察維度。該賽道冠軍——來自深圳平安集團金融壹賬通的團隊,介紹了行為型微調(diào)和注意力機制改良的兩階段微調(diào)方案。在行為型微調(diào)方案中,針對本次賽題的挑戰(zhàn),分別設計了詞匯替換、正/負短語理解問題構造、語義角色互換樣本構造和負推理樣本構造的方法進行數(shù)據(jù)增強。并將增強的數(shù)據(jù)分為低質(zhì)量和高質(zhì)量兩部分,先用低質(zhì)量數(shù)據(jù)對模型做自適應的微調(diào),再用高質(zhì)量數(shù)據(jù)作為訓練集擴充,從而提高模型的魯棒性。

深圳平安集團金融壹賬通團隊方案分享
多技能對話賽道冠軍——來自螞蟻集團大安全的團隊利用了百度開源的對話預訓練模型PLATO-2,對多種對話任務進行統(tǒng)一建模,并加入OOV處理、知識篩選、推理優(yōu)化等優(yōu)化點,效果大幅提升。同時,該團隊也表示,目前業(yè)界中文的開源對話數(shù)據(jù)較少,“千言”數(shù)據(jù)集的開源開放有助于對話技術的研究發(fā)展。

螞蟻集團大安全團隊方案分享
對于此次參賽的研究成果與自身業(yè)務的落地結合,多形態(tài)信息抽取賽道獲獎隊伍之一——來自小米公司的團隊也給出了肯定的答案。針對本次賽題,該團隊針對關系抽取、句子級事件抽取和篇章級事件抽取分別設計了不同的策略。同時他們表示,大規(guī)模知識圖譜和事件圖譜的構建需要使用準確度高的信息抽取算法,構建好的知識圖譜可以應用到廣告、對話機器人等場景,對于提高廣告CTR和對話機器人回答準確率都有一定的價值。

小米公司團隊方案分享
頒獎典禮現(xiàn)場,百度自然語言處理部主任研發(fā)架構師劉璟做了競賽的整體報告,對本次比賽進行全面總結。他還提到聯(lián)合建設“千言”數(shù)據(jù)集開源項目的宗旨:“我們的目標是構建全面的、面向自然語言理解和生成的開源數(shù)據(jù)集合,希望能夠通過多維度的綜合評價,以及覆蓋豐富的任務類型,共同推動中文信息處理技術的進步”。作為面向自然語言理解和生成任務的中文開源數(shù)據(jù)集合,“千言”旨在為研究人員帶來一站式的數(shù)據(jù)集瀏覽、整理、下載和評測的科研體驗。在本次比賽結束后,自然語言處理領域的研究者、開發(fā)者可通過“千言”官網(wǎng)(luge.ai)繼續(xù)下載和使用相關數(shù)據(jù)集,并參與相應的常規(guī)評測,不斷打磨和提升相關任務的技術水平,形成創(chuàng)新閉環(huán)。
近年來,學術界、產(chǎn)業(yè)界對自然語言處理這一領域持續(xù)深耕,促進著人工智能學科不斷向前發(fā)展。自然語言處理技術的應用不僅改變著人類的生活方式,也為實際產(chǎn)業(yè)應用的升級提供了更多新的可能。語言與智能競賽持續(xù)“以賽促學”,挖掘和培養(yǎng)更多的AI技術人才、賦能社會百業(yè),為中國AI產(chǎn)業(yè)的發(fā)展再添動能。