引言:ICASSP 全稱 International Conference on Acoustics, Speech and Signal Processing(國(guó)際聲學(xué)、語(yǔ)音與信號(hào)處理會(huì)議),是由 IEEE 主辦的全世界最大的,也是最全面的信號(hào)處理及其應(yīng)用方面的頂級(jí)學(xué)術(shù)年會(huì)。
睿企科技ICASSP 2021獲錄用的論文
近日,由ICASSP2021組委會(huì)正式通知,北京睿企信息科技有限公司(以下簡(jiǎn)稱:睿企科技)副總裁王全修作為主要作者,與北京大學(xué)軟件工程國(guó)家工程研究中心合作的論文《IMPROVING EVENT DETECTION BY EXPLOITING LABEL HIERARCHY》成功被ICASSP 2021錄用,論文概述如下:
Improving Event Detection By Exploiting label hierarchy
Xiangyu Xi1,2, Wei Ye1,†, Tong Zhang1, Quanxiu Wang3, Shikun Zhang1,†, Huixing Jiang2, Wei Wu2
1 National Engineering Research Center for Software Engineering, Peking University, Beijing, China 2 Meituan Group, Beijing, China
3 RICH AI, Beijing, China
事件檢測(cè)
事件檢測(cè)已經(jīng)作為人工智能領(lǐng)域的一項(xiàng)基礎(chǔ)核心技術(shù),被廣泛應(yīng)用到事件圖譜的構(gòu)建以及文本摘要的生成。事件檢測(cè)中優(yōu)質(zhì)的結(jié)構(gòu)化知識(shí)信息,能夠指導(dǎo)我們的智能模型具備更深層的事物理解、更精準(zhǔn)的任務(wù)查詢以及一定程度上的邏輯推理能力,從而對(duì)海量的信息分析起到至關(guān)重要的作用。
事件作為信息的一種表現(xiàn)形式,其定義為特定的人及物在特定的時(shí)間特定的地點(diǎn)相互作用的事實(shí)。事件的組成元素包含觸發(fā)詞、事件類型、論元以及論元角色:
觸發(fā)詞:事件發(fā)生的核心詞,多為動(dòng)詞和名詞。
事件類型:ACE2005 定義了8種事件類型和33種子類型。其中,大多數(shù)事件抽取均采用33 種事件類型。
論元:事件的參與者。
論元角色:事件論元在事件中充當(dāng)?shù)慕巧9灿?5類角色,例如,攻擊者 、受害者等。
例如:在Baghdad,當(dāng)一個(gè)美國(guó)坦克對(duì)著 Palestine 酒店開火時(shí)一個(gè)攝影師死去了。該事件信息如下表所示:
事件檢測(cè)任務(wù),需要從文本中檢測(cè):事件觸發(fā)詞 (trigger) 和論元 (argument) 。「事件觸發(fā)詞」是一個(gè)事件指稱中最能代表事件發(fā)生的詞,是決定事件類別的重要特征,一般指動(dòng)詞或名詞。「論元」是事件中的參與者,是組成事件的核心部分,它與事件觸發(fā)詞構(gòu)成了事件的整個(gè)框架。識(shí)別出事件觸發(fā)詞 (trigger) 和論元 (argument) 后再對(duì)這兩個(gè)元素進(jìn)行下一步分類處理,由事件觸發(fā)詞分類得到事件類型,由論元分類得到論元角色。利用事件檢測(cè)技術(shù),用戶可以:
免于被大量的無序非結(jié)構(gòu)化文本所湮沒;
讓用戶能夠更快捷地了解到短期內(nèi)發(fā)生的重大事件;
判斷與歷史事件是否存在內(nèi)容上的關(guān)聯(lián);
檢測(cè)每一件事件是否涉及新事件,實(shí)時(shí)地在某事件發(fā)生時(shí)識(shí)別出該事件。
然而,由于用戶手頭的文本往往在很短的時(shí)間間隔內(nèi)呈現(xiàn)井噴式的增長(zhǎng),這使得準(zhǔn)確、高效的事件檢測(cè)研究非常具有挑戰(zhàn)性。
在事件檢測(cè)任務(wù)中,主流方法一般將候選觸發(fā)詞(trigger word)直接分類為細(xì)粒度事件,會(huì)忽略觸發(fā)詞中的層次結(jié)構(gòu)。為了提高對(duì)細(xì)粒度事件類型的檢測(cè)能力,在ICASSP2021會(huì)議中,睿企科技與美團(tuán)和北大合作,提出了一種挖掘事件類型的層次結(jié)構(gòu)中有價(jià)值的語(yǔ)義信息的細(xì)粒度事件檢測(cè)方法。
該方法認(rèn)為事件類型層次中有豐富且有價(jià)值的語(yǔ)義相關(guān)性,提出了結(jié)合事件的層次信息提供輔助的監(jiān)督信息的方法,來改進(jìn)細(xì)粒度事件檢測(cè)。值得注意的是,該方法是第一個(gè)利用事件類型的層次結(jié)構(gòu)來改進(jìn)細(xì)粒度事件檢測(cè)的。
根據(jù)文章中的描述,該方法把事件可以劃分為兩種不同粒度的層級(jí),從粗粒度(父類)的層級(jí)中挖掘與細(xì)粒度(子類)層級(jí)事件之間的豐富的語(yǔ)義相關(guān)性,可以讓細(xì)粒度事件的識(shí)別更加準(zhǔn)確,即達(dá)到提高對(duì)細(xì)粒度事件類型的檢測(cè)能力的目的。并通過一種新的 Logits Mapping (LM) 策略,利用標(biāo)簽層次中的補(bǔ)充監(jiān)督信息,通過對(duì)細(xì)粒度類型的 Logits 的啟發(fā)式映射,來生成粗粒度類型的 Logits (輸入到分類器的中間表示)。這樣,補(bǔ)充的監(jiān)督信息可以幫助編碼器通過反向傳播產(chǎn)生更精確的 Logits ,從而提供了一種簡(jiǎn)單而且不需要額外的參數(shù),并且有效的方法來改善目標(biāo)任務(wù)。
目前睿企科技已在政務(wù)、警務(wù)等實(shí)際業(yè)務(wù)場(chǎng)景中落地該論文提及的先進(jìn)技術(shù)。同時(shí),睿企NLP能力開放平臺(tái)也將向廣大開發(fā)者陸續(xù)開放自主研發(fā)的NLP算法服務(wù)能力。
睿企NLP能力開放平臺(tái)
睿企科技是一家專注于自然語(yǔ)言處理與決策引擎的認(rèn)知智能高科技公司,自成立以來,致力于對(duì)大規(guī)模文本數(shù)據(jù)進(jìn)行分析與價(jià)值挖掘,通過技術(shù)與業(yè)務(wù)的深度融合,為政府提供決策支持,為企業(yè)提供商機(jī)信息。睿企NLP能力開放平臺(tái),提供了70+種細(xì)分的場(chǎng)景化能力,包括實(shí)體抽取理解、關(guān)系挖掘、關(guān)鍵詞提取、文本分類、文字識(shí)別等,其中僅實(shí)體抽取理解就包括證號(hào)類實(shí)體、人物類實(shí)體、地點(diǎn)類實(shí)體等11個(gè)大類48個(gè)服務(wù)能力,這些能力可以直接在產(chǎn)品和應(yīng)用中調(diào)用使用。
為使開發(fā)者快速上手體驗(yàn),睿企NLP能力開放平臺(tái)開放的所有能力均可免費(fèi)試用,以普惠、開放、易用及一站式等特性為客戶提供服務(wù)。開發(fā)者可靈活高效地調(diào)用NLP服務(wù),并快速集成到產(chǎn)品中,落地政務(wù)、警務(wù)、金融、醫(yī)療、商業(yè)、教育等垂直領(lǐng)域。