日前,網(wǎng)易數(shù)帆旗下人工智能技術(shù)與服務(wù)品牌——網(wǎng)易易智在CCF和百度聯(lián)合舉辦的“千言數(shù)據(jù)集:文本相似度”行業(yè)測評中擊敗多支勁旅,榮登榜首。
文本相似度,即識別兩段文本在語義上是否相似,在自然語言處理(NLP)領(lǐng)域是一個重要研究方向,目前已大規(guī)模商用于智能客服、信息檢索、新聞推薦等領(lǐng)域,如已服務(wù)超40萬企業(yè)客戶的網(wǎng)易七魚智能客服,背后就有這項技術(shù)的支撐。
榜單中“網(wǎng)易杭州研究院”為網(wǎng)易易智團隊
知識沉淀與技術(shù)積累立功,網(wǎng)易易智文本相似度雄踞榜首
“千言數(shù)據(jù)集”系列評測是中文自然語言處理領(lǐng)域的大規(guī)模賽事,其中文本相似度開源項目收集了來自哈爾濱工業(yè)大學(xué)的LCQMC、BQ Corpus,以及谷歌的PAWS-X(中文)等公開數(shù)據(jù)集,期望對文本相似度模型效果進(jìn)行綜合的評價,推動文本相似度在自然語言處理領(lǐng)域的應(yīng)用和發(fā)展。
據(jù)了解,這些公開數(shù)據(jù)集在相關(guān)論文的支撐下,對現(xiàn)有的公開文本相似度模型進(jìn)行了較全面的評估,具有較高的權(quán)威性,代表了文本相似度技術(shù)研究的最高水準(zhǔn)。
哈爾濱工業(yè)大學(xué)(深圳)LCQMC數(shù)據(jù)集任務(wù)示例
在本次文本相似度測評中,網(wǎng)易易智結(jié)合了多年技術(shù)經(jīng)驗積累,和大規(guī)模預(yù)訓(xùn)練語言模型的運用,再加上對比賽任務(wù)進(jìn)行的針對性優(yōu)化,取得了目前的優(yōu)異成績。
網(wǎng)易易智的參賽隊伍表示,這次比賽任務(wù)主要有2個難點。一個難點是BQ Corpus數(shù)據(jù)集是金融領(lǐng)域的數(shù)據(jù),該數(shù)據(jù)集涉及到金融行業(yè)的大量知識,而通用預(yù)訓(xùn)練語言模型難以捕捉到特定行業(yè)的潛在知識。為此,團隊采用半監(jiān)督學(xué)習(xí)等方式,從網(wǎng)易內(nèi)部多個業(yè)務(wù)場景中挖掘出泛金融領(lǐng)域知識,進(jìn)而獲得金融領(lǐng)域預(yù)訓(xùn)練語言模型,最終在該任務(wù)上較大幅度領(lǐng)先于其他參賽團隊。
而另一個難點是PAWS-X數(shù)據(jù)集的質(zhì)量問題,該數(shù)據(jù)來自于英文的翻譯,翻譯內(nèi)容與真實中文有出入,尤其會對算法造成干擾的是實體詞(如人名、地名)的翻譯不統(tǒng)一,即相同的人名,前一個句子保留英文原文,后一個句子卻音譯為中文。針對這個數(shù)據(jù)特點,網(wǎng)易易智利用自研的NER(命名實體識別)服務(wù)進(jìn)行實體詞的識別與歸一化,并利用自研的中文文本糾錯服務(wù)糾正其中的錯別字、語病之后,再進(jìn)行模型訓(xùn)練,最終在該任務(wù)上也取得了第一。
網(wǎng)易易智助力七魚機器人精準(zhǔn)理解客戶訴求
網(wǎng)易易智基于文本相似度等系列NLP技術(shù)構(gòu)建了一套智能對話系統(tǒng),服務(wù)集團內(nèi)部多個業(yè)務(wù),如嚴(yán)選客服、IT咨詢等,并與七魚業(yè)務(wù)聯(lián)合打造智能客服機器人產(chǎn)品,服務(wù)集團外部客戶。
以九陽股份有限公司為例,其核心訴求之一,是通過高效、精準(zhǔn)、人性化的咨詢服務(wù)保障用戶的購物體驗,如用戶對于小家電產(chǎn)品功能、操作、價格、優(yōu)惠活動、養(yǎng)護(hù)、維修等問題的咨詢。
為此,九陽接入了網(wǎng)易七魚在線機器人,在問題匹配率可高達(dá)90%以上的基礎(chǔ)上,提供更懂用戶的智能服務(wù)體驗。基于網(wǎng)易易智文本相似度算法,七魚在線機器人實現(xiàn)了核心語義匹配,從而達(dá)成BOT、FAQ等功能。此外,通過語義匹配技術(shù),七魚在線機器人還實現(xiàn)了對知識庫的智能挖掘與生成。借助這些能力,七魚在線機器人可以高效、精準(zhǔn)地解答不同場景下的客戶問題。
而在快遞領(lǐng)域,申通快遞也接入了七魚智能客服應(yīng)對快遞咨詢問題,這是一個與上述金融、小家電完全不同的領(lǐng)域,然而運用網(wǎng)易易智同樣的技術(shù)原理,智能客服快速實現(xiàn)了相似的效果。
網(wǎng)易易智NLP促進(jìn)數(shù)字業(yè)務(wù)創(chuàng)新
文本相似度技術(shù)的商業(yè)價值并不局限于智能客服領(lǐng)域。據(jù)網(wǎng)易易智負(fù)責(zé)人介紹,文本相似度技術(shù)大類歸于文本匹配,除了對話引擎里,該技術(shù)在網(wǎng)易內(nèi)部還有更多的應(yīng)用落地,如網(wǎng)易云音樂中的評論智能挖掘、直播/短視頻中的歌詞匹配以及知識公路業(yè)務(wù)中的視頻選題相似度檢測等創(chuàng)新解決方案應(yīng)用。
而從整個技術(shù)領(lǐng)域來看,作為一門讓機器理解人類語言的技術(shù),NLP素有“人工智能皇冠上的明珠”之稱,既是難以攻克的前沿課題,也對數(shù)字業(yè)務(wù)創(chuàng)新具有重要的意義。除了文本相似度,網(wǎng)易易智也一直在探索NLP技術(shù)與業(yè)務(wù)創(chuàng)新的最大公約數(shù),并取得了一些階段性的成果。
例如,語義解析技術(shù)在軟件測試中的使用,顯著提升自動化水平、實現(xiàn)降本增效,這對于數(shù)字化軟件質(zhì)量的保障非常有利;文本糾錯技術(shù)在網(wǎng)易新聞等文稿審校場景中大規(guī)模使用,將拼寫及語法等錯誤及時發(fā)現(xiàn)并予以糾正,大幅提升用戶閱讀體驗,同時降低內(nèi)容生產(chǎn)的工作量。
未來,網(wǎng)易易智還將聯(lián)合網(wǎng)易數(shù)帆旗下有數(shù)團隊,探索NLP在大數(shù)據(jù)系統(tǒng)中的應(yīng)用,如支持業(yè)務(wù)人員與分析系統(tǒng)的自然語言交互,使得企業(yè)能夠更好地發(fā)揮大數(shù)據(jù)的價值。