8月24日至27日在杭州召開的2019年全國知識圖譜與語義計算大會(CCKS 2019)上,百度CTO王海峰發(fā)表了題為《知識圖譜與語義理解》的演講。
CCKS 2019由中國中文信息學會語言與知識計算專業(yè)委員會主辦,浙江大學承辦,以“知識智能”為主題,吸引了來自海內外的八百多名科研學者、工業(yè)界專家和知名企業(yè)代表參加。
對知識的研究貫穿于整個人工智能的發(fā)展史,知識圖譜在人工智能技術領域的熱度也逐年上升。王海峰認為,知識圖譜是讓機器像人類一樣理解客觀世界的基石。在演講中,他用生動的實例展示了百度在知識圖譜和語義理解領域的技術探索及應用,并探討了其未來的發(fā)展方向。

以下是演講實錄:
非常高興能有機會參加知識圖譜和語義計算大會。
我現(xiàn)在在百度負責的技術涉及互聯(lián)網(wǎng)、大數(shù)據(jù)、人工智能等方方面面,但是我的專業(yè)其實是自然語言處理、知識圖譜。大概26年前,我在哈工大,在李生教授和趙鐵軍教授的指導下做機器翻譯系統(tǒng)。當時,主要是基于規(guī)則的系統(tǒng),也要用到知識,那時的知識是把人類專家的知識編輯在規(guī)則里,實現(xiàn)語言的理解、生成,然后實現(xiàn)翻譯。
過去20多年,這一領域從基礎研究到應用,都已經發(fā)生了非常大的變化。當然,20多年相比于自然語言處理這個領域70多年的歷史來說,還很年輕。
自然語言處理這樣一個有70多年歷史的專業(yè),現(xiàn)在仍然欣欣向榮,我想有兩個方面的原因:一方面是因為有大量用戶的真實需求,促使我們更多地投入這方面探索應用;另一方面自然語言處理發(fā)展了70多年遇到的很多問題都還沒有解決,需要我們進一步深入研究。
我首先從人工智能開始介紹。
大家都知道,人類歷史發(fā)展到現(xiàn)在,已經經歷了三次工業(yè)革命,每次工業(yè)革命都會帶來翻天覆地的變化,生產力的進步帶來了整個社會的變革,生活方式隨之發(fā)生深刻變化。第一次工業(yè)革命使人類走向機械化時代,第二次是帶來了電力,第三次是信息化革命。我們很幸運,今天處在第四次工業(yè)革命的開端,第四次工業(yè)革命的核心驅動力就是人工智能。當然,人工智能是為了模擬人的能力,需要包括語音、視頻、圖像、AR/VR等感知方面的技術,也需要知識圖譜、語言理解等認知方面的技術。當然,還有機器學習,以及最近這些年很重要的深度學習等等。

感知能力很多生物都有,而且很多生物這方面的能力比人類強。認知能力則是人類特有的,包括我們的語言和知識。我們通過語言的交流、知識的呈現(xiàn)(知識呈現(xiàn)其實也是基于語言),把知識傳承下來。關于語言和知識,不管是對于人類還是對于人工智能都是非常重要的。
知識圖譜是讓機器像人類一樣理解客觀世界的基石。
過去這些年,AI技術通過深度學習取得了非常好的效果,尤其是在語音、視覺等感知技術上取得了非常大的突破,甚至在很多方面,深度學習達到的效果已經超過了人類。
深度學習也給自然語言處理以及知識相關的技術帶來了非常大的幫助,但是我們繼續(xù)深入研究、應用實踐的時候會發(fā)現(xiàn),我們還需要更好地結合知識、推進知識圖譜相關的工作,才能取得更好的效果。
基本的知識圖譜,會涉及到實體的屬性關系,每一個實體可能有若干個屬性,實體和實體之間有很多關系,每一個關系基本上可以理解為是一個事實。因此知識圖譜就是對客觀世界的描述。百度AI多年技術積累和業(yè)務實踐的集大成是百度大腦,百度大腦發(fā)展了近10年的時間,其中的知識圖譜技術是從2013年開始做的。一方面知識圖譜的規(guī)模在快速增長,另一方面,基于知識圖譜來提供服務,每天滿足用戶各種需求的量級也在快速增加。過去這些年,百度知識圖譜的服務規(guī)模大概增長了490倍。
百度大腦技術能力的應用,一開始主要集中在搜索引擎上,之后開始突破互聯(lián)網(wǎng)業(yè)務的范疇,面向各種企業(yè)級的用戶,比如金融、客服、商業(yè)等,發(fā)展各種各樣的應用,同時也進行AI技術開放,比如通過百度大腦的AI開放平臺,讓大家應用到我們的AI技術。
下圖所示是一個比較完整的百度語言和知識技術的布局。底層的基礎就是知識圖譜,通過知識挖掘、知識整合與補全、分布式圖索引及存儲計算等步驟,構建了包括實體、關注點、事件、行業(yè)知識、多媒體等等多元異構知識圖譜。自然語言處理相信大家都不陌生,一個相對完整的自然語言處理體系包括詞法、句法、語義到篇章各個方面。構建一個知識圖譜的時候,這里面很多技術也會被綜合使用。百度語言與知識技術一方面全面支持百度自己的產品,比如搜索、問答、對話、機器翻譯等等,一方面通過開放賦能很多企業(yè)級的應用。

廣義來看,知識圖譜也是語言科學的一部分,知識的獲取和運用是理解語言不可或缺的;反過來,為了更好地去構建、挖掘知識圖譜,語言理解技術也是十分必要的,語言與知識技術是相輔相成的。
接下來,我會從這幾個方面來介紹:一方面是多元異構的知識圖譜構建,這里面會涉及到圖譜構建的一些應用,包括復雜知識等等;另一方面,涉及自然語言處理技術的一些探索。當然,我們的架構圖遠比我今天所講的要完整。在實際應用中,我們還會通過百度的開源開放平臺,進行數(shù)據(jù)和技術的開放。
首先說多元異構知識圖譜的構建。說到知識圖譜,首先就涉及到圖譜的構建,涉及到在開放的、海量的數(shù)據(jù)里怎么樣去挖掘數(shù)據(jù)、構建超大規(guī)模知識圖譜。我們人類學習知識,是靠各種視覺、聽覺等等去感知世界,不斷地建立和完善知識體系。機器如何學習?或者說讓一個機器的大腦怎么去學?那就要靠數(shù)據(jù),比如互聯(lián)網(wǎng)上海量的多形態(tài)數(shù)據(jù),蘊含了很多行業(yè)應用的有價值信息。

首先,我們從大量無標簽非結構化數(shù)據(jù)中進行開放知識挖掘,一方面我們基于多維數(shù)據(jù)分析和語言理解技術自動獲取知識挖掘模板,并通過不斷迭代獲取新模板、挖掘新知識;另一方面我們基于遠程監(jiān)督學習來自動構建訓練語料。為了去除自動構建訓練語料中的噪聲樣例,我們提出注意力正則化(Attention Regularization)技術基于實體上下文進行分析,通過模型輸出指導標注語料的選擇。通過這樣一套方法,我們實現(xiàn)在千億級文本中進行更精準地開放知識抽取。

基于開放知識挖掘抽取了大量的SPO三元組,需要對其進行歸納整理,我們提出了自底向上的開放本體構建,即從開放數(shù)據(jù)中挖掘實體和關系,從海量實體關系中自動學習實體類別關系、類別上下位關系,并逐層抽象形成本體結構,實現(xiàn)知識體系的自學習和構建。利用這樣一套技術以后,本體規(guī)模增長了30倍,同時事實覆蓋也有一個穩(wěn)定的增長。
另一方面,在這樣海量的數(shù)據(jù)里,有很多相似知識可能是從不同的數(shù)據(jù)、不同的文章里面抽取到的,這些知識如何進行融合、去粗取精,讓它更準確、有效?這又涉及到多源數(shù)據(jù)知識的整合。我們通過語義空間變換技術實現(xiàn)實體消歧、實體歸一等等,解決知識表示形式多樣,關聯(lián)融合困難的問題。基于前面提到的這些技術,我們現(xiàn)在構建了一個非常龐大的知識圖譜,里面含有6億實體,事實的量或者說各種關系量已經達到了3780億。比我們人類大腦里面儲備的知識多得多。
基本的知識圖譜構建了以后,真正要用于各種真實應用,又涉及到很多更復雜的知識。所以我們從簡單實體拓展到復雜事件,可以描述事件的動態(tài)、時序、空間、條件、概率等等關系。
下面我們說一下復雜知識。
比如桃園三結義的照片,在沒有任何知識的情況下只能識別出畫面中有三個人,有酒,有樹。但是結合實體知識,我們可以知道這三個人的身份和更多的信息,比如樹是桃樹。進一步基于事件知識,我們知道是東漢末年,劉備、關羽、張飛三人在桃園結義。有了事件知識以后,還可以對動態(tài)變化的客觀世界進行建模。

事件圖譜以事件為基本單位,表達事件相關的元素以及事件間的關聯(lián)關系,比如圖中的內馬爾轉會,中間最左邊是相似事件——姆巴佩轉會,中間則以時間為線,從皇馬開價、被評為最佳球員、皇馬和巴薩的爭奪、到達成轉會協(xié)議……形成了一個完整的事件演變脈絡。而參與事件的角色稱為事件論元,如:內馬爾、姆巴佩、巴薩、皇馬等等,與對應的實體圖譜相關聯(lián)。

完整的事件圖譜技術包括,底層的數(shù)據(jù),事件圖譜的構建(構建涉及到事件抽取、事件關系抽取、事件檢測等技術),事件圖譜的認知計算,例如事件鏈接、事件計算、事件推理,事件計算包括重要性計算、熱度計算、質量計算、相似度計算;事件推理包括事件關系推理、事件論元預測、事件演化預測等。現(xiàn)在我們基本上可以做到分鐘級的熱點事件收錄,實現(xiàn)千萬量級規(guī)模的事件庫,有十幾個領域、4300+事件的類型。事件圖譜應用,比如搜索熱點“華為正式發(fā)布鴻蒙”可以呈現(xiàn)出完整的事件發(fā)展過程,幫助用戶清楚地了解事件的來龍去脈;又如三峽大瀑布景區(qū)停業(yè)緊急通知,涉及地圖信息點的發(fā)現(xiàn)、更新。

說完了復雜知識,我們再說行業(yè)知識。
行業(yè)數(shù)據(jù)量非常龐大,但是真正應用在一個行業(yè)里的時候,都需要轉化為行業(yè)相關的專業(yè)性知識。行業(yè)知識,需求到底大到什么程度,舉一些例子:研究報告認為,到2020年,行業(yè)數(shù)據(jù)的體量會是非常巨大的,比如說法律專業(yè)每年產出4億卷宗,醫(yī)療方面的數(shù)據(jù)會提升48%以上。還有一些行業(yè)是知識密集型的,而運營商會用到很多的人工客服,中國有全職客服500萬人,人力成本巨大。另一方面,傳統(tǒng)行業(yè)對于大數(shù)據(jù)的應用比例還是很低的,比如金融行業(yè)非結構化數(shù)據(jù)占80%左右,有效利用率只有0.4%,而人工構建知識圖譜,以freebase為例,每條人工成本大約為2.25美元,也都不便宜。
與通用知識圖譜相比,行業(yè)知識圖譜有共性也有所區(qū)別。比如說,通用圖譜相對淺層,但覆蓋非常廣。因為通用知識圖譜主要是以互聯(lián)網(wǎng)、大數(shù)據(jù)為基礎的。大家知道,互聯(lián)網(wǎng)經過20多年的發(fā)展,已經和人類日常生活的方方面面都密不可分了,某種程度上,互聯(lián)網(wǎng)可以被理解為客觀世界的一個映射。這個龐大的網(wǎng)絡能夠構建很多種圖譜,但是真正涉及到某個行業(yè)的非常細致、深入的知識圖譜,互聯(lián)網(wǎng)不能都覆蓋到。所以,很多行業(yè)的知識圖譜是相對封閉的,一般是由一些專家去構建、去標注。從圖譜服務的角度,通用圖譜可以讓大家都去應用,但是行業(yè)圖譜是針對特定行業(yè)的需求,定制化程度比較高,也有不同的應用方向。所以,以通用圖譜為基礎,面向行業(yè)的開發(fā)者,在圖譜開發(fā)的時候,會涉及到一系列特有問題。
基于這樣的背景,我們構建了一體化的行業(yè)知識圖譜平臺,將多年積累的通用圖譜構建能力遷移至行業(yè),建設了行業(yè)圖譜的基礎架構和構建平臺,以及智能問答、語義檢索、推理計算、智能推薦、內容生成等基礎能力組件,支撐行業(yè)應用,并且針對行業(yè)特點實現(xiàn)一些優(yōu)化,服務于不同領域的用戶。
這里簡單介紹一下醫(yī)療的知識圖譜。為了構建一個醫(yī)療場景的知識圖譜,我們跟很多合作伙伴合作構建了這樣一個框架,包括結構化的解析、實體鏈接、人機結合、因果關系學習、診斷路徑挖掘等等。我們可以看到,專業(yè)醫(yī)療圖譜涉及到醫(yī)院、醫(yī)師、疾病等等各個方面,通過醫(yī)療的認知計算,提供各種醫(yī)療臨床輔助決策服務。

多媒體知識圖譜。今天我講的題目,是知識圖譜和自然語言處理,但實際上,人類幾千年傳承靠知識來做載體,還包括了語音、視覺,以及各種各樣的形式。現(xiàn)在視覺類的產品,坦率來說都不智能。比如,計算機視覺技術可以識別,但識別出來之前,如何將這些孤立的數(shù)據(jù)聯(lián)系起來?還是跟圖譜相關。我們可以基于圖譜把知識關聯(lián)起來,進行它們之間的關聯(lián)與計算,進而能夠做結構化的語義理解。
大家看到,這是《大河唱》的一些片段。這些片段里面,我們通過綜合應用計算機視覺技術、語音識別技術、自然語言理解技術,把其中的語音、視覺、文本融合起來,并通過與背景知識的關聯(lián),形成對視頻的深入理解。

接下來介紹知識增強的語言處理技術。
如前面所說,一方面語言理解是我們發(fā)現(xiàn)知識很重要的基礎,另一方面,有了這些知識,可以更好地幫助我們做人工智能。
在語言方面,首先介紹語義表示。我們知道,自然語言存在很多歧義,同時一個意思也可以用不同的詞來表述,句子表達的形式非常多。因而好的形式化語義表示是計算機處理語言的基礎,語義表示可以分為形式化符號表示和統(tǒng)計分布式表示。
隨著深度學習的興起,統(tǒng)計分布式語義表示這幾年很受歡迎。簡單回顧一下歷史,相信大家都很清楚,2003年,圖靈獎獲得者Bengio,最早提出了前饋神經網(wǎng)絡語言模型,這些年得到了很大的發(fā)展,這兩年出現(xiàn)了很多基于分布式表示的預訓練語言模型。今年百度先后發(fā)布了兩版語義理解框架ERNIE。
ERNIE1.0是基于知識增強的語義表示模型。我們?yōu)榱擞柧氝@些模型,使用了包括百度百科、新聞、對話等等海量的多樣化語料,同時強化了中文的詞、實體等先驗語義知識,從而得到更好的語義表示模型。

在1.0知識增強的基礎上,我們希望不斷更新這個系統(tǒng),ERNIE2.0在知識增強的同時,又增加了持續(xù)學習的能力,通過基于多任務學習的預訓練任務迭代,不斷提升模型性能。通過對百科、對話,篇章結構、網(wǎng)頁搜索、語義關系等超過13億知識不斷地學習,不斷地積累,ERNIE在多項中英文自然語言處理任務上取得了業(yè)界最好效果。

基于語義表示,我們可以做更復雜的語言理解任務,例如機器閱讀理解。
機器閱讀理解就是讓機器來閱讀文本,并且回答相關的問題。知識對于機器閱讀理解會起到什么作用呢?比如這個例子,問的是《人在囧途》是誰的代表作,僅靠文本自身的內容是不夠的,需要基于一些外部知識來得到想要的答案。為此我們提出文本表示和知識表示融合的閱讀理解模型KT-NET,通過融合前面講的知識圖譜增強文本閱讀能力。這個技術在實體對話等很多領域已經得到了非常好的應用效果。

閱讀理解能力也廣泛應用于搜索產品。現(xiàn)在我們的移動設備越來越小,而大家的工作生活節(jié)奏越來越快,希望搜索不再像以前是一條條的URL、摘要,更直觀、準確的結果是大家更希望看到的。這里面就涉及到智能問答的技術,比如“香格里拉酒店的老板是誰”,這個問題,大家就需要很直觀的回答。有時智能問答不僅僅是直接給出一個答案就可以,更多的應該是一段話來進行高度相關的解釋。比如面對“煎魚怎么不粘鍋”這個問題,我們會給出方法一、方法二兩個回答。

對于聊天,我們提出基于知識的主動聊天技術。目前相對普遍的技術是用戶問一句,然后機器進行回答,用戶主動地問,機器被動應對。而真實場景的聊天,用戶是希望機器可以主動地發(fā)起對話的。于是我們設計了基于知識驅動的自主對話任務,讓機器根據(jù)給定的知識圖譜信息,主動來引領對話進程,達到信息充分交互。

基于百度飛槳(PaddlePaddle),我們開源了檢索模型、生成模型兩個主動對話的基線模型。同時我們舉辦了一個知識驅動的對話競賽,這個競賽影響很廣泛,參與度很高,隊伍報名數(shù)1536支,提交結果數(shù)1688次。

最后介紹一下語言生成,包括機器輔助寫作和智能自動創(chuàng)作。
現(xiàn)在內容創(chuàng)作過程中面臨一些痛點,包括捕捉不到熱點信息,實時報道速度不夠快,也包括人工審核成本高、搜集素材費時費力、創(chuàng)作用詞缺乏靈感、多模態(tài)內容需求等等。這些問題借助我們的技術,都可以緩解。創(chuàng)作前可以輔助選題、激發(fā)靈感,包括熱點發(fā)現(xiàn)、熱詞分析、事件檢索、觀點分析等等。創(chuàng)作中可能需要更多輔助的素材,把很多相關的內容呈現(xiàn)出來,這個時候需要做信息的推薦,加入一些領域知識庫,一些歷史相關的事件脈絡,幫助寫作。當然還有標題的生成,這個也是很有技術含量的。創(chuàng)作后保證質量、提升分發(fā)。保證質量包括文本糾錯、低質檢測、詞語潤色;提升分發(fā),包括添加文章標簽、自動摘要、文本分類。
這是一個輔助寫作系統(tǒng)完整的架構圖。

這是一些輔助寫作示例。第一個熱詞分析是以“中美貿易戰(zhàn)”為例,第二個就是事件脈絡,第三個是標題生成,最右邊是文本糾錯、詞語潤色、文本標簽。

以上主要是通過輔助寫作提升效率,讓作者從重復工作中解放出來。另外一方面,機器也可以自動創(chuàng)作,能夠實時的追蹤事件的波動,自動把相關的信息匯聚,生成文章,覆蓋重要信息。相比人工寫作,既省時省力,還可以提升稿件質量,應用程度非常高,也非常廣。這是基于結構化數(shù)據(jù)自動生成新聞的基本過程,包括宏觀規(guī)劃、微觀規(guī)劃、表層實現(xiàn)。

為了實現(xiàn)智能創(chuàng)作,百度打造了智能創(chuàng)作可視化平臺。

上述語言和知識技術,都是基于百度飛槳深度學習平臺實現(xiàn)的,飛槳是國內唯一功能完整、開源開放的深度學習平臺。其中PaddleNLP是中文語言與知識模型及數(shù)據(jù)集,開放了大規(guī)模的數(shù)據(jù)集,包括閱讀理解、對話、語音翻譯、信息抽取、實體鏈指數(shù)據(jù)集等等。提供基礎網(wǎng)絡,支持序列標注、文本分類、語義匹配、語言生成等等各種類型任務,還包括百度最新的前沿研究成果。

這個是百度大腦語言與知識技術開放平臺全景,不僅包括知識表示、語義理解等基礎技術,還包括應用平臺。比如翻譯開放平臺,大家可以直接調用翻譯平臺,進行翻譯任務。翻譯方面,我們提供多模翻譯、領域翻譯、通用翻譯等多項領先技術。此外還有UNIT平臺,可以進行對話配置與訓練,以及行業(yè)知識圖譜平臺、智能創(chuàng)作平臺……此外,百度大腦還包括面向各種行業(yè)場景化的解決方案。

最后,百度愿與學界、業(yè)界同仁,一起打造合作共贏的AI開放生態(tài)。
我的報告就到這里,謝謝大家!