“今天來了很多朋友,大家都有一個(gè)共同的理想,就是覺得未來互聯(lián)網(wǎng)的產(chǎn)品和技術(shù)都要依賴于語義分析技術(shù)。今天我主要以百度一款基于自然語言處理技術(shù)的輕應(yīng)用‘百度考霸'為例,說一下百度目前自然語言處理技術(shù)的現(xiàn)狀。” 6 月 28 日,百度自然語言處理部高級研究員趙世奇博士在第 51 期百度技術(shù)沙龍上說。
隨著移動(dòng)終端的發(fā)展,當(dāng)今業(yè)界出現(xiàn)了很多基于自然語言處理技術(shù)的產(chǎn)品。比如 siri 、聊天機(jī)器人、小冰等等,智能交互型的產(chǎn)品越來越多的得到人們的關(guān)注。本期的百度技術(shù)沙龍,趙世奇主要以百度考霸為例,為大家分享了自然語言處理、語義分析技術(shù)的話題和研發(fā)成果。

百度自然語言處理部高級研究員趙世奇說:“我希望自然語言對話式搜索成為一種趨勢,能讓用戶在人機(jī)交互中解放雙手、解放眼睛,只需要與搜索系統(tǒng)聊天即可實(shí)現(xiàn)信息和知識的搜索。 ”
不做傻系統(tǒng),自然語言搜索實(shí)現(xiàn)智能
百度作為全球最大的中文搜索引擎,總是能給出最合適的技術(shù)來推動(dòng)整個(gè)互聯(lián)網(wǎng)產(chǎn)業(yè)的發(fā)展,在人工智能領(lǐng)域也不例外。
本期技術(shù)沙龍,趙世奇先是總結(jié)了一下目前自然語言搜索的現(xiàn)狀,他以電影《鋼鐵俠》為例:鋼鐵俠里的機(jī)器人笨笨夠輔助主人做一些事情,可即便是在科幻的電影里,它仍然不完美,所以它的名字叫“笨笨”,經(jīng)常會(huì)聽錯(cuò)會(huì)錯(cuò)義,不理解他的主人是怎樣的需求。但是它隨著不停的交互、成長和對話,最后它能夠正確的理解主人需求,并且救了主人一命。
“現(xiàn)在我們的自然語言搜索也處在這樣的境地,它比笨笨還笨了一些。但是隨著我們持續(xù)的改進(jìn),我相信在不久的將來自然語言對話式的搜索,能夠擺脫笨笨式的身份。”趙世奇表示。
另外,趙世奇強(qiáng)調(diào),百度并不是想做淺層的智能交互,讓機(jī)器人給用戶講笑話、說粗話、講黃段子,變成一個(gè)調(diào)侃式、調(diào)戲型的工具和對象。他們希望在選定的領(lǐng)域里,能夠做的很深入、很具體、很多樣。用戶可以隨便問這個(gè)領(lǐng)域里的任何問題,機(jī)器可以深度的理解、深度的交互和深度的滿足用戶。
機(jī)器與人對話,特色技術(shù)打造靈活機(jī)制
在百度技術(shù)沙龍上,趙世奇向大家展示了百度在 2014 年高考前夕剛上線的一款輕應(yīng)用——百度考霸。
“百度考霸是一款通過自然語言交互的方式來進(jìn)行志愿填報(bào)信息搜索的輕應(yīng)用。它集成了很多自然語言處理技術(shù)或者是語義分析技術(shù),比如推理式改寫的通用機(jī)制、指代消解省略補(bǔ)全、概念澄清技術(shù)、交互生成技術(shù)等等。”趙世奇介紹道。
隨后,趙世奇詳細(xì)介紹了這些技術(shù)起到的作用。
推理式改寫簡單的說,就是把人們隨意說出的口語句子,改寫成計(jì)算機(jī)數(shù)據(jù)庫能夠理解的問題,使改寫后的查詢更容易解析索到優(yōu)質(zhì)結(jié)果。比如我們一般的口語習(xí)慣會(huì)問“ 630 分能考上什么大學(xué)”、“想學(xué)計(jì)算機(jī)去什么大學(xué)好”,通過推理式改寫,系統(tǒng)改寫后的句子是“分?jǐn)?shù)線小于 630 分大學(xué)”和“計(jì)算機(jī)好的大學(xué)”。
而省略補(bǔ)全技術(shù)是為實(shí)體知識庫提供了指代消解和省略補(bǔ)全的候選對象,并且可以付諸驗(yàn)證指代消解和省略補(bǔ)全所得結(jié)果的合理性,因此本方法資源配置成本低、領(lǐng)域遷移性強(qiáng)。
概念澄清技術(shù)則可以提供模糊需求條件下或指代消解過程中的需求澄清。比如,用戶詢問“山大怎么樣”,就需要系統(tǒng)澄清“山大”這個(gè)概念——是山西大學(xué)還是山東大學(xué)。
自然交互式搜索備受追捧
在整個(gè)分享環(huán)節(jié),趙世奇不斷強(qiáng)調(diào),自然語言處理技術(shù)一定是要為用戶解決需求的,而不是娛樂用戶的。“不能滿足客戶需求的交互式搜索都是耍流氓!”趙世奇調(diào)侃道。
整個(gè)分享涉及很多深度理解、深度交互、深度滿足的知識。趙世奇強(qiáng)調(diào),這里面最主要的是知識驅(qū)動(dòng),如果有了大規(guī)模的知識庫之后,很多事情其實(shí)都是圍繞著知識庫來展開的。無論是語義的解析,還是需求的滿足,都可以圍繞知識庫展開。所以自然語言交互式搜索,其實(shí)是 NLP 技術(shù)集成的體現(xiàn),這中間涉及到大量的技術(shù)的融合和聯(lián)合的過程。
“今天聽了趙老師的分享,我才知道原來通過自然語言處理技術(shù),系統(tǒng)可以做推理查詢這樣復(fù)雜的交互,很長見識。”一位百度技術(shù)沙龍的現(xiàn)場聽眾表示。
這次的百度技術(shù)沙龍主題分享,由于趙世奇老師的分享信息量非常大,而現(xiàn)場只給了他四十五分鐘的演講時(shí)間,所以在技術(shù)沙龍結(jié)束后,現(xiàn)場很多人都感到意猶未盡。上百名聽眾把趙世奇老師團(tuán)團(tuán)圍住,要求他多講一些自然語言處理方面的技術(shù)知識。大家對于自然交互式搜索的前景都十分看好。
百度技術(shù) 沙龍 是全國最早的技術(shù)開放交流活動(dòng),由百度組織策劃,至今已經(jīng)持續(xù)舉辦 4 年,經(jīng)歷了 51 期。百度技術(shù)沙龍一直致力于以 “ 技術(shù)開放 ” 的心態(tài),分享行業(yè)領(lǐng)先的技術(shù)理念和技術(shù)實(shí)踐。目前,百度技術(shù)沙龍已經(jīng)成為北京中高端技術(shù)人員的精神家園,百度技術(shù)沙龍希望日后能夠有效推動(dòng)中國互聯(lián)網(wǎng)的技術(shù)發(fā)展與行業(yè)創(chuàng)新。