5月21日-22日,由中國電子學會主辦的"2016全國模式識別技術應用大會"在北京召開,來自全國各地智能技術企業和科研院所的科研代表和行業開拓者蒞臨大會并進行技術分享和交流。會議分享內容圍繞模式識別和人工智能應用技術及產業化發展,包含了相關各個領域的研究與實踐,包括機器人視覺、人工智能的認知、智能駕駛、文本理解挖掘、生物特征識別等。其中,搜狗搜索首席科學家許靜芳博士以其在國內第二大搜索引擎公司的實際工作經驗為基礎,帶來了《搜索中的文本理解與挖掘》主題分享,受到參會者好評。

(搜狗搜索許靜芳博士演講照片)
搜索產品作為日常生活中最常用的互聯網產品之一,包含了幾乎全網的信息,并積累了海量的用戶大數據,而搜索產品需要連接人與數據的性質也讓其成為了"讓機器讀懂文本"先驅產品。許靜芳博士的演講基于搜狗搜索的技術探索及5.6億用戶產生的大數據積累,對文本搜索核心的查詢理解、文檔理解以及查詢與文檔匹配等幾個方面進行了講解,尤其是配合會議主題,對查詢理解和文檔理解的具體方式進行了深度解析。
不論是用戶輸入的"查詢詞理解"還是用戶想要查詢到的遍布于互聯網上的"文檔理解",數據挖掘+機器學習(Data Mining + Machine Learning)都是其最基本的工具。搜狗搜索通過數據挖掘+機器學習進行同義詞(組)挖掘、查詢糾錯、查詢分析,并進行查詢相似度計算、查詢糾錯和查詢擴展以及意圖理解,讓搜索引擎對查詢文本進行理解。

(搜狗搜索許靜芳博士演講PPT)
許靜芳博士詳細講解了基礎查詢分析、查詢詞權重計算、緊密度計算、同義詞、查詢意圖識別的等每個小分類具體的實現方式。例如在進行查詢意圖識別時,有實體機類型挖掘、通用意圖識別、基于RNN-LSTM的意圖識別、詞表示學習等不同的層面,而每個具體層面背后都需要有嚴密的思考和技術實力。

(搜狗搜索許靜芳博士演講PPT)
許靜芳博士的演講既生動又詳實,不僅講解技術原理,還結合搜狗搜索的具體產品功能和用戶在搜索時常見的問題,對問題進行了分析,結合問題向參會者講解具體解決方案和思考邏輯。參會者普遍表示這次分享極為精彩,將復雜的搜索技術講得深入淺出。
除搜狗搜索的許靜芳博士外,本次參會者還包括了IBM、科大訊飛、騰訊、阿里巴巴等知名企業的領導和專家,極具業界影響力。中國電子學會作為中國科學技術協會的組成部分,是由電子信息界的科技工作者和有關企事業單位自愿結成的非營利性法人社團,積極倡導"團結、創新、求實、奉獻"的精神,促進電子信息科學技術的繁榮和發展。在中國電子學會的積極推動下,召集了各界最知名的專家,才保障了本次"2016全國模式識別技術應用大會"成功舉辦。