中文自然語言處理作為深度學習相關領域面臨的挑戰之一,較難有技術上的突破。而近日,國內知名搜索引擎搜狗搜索提出的新思路,或將推動機器對中文語言的理解更進一步。
日前,國際自然語言處理與計算語言學領域最高級別的學術會議ACL(AnnualMeetingofthe Association for Computational Linguistics)錄取了搜狗搜索首席科學家柳超博士帶領搜狗數據科學研究院發表的題為“字根嵌入(Radical Embedding)”的學術論文。論文首次提出了基于字根的中文自然語言處理的深度學習技術,對中文自然語言處理以及未來深度學習理念的發展具有積極意義。
深度學習的基礎在于對自然語言的分析,而中文自然語言處理之所以較為困難,主要原因在于,中文在文本和對話等各個層次上會存在歧義或者多義,同一個字、詞在不同語境中的含義千差萬別,不同斷句方法讓句子表意差異懸殊等各種問題,讓中文自然語言處理成為行業挑戰。
此次,搜狗數據科學研究院首次提出了“字根嵌入”概念,這是世界上第一項基于字根的中文自然語言處理的深度學習技術,也就是將“字根作為中文語言處理的最小單位進行研究“。其基本原理是通過某種數學方式把漢語字根表示為多維空間中的向量,進而把漢字也表示為向量,作為基于深度學習的中文自然語言處理技術的基本單元,讓中文更易被精準計算。這也意味著,中文千變萬化的表述可以通過算法得出其背后含義。
論文中展示了“字根嵌入”技術的實際效果。運用新方式計算后,機器在處理中文分詞、短文本分類及網頁排序方面的效果大幅提升,這在某種程度上證實了“字根嵌入”可以作為中文自然語言處理的基本單位的可能。

搜索引擎產品的本質是洞悉用戶需求,從海量數據中為用戶提供精準可信的答案,從而滿足用戶的不同需求。這其中,如何分析自然語言更好地理解用戶意圖是其基礎,也是未來搜索引擎技術智能化發展的必爭之地。此前,在圖像和語音深度學習這兩個相對成熟的領域,“技術流”的搜狗搜索一直保持領先優勢。而此次如能借助“字根嵌入”技術,先行占位中文自然語言處理這個最為困難同時也最為重要的領域,對用戶語義理解、搜索結果排序等方面的效果也將隨之提升,其在技術上的優勢將會更為明顯。

柳超博士帶領的搜狗數據科學研究院團隊照片
據搜狗搜索方面透露,搜狗數據科學研究院之前已有多項研究成果應用于搜狗搜索、搜狗輸入法的產品開發中。作為團隊帶頭人的柳超博士本人也曾在ICML,SIGKDD,SIGIR,WWW,TSE, TKDD等國際一流會議和期刊上發表30余篇文章,并長期擔任SIGIR, SIGKDD, WWW,CIKM, WSDM, ACL, AAAI等國際會議的程序委員會委員,在業界具有較大影響力。而此次“字根嵌入”技術提出,可以有效促進機器對用戶中文表意進行深度學習,讓搜狗搜索更加智慧更“懂“用戶。
據悉,“字根嵌入”技術有望很快被應用至實踐領域,未來搜狗搜索將會在多個產品中應用該技術,以全面提升搜狗搜索及相關產品的中文信息處理能力,更準確理解用戶需求,為用戶提供最佳解決方案。