近日,哈工大訊飛聯合實驗室發布了基于全詞覆蓋的中文 BERT 預訓練模型,該模型在多個中文數據集上,取得了當前中文預訓練模型的最佳水平,部分效果甚至超過了原版 BERT、ERNIE等中文預訓練模型。。
這一新的模型資源,極大地推動了中文自然語言處理的研究發展,彌補了之前該研究模型在中文自然語言處理上的空缺。之前 ERNIE 更多使用百度百科、貼吧等網絡數據,它對非正式文本(例如微博等)建模較好,而BERT-wwm使用了中文維基百科(包括簡體和繁體)數據進行訓練,故此對正式文本建模更有優勢,同時BERT-wwm也能更好的處理繁體中文數據,因為 ERNIE 的詞表中幾乎沒有繁體中文,讓業界多了一個選擇。
哈工大訊飛聯合實驗室(HFL)是科大訊飛重點引進和布局的核心研發團隊之一,由科大訊飛AI研究院與哈爾濱工業大學社會計算與信息檢索研究中心(HIT-SCIR)在2014年共同創辦。
自哈工大訊飛聯合實驗室成立,雙方一直進行著深入地合作,特別是語言認知計算領域,成果顯著,研究涉及閱讀理解、自動閱卷、類人答題、人機對話、語音識別后處理、社會輿情計算等前瞻課題,相應研究成果應用于司法,教育等領域。哈工大訊飛聯合實驗室在近幾年獲得多項世界冠軍,其中包括機器閱讀理解權威評測SQuAD、SQuAD 2.0,第五屆中文語法錯誤自動診斷大賽CGED,對話型閱讀理解評測CoQA、QuAC等。
此次發布的基于全詞覆蓋的中文BERT,不僅表明科大訊飛在自然語言處理技術上保持業界領先水平,同時還積極將最新技術轉化應用到中文自然語言處理的研究中,與業界一同推進中文自然語言處理的研究與發展,為中文信息處理做出更多貢獻。
AI蓬勃發展,人工智能要求的是不僅要“能聽會說”,還要“能理解會思考”,這一技術跨越,需要大量科學研究的支持。深層語義理解、邏輯推理決策、自主學習進化等認知智能的關鍵技術,都是當下的研究重點。語音合成技術、語音識別技術、手寫識別技術、自然語言處理技術、語音測評技術、聲紋識別技術,這些技術都展現出了訊飛的超強實力。
科大訊飛一直將“頂天立地”作為企業的核心使命。“頂天”,即技術頂天,強調技術對AI發展的的重要性。科大訊飛長期對科研保持著高投入,據其2018年財報顯示,2018年公司新增相關研發費用4.52億元,相關研發費用總額達12.63億元,較上年同期增長55.82%。科研投入可謂相當之大,難怪其技術可以一直保持行業領先了。
科大訊飛還是目前我國唯一以語音技術為產業化方向的“國家863計劃成果產業化基地”、“國家規劃布局內重點軟件企業”、“國家高技術產業化示范工程”, 曾兩次榮獲“國家科技進步獎”及中國信息產業自主創新榮譽“信息產業重大技術發明獎”。科技部明確依托科大訊飛建設了認知智能國家重點實驗室,這是我國在人工智能高級階段——認知智能領域的第一個國家級重點實驗室。
領先的技術以及對整個人工智能生態產業的全面把控上,科大訊飛向人們展現出了它的長遠眼光。其構建的國內首個以智能語音和人機交互為核心的人工智能開放平臺——訊飛開放平臺,并基于該平臺相繼推出訊飛輸入法、訊飛聽見等示范性應用,推動與廣大合作伙伴攜手構建以訊飛為中心的人工智能產業生態。其在智能語音和人工智能核心研究和產業化方面的突出成績,也得到了社會各界和國內外的一致認可,被稱為“中國人工智能國家隊”。
對技術的不斷追求,對科研的不斷精進,對用戶的細微關注,是每一個希望大力發展AI的企業都應該學習的,如今的科大訊飛, 仍在以高速不斷邁進和發展,我們希望在未來,能夠看到科大訊飛一個又一個技術上的突破,引領中國AI技術繼續前行。