近日,哈工大訊飛聯(lián)合實(shí)驗(yàn)室發(fā)布了基于全詞覆蓋的中文 BERT 預(yù)訓(xùn)練模型,該模型在多個(gè)中文數(shù)據(jù)集上,取得了當(dāng)前中文預(yù)訓(xùn)練模型的最佳水平,部分效果甚至超過了原版 BERT、ERNIE等中文預(yù)訓(xùn)練模型。。
這一新的模型資源,極大地推動(dòng)了中文自然語言處理的研究發(fā)展,彌補(bǔ)了之前該研究模型在中文自然語言處理上的空缺。之前 ERNIE 更多使用百度百科、貼吧等網(wǎng)絡(luò)數(shù)據(jù),它對非正式文本(例如微博等)建模較好,而BERT-wwm使用了中文維基百科(包括簡體和繁體)數(shù)據(jù)進(jìn)行訓(xùn)練,故此對正式文本建模更有優(yōu)勢,同時(shí)BERT-wwm也能更好的處理繁體中文數(shù)據(jù),因?yàn)?ERNIE 的詞表中幾乎沒有繁體中文,讓業(yè)界多了一個(gè)選擇。
哈工大訊飛聯(lián)合實(shí)驗(yàn)室(HFL)是科大訊飛重點(diǎn)引進(jìn)和布局的核心研發(fā)團(tuán)隊(duì)之一,由科大訊飛AI研究院與哈爾濱工業(yè)大學(xué)社會(huì)計(jì)算與信息檢索研究中心(HIT-SCIR)在2014年共同創(chuàng)辦。
自哈工大訊飛聯(lián)合實(shí)驗(yàn)室成立,雙方一直進(jìn)行著深入地合作,特別是語言認(rèn)知計(jì)算領(lǐng)域,成果顯著,研究涉及閱讀理解、自動(dòng)閱卷、類人答題、人機(jī)對話、語音識別后處理、社會(huì)輿情計(jì)算等前瞻課題,相應(yīng)研究成果應(yīng)用于司法,教育等領(lǐng)域。哈工大訊飛聯(lián)合實(shí)驗(yàn)室在近幾年獲得多項(xiàng)世界冠軍,其中包括機(jī)器閱讀理解權(quán)威評測SQuAD、SQuAD 2.0,第五屆中文語法錯(cuò)誤自動(dòng)診斷大賽CGED,對話型閱讀理解評測CoQA、QuAC等。
此次發(fā)布的基于全詞覆蓋的中文BERT,不僅表明科大訊飛在自然語言處理技術(shù)上保持業(yè)界領(lǐng)先水平,同時(shí)還積極將最新技術(shù)轉(zhuǎn)化應(yīng)用到中文自然語言處理的研究中,與業(yè)界一同推進(jìn)中文自然語言處理的研究與發(fā)展,為中文信息處理做出更多貢獻(xiàn)。
AI蓬勃發(fā)展,人工智能要求的是不僅要“能聽會(huì)說”,還要“能理解會(huì)思考”,這一技術(shù)跨越,需要大量科學(xué)研究的支持。深層語義理解、邏輯推理決策、自主學(xué)習(xí)進(jìn)化等認(rèn)知智能的關(guān)鍵技術(shù),都是當(dāng)下的研究重點(diǎn)。語音合成技術(shù)、語音識別技術(shù)、手寫識別技術(shù)、自然語言處理技術(shù)、語音測評技術(shù)、聲紋識別技術(shù),這些技術(shù)都展現(xiàn)出了訊飛的超強(qiáng)實(shí)力。
科大訊飛一直將“頂天立地”作為企業(yè)的核心使命。“頂天”,即技術(shù)頂天,強(qiáng)調(diào)技術(shù)對AI發(fā)展的的重要性。科大訊飛長期對科研保持著高投入,據(jù)其2018年財(cái)報(bào)顯示,2018年公司新增相關(guān)研發(fā)費(fèi)用4.52億元,相關(guān)研發(fā)費(fèi)用總額達(dá)12.63億元,較上年同期增長55.82%。科研投入可謂相當(dāng)之大,難怪其技術(shù)可以一直保持行業(yè)領(lǐng)先了。
科大訊飛還是目前我國唯一以語音技術(shù)為產(chǎn)業(yè)化方向的“國家863計(jì)劃成果產(chǎn)業(yè)化基地”、“國家規(guī)劃布局內(nèi)重點(diǎn)軟件企業(yè)”、“國家高技術(shù)產(chǎn)業(yè)化示范工程”, 曾兩次榮獲“國家科技進(jìn)步獎(jiǎng)”及中國信息產(chǎn)業(yè)自主創(chuàng)新榮譽(yù)“信息產(chǎn)業(yè)重大技術(shù)發(fā)明獎(jiǎng)”。科技部明確依托科大訊飛建設(shè)了認(rèn)知智能國家重點(diǎn)實(shí)驗(yàn)室,這是我國在人工智能高級階段——認(rèn)知智能領(lǐng)域的第一個(gè)國家級重點(diǎn)實(shí)驗(yàn)室。
領(lǐng)先的技術(shù)以及對整個(gè)人工智能生態(tài)產(chǎn)業(yè)的全面把控上,科大訊飛向人們展現(xiàn)出了它的長遠(yuǎn)眼光。其構(gòu)建的國內(nèi)首個(gè)以智能語音和人機(jī)交互為核心的人工智能開放平臺——訊飛開放平臺,并基于該平臺相繼推出訊飛輸入法、訊飛聽見等示范性應(yīng)用,推動(dòng)與廣大合作伙伴攜手構(gòu)建以訊飛為中心的人工智能產(chǎn)業(yè)生態(tài)。其在智能語音和人工智能核心研究和產(chǎn)業(yè)化方面的突出成績,也得到了社會(huì)各界和國內(nèi)外的一致認(rèn)可,被稱為“中國人工智能國家隊(duì)”。
對技術(shù)的不斷追求,對科研的不斷精進(jìn),對用戶的細(xì)微關(guān)注,是每一個(gè)希望大力發(fā)展AI的企業(yè)都應(yīng)該學(xué)習(xí)的,如今的科大訊飛, 仍在以高速不斷邁進(jìn)和發(fā)展,我們希望在未來,能夠看到科大訊飛一個(gè)又一個(gè)技術(shù)上的突破,引領(lǐng)中國AI技術(shù)繼續(xù)前行。