近年來(lái),盡管自然語(yǔ)言處理技術(shù)飛速發(fā)展,但在模型魯棒性、可解釋性、復(fù)雜知識(shí)表示與文本融合、跨模態(tài)語(yǔ)義理解等方面依然面臨挑戰(zhàn)。為了解決自然語(yǔ)言技術(shù)發(fā)展中所面臨的挑戰(zhàn)和推進(jìn)中文信息處理技術(shù)的進(jìn)步,8月25日百度大腦語(yǔ)言與知識(shí)技術(shù)峰會(huì)在線上召開(kāi),百度聯(lián)合中國(guó)計(jì)算機(jī)學(xué)會(huì)、中國(guó)中文信息學(xué)會(huì)共同發(fā)布“千言”數(shù)據(jù)共建計(jì)劃(網(wǎng)址:https://luge.ai)。同時(shí),百度技術(shù)委員會(huì)主席吳華發(fā)布了算力共享計(jì)劃,希望通過(guò)數(shù)據(jù)集的共建與算力的共享,與學(xué)界、產(chǎn)業(yè)界共同推進(jìn)技術(shù)進(jìn)步。
百度聯(lián)合中國(guó)計(jì)算機(jī)學(xué)會(huì)、中國(guó)中文信息學(xué)會(huì)共同發(fā)布千言數(shù)據(jù)共建計(jì)劃
目前,“千言”項(xiàng)目第一期已涵蓋7大任務(wù)、20余個(gè)中文開(kāi)源數(shù)據(jù)集,由百度攜手哈工大、清華、中科院信息工程研究所等在內(nèi)的10所頂級(jí)高校、企業(yè)共同建設(shè)完成。吳華表示:“我們希望通過(guò)這些計(jì)劃,與業(yè)界同仁一起解決中文信息處理技術(shù)發(fā)展中的挑戰(zhàn),并在世界范圍內(nèi)建設(shè)中文信息處理影響力。”
除兩大重磅計(jì)劃公布外,此次峰會(huì)凝聚了百度在語(yǔ)言與知識(shí)領(lǐng)域十年的技術(shù)積累和產(chǎn)業(yè)實(shí)踐。百度CTO王海峰發(fā)表主旨演講,解讀了百度語(yǔ)言與知識(shí)技術(shù)的發(fā)展歷程、最新成果及趨勢(shì)展望,百度集團(tuán)副總裁吳甜重磅推出5款產(chǎn)品的新發(fā)布,加速技術(shù)大規(guī)模應(yīng)用發(fā)展。
共建中文開(kāi)源數(shù)據(jù)集 “千言”計(jì)劃應(yīng)對(duì)語(yǔ)言與知識(shí)技術(shù)應(yīng)用新挑戰(zhàn)
讓機(jī)器像人一樣理解語(yǔ)言、掌握知識(shí)的自然語(yǔ)言處理技術(shù),是人工智能中認(rèn)知智能的核心;對(duì)語(yǔ)言信息的處理能力也是一個(gè)國(guó)家的核心競(jìng)爭(zhēng)力。我們每天都在使用的搜索、翻譯、信息流推薦、時(shí)刻回應(yīng)你每個(gè)需求的智能助手等,背后都是語(yǔ)言與知識(shí)技術(shù)在發(fā)揮作用。
這樣大規(guī)模的產(chǎn)業(yè)化應(yīng)用也對(duì)技術(shù)提出了新挑戰(zhàn)。包括模型需要具有全面的、處理多個(gè)子任務(wù)的能力;在跨領(lǐng)域數(shù)據(jù)上具有較好的泛化能力;在應(yīng)用中有足夠的魯棒性以保證安全等等。此外,這些大規(guī)模應(yīng)用對(duì)語(yǔ)義理解提出了更高的要求,要求模型具備一定的常識(shí)、背景知識(shí)甚至推理能力;同時(shí)隨著內(nèi)容承載形式的多元化,也需要模型具有多模態(tài)融合的內(nèi)容理解能力等。
為應(yīng)對(duì)以上問(wèn)題,百度聯(lián)合中國(guó)計(jì)算機(jī)學(xué)會(huì)、中國(guó)中文信息學(xué)會(huì)共同發(fā)起了“千言”數(shù)據(jù)共建計(jì)劃,攜手高校和企業(yè)的數(shù)據(jù)資源研發(fā)者共同建設(shè)中文開(kāi)源數(shù)據(jù)集。在此次峰會(huì)上,百度技術(shù)委員會(huì)主席吳華、中國(guó)中文信息學(xué)會(huì)副理事長(zhǎng)兼秘書(shū)長(zhǎng)孫樂(lè)、中國(guó)計(jì)算機(jī)學(xué)會(huì)自然語(yǔ)言處理專委會(huì)主任周國(guó)棟共同解讀了“千言”數(shù)據(jù)集,“千言”的目標(biāo)是覆蓋豐富的任務(wù)類型,從語(yǔ)義理解、知識(shí)融合、跨模態(tài)融合等角度推動(dòng)技術(shù)進(jìn)步,同時(shí)提供能進(jìn)行多維度綜合評(píng)價(jià)的數(shù)據(jù)集,從而評(píng)價(jià)模型的全面性、泛化性和魯棒性等。
截至目前,第一期千言項(xiàng)目已涵蓋了7大任務(wù)、20余個(gè)中文開(kāi)源數(shù)據(jù)集,包括開(kāi)放域?qū)υ?、閱讀理解、機(jī)器同傳、情感分析、語(yǔ)義解析、信息抽取和文本相似度等。由百度攜手來(lái)自哈爾濱工業(yè)大學(xué)、清華大學(xué)、中國(guó)科學(xué)院信息工程研究所等10所頂尖高校和企業(yè)的數(shù)據(jù)集作者共同建立完成。
為了使千言能夠提供一站式的數(shù)據(jù)瀏覽、下載和評(píng)測(cè)的科研體驗(yàn),百度還對(duì)所有數(shù)據(jù)進(jìn)行了處理,每個(gè)任務(wù)都有統(tǒng)一的數(shù)據(jù)格式和評(píng)測(cè),并在此基礎(chǔ)上提供了基線系統(tǒng),幫助加速模型的研發(fā)。
吳華表示,在未來(lái)3年中,千言計(jì)劃面向超20個(gè)任務(wù),收集和建設(shè)不少于100個(gè)中文自然語(yǔ)言處理數(shù)據(jù)集,全面覆蓋知識(shí)圖譜、語(yǔ)言理解、語(yǔ)言生成、跨模態(tài)融合、NLP 應(yīng)用系統(tǒng)等多個(gè)領(lǐng)域。也期待更多數(shù)據(jù)集作者能夠加入共建,共同推動(dòng)中文信息處理技術(shù)的進(jìn)步。
推出算力共享計(jì)劃!百度全力支持語(yǔ)言與知識(shí)技術(shù)開(kāi)發(fā)者、研究人員
除數(shù)據(jù)外,算力是語(yǔ)言與知識(shí)技術(shù)發(fā)展中面臨的另一大挑戰(zhàn)。超大規(guī)模深度學(xué)習(xí)模型帶來(lái)顯著效果提升的同時(shí),算力的需求也呈現(xiàn)出指數(shù)級(jí)的增長(zhǎng)。算力的缺乏已經(jīng)成為了許多開(kāi)發(fā)者、研究人員進(jìn)行技術(shù)研發(fā)的一大瓶頸。
為此,百度正式發(fā)布了語(yǔ)言與知識(shí)算力共享計(jì)劃。通過(guò)AI STUDIO平臺(tái),百度將提供算力支持,為語(yǔ)言與知識(shí)技術(shù)開(kāi)發(fā)者助力。吳華表示,后續(xù)百度會(huì)邀請(qǐng)“千言”數(shù)據(jù)集的使用者,百度語(yǔ)言與知識(shí)開(kāi)源開(kāi)放的用戶以及更多的中文語(yǔ)言與知識(shí)技術(shù)開(kāi)發(fā)者、研究人員免費(fèi)使用這些算力。
傳承千年的中文鑄就了璀璨的華夏文明。在當(dāng)下的人工智能時(shí)代,百度也希望與學(xué)術(shù)界、產(chǎn)業(yè)界攜手,共同推動(dòng)中文信息處理技術(shù)的進(jìn)步,以智能技術(shù)學(xué)習(xí)并傳承凝練于中文語(yǔ)言中的無(wú)盡寶藏。