12月30日,北京智源人工智能研究院(以下簡(jiǎn)稱“智源研究院”)自然語(yǔ)言處理(簡(jiǎn)稱NLP)重大研究方向前沿技術(shù)開(kāi)放日活動(dòng)成功舉辦。24位NLP學(xué)術(shù)明星,20多項(xiàng)前沿報(bào)告、10余項(xiàng)最新研究成果“組團(tuán)”亮相。活動(dòng)中重磅發(fā)布了大模型評(píng)測(cè)的“命題”新方案——智源指數(shù),更有OpenHowNet前沿技術(shù)研討。新老學(xué)者群星匯聚,研究探討多點(diǎn)開(kāi)花,現(xiàn)場(chǎng)學(xué)術(shù)氣氛濃厚。
智源指數(shù)CUGE發(fā)布儀式
蒞臨現(xiàn)場(chǎng)指導(dǎo)及進(jìn)行成果報(bào)告與前沿分享的“學(xué)術(shù)大咖”包括戴瓊海院士、李宇明教授、孫茂松教授、楊爾弘教授、穗志方教授、李涓子教授、劉洋教授、萬(wàn)小軍教授、劉知遠(yuǎn)副教授等。
清華大學(xué)教授、智源研究院自然語(yǔ)言處理(NLP)方向首席科學(xué)家孫茂松
活動(dòng)現(xiàn)場(chǎng)大咖云集
業(yè)界學(xué)者高度肯定了智源學(xué)者在NLP方向所取得的成果。
北京語(yǔ)言大學(xué)教授、國(guó)家語(yǔ)言文字工作委員會(huì)原副主任李宇明教授在致辭中指出:“我特別贊賞智源(NLP重大研究方向)的開(kāi)放態(tài)度,匯集眾智,推進(jìn)中文信息處理工作前進(jìn),促進(jìn)中文在人類社會(huì)中發(fā)揮更大的作用。”
北京語(yǔ)言大學(xué)李宇明教授
智源研究院常務(wù)副院長(zhǎng)曹崗則表示:一起協(xié)作、共同貢獻(xiàn),人工智能領(lǐng)域各單位與學(xué)者們的開(kāi)放心態(tài)與探索精神,是科研發(fā)展了不起的源動(dòng)力。未來(lái),希望攜手大家,共創(chuàng)更高價(jià)值。
智源研究院常務(wù)副院長(zhǎng)曹崗
發(fā)布智源指數(shù)CUGE
推出大模型評(píng)測(cè)“命題”新方案
人工智能大模型時(shí)代,評(píng)測(cè)基準(zhǔn)成為大模型發(fā)展的風(fēng)向標(biāo)。從扁平到全面系統(tǒng),從簡(jiǎn)化到多重維度,智源指數(shù)CUGE旨在嘗試為大模型評(píng)測(cè)設(shè)計(jì)一張全面評(píng)估綜合能力的新考卷。
清華大學(xué)副教授、智源青年科學(xué)家、
智源指數(shù)建設(shè)骨干成員劉知遠(yuǎn)
清華大學(xué)教授、中國(guó)人工智能學(xué)會(huì)理事長(zhǎng)戴瓊海院士對(duì)智源指數(shù)在創(chuàng)新方向上的嘗試給予了肯定,他表示:“祝賀孫茂松教授帶領(lǐng)智源NLP學(xué)者共同建立了機(jī)器中文語(yǔ)言能力評(píng)測(cè)基準(zhǔn)‘智源指數(shù)’,這對(duì)中文信息處理乃至我國(guó)人工智能的發(fā)展,都具有重要的里程碑意義。”
中國(guó)工程院院士、清華大學(xué)教授、中國(guó)人工智能學(xué)會(huì)理事長(zhǎng)戴瓊海院士
在基準(zhǔn)框架上,不同于傳統(tǒng)將常用數(shù)據(jù)集扁平組織的方式,智源指數(shù)根據(jù)人類語(yǔ)言考試大綱和當(dāng)前NLP研究現(xiàn)狀,以語(yǔ)言能力-任務(wù)-數(shù)據(jù)集的分層框架來(lái)選擇和組織數(shù)據(jù)集,涵蓋7種重要的語(yǔ)言能力、17個(gè)主流NLP任務(wù)和19個(gè)代表性數(shù)據(jù)集,全面均衡,避免“偏科選拔”。
在評(píng)分策略上,智源指數(shù)能更好展現(xiàn)模型不同維度的模型語(yǔ)言智能差異,依托層次性基準(zhǔn)框架,提供不同層次的模型性能評(píng)分,包括在數(shù)據(jù)集、任務(wù)和語(yǔ)言能力等,系統(tǒng)性大大加強(qiáng)。
全面系統(tǒng)、多維度的智源指數(shù)
為了促進(jìn)智源指數(shù)的共建共享,提升智源指數(shù)的易用性,本次活動(dòng)還同時(shí)發(fā)布了在線評(píng)測(cè)平臺(tái)和公開(kāi)排行榜,支持多種展示模式,包含綜合榜、精簡(jiǎn)榜和單數(shù)據(jù)集榜,方便用戶快速多角度了解模型和數(shù)據(jù)集特性及最新動(dòng)態(tài)。
發(fā)布僅是起點(diǎn),發(fā)展還需生態(tài)共建——劉知遠(yuǎn)副教授說(shuō):”基于單數(shù)據(jù)集的榜單能力,未來(lái)智源指數(shù)將定期吸納最新優(yōu)秀數(shù)據(jù)集。同時(shí),我們還將依托智源研究院、智源社區(qū)的力量,建立用戶面向數(shù)據(jù)集和評(píng)測(cè)結(jié)果的反饋、討論機(jī)制,構(gòu)建起中文高質(zhì)量數(shù)據(jù)集社區(qū),推動(dòng)中文自然語(yǔ)言處理的發(fā)展。”
孫茂松領(lǐng)銜,10余項(xiàng)豐碩成果
智源NLP研究方向探索與落地并重
除“智源指數(shù)”外,本次活動(dòng)中還進(jìn)行了“自然語(yǔ)言處理評(píng)測(cè)中的問(wèn)題與對(duì)策”“邁向通用連續(xù)型知識(shí)庫(kù)”“文本復(fù)述生成”等研究成果的階段性匯報(bào),內(nèi)容涵蓋預(yù)訓(xùn)練模型、知識(shí)計(jì)算、人機(jī)對(duì)話、文本生成等10余項(xiàng)重點(diǎn)NLP科研問(wèn)題。
自然語(yǔ)言處理(NLP)是智源重大學(xué)術(shù)研究方向之一,由清華大學(xué)孫茂松教授任該方向首席科學(xué)家,北京語(yǔ)言大學(xué)楊爾弘教授任項(xiàng)目經(jīng)理,學(xué)者包括李涓子、穗志方、劉洋、萬(wàn)小軍、何曉冬,青年科學(xué)家包括劉知遠(yuǎn)、韓先培、孫栩、嚴(yán)睿、張家俊、趙鑫、楊植麟、李紀(jì)為等。
自然語(yǔ)言處理方向智源學(xué)者
在智源研究院的支持下,自然語(yǔ)言處理重大研究方向?qū)W者團(tuán)隊(duì)積極探索自然語(yǔ)言處理新格局,通過(guò)大數(shù)據(jù)與富知識(shí)雙輪驅(qū)動(dòng),并通過(guò)與跨模態(tài)信息進(jìn)行交互,顯著提升以自然語(yǔ)言為核心的中文語(yǔ)義理解與生成能力。
智源學(xué)者探索的自然語(yǔ)言處理新范式
落地應(yīng)用方面,清華大學(xué)李涓子教授團(tuán)隊(duì)構(gòu)建的“多模態(tài)北京旅游知識(shí)圖譜”可以為路徑規(guī)劃和景點(diǎn)信息查詢等功能提供數(shù)據(jù)支持,為游客進(jìn)行旅游行程的規(guī)劃。
京東集團(tuán)副總裁、智源研究員何曉冬博士團(tuán)隊(duì)針對(duì)大規(guī)模與訓(xùn)練語(yǔ)言模型在長(zhǎng)文本理解任務(wù)上的不足,通過(guò)從局部視角到全局視角的重復(fù)閱讀方法(Read-over-Read,RoR),提出了一種基于多視角的機(jī)器閱讀理解模型,顯著地提高了針對(duì)長(zhǎng)文本的閱讀理解能力。
清華大學(xué)教授、智源研究員李涓子教授
多樣性文本復(fù)述方面,北京大學(xué)王選計(jì)算機(jī)研究所研究員、智源研究員萬(wàn)小軍團(tuán)隊(duì)的科研成果實(shí)現(xiàn)了兩個(gè)“業(yè)界首個(gè)”:成功構(gòu)建了業(yè)界首個(gè)面向?qū)W術(shù)文獻(xiàn)領(lǐng)域的文本復(fù)述數(shù)據(jù)集ParaSCI,提出了多樣化語(yǔ)句復(fù)述模型DivGAN,并提出業(yè)界首個(gè)篇章復(fù)述模型-CoRPG。該系列研究分別為文本復(fù)述領(lǐng)域提供了基礎(chǔ)數(shù)據(jù)資源、方法模型以及新的思路,從而推動(dòng)文本復(fù)述技術(shù)的應(yīng)用落地。
北京大學(xué)王選計(jì)算機(jī)研究所研究員、智源研究員萬(wàn)小軍
預(yù)訓(xùn)練大模型方面,為突破預(yù)訓(xùn)練語(yǔ)言模型(Pretrained Language Model, PLM)的高計(jì)算成本、高設(shè)備需求、難應(yīng)用適配等瓶頸問(wèn)題,清華大學(xué)副教授、智源青年科學(xué)家劉知遠(yuǎn)等提出了面向PLM的全流程高效計(jì)算框架,并基于此框架構(gòu)建了以中文為核心的超大規(guī)模預(yù)訓(xùn)練語(yǔ)言模型CPM-2,具有1980億參數(shù),覆蓋多語(yǔ)言、兼顧語(yǔ)言理解和語(yǔ)言生成的功能,并研制了BMInf、OpenPrompt等配套開(kāi)源工具。
趙鑫、韓先培、張家俊等7位青年科學(xué)家,也帶來(lái)關(guān)于預(yù)訓(xùn)練模型、多模態(tài)語(yǔ)言等方面的最新成果分享,帶來(lái)新一代學(xué)者的前沿思考。
青年科學(xué)家的最新成果分享
近百位學(xué)者,六大研究方向
智源模式致力于提升創(chuàng)新概率
絕大多數(shù)突破性科研成果都是偶然事件,智源研究院的重要使命就是就是提升突破性科研成果出現(xiàn)的概率。
作為代表性創(chuàng)新型研究院,智源研究院力求通過(guò)構(gòu)筑協(xié)作社區(qū),打造用于未來(lái)研究的計(jì)算和數(shù)據(jù)平臺(tái),更重要的是,集結(jié)最優(yōu)秀的同行,專注未來(lái)可能產(chǎn)生原始創(chuàng)新和長(zhǎng)期影響的領(lǐng)域等一些機(jī)制和努力,讓創(chuàng)新系統(tǒng)更高效運(yùn)行。
其中,人是一切的核心,優(yōu)秀人才是成功概率的最大保障,NLP研究方向僅是智源欣欣向榮學(xué)術(shù)生態(tài)的一個(gè)切面。
為了團(tuán)結(jié)大家做大事,智源研究院于2019年4月啟動(dòng)“智源學(xué)者計(jì)劃”,匯聚近百位一流人工智能學(xué)者,營(yíng)造國(guó)際級(jí)活躍、前沿、富有影響力的學(xué)術(shù)與創(chuàng)新生態(tài)。智源研究院堅(jiān)持鼓勵(lì)自由探索,堅(jiān)持求真務(wù)實(shí)、不論資排輩的人才發(fā)展模式,堅(jiān)持以“代表作”和“小同行評(píng)價(jià)”遴選人才。
活動(dòng)現(xiàn)場(chǎng),與會(huì)人員認(rèn)真聆聽(tīng)報(bào)告
目前,“智源學(xué)者計(jì)劃”已在人工智能的數(shù)理基礎(chǔ)、人工智能的認(rèn)知神經(jīng)基礎(chǔ)、機(jī)器學(xué)習(xí)、自然語(yǔ)言處理、智能信息檢索與挖掘、智能體系架構(gòu)與芯片幾大研究方向,支持學(xué)者進(jìn)行自由探索,提供碰撞思想、發(fā)現(xiàn)問(wèn)題、尋找協(xié)作伙伴的大平臺(tái)。
此外,智源研究院尤其注重把更多的年輕人送進(jìn)“名人堂”,推崇青年人才挑大梁、當(dāng)主角,發(fā)揚(yáng)青年學(xué)者的科學(xué)創(chuàng)新與開(kāi)拓魄力。“智源學(xué)者計(jì)劃”中,38 歲以下的青年科學(xué)家有40 位,張祥雨、袁洋、黃高三位學(xué)者在入選時(shí)都不足30歲。
目前,智源研究院堅(jiān)持“自由探索+目標(biāo)導(dǎo)向”并重,取得了“悟道”大模型等多項(xiàng)首發(fā)、原創(chuàng)級(jí)重大成果,已累計(jì)支持——發(fā)表國(guó)際人工智能頂會(huì)頂刊論文1470余篇,申請(qǐng)中國(guó)專利82件,獲得發(fā)明專利授權(quán)49件,登記軟件著作權(quán)24項(xiàng)。
智源研究院
未來(lái),智源研究院將通過(guò)持續(xù)的機(jī)制創(chuàng)新和服務(wù)保障,以“功成不必在我”的理念,建立起更有效的系統(tǒng)化研究環(huán)境,促進(jìn)智源學(xué)者們不斷成就新發(fā)明、新突破,共同創(chuàng)造經(jīng)得起時(shí)間檢驗(yàn)的人工智能技術(shù)創(chuàng)新和產(chǎn)業(yè)“代表作”。