12月30日,北京智源人工智能研究院(以下簡稱“智源研究院”)自然語言處理(簡稱NLP)重大研究方向前沿技術(shù)開放日活動成功舉辦。24位NLP學(xué)術(shù)明星,20多項前沿報告、10余項最新研究成果“組團(tuán)”亮相。活動中重磅發(fā)布了大模型評測的“命題”新方案——智源指數(shù),更有OpenHowNet前沿技術(shù)研討。新老學(xué)者群星匯聚,研究探討多點開花,現(xiàn)場學(xué)術(shù)氣氛濃厚。
智源指數(shù)CUGE發(fā)布儀式
蒞臨現(xiàn)場指導(dǎo)及進(jìn)行成果報告與前沿分享的“學(xué)術(shù)大咖”包括戴瓊海院士、李宇明教授、孫茂松教授、楊爾弘教授、穗志方教授、李涓子教授、劉洋教授、萬小軍教授、劉知遠(yuǎn)副教授等。
清華大學(xué)教授、智源研究院自然語言處理(NLP)方向首席科學(xué)家孫茂松
活動現(xiàn)場大咖云集
業(yè)界學(xué)者高度肯定了智源學(xué)者在NLP方向所取得的成果。
北京語言大學(xué)教授、國家語言文字工作委員會原副主任李宇明教授在致辭中指出:“我特別贊賞智源(NLP重大研究方向)的開放態(tài)度,匯集眾智,推進(jìn)中文信息處理工作前進(jìn),促進(jìn)中文在人類社會中發(fā)揮更大的作用。”
北京語言大學(xué)李宇明教授
智源研究院常務(wù)副院長曹崗則表示:一起協(xié)作、共同貢獻(xiàn),人工智能領(lǐng)域各單位與學(xué)者們的開放心態(tài)與探索精神,是科研發(fā)展了不起的源動力。未來,希望攜手大家,共創(chuàng)更高價值。
智源研究院常務(wù)副院長曹崗
發(fā)布智源指數(shù)CUGE
推出大模型評測“命題”新方案
人工智能大模型時代,評測基準(zhǔn)成為大模型發(fā)展的風(fēng)向標(biāo)。從扁平到全面系統(tǒng),從簡化到多重維度,智源指數(shù)CUGE旨在嘗試為大模型評測設(shè)計一張全面評估綜合能力的新考卷。
清華大學(xué)副教授、智源青年科學(xué)家、
智源指數(shù)建設(shè)骨干成員劉知遠(yuǎn)
清華大學(xué)教授、中國人工智能學(xué)會理事長戴瓊海院士對智源指數(shù)在創(chuàng)新方向上的嘗試給予了肯定,他表示:“祝賀孫茂松教授帶領(lǐng)智源NLP學(xué)者共同建立了機器中文語言能力評測基準(zhǔn)‘智源指數(shù)’,這對中文信息處理乃至我國人工智能的發(fā)展,都具有重要的里程碑意義。”
中國工程院院士、清華大學(xué)教授、中國人工智能學(xué)會理事長戴瓊海院士
在基準(zhǔn)框架上,不同于傳統(tǒng)將常用數(shù)據(jù)集扁平組織的方式,智源指數(shù)根據(jù)人類語言考試大綱和當(dāng)前NLP研究現(xiàn)狀,以語言能力-任務(wù)-數(shù)據(jù)集的分層框架來選擇和組織數(shù)據(jù)集,涵蓋7種重要的語言能力、17個主流NLP任務(wù)和19個代表性數(shù)據(jù)集,全面均衡,避免“偏科選拔”。
在評分策略上,智源指數(shù)能更好展現(xiàn)模型不同維度的模型語言智能差異,依托層次性基準(zhǔn)框架,提供不同層次的模型性能評分,包括在數(shù)據(jù)集、任務(wù)和語言能力等,系統(tǒng)性大大加強。
全面系統(tǒng)、多維度的智源指數(shù)
為了促進(jìn)智源指數(shù)的共建共享,提升智源指數(shù)的易用性,本次活動還同時發(fā)布了在線評測平臺和公開排行榜,支持多種展示模式,包含綜合榜、精簡榜和單數(shù)據(jù)集榜,方便用戶快速多角度了解模型和數(shù)據(jù)集特性及最新動態(tài)。
發(fā)布僅是起點,發(fā)展還需生態(tài)共建——劉知遠(yuǎn)副教授說:”基于單數(shù)據(jù)集的榜單能力,未來智源指數(shù)將定期吸納最新優(yōu)秀數(shù)據(jù)集。同時,我們還將依托智源研究院、智源社區(qū)的力量,建立用戶面向數(shù)據(jù)集和評測結(jié)果的反饋、討論機制,構(gòu)建起中文高質(zhì)量數(shù)據(jù)集社區(qū),推動中文自然語言處理的發(fā)展。”
孫茂松領(lǐng)銜,10余項豐碩成果
智源NLP研究方向探索與落地并重
除“智源指數(shù)”外,本次活動中還進(jìn)行了“自然語言處理評測中的問題與對策”“邁向通用連續(xù)型知識庫”“文本復(fù)述生成”等研究成果的階段性匯報,內(nèi)容涵蓋預(yù)訓(xùn)練模型、知識計算、人機對話、文本生成等10余項重點NLP科研問題。
自然語言處理(NLP)是智源重大學(xué)術(shù)研究方向之一,由清華大學(xué)孫茂松教授任該方向首席科學(xué)家,北京語言大學(xué)楊爾弘教授任項目經(jīng)理,學(xué)者包括李涓子、穗志方、劉洋、萬小軍、何曉冬,青年科學(xué)家包括劉知遠(yuǎn)、韓先培、孫栩、嚴(yán)睿、張家俊、趙鑫、楊植麟、李紀(jì)為等。
自然語言處理方向智源學(xué)者
在智源研究院的支持下,自然語言處理重大研究方向?qū)W者團(tuán)隊積極探索自然語言處理新格局,通過大數(shù)據(jù)與富知識雙輪驅(qū)動,并通過與跨模態(tài)信息進(jìn)行交互,顯著提升以自然語言為核心的中文語義理解與生成能力。
智源學(xué)者探索的自然語言處理新范式
落地應(yīng)用方面,清華大學(xué)李涓子教授團(tuán)隊構(gòu)建的“多模態(tài)北京旅游知識圖譜”可以為路徑規(guī)劃和景點信息查詢等功能提供數(shù)據(jù)支持,為游客進(jìn)行旅游行程的規(guī)劃。
京東集團(tuán)副總裁、智源研究員何曉冬博士團(tuán)隊針對大規(guī)模與訓(xùn)練語言模型在長文本理解任務(wù)上的不足,通過從局部視角到全局視角的重復(fù)閱讀方法(Read-over-Read,RoR),提出了一種基于多視角的機器閱讀理解模型,顯著地提高了針對長文本的閱讀理解能力。
清華大學(xué)教授、智源研究員李涓子教授
多樣性文本復(fù)述方面,北京大學(xué)王選計算機研究所研究員、智源研究員萬小軍團(tuán)隊的科研成果實現(xiàn)了兩個“業(yè)界首個”:成功構(gòu)建了業(yè)界首個面向?qū)W術(shù)文獻(xiàn)領(lǐng)域的文本復(fù)述數(shù)據(jù)集ParaSCI,提出了多樣化語句復(fù)述模型DivGAN,并提出業(yè)界首個篇章復(fù)述模型-CoRPG。該系列研究分別為文本復(fù)述領(lǐng)域提供了基礎(chǔ)數(shù)據(jù)資源、方法模型以及新的思路,從而推動文本復(fù)述技術(shù)的應(yīng)用落地。
北京大學(xué)王選計算機研究所研究員、智源研究員萬小軍
預(yù)訓(xùn)練大模型方面,為突破預(yù)訓(xùn)練語言模型(Pretrained Language Model, PLM)的高計算成本、高設(shè)備需求、難應(yīng)用適配等瓶頸問題,清華大學(xué)副教授、智源青年科學(xué)家劉知遠(yuǎn)等提出了面向PLM的全流程高效計算框架,并基于此框架構(gòu)建了以中文為核心的超大規(guī)模預(yù)訓(xùn)練語言模型CPM-2,具有1980億參數(shù),覆蓋多語言、兼顧語言理解和語言生成的功能,并研制了BMInf、OpenPrompt等配套開源工具。
趙鑫、韓先培、張家俊等7位青年科學(xué)家,也帶來關(guān)于預(yù)訓(xùn)練模型、多模態(tài)語言等方面的最新成果分享,帶來新一代學(xué)者的前沿思考。
青年科學(xué)家的最新成果分享
近百位學(xué)者,六大研究方向
智源模式致力于提升創(chuàng)新概率
絕大多數(shù)突破性科研成果都是偶然事件,智源研究院的重要使命就是就是提升突破性科研成果出現(xiàn)的概率。
作為代表性創(chuàng)新型研究院,智源研究院力求通過構(gòu)筑協(xié)作社區(qū),打造用于未來研究的計算和數(shù)據(jù)平臺,更重要的是,集結(jié)最優(yōu)秀的同行,專注未來可能產(chǎn)生原始創(chuàng)新和長期影響的領(lǐng)域等一些機制和努力,讓創(chuàng)新系統(tǒng)更高效運行。
其中,人是一切的核心,優(yōu)秀人才是成功概率的最大保障,NLP研究方向僅是智源欣欣向榮學(xué)術(shù)生態(tài)的一個切面。
為了團(tuán)結(jié)大家做大事,智源研究院于2019年4月啟動“智源學(xué)者計劃”,匯聚近百位一流人工智能學(xué)者,營造國際級活躍、前沿、富有影響力的學(xué)術(shù)與創(chuàng)新生態(tài)。智源研究院堅持鼓勵自由探索,堅持求真務(wù)實、不論資排輩的人才發(fā)展模式,堅持以“代表作”和“小同行評價”遴選人才。
活動現(xiàn)場,與會人員認(rèn)真聆聽報告
目前,“智源學(xué)者計劃”已在人工智能的數(shù)理基礎(chǔ)、人工智能的認(rèn)知神經(jīng)基礎(chǔ)、機器學(xué)習(xí)、自然語言處理、智能信息檢索與挖掘、智能體系架構(gòu)與芯片幾大研究方向,支持學(xué)者進(jìn)行自由探索,提供碰撞思想、發(fā)現(xiàn)問題、尋找協(xié)作伙伴的大平臺。
此外,智源研究院尤其注重把更多的年輕人送進(jìn)“名人堂”,推崇青年人才挑大梁、當(dāng)主角,發(fā)揚青年學(xué)者的科學(xué)創(chuàng)新與開拓魄力。“智源學(xué)者計劃”中,38 歲以下的青年科學(xué)家有40 位,張祥雨、袁洋、黃高三位學(xué)者在入選時都不足30歲。
目前,智源研究院堅持“自由探索+目標(biāo)導(dǎo)向”并重,取得了“悟道”大模型等多項首發(fā)、原創(chuàng)級重大成果,已累計支持——發(fā)表國際人工智能頂會頂刊論文1470余篇,申請中國專利82件,獲得發(fā)明專利授權(quán)49件,登記軟件著作權(quán)24項。
智源研究院
未來,智源研究院將通過持續(xù)的機制創(chuàng)新和服務(wù)保障,以“功成不必在我”的理念,建立起更有效的系統(tǒng)化研究環(huán)境,促進(jìn)智源學(xué)者們不斷成就新發(fā)明、新突破,共同創(chuàng)造經(jīng)得起時間檢驗的人工智能技術(shù)創(chuàng)新和產(chǎn)業(yè)“代表作”。