更為嚴(yán)謹(jǐn)?shù)牟@得反復(fù)驗(yàn)證的百科全書式知識(shí)信息,才是大語言模型最為可靠的語料庫(kù)。
文| 張?zhí)锟?/strong>
在2024年全國(guó)兩會(huì)上,有委員提出,應(yīng)重視當(dāng)前國(guó)內(nèi)人工智能(AI)大模型產(chǎn)業(yè)發(fā)展中遇到的高質(zhì)量中文語料數(shù)據(jù)短缺問題。
截至2023年底,我國(guó)從事研發(fā)10億參數(shù)規(guī)模以上的大模型廠商以及高校院所超過200家,目前已有20多個(gè)大模型產(chǎn)品獲批向公眾開放提供服務(wù)。但在一定程度上,高質(zhì)量中文語料資源短缺限制了我國(guó)人工智能技術(shù)的發(fā)展和創(chuàng)新應(yīng)用。
ChatGPT訓(xùn)練中文語料占比低
AI大語言模型(LLM,簡(jiǎn)稱大模型),是由具有許多參數(shù)(通常數(shù)十億個(gè)或更多)的人工神經(jīng)網(wǎng)絡(luò)組成。其基礎(chǔ)是人類已經(jīng)產(chǎn)生的各類知識(shí)產(chǎn)品,包括各類公開發(fā)表的或在網(wǎng)上出現(xiàn)的文章、著作,以及各類網(wǎng)文、帖子等。
目前,大模型最大的語料庫(kù)來自于用戶生成內(nèi)容(UGC),但更為嚴(yán)謹(jǐn)?shù)牟@得反復(fù)驗(yàn)證的百科全書式知識(shí)信息,才是大模型最為可靠的語料庫(kù)。這些信息和知識(shí)就是各類公開發(fā)表物,包括在報(bào)紙、期刊文章和著作。
ChatGPT作為大模型能先領(lǐng)風(fēng)騷,主要依賴于英文語料庫(kù);如果中國(guó)的大模型AI發(fā)展要獲得突破,必然要依賴于中文。全球目前最有科學(xué)性和經(jīng)過驗(yàn)證的語料來自于學(xué)術(shù)資料庫(kù),包括期刊和文化、出版物,但遺憾的是,在這些載體上發(fā)表文章的語言絕大部分都是英語。
當(dāng)前,全球有三大出版物權(quán)威數(shù)據(jù)庫(kù),分別是科學(xué)引文數(shù)據(jù)庫(kù)(SCI)、社會(huì)科學(xué)引文數(shù)據(jù)庫(kù)(SSCI)和人文藝術(shù)引文索引數(shù)據(jù)庫(kù)(A&HCI)。一項(xiàng)研究顯示,從1900-2015年,收錄于SCI的有3000多萬篇文章,其中,92.5%的文章是以英語發(fā)表的;SSCI出版的400多萬篇文章中,93%的文章是用英語發(fā)表。
這些情況表明,由于英文語料庫(kù)的占比最大,因而依賴英語訓(xùn)練的大模型也更具有可信性和權(quán)威性。因此,目前世界上一流的大模型都是靠英文語料庫(kù)來訓(xùn)練和生成大模型。以ChatGPT為例,訓(xùn)練數(shù)據(jù)中,中文語料比重不足千分之一,而英文語料占比超過92.6%。
補(bǔ)齊優(yōu)質(zhì)中文語料數(shù)據(jù)短板
這對(duì)中國(guó)的人工智能發(fā)展顯然是一個(gè)挑戰(zhàn)。中國(guó)要研發(fā)更多更可靠和更實(shí)用的大模型AI,必須依賴中文語料,或建立中文語料庫(kù)。然而,中國(guó)目前欠缺系統(tǒng)化、優(yōu)質(zhì)的中文語料,中文語料的不足會(huì)極大地限制中國(guó)AI的發(fā)展。
但值得注意的是,這并非沒有解決辦法。比如,在中國(guó)公開出版的中文報(bào)紙、期刊等或許可以成為一種優(yōu)勢(shì)。公開資料就顯示,盡管中國(guó)的報(bào)紙出版有波動(dòng),但2019年中國(guó)報(bào)紙出版種類為1851種。
中文社會(huì)科學(xué)引文索引(cssCI)和中國(guó)科學(xué)引文數(shù)據(jù)庫(kù)(CSCD)是國(guó)內(nèi)具有較高知名度的兩大學(xué)術(shù)引文索引數(shù)據(jù)庫(kù)。CSSCI(2021-2022)共收錄613種來源期刊、229種擴(kuò)展版來源期刊及2種報(bào)紙理論版。CSCD(2021-2022)共收錄1262種來源期刊,包括926種核心庫(kù)來源期刊和336種擴(kuò)展庫(kù)來源期刊,其中大多數(shù)都為中文期刊。
此外,中國(guó)期刊全文數(shù)據(jù)庫(kù)的中文語料更豐富,收錄國(guó)內(nèi)各類期刊7400種。中國(guó)國(guó)家圖書館是亞洲最大圖書館,藏書3700萬冊(cè),主要是中文圖書。
中國(guó)國(guó)內(nèi)還有大量的各類網(wǎng)站。截至2023年6月,中國(guó)網(wǎng)站數(shù)量有383萬個(gè),國(guó)內(nèi)市場(chǎng)上監(jiān)測(cè)到活躍的App數(shù)量有260萬款。這些載體上不乏大量的真知灼見。
這些情況表明,中國(guó)國(guó)內(nèi)的中文語料極為豐富,是研發(fā)中文大模型AI的堅(jiān)實(shí)基礎(chǔ)。只不過,現(xiàn)在中國(guó)國(guó)內(nèi)的中文語料數(shù)據(jù)挖掘不足,有很多公開出版物還無法上網(wǎng),或沒有網(wǎng)絡(luò)版。
此外,一些中文語料因?yàn)槟甏眠h(yuǎn)等因素也難以在市場(chǎng)上自由流通,因而導(dǎo)致目前中文優(yōu)質(zhì)數(shù)據(jù)稀缺。
就此來看,不妨如有的委員所建議的,從建立數(shù)據(jù)合規(guī)監(jiān)管機(jī)制、加強(qiáng)數(shù)據(jù)安全和知識(shí)產(chǎn)權(quán)的保護(hù)、加快高質(zhì)量中文數(shù)據(jù)集的開發(fā)與利用層面,補(bǔ)齊優(yōu)質(zhì)中文語料數(shù)據(jù)短板。
建設(shè)多元化和多模式的語料庫(kù)
更具體來說,加快中文語料的開發(fā),首先在于提高語料庫(kù)的質(zhì)量,如此才能進(jìn)一步共享和利用。
中國(guó)目前的中文語料庫(kù)國(guó)家標(biāo)準(zhǔn)有《信息處理用現(xiàn)代漢語分詞規(guī)范》《信息處理用現(xiàn)代漢語詞類標(biāo)記規(guī)范》等,但這些只是作為推薦性標(biāo)準(zhǔn),行業(yè)采用率并不高。由此也形成了語料庫(kù)之間的異構(gòu)性,資源之間難以相互轉(zhuǎn)換,同時(shí)導(dǎo)致重復(fù)建設(shè)。
因此,不妨根據(jù)國(guó)際標(biāo)準(zhǔn)、中文標(biāo)準(zhǔn)和行業(yè)認(rèn)同,建立統(tǒng)一的語料庫(kù)編碼規(guī)范標(biāo)準(zhǔn)?,F(xiàn)在,研究人員認(rèn)為,元數(shù)據(jù)規(guī)范化是中文語料庫(kù)標(biāo)注規(guī)范中最有條件、最容易實(shí)行的規(guī)范。所以,不妨根據(jù)上述規(guī)范,打造元數(shù)據(jù)規(guī)范化的中文語料庫(kù)。
其次,要注重建設(shè)多元化和多模式的中文語料庫(kù)。現(xiàn)實(shí)情況是,中文語料中的文本語料庫(kù)占大多數(shù),口語、方言的語料庫(kù)較少,難以形成多模態(tài)語料庫(kù),也無法給AI深度學(xué)習(xí)提供豐富的中文語料。此外,中文語料庫(kù)的共享難度,成為阻礙AI發(fā)展的瓶頸。
對(duì)此,一些研究人員提出應(yīng)當(dāng)建立Web檢索,由此推動(dòng)語料庫(kù)共享進(jìn)程。也有人建議搭建由國(guó)家、省市圖書館和各高校圖書館主導(dǎo)的中文語料庫(kù)資源共享平臺(tái)。
目前,語料庫(kù)的Web檢索已成為語言學(xué)研究領(lǐng)域的主要共享方式,但是對(duì)于語言信息處理研究和AI使用,也還存在一定難度,往往需要語料庫(kù)全文或子庫(kù)。因此,需要在Web檢索的基礎(chǔ)上,建立更為廣泛和容易使用的中文語料庫(kù)。
當(dāng)然,所有建立中文語料庫(kù)的方式都需要資金、人力和場(chǎng)地,因此需要國(guó)家預(yù)算投入更多的資金。而保護(hù)中文語料原作者的知識(shí)產(chǎn)權(quán)自然也需要納入相關(guān)的設(shè)想方案中。
如此,才能推動(dòng)中國(guó)大模型產(chǎn)業(yè)快速和高質(zhì)量發(fā)展。
撰稿 / 張?zhí)锟保▽谧髡撸?/p>
編輯 / 馬小龍
校對(duì) / 陳荻雁