日日操夜夜添-日日操影院-日日草夜夜操-日日干干-精品一区二区三区波多野结衣-精品一区二区三区高清免费不卡

公告:魔扣目錄網(wǎng)為廣大站長(zhǎng)提供免費(fèi)收錄網(wǎng)站服務(wù),提交前請(qǐng)做好本站友鏈:【 網(wǎng)站目錄:http://www.ylptlb.cn 】, 免友鏈快審服務(wù)(50元/站),

點(diǎn)擊這里在線咨詢客服
新站提交
  • 網(wǎng)站:52000
  • 待審:37
  • 小程序:12
  • 文章:1037587
  • 會(huì)員:756

更為嚴(yán)謹(jǐn)?shù)牟@得反復(fù)驗(yàn)證的百科全書式知識(shí)信息,才是大語言模型最為可靠的語料庫(kù)。

| 張?zhí)锟?/strong>

在2024年全國(guó)兩會(huì)上,有委員提出,應(yīng)重視當(dāng)前國(guó)內(nèi)人工智能(AI)大模型產(chǎn)業(yè)發(fā)展中遇到的高質(zhì)量中文語料數(shù)據(jù)短缺問題。

截至2023年底,我國(guó)從事研發(fā)10億參數(shù)規(guī)模以上的大模型廠商以及高校院所超過200家,目前已有20多個(gè)大模型產(chǎn)品獲批向公眾開放提供服務(wù)。但在一定程度上,高質(zhì)量中文語料資源短缺限制了我國(guó)人工智能技術(shù)的發(fā)展和創(chuàng)新應(yīng)用。

ChatGPT訓(xùn)練中文語料占比低

AI大語言模型(LLM,簡(jiǎn)稱大模型),是由具有許多參數(shù)(通常數(shù)十億個(gè)或更多)的人工神經(jīng)網(wǎng)絡(luò)組成。其基礎(chǔ)是人類已經(jīng)產(chǎn)生的各類知識(shí)產(chǎn)品,包括各類公開發(fā)表的或在網(wǎng)上出現(xiàn)的文章、著作,以及各類網(wǎng)文、帖子等。

目前,大模型最大的語料庫(kù)來自于用戶生成內(nèi)容(UGC),但更為嚴(yán)謹(jǐn)?shù)牟@得反復(fù)驗(yàn)證的百科全書式知識(shí)信息,才是大模型最為可靠的語料庫(kù)。這些信息和知識(shí)就是各類公開發(fā)表物,包括在報(bào)紙、期刊文章和著作。

ChatGPT作為大模型能先領(lǐng)風(fēng)騷,主要依賴于英文語料庫(kù);如果中國(guó)的大模型AI發(fā)展要獲得突破,必然要依賴于中文。全球目前最有科學(xué)性和經(jīng)過驗(yàn)證的語料來自于學(xué)術(shù)資料庫(kù),包括期刊和文化、出版物,但遺憾的是,在這些載體上發(fā)表文章的語言絕大部分都是英語。

當(dāng)前,全球有三大出版物權(quán)威數(shù)據(jù)庫(kù),分別是科學(xué)引文數(shù)據(jù)庫(kù)(SCI)、社會(huì)科學(xué)引文數(shù)據(jù)庫(kù)(SSCI)和人文藝術(shù)引文索引數(shù)據(jù)庫(kù)(A&HCI)。一項(xiàng)研究顯示,從1900-2015年,收錄于SCI的有3000多萬篇文章,其中,92.5%的文章是以英語發(fā)表的;SSCI出版的400多萬篇文章中,93%的文章是用英語發(fā)表。

這些情況表明,由于英文語料庫(kù)的占比最大,因而依賴英語訓(xùn)練的大模型也更具有可信性和權(quán)威性。因此,目前世界上一流的大模型都是靠英文語料庫(kù)來訓(xùn)練和生成大模型。以ChatGPT為例,訓(xùn)練數(shù)據(jù)中,中文語料比重不足千分之一,而英文語料占比超過92.6%。

補(bǔ)齊優(yōu)質(zhì)中文語料數(shù)據(jù)短板

這對(duì)中國(guó)的人工智能發(fā)展顯然是一個(gè)挑戰(zhàn)。中國(guó)要研發(fā)更多更可靠和更實(shí)用的大模型AI,必須依賴中文語料,或建立中文語料庫(kù)。然而,中國(guó)目前欠缺系統(tǒng)化、優(yōu)質(zhì)的中文語料,中文語料的不足會(huì)極大地限制中國(guó)AI的發(fā)展。

但值得注意的是,這并非沒有解決辦法。比如,在中國(guó)公開出版的中文報(bào)紙、期刊等或許可以成為一種優(yōu)勢(shì)。公開資料就顯示,盡管中國(guó)的報(bào)紙出版有波動(dòng),但2019年中國(guó)報(bào)紙出版種類為1851種。

中文社會(huì)科學(xué)引文索引(cssCI)和中國(guó)科學(xué)引文數(shù)據(jù)庫(kù)(CSCD)是國(guó)內(nèi)具有較高知名度的兩大學(xué)術(shù)引文索引數(shù)據(jù)庫(kù)。CSSCI(2021-2022)共收錄613種來源期刊、229種擴(kuò)展版來源期刊及2種報(bào)紙理論版。CSCD(2021-2022)共收錄1262種來源期刊,包括926種核心庫(kù)來源期刊和336種擴(kuò)展庫(kù)來源期刊,其中大多數(shù)都為中文期刊。

此外,中國(guó)期刊全文數(shù)據(jù)庫(kù)的中文語料更豐富,收錄國(guó)內(nèi)各類期刊7400種。中國(guó)國(guó)家圖書館是亞洲最大圖書館,藏書3700萬冊(cè),主要是中文圖書。

中國(guó)國(guó)內(nèi)還有大量的各類網(wǎng)站。截至2023年6月,中國(guó)網(wǎng)站數(shù)量有383萬個(gè),國(guó)內(nèi)市場(chǎng)上監(jiān)測(cè)到活躍的App數(shù)量有260萬款。這些載體上不乏大量的真知灼見。

這些情況表明,中國(guó)國(guó)內(nèi)的中文語料極為豐富,是研發(fā)中文大模型AI的堅(jiān)實(shí)基礎(chǔ)。只不過,現(xiàn)在中國(guó)國(guó)內(nèi)的中文語料數(shù)據(jù)挖掘不足,有很多公開出版物還無法上網(wǎng),或沒有網(wǎng)絡(luò)版。

此外,一些中文語料因?yàn)槟甏眠h(yuǎn)等因素也難以在市場(chǎng)上自由流通,因而導(dǎo)致目前中文優(yōu)質(zhì)數(shù)據(jù)稀缺。

就此來看,不妨如有的委員所建議的,從建立數(shù)據(jù)合規(guī)監(jiān)管機(jī)制、加強(qiáng)數(shù)據(jù)安全和知識(shí)產(chǎn)權(quán)的保護(hù)、加快高質(zhì)量中文數(shù)據(jù)集的開發(fā)與利用層面,補(bǔ)齊優(yōu)質(zhì)中文語料數(shù)據(jù)短板。

建設(shè)多元化和多模式的語料庫(kù)

更具體來說,加快中文語料的開發(fā),首先在于提高語料庫(kù)的質(zhì)量,如此才能進(jìn)一步共享和利用。

中國(guó)目前的中文語料庫(kù)國(guó)家標(biāo)準(zhǔn)有《信息處理用現(xiàn)代漢語分詞規(guī)范》《信息處理用現(xiàn)代漢語詞類標(biāo)記規(guī)范》等,但這些只是作為推薦性標(biāo)準(zhǔn),行業(yè)采用率并不高。由此也形成了語料庫(kù)之間的異構(gòu)性,資源之間難以相互轉(zhuǎn)換,同時(shí)導(dǎo)致重復(fù)建設(shè)。

因此,不妨根據(jù)國(guó)際標(biāo)準(zhǔn)、中文標(biāo)準(zhǔn)和行業(yè)認(rèn)同,建立統(tǒng)一的語料庫(kù)編碼規(guī)范標(biāo)準(zhǔn)?,F(xiàn)在,研究人員認(rèn)為,元數(shù)據(jù)規(guī)范化是中文語料庫(kù)標(biāo)注規(guī)范中最有條件、最容易實(shí)行的規(guī)范。所以,不妨根據(jù)上述規(guī)范,打造元數(shù)據(jù)規(guī)范化的中文語料庫(kù)。

其次,要注重建設(shè)多元化和多模式的中文語料庫(kù)。現(xiàn)實(shí)情況是,中文語料中的文本語料庫(kù)占大多數(shù),口語、方言的語料庫(kù)較少,難以形成多模態(tài)語料庫(kù),也無法給AI深度學(xué)習(xí)提供豐富的中文語料。此外,中文語料庫(kù)的共享難度,成為阻礙AI發(fā)展的瓶頸。

對(duì)此,一些研究人員提出應(yīng)當(dāng)建立Web檢索,由此推動(dòng)語料庫(kù)共享進(jìn)程。也有人建議搭建由國(guó)家、省市圖書館和各高校圖書館主導(dǎo)的中文語料庫(kù)資源共享平臺(tái)。

目前,語料庫(kù)的Web檢索已成為語言學(xué)研究領(lǐng)域的主要共享方式,但是對(duì)于語言信息處理研究和AI使用,也還存在一定難度,往往需要語料庫(kù)全文或子庫(kù)。因此,需要在Web檢索的基礎(chǔ)上,建立更為廣泛和容易使用的中文語料庫(kù)。

當(dāng)然,所有建立中文語料庫(kù)的方式都需要資金、人力和場(chǎng)地,因此需要國(guó)家預(yù)算投入更多的資金。而保護(hù)中文語料原作者的知識(shí)產(chǎn)權(quán)自然也需要納入相關(guān)的設(shè)想方案中。

如此,才能推動(dòng)中國(guó)大模型產(chǎn)業(yè)快速和高質(zhì)量發(fā)展。

撰稿 / 張?zhí)锟保▽谧髡撸?/p>

編輯 / 馬小龍

校對(duì) / 陳荻雁

分享到:
標(biāo)簽:大模型
用戶無頭像

網(wǎng)友整理

注冊(cè)時(shí)間:

網(wǎng)站:5 個(gè)   小程序:0 個(gè)  文章:12 篇

  • 52000

    網(wǎng)站

  • 12

    小程序

  • 1037587

    文章

  • 756

    會(huì)員

趕快注冊(cè)賬號(hào),推廣您的網(wǎng)站吧!
最新入駐小程序

數(shù)獨(dú)大挑戰(zhàn)2018-06-03

數(shù)獨(dú)一種數(shù)學(xué)游戲,玩家需要根據(jù)9

答題星2018-06-03

您可以通過答題星輕松地創(chuàng)建試卷

全階人生考試2018-06-03

各種考試題,題庫(kù),初中,高中,大學(xué)四六

運(yùn)動(dòng)步數(shù)有氧達(dá)人2018-06-03

記錄運(yùn)動(dòng)步數(shù),積累氧氣值。還可偷

每日養(yǎng)生app2018-06-03

每日養(yǎng)生,天天健康

體育訓(xùn)練成績(jī)?cè)u(píng)定2018-06-03

通用課目體育訓(xùn)練成績(jī)?cè)u(píng)定