日日操夜夜添-日日操影院-日日草夜夜操-日日干干-精品一区二区三区波多野结衣-精品一区二区三区高清免费不卡

公告：魔扣目錄網(wǎng)為廣大站長(zhǎng)提供免費(fèi)收錄網(wǎng)站服務(wù)，提交前請(qǐng)做好本站友鏈：【網(wǎng)站目錄：http://www.ylptlb.cn 】，免友鏈快審服務(wù)（50元/站），

點(diǎn)擊這里在線咨詢客服

網(wǎng)站：52000
待審：37
小程序：12
文章：1037587
會(huì)員：756

首頁(yè) > 新聞資訊 > IT業(yè)界 >正文

破解大模型中文語料不足問題，并非毫無辦法

發(fā)布時(shí)間：2024-04-18 18:34:35 作者：網(wǎng)友整理

更為嚴(yán)謹(jǐn)?shù)牟@得反復(fù)驗(yàn)證的百科全書式知識(shí)信息，才是大語言模型最為可靠的語料庫(kù)。

文| 張?zhí)锟?/strong>

在2024年全國(guó)兩會(huì)上，有委員提出，應(yīng)重視當(dāng)前國(guó)內(nèi)人工智能（AI）大模型產(chǎn)業(yè)發(fā)展中遇到的高質(zhì)量中文語料數(shù)據(jù)短缺問題。

截至2023年底，我國(guó)從事研發(fā)10億參數(shù)規(guī)模以上的大模型廠商以及高校院所超過200家，目前已有20多個(gè)大模型產(chǎn)品獲批向公眾開放提供服務(wù)。但在一定程度上，高質(zhì)量中文語料資源短缺限制了我國(guó)人工智能技術(shù)的發(fā)展和創(chuàng)新應(yīng)用。

ChatGPT訓(xùn)練中文語料占比低

AI大語言模型（LLM，簡(jiǎn)稱大模型），是由具有許多參數(shù)（通常數(shù)十億個(gè)或更多）的人工神經(jīng)網(wǎng)絡(luò)組成。其基礎(chǔ)是人類已經(jīng)產(chǎn)生的各類知識(shí)產(chǎn)品，包括各類公開發(fā)表的或在網(wǎng)上出現(xiàn)的文章、著作，以及各類網(wǎng)文、帖子等。

目前，大模型最大的語料庫(kù)來自于用戶生成內(nèi)容（UGC），但更為嚴(yán)謹(jǐn)?shù)牟@得反復(fù)驗(yàn)證的百科全書式知識(shí)信息，才是大模型最為可靠的語料庫(kù)。這些信息和知識(shí)就是各類公開發(fā)表物，包括在報(bào)紙、期刊文章和著作。

ChatGPT作為大模型能先領(lǐng)風(fēng)騷，主要依賴于英文語料庫(kù)；如果中國(guó)的大模型AI發(fā)展要獲得突破，必然要依賴于中文。全球目前最有科學(xué)性和經(jīng)過驗(yàn)證的語料來自于學(xué)術(shù)資料庫(kù)，包括期刊和文化、出版物，但遺憾的是，在這些載體上發(fā)表文章的語言絕大部分都是英語。

當(dāng)前，全球有三大出版物權(quán)威數(shù)據(jù)庫(kù)，分別是科學(xué)引文數(shù)據(jù)庫(kù)（SCI）、社會(huì)科學(xué)引文數(shù)據(jù)庫(kù)（SSCI）和人文藝術(shù)引文索引數(shù)據(jù)庫(kù)（A&HCI）。一項(xiàng)研究顯示，從1900-2015年，收錄于SCI的有3000多萬篇文章，其中，92.5%的文章是以英語發(fā)表的；SSCI出版的400多萬篇文章中，93%的文章是用英語發(fā)表。

這些情況表明，由于英文語料庫(kù)的占比最大，因而依賴英語訓(xùn)練的大模型也更具有可信性和權(quán)威性。因此，目前世界上一流的大模型都是靠英文語料庫(kù)來訓(xùn)練和生成大模型。以ChatGPT為例，訓(xùn)練數(shù)據(jù)中，中文語料比重不足千分之一，而英文語料占比超過92.6%。

補(bǔ)齊優(yōu)質(zhì)中文語料數(shù)據(jù)短板

這對(duì)中國(guó)的人工智能發(fā)展顯然是一個(gè)挑戰(zhàn)。中國(guó)要研發(fā)更多更可靠和更實(shí)用的大模型AI，必須依賴中文語料，或建立中文語料庫(kù)。然而，中國(guó)目前欠缺系統(tǒng)化、優(yōu)質(zhì)的中文語料，中文語料的不足會(huì)極大地限制中國(guó)AI的發(fā)展。

但值得注意的是，這并非沒有解決辦法。比如，在中國(guó)公開出版的中文報(bào)紙、期刊等或許可以成為一種優(yōu)勢(shì)。公開資料就顯示，盡管中國(guó)的報(bào)紙出版有波動(dòng)，但2019年中國(guó)報(bào)紙出版種類為1851種。

中文社會(huì)科學(xué)引文索引（cssCI）和中國(guó)科學(xué)引文數(shù)據(jù)庫(kù)（CSCD）是國(guó)內(nèi)具有較高知名度的兩大學(xué)術(shù)引文索引數(shù)據(jù)庫(kù)。CSSCI（2021-2022）共收錄613種來源期刊、229種擴(kuò)展版來源期刊及2種報(bào)紙理論版。CSCD（2021-2022）共收錄1262種來源期刊，包括926種核心庫(kù)來源期刊和336種擴(kuò)展庫(kù)來源期刊，其中大多數(shù)都為中文期刊。

此外，中國(guó)期刊全文數(shù)據(jù)庫(kù)的中文語料更豐富，收錄國(guó)內(nèi)各類期刊7400種。中國(guó)國(guó)家圖書館是亞洲最大圖書館，藏書3700萬冊(cè)，主要是中文圖書。

中國(guó)國(guó)內(nèi)還有大量的各類網(wǎng)站。截至2023年6月，中國(guó)網(wǎng)站數(shù)量有383萬個(gè)，國(guó)內(nèi)市場(chǎng)上監(jiān)測(cè)到活躍的App數(shù)量有260萬款。這些載體上不乏大量的真知灼見。

這些情況表明，中國(guó)國(guó)內(nèi)的中文語料極為豐富，是研發(fā)中文大模型AI的堅(jiān)實(shí)基礎(chǔ)。只不過，現(xiàn)在中國(guó)國(guó)內(nèi)的中文語料數(shù)據(jù)挖掘不足，有很多公開出版物還無法上網(wǎng)，或沒有網(wǎng)絡(luò)版。

此外，一些中文語料因?yàn)槟甏眠h(yuǎn)等因素也難以在市場(chǎng)上自由流通，因而導(dǎo)致目前中文優(yōu)質(zhì)數(shù)據(jù)稀缺。

就此來看，不妨如有的委員所建議的，從建立數(shù)據(jù)合規(guī)監(jiān)管機(jī)制、加強(qiáng)數(shù)據(jù)安全和知識(shí)產(chǎn)權(quán)的保護(hù)、加快高質(zhì)量中文數(shù)據(jù)集的開發(fā)與利用層面，補(bǔ)齊優(yōu)質(zhì)中文語料數(shù)據(jù)短板。

建設(shè)多元化和多模式的語料庫(kù)

更具體來說，加快中文語料的開發(fā)，首先在于提高語料庫(kù)的質(zhì)量，如此才能進(jìn)一步共享和利用。

中國(guó)目前的中文語料庫(kù)國(guó)家標(biāo)準(zhǔn)有《信息處理用現(xiàn)代漢語分詞規(guī)范》《信息處理用現(xiàn)代漢語詞類標(biāo)記規(guī)范》等，但這些只是作為推薦性標(biāo)準(zhǔn)，行業(yè)采用率并不高。由此也形成了語料庫(kù)之間的異構(gòu)性，資源之間難以相互轉(zhuǎn)換，同時(shí)導(dǎo)致重復(fù)建設(shè)。

因此，不妨根據(jù)國(guó)際標(biāo)準(zhǔn)、中文標(biāo)準(zhǔn)和行業(yè)認(rèn)同，建立統(tǒng)一的語料庫(kù)編碼規(guī)范標(biāo)準(zhǔn)?，F(xiàn)在，研究人員認(rèn)為，元數(shù)據(jù)規(guī)范化是中文語料庫(kù)標(biāo)注規(guī)范中最有條件、最容易實(shí)行的規(guī)范。所以，不妨根據(jù)上述規(guī)范，打造元數(shù)據(jù)規(guī)范化的中文語料庫(kù)。

其次，要注重建設(shè)多元化和多模式的中文語料庫(kù)。現(xiàn)實(shí)情況是，中文語料中的文本語料庫(kù)占大多數(shù)，口語、方言的語料庫(kù)較少，難以形成多模態(tài)語料庫(kù)，也無法給AI深度學(xué)習(xí)提供豐富的中文語料。此外，中文語料庫(kù)的共享難度，成為阻礙AI發(fā)展的瓶頸。

對(duì)此，一些研究人員提出應(yīng)當(dāng)建立Web檢索，由此推動(dòng)語料庫(kù)共享進(jìn)程。也有人建議搭建由國(guó)家、省市圖書館和各高校圖書館主導(dǎo)的中文語料庫(kù)資源共享平臺(tái)。

目前，語料庫(kù)的Web檢索已成為語言學(xué)研究領(lǐng)域的主要共享方式，但是對(duì)于語言信息處理研究和AI使用，也還存在一定難度，往往需要語料庫(kù)全文或子庫(kù)。因此，需要在Web檢索的基礎(chǔ)上，建立更為廣泛和容易使用的中文語料庫(kù)。

當(dāng)然，所有建立中文語料庫(kù)的方式都需要資金、人力和場(chǎng)地，因此需要國(guó)家預(yù)算投入更多的資金。而保護(hù)中文語料原作者的知識(shí)產(chǎn)權(quán)自然也需要納入相關(guān)的設(shè)想方案中。

如此，才能推動(dòng)中國(guó)大模型產(chǎn)業(yè)快速和高質(zhì)量發(fā)展。

撰稿 / 張?zhí)锟保▽谧髡撸?/p>
編輯 / 馬小龍

校對(duì) / 陳荻雁

分享到：
標(biāo)簽：大模型

網(wǎng)友整理

注冊(cè)時(shí)間：

網(wǎng)站：5 個(gè) 小程序：0 個(gè) 文章：12 篇

52000
網(wǎng)站

12
小程序

1037587
文章

756
會(huì)員
趕快注冊(cè)賬號(hào)，推廣您的網(wǎng)站吧！

文章分類

今日頭條
財(cái)經(jīng)視界
科技前沿
娛樂頻道
搜索優(yōu)化
游戲電競(jìng)
網(wǎng)站運(yùn)營(yíng)
互聯(lián)網(wǎng)
IT業(yè)界
自媒體
手機(jī)數(shù)碼
人工智能
區(qū)塊鏈
5G網(wǎng)絡(luò)
小程序
電商
短視頻

熱門網(wǎng)站

各百科-專業(yè)百科問答知識(shí)名網(wǎng)站 m.geelcn.com

免費(fèi)軟件,綠色軟件園,手機(jī)軟件下載,熱門游戲下載中心-中當(dāng)網(wǎng) m.deelcn.com

魔扣科技 www.ylptlb.cn

體育新聞_國(guó)際體育資訊_全球體育賽事-中名網(wǎng) www.feelcn.com/tiyu/tiyuxinwen/

食品安全_健康飲食_舌尖上的安全-中名網(wǎng) www.feelcn.com/shenghuo/shipinanquan/

中合網(wǎng) www.heelcn.com

中當(dāng)網(wǎng) www.deelcn.com

魔扣網(wǎng)站維護(hù)代運(yùn)營(yíng) www.ylptlb.cn/tg

中合網(wǎng)-健康養(yǎng)生知識(shí)科普名站 m.heelcn.com

各百科 www.geelcn.com

最新入駐小程序

數(shù)獨(dú)大挑戰(zhàn)2018-06-03

數(shù)獨(dú)一種數(shù)學(xué)游戲，玩家需要根據(jù)9

答題星2018-06-03

您可以通過答題星輕松地創(chuàng)建試卷

全階人生考試2018-06-03

各種考試題，題庫(kù)，初中，高中，大學(xué)四六

運(yùn)動(dòng)步數(shù)有氧達(dá)人2018-06-03

記錄運(yùn)動(dòng)步數(shù)，積累氧氣值。還可偷

每日養(yǎng)生app2018-06-03

每日養(yǎng)生,天天健康

體育訓(xùn)練成績(jī)?cè)u(píng)定2018-06-03

通用課目體育訓(xùn)練成績(jī)?cè)u(píng)定

熱門文章

民以食為天離線人臉識(shí)別助力打造智慧食堂 08-20

青桔單車發(fā)布3款新車已進(jìn)入150個(gè)城市 08-13

民間大神用Win7毛玻璃UI風(fēng)格改造Win10：情懷滿滿 08-06

網(wǎng)站標(biāo)題是否可以修改？怎么改不影響網(wǎng)站權(quán)重？ 11-19

關(guān)于網(wǎng)站標(biāo)題和正文的匹配度分析 09-29

從滾石、華納到環(huán)球，三個(gè)關(guān)鍵詞讀懂網(wǎng)易云為何成版權(quán)方最愛 08-12

天眼被注冊(cè)為煙草商標(biāo)，中國(guó)控?zé)焻f(xié)會(huì)要求嚴(yán)查 08-13

深圳實(shí)現(xiàn)5G獨(dú)立組網(wǎng)全覆蓋已累計(jì)建設(shè)5G基站超4.6萬個(gè) 08-17

滴滴App內(nèi)嵌買車服務(wù) 已在十余城上線 08-06

關(guān)鍵詞的密度要結(jié)合頁(yè)面版式來調(diào)整 11-28

關(guān)于我們| 收錄標(biāo)準(zhǔn)| 廣告合作| 免責(zé)聲明| 友情鏈接

網(wǎng)站地圖 ? 2023 版權(quán)所有：魔扣目錄 www.ylptlb.cn

感谢您访问我们的网站，您可能还对以下资源感兴趣：
日日操夜夜添-日日操影院-日日草夜夜操-日日干干-精品一区二区三区波多野结衣-精品一区二区三区高清免费不卡