日日操夜夜添-日日操影院-日日草夜夜操-日日干干-精品一区二区三区波多野结衣-精品一区二区三区高清免费不卡

公告:魔扣目錄網(wǎng)為廣大站長(zhǎng)提供免費(fèi)收錄網(wǎng)站服務(wù),提交前請(qǐng)做好本站友鏈:【 網(wǎng)站目錄:http://www.ylptlb.cn 】, 免友鏈快審服務(wù)(50元/站),

點(diǎn)擊這里在線咨詢客服
新站提交
  • 網(wǎng)站:51998
  • 待審:31
  • 小程序:12
  • 文章:1030137
  • 會(huì)員:747

  最近,F(xiàn)acebook 開源了目前世界上最大的多語(yǔ)言語(yǔ)音數(shù)據(jù)集,VoxPopuli:

  這一數(shù)據(jù)集共涵蓋了 23 種語(yǔ)言,時(shí)長(zhǎng)超過 40 萬(wàn)小時(shí)。

  其中,每種語(yǔ)言都有 9000 到 18000 小時(shí)的無(wú)標(biāo)簽語(yǔ)音數(shù)據(jù)。

  此外,還包括了共 1800 小時(shí),16 種語(yǔ)言的轉(zhuǎn)錄語(yǔ)音數(shù)據(jù),以及 17300 小時(shí),15 種目標(biāo)語(yǔ)言的口譯語(yǔ)音數(shù)據(jù)。

  國(guó)外網(wǎng)友很快為這一行為點(diǎn)贊:

  顯然,如果數(shù)據(jù)集已經(jīng)存在,那么它應(yīng)該被利用,并以一種道德的方式來(lái)改善人類社會(huì)。

  這一數(shù)據(jù)集龐大的無(wú)標(biāo)簽數(shù)據(jù)量和廣泛的語(yǔ)言覆蓋率,對(duì)改進(jìn)自監(jiān)督模型有著很大的幫助。

  而 Facebook 也希望能夠幫助提高語(yǔ)音數(shù)據(jù)集的質(zhì)量和魯棒性,使訓(xùn)練語(yǔ)音轉(zhuǎn)換神經(jīng)網(wǎng)絡(luò)更加可靠。

  最終加速新的 NLP 系統(tǒng)的開發(fā),使 AI 翻譯的效果越來(lái)越好。

  而數(shù)據(jù)集的名字,VoxPopuli 的直譯“人民的心聲”也表示了其原始數(shù)據(jù)的來(lái)源 ——

  即源語(yǔ)音全都收集自 2009-2020 年歐洲議會(huì)的活動(dòng)錄音。

  來(lái)自 10 年歐會(huì)的語(yǔ)料庫(kù)

  在歐洲議會(huì)的各自活動(dòng),如全體會(huì)議、委員會(huì)會(huì)議和其他活動(dòng)上,發(fā)言者都會(huì)以不同的歐盟語(yǔ)言輪流發(fā)表演講。

  Facebook 就是從歐會(huì)官網(wǎng)上抓取了每個(gè)演講的文字記錄、演講者信息、開始/結(jié)束時(shí)間戳。

  然后,將所有的原始演講數(shù)據(jù)進(jìn)行處理,大致分為以下 3 類:

  共 40 萬(wàn)小時(shí),23 種語(yǔ)言的無(wú)標(biāo)簽語(yǔ)音數(shù)據(jù)

  每種語(yǔ)言都有 8 千到 2 萬(wàn)多的原始語(yǔ)音數(shù)據(jù)。

  因此,F(xiàn)acebook 基于能量的語(yǔ)音激活檢測(cè)(VAD)算法,將完整音頻分割成 15-30 秒的短片段。

  最終得到?jīng)]有太多的數(shù)據(jù)不平衡,也不需要調(diào)整數(shù)據(jù)采樣策略的數(shù)據(jù)集。

  因此非常適合多語(yǔ)言模型的訓(xùn)練。

  而上表中除了無(wú)標(biāo)簽數(shù)據(jù),也有轉(zhuǎn)錄的語(yǔ)音數(shù)據(jù),這也就是第二種:

  共 1800 小時(shí),16 種語(yǔ)言的轉(zhuǎn)錄語(yǔ)音數(shù)據(jù)。

  歐會(huì)官方的時(shí)間戳雖然可以用來(lái)在會(huì)議中定義演講者,但常常會(huì)被截?cái)啵蚧旌锨昂笱葜v的片段,因此并不完全準(zhǔn)確。

  所以 Facebook 對(duì)全會(huì)話音頻采用了聲紋分割聚類(SD)。

  這時(shí)的語(yǔ)音段落平均時(shí)長(zhǎng)為 197 秒,再利用語(yǔ)音識(shí)別(ASR)系統(tǒng),將其細(xì)分為 20 秒左右的短片段。

  觀察上表,可以看到最終得到的數(shù)據(jù)中,有包括各語(yǔ)言的持續(xù)時(shí)間、發(fā)言人數(shù)量、女性發(fā)言人百分比、標(biāo)記數(shù)量等多種屬性。

  17300 小時(shí)的 15 種目標(biāo)語(yǔ)言的口譯語(yǔ)音數(shù)據(jù):

  每個(gè)原始語(yǔ)音都有相對(duì)應(yīng)的同聲傳譯,并互相關(guān)聯(lián)。

  但要使這個(gè)數(shù)據(jù)集可用,必須經(jīng)過大量的預(yù)處理和過濾。

  因此,F(xiàn)acebook 使用了語(yǔ)音識(shí)別(ASR)系統(tǒng)在句子層面上對(duì)齊源語(yǔ)音和目標(biāo)語(yǔ)音。

  在域外環(huán)境的半監(jiān)督學(xué)習(xí)下具有通用性

  那么這一數(shù)據(jù)集用起來(lái)到底怎么樣?

  首先,是使用包含了域外語(yǔ)言(out-of-domain out-of-language)的無(wú)監(jiān)督預(yù)訓(xùn)練,進(jìn)行少樣本的語(yǔ)音識(shí)別:

  可以從表中看到,VP-Mono5K 在 5 種 VoxPopuli 語(yǔ)言上,都優(yōu)于 XLSR-Mono 和 XLSR-10。

  而 VP-100K 則在 10 種語(yǔ)言中的 8 種上的都比 XLSR-10 的表現(xiàn)更好。

  并且,雖然 XLSR-53 涵蓋了 Zh 語(yǔ)言,但與 VP-100K(Large)在 Zh 上的表現(xiàn)相距甚遠(yuǎn)。

  這表明 VP-100K 所學(xué)的語(yǔ)音表征具有高度的通用性。

  然后是使用 VoxPopuli 數(shù)據(jù)集進(jìn)行自我訓(xùn)練或弱監(jiān)督的語(yǔ)言翻譯(ST)和語(yǔ)音識(shí)別(ASR):

  從表中可以看到,不管是對(duì)于域內(nèi)語(yǔ)言還是域外語(yǔ)言,對(duì) VoxPopuli 的自我訓(xùn)練在大多數(shù)時(shí)候都能夠提高性能。

  而在翻譯上,也不用再增加昂貴的標(biāo)簽數(shù)據(jù)。

  通過自我訓(xùn)練,就能夠縮小端到端模型和級(jí)聯(lián)模型之間的差距。

  論文地址:

  https://arxiv.org/abs/2101.00390

  下載:

  https://github.com/facebookresearch/voxpopuli

  參考鏈接:

  [1]https://www.reddit.com/r/MachineLearning/comments/owll7g/n_facebook_ai_releases_voxpopuli_a_largescale/

  [2]https://www.marktechpost.com/2021/08/02/facebook-ai-releases-voxpopuli-a-large-scale-open-multilingual-speech-corpus-for-ai-translations-in-nlp-systems/

分享到:
標(biāo)簽:世界最大的多語(yǔ)言語(yǔ)音數(shù)據(jù)集現(xiàn)已開源:超40萬(wàn)小時(shí) 共23種語(yǔ)言 業(yè)界動(dòng)態(tài)
用戶無(wú)頭像

網(wǎng)友整理

注冊(cè)時(shí)間:

網(wǎng)站:5 個(gè)   小程序:0 個(gè)  文章:12 篇

  • 51998

    網(wǎng)站

  • 12

    小程序

  • 1030137

    文章

  • 747

    會(huì)員

趕快注冊(cè)賬號(hào),推廣您的網(wǎng)站吧!
最新入駐小程序

數(shù)獨(dú)大挑戰(zhàn)2018-06-03

數(shù)獨(dú)一種數(shù)學(xué)游戲,玩家需要根據(jù)9

答題星2018-06-03

您可以通過答題星輕松地創(chuàng)建試卷

全階人生考試2018-06-03

各種考試題,題庫(kù),初中,高中,大學(xué)四六

運(yùn)動(dòng)步數(shù)有氧達(dá)人2018-06-03

記錄運(yùn)動(dòng)步數(shù),積累氧氣值。還可偷

每日養(yǎng)生app2018-06-03

每日養(yǎng)生,天天健康

體育訓(xùn)練成績(jī)?cè)u(píng)定2018-06-03

通用課目體育訓(xùn)練成績(jī)?cè)u(píng)定