【CNMO新聞】近期,語(yǔ)音識(shí)別技術(shù)發(fā)展迅猛,像EdgeSpeechNet等最先進(jìn)的模型能夠達(dá)到97%的準(zhǔn)確率,但即使是最好的系統(tǒng)偶爾也會(huì)被生僻字難倒。
為了解決這個(gè)問題,谷歌和加利福尼亞大學(xué)的科學(xué)家提出了一種方法,可以利用純文本數(shù)據(jù)訓(xùn)練拼寫校正模型。在預(yù)印本服務(wù)器Arxiv.org上發(fā)表的一篇論文《用于端到端語(yǔ)音識(shí)別的拼寫校正模型》中,他們表示,在使用800字、960小時(shí)語(yǔ)言建模LibriSpeech數(shù)據(jù)集的實(shí)驗(yàn)中,他們的技術(shù)顯示,相對(duì)于基準(zhǔn),單詞錯(cuò)誤率(WER)改善了18.6%。在某些情況下,它甚至可以減少29%的錯(cuò)誤。
他們寫道:“目標(biāo)是將一個(gè)接受了文本數(shù)據(jù)培訓(xùn)的模塊納入端到端框架,糾正系統(tǒng)所犯的錯(cuò)誤,具體來說,我們的調(diào)查使用了不成對(duì)的數(shù)據(jù),利用文本到語(yǔ)音(TTS)系統(tǒng)生成音頻信號(hào),這個(gè)過程類似于機(jī)器翻譯中的反向翻譯。”
正如論文作者所解釋的那樣,大多數(shù)自動(dòng)語(yǔ)音識(shí)別(ASR)系統(tǒng)要訓(xùn)練三個(gè)組成部分:一個(gè)學(xué)習(xí)音頻信號(hào)與構(gòu)成語(yǔ)音的語(yǔ)言單位之間關(guān)系的聲學(xué)模型,一個(gè)為單詞序列分配概率的語(yǔ)言模型,以及一種用于對(duì)聲學(xué)幀和識(shí)別的符號(hào)進(jìn)行匹配的機(jī)制。所有這三者都使用一個(gè)神經(jīng)網(wǎng)絡(luò)和轉(zhuǎn)錄的音頻-文本對(duì),因此,當(dāng)語(yǔ)言模型遇到語(yǔ)料庫(kù)中不經(jīng)常出現(xiàn)的單詞時(shí),通常會(huì)出現(xiàn)性能下降。
然后,研究人員開始將上述拼寫校正模型納入ASR框架,一種將輸入和輸出句子解碼為“詞組”的子詞單元的模型,他們使用純文本數(shù)據(jù),并利用文本到語(yǔ)音(TTS)系統(tǒng)生成的音頻信號(hào)來訓(xùn)練LAS語(yǔ)音識(shí)別器,這是2017年Google Brain研究人員首次描述的端到端模型,然后創(chuàng)建一組TTS對(duì),最后,由他們來“教導(dǎo)”拼寫糾正器糾正識(shí)別器的錯(cuò)誤。
為了驗(yàn)證這個(gè)模型,研究人員訓(xùn)練了一個(gè)語(yǔ)言模型,生成一個(gè)TTS數(shù)據(jù)集來訓(xùn)練LAS模型,并產(chǎn)生了錯(cuò)誤假設(shè)以訓(xùn)練拼寫校正模型,其中包含了來自LibriSpeech數(shù)據(jù)集的4000萬(wàn)個(gè)文本序列。他們發(fā)現(xiàn),通過糾正來自LAS的條目,語(yǔ)音校正模型生成的擴(kuò)展輸出的錯(cuò)誤率“顯著”降低了。