語音識別是一門綜合性學(xué)科,涉及的領(lǐng)域非常廣泛,包括聲學(xué)、語音學(xué)、語言學(xué)、信號處理、概率統(tǒng)計、信息論、模式識別和深度學(xué)習(xí)等。語音識別的基礎(chǔ)理論包括語音的產(chǎn)生和感知過程、語音信號基礎(chǔ)知識、語音特征提取等,關(guān)鍵技術(shù)包括高斯混合模型 ( Gaussian Mixture Model,GMM )、隱馬爾可夫模型 ( Hidden Markov Model,HMM )、深度神經(jīng)網(wǎng)絡(luò) ( Deep Neural Network,DNN ),以及基于這些模型形成的GMM-HMM、DNN-HMM和端到端 ( End-to-End,E2E ) 系統(tǒng)。語言模型和解碼器也非常關(guān)鍵,直接影響語音識別實際應(yīng)用的效果。
為了讓讀者更好地理解語音信號的特性,接下來我們首先介紹語音的產(chǎn)生和感知機(jī)制。
01
語音的產(chǎn)生和感知
如圖1-1所示,人的發(fā)音器官包括:肺、氣管、聲帶、喉、咽、鼻腔、口腔和唇。肺部產(chǎn)生的氣流沖擊聲帶,產(chǎn)生振動。聲帶每開啟和閉合一次的時間是一個基音周期 ( Pitch period ) T,其倒數(shù)為基音頻率 ( F0=1/T,基頻 ),范圍在70Hz~450Hz。基頻越高,聲音越尖細(xì),如小孩的聲音比大人尖,就是因為其基頻更高。基頻隨時間的變化,也反映聲調(diào)的變化。

圖1-1 人的發(fā)音器官[37]
聲道主要由口腔和鼻腔組成,它是對發(fā)音起重要作用的器官,氣流在聲道會產(chǎn)生共振。前五個共振峰頻率 ( F1、F2、F3、F4和F5 ),反映了聲道的主要特征。共振峰的位置、帶寬和幅度決定元音音色,改變聲道形狀可改變共振峰,改變音色。
語音可分為濁音和清音,其中濁音是由聲帶振動并激勵聲道而得到的語音,清音是由氣流高速沖過某處收縮的聲道所產(chǎn)生的語音。
語音的產(chǎn)生過程可進(jìn)一步抽象成如圖1-2所示的激勵模型,包含激勵源和聲道部分。在激勵源部分,沖擊序列發(fā)生器以基音周期產(chǎn)生周期性信號,經(jīng)過聲帶振動,相當(dāng)于經(jīng)過聲門波模型,肺部氣流大小相當(dāng)于振幅;隨機(jī)噪聲發(fā)生器產(chǎn)生非周期信號。聲道模型模擬口腔、鼻腔等聲道器官,最后產(chǎn)生語音信號。我們要發(fā)濁音時,聲帶振動形成準(zhǔn)周期的沖擊序列。發(fā)清音時,聲帶松弛,相當(dāng)于發(fā)出一個隨機(jī)噪聲。

圖1-2 產(chǎn)生語音的激勵模型
如圖1-3所示,人耳是聲音的感知器官,分為外耳、中耳和內(nèi)耳三部分。外耳的作用包括聲源的定位和聲音的放大。
外耳包含耳翼和外耳道,耳翼的作用是保護(hù)耳孔,并具有定向作用。外耳道同其他管道一樣也有共振頻率,大約是3400 Hz。鼓膜位于外耳道內(nèi)端,聲音的振動通過鼓膜傳到內(nèi)耳。中耳由三塊聽小骨組成,作用包括放大聲壓和保護(hù)內(nèi)耳。中耳通過咽鼓管與鼻腔相通,其作用是調(diào)節(jié)中耳壓力。內(nèi)耳的耳蝸實現(xiàn)聲振動到神經(jīng)沖動的轉(zhuǎn)換,并傳遞到大腦。

圖1-3 聲音的感知器官[37]
正常人耳能感知的頻率范圍為20 Hz~20 kHz,強度范圍為0 dB~120 dB。人耳對不同頻率的感知程度是不同的。音調(diào)是人耳對不同頻率聲音的一種主觀感覺,單位為mel。mel頻率與在1kHz以下的頻率近似成線性正比關(guān)系,與1kHz以上的頻率成對數(shù)正比關(guān)系。
02
語音識別過程
人耳接收到聲音后,經(jīng)過神經(jīng)傳導(dǎo)到大腦分析,判斷聲音類型,并進(jìn)一步分辨可能的發(fā)音內(nèi)容。人的大腦從嬰兒出生開始,就不斷在學(xué)習(xí)外界的聲音,經(jīng)過長時間的潛移默化,最終才聽懂人類的語言。機(jī)器跟人一樣,也需要學(xué)習(xí)語言的共性和發(fā)音的規(guī)律,才能進(jìn)行語音識別。
音素 ( phone ) 是構(gòu)成語音的最小單位。英語中有48個音素 ( 20個元音和28個輔音 )。采用元音和輔音來分類,漢語普通話有32個音素,包括元音10個,輔音22個。
但普通話的韻母很多是復(fù)韻母,不是簡單的元音,因此拼音一般分為聲母 ( initial ) 和韻母 ( final )。漢語中原來有21個聲母和36個韻母,經(jīng)過擴(kuò)充 ( 增加a o e y w v ) 和調(diào)整后,包含27個聲母和38個韻母 ( 不帶聲調(diào) ) ,如表1-1所示。
表1-1 普通話的聲母和韻母 ( 不帶聲調(diào) ) 分類表

音節(jié) ( syllable ) 是聽覺能感受到的最自然的語音單位,由一個或多個音素按一定的規(guī)律組合而成。英語音節(jié)可單獨由一個元音構(gòu)成,也可由一個元音和一個或多個輔音構(gòu)成。漢語的音節(jié)由聲母、韻母和音調(diào)構(gòu)成,其中音調(diào)信息包含在韻母中。所以,漢語音節(jié)結(jié)構(gòu)可以簡化為:聲母+韻母。
漢語中有409個無調(diào)音節(jié),約1300個有調(diào)音節(jié)。
漢字與漢語音節(jié)并不是一一對應(yīng)的。一個漢字可以對應(yīng)多個音節(jié),一個音節(jié)可對應(yīng)多個漢字,例如:
和 —— hé hè huó huò hú
tián —— 填 甜
語音識別過程是個復(fù)雜的過程,但其最終任務(wù)歸結(jié)為,找到對應(yīng)觀察值序列O的最可能的詞序列W^。按貝葉斯準(zhǔn)則轉(zhuǎn)化為:

其中,P(O)與P(W)沒有關(guān)系,可認(rèn)為是常量,因此P(W|O)的最大值可轉(zhuǎn)換為P(O|W)和P(W)兩項乘積的最大值,第一項P(O|W)由聲學(xué)模型決定,第二項P(W)由語言模型決定。
圖1-4所示是典型的語音識別過程。為了讓機(jī)器識別語音,首先提取聲學(xué)特征,然后通過解碼器得到狀態(tài)序列,并轉(zhuǎn)換為對應(yīng)的識別單元。一般是通過詞典將音素序列 ( 如普通話的聲母和韻母 ),轉(zhuǎn)換為詞序列,然后用語言模型規(guī)整約束,最后得到句子識別結(jié)果。
例如,對"今天天氣很好"進(jìn)行詞序列、音素序列、狀態(tài)序列的分解,并和觀察值序列對應(yīng),如圖1-5所示。其中每個音素對應(yīng)一個HMM,并且其發(fā)射狀態(tài) ( 深色 ) 對應(yīng)多幀觀察值。
從圖1-5中可看出,人的發(fā)音包含雙重隨機(jī)過程,即說什么不確定,怎么說也不確定,很難用簡單的模板匹配技術(shù)來識別。更合適的方法是用HMM這種統(tǒng)計模型來刻畫雙重隨機(jī)過程。
我們來看一個簡單的例子,假設(shè)詞典包含:
今天 j in1 t ian1

圖1-4 語音識別過程
則"今天"的詞HMM由"j"、"in1"、"t"和"ian1"四個音素HMM串接而成,形成一個完整的模型以進(jìn)行解碼識別。這個解碼過程可以找出每個音素的邊界信息,即每個音素 ( 包括狀態(tài) ) 對應(yīng)哪些觀察值 ( 特征向量 ),均可以匹配出來。音素狀態(tài)與觀察值之間的匹配關(guān)系用概率值衡量,可以用高斯分布或DNN來描述。

圖1-5 從句子到狀態(tài)序列的分解過程
語音識別任務(wù)有簡單的孤立詞識別,也有復(fù)雜的連續(xù)語音識別,工業(yè)應(yīng)用普遍要求大詞匯量連續(xù)語音識別 ( LVCSR )。圖1-6所示是主流的語音識別系統(tǒng)框架。對輸入的語音提取聲學(xué)特征后,得到一序列的觀察值向量,再將它們送到解碼器識別,最后得到識別結(jié)果。解碼器一般是基于聲學(xué)模型、語言模型和發(fā)音詞典等知識源來識別的,這些知識源可以在識別過程中動態(tài)加載,也可以預(yù)先編譯成統(tǒng)一的靜態(tài)網(wǎng)絡(luò),在識別前一次性加載。發(fā)音詞典要事先設(shè)計好,而聲學(xué)模型需要由大批量的語音數(shù)據(jù) ( 涉及各地口音、不同年齡、性別、語速等方面 ) 訓(xùn)練而成,語言模型則由各種文本語料訓(xùn)練而成。為保證識別效果,每個部分都需要精細(xì)的調(diào)優(yōu),因此對系統(tǒng)研發(fā)人員的專業(yè)背景有較高的要求。

圖1-6 主流的語音識別系統(tǒng)框架
03
語音識別發(fā)展歷史
羅馬城不是一天建成的,語音識別近些年的爆發(fā)也并非一朝一夕可以做到的,而是經(jīng)過了一段漫長的發(fā)展歷程。從最初的語音識別雛形,到高達(dá)90%以上準(zhǔn)確率的現(xiàn)在,經(jīng)過了大約100年的時間。在電子計算機(jī)被發(fā)明之前的20世紀(jì)20年代,生產(chǎn)的一種叫作"Radio Rex"的玩具狗被認(rèn)為是世界上最早的語音識別器。每當(dāng)有人喊出"Rex"這個詞時,這只狗就從底座上彈出來,以此回應(yīng)人類的"呼喚"。但是實際上,它使用的技術(shù)并不是真正意義上的語音識別技術(shù),而是使用了一個特殊的彈簧,每當(dāng)該彈簧接收到頻率為500Hz的聲音時,它就會被自動釋放,而500Hz恰好就是人們喊出"Rex"時的第一個共振峰的頻率。"Radio Rex"玩具狗被視為語音識別的雛形。
真正意義上的語音識別研究起源于20世紀(jì)50年代。先是美國的AT&T Bell實驗室的Davis等人成功開發(fā)出了世界上第一個孤立詞語音識別系統(tǒng)——Audry系統(tǒng),該系統(tǒng)能夠識別10個英文數(shù)字的發(fā)音[1],正確率高達(dá)98%。1956年,美國普林斯頓大學(xué)的實驗室使用模擬濾波器組提取出元音的頻譜后,通過模板匹配,建立了針對特定說話人的包括10個單音節(jié)詞的語音識別系統(tǒng)。1959年,英國倫敦大學(xué)的科學(xué)家Fry和Denes等人第一次利用統(tǒng)計學(xué)的原理構(gòu)建出了一個可以識別出4個元音和9個輔音的音素識別器。在同一年,美國麻省理工學(xué)院林肯實驗室的研究人員則首次實現(xiàn)了可以針對非特定人的可識別10個元音音素的識別器[2]。
圖1-7給出了語音識別技術(shù)的發(fā)展歷史,主要包括模板匹配、統(tǒng)計模型和深度學(xué)習(xí)三個階段。

圖1-7 語音識別發(fā)展歷史
第一階段:模板匹配 ( DTW )
20世紀(jì)60年代,一些重要的語音識別的經(jīng)典理論先后被提出和發(fā)表出來。1964年,Martin為了解決語音時長不一致的問題,提出了一種時間歸一化的方法,該方法可以可靠地檢測出語音的端點,這可以有效地降低語音時長對識別結(jié)果的影響,使語音識別結(jié)果的可變性減小了。1966年,卡耐基梅隆大學(xué)的 Reddy 利用動態(tài)跟蹤音素的方法進(jìn)行了連續(xù)語音識別,這是一項開創(chuàng)性的工作。1968年,前蘇聯(lián)科學(xué)家Vintsyuk首次提出將動態(tài)規(guī)劃算法應(yīng)用于對語音信號的時間規(guī)整。雖然在他的工作中,動態(tài)時間規(guī)整的概念和算法原型都有體現(xiàn),但在當(dāng)時并沒有引起足夠的重視。這三項研究工作,為此后幾十年語音識別的發(fā)展奠定了堅實的基礎(chǔ)。雖然在這10年中語音識別理論取得了明顯的進(jìn)步,但是這距離實現(xiàn)真正實用且可靠的語音識別系統(tǒng)的目標(biāo)依舊十分遙遠(yuǎn)。
20世紀(jì)70年代,語音識別技術(shù)飛速發(fā)展,又取得了幾個突破性的進(jìn)展。1970年,來自前蘇聯(lián)的Velichko和Zagoruyko將模式識別的概念引入語音識別中。同年,Itakura提出了線性預(yù)測編碼 ( Linear Predictive Coding,LPC ) 技術(shù),并將該技術(shù)應(yīng)用于語音識別。1978年,日本人Sakoe和Chiba在前蘇聯(lián)科學(xué)家Vintsyuk的工作基礎(chǔ)上,成功地使用動態(tài)規(guī)劃算法將兩段不同長度的語音在時間軸上進(jìn)行了對齊,這就是我們現(xiàn)在經(jīng)常提到的動態(tài)時間規(guī)整 ( Dynamic Time Warping,DTW )[3][4]。該算法把時間規(guī)整和距離的計算有機(jī)地結(jié)合起來,解決了不同時長語音的匹配問題。在一些要求資源占用率低、識別人比較特定的環(huán)境下,DTW是一種很經(jīng)典很常用的模板匹配算法。這些技術(shù)的提出完善了語音識別的理論研究,并且使得孤立詞語音識別系統(tǒng)達(dá)到了一定的實用性。此后,以IBM公司和Bell實驗室為代表的語音研究團(tuán)隊開始將研究重點放到大詞匯量連續(xù)語音識別系統(tǒng) ( Large Vocabulary Continuous Speech Recognition,LVCSR ),因為這在當(dāng)時看來是更有挑戰(zhàn)性和更有價值的研究方向。20世紀(jì)70年代末,Linda的團(tuán)隊提出了矢量量化 ( Vector Quantization,VQ )[5]的碼本生成方法,該項工作對于語音編碼技術(shù)具有重大意義。美國國防部下屬的一個名為美國國防高級研究計劃局 ( Defense Advanced Research Projects Agency,DARPA ) 的行政機(jī)構(gòu),在20世紀(jì)70年代介入語音領(lǐng)域,開始資助一項旨在支持語言理解系統(tǒng)的研究開發(fā)工作的10年戰(zhàn)略計劃。在該計劃推動下,誕生了一系列不錯的研究成果,如卡耐基梅隆大學(xué)推出了Harpy系統(tǒng),其能識別1000多個單詞且有不錯的識別率。
第二階段:統(tǒng)計模型 ( GMM-HMM )
到了20世紀(jì)80年代,更多的研究人員開始從對孤立詞識別系統(tǒng)的研究轉(zhuǎn)向?qū)Υ笤~匯量連續(xù)語音識別系統(tǒng)的研究,并且大量的連續(xù)語音識別算法應(yīng)運而生,例如分層構(gòu)造 ( Level Building ) 算法等。同時,20世紀(jì)80年代的語音識別研究相較于20世紀(jì)70年代,另一個變化是基于統(tǒng)計模型的技術(shù)逐漸替代了基于模板匹配的技術(shù)。統(tǒng)計模型兩項很重要的成果是聲學(xué)模型和語言模型,語言模型以n元語言模型 ( n-gram ) 為代表,聲學(xué)模型以HMM為代表。HMM的理論基礎(chǔ)在1970年前后由Baum等人建立[6],隨后由卡耐基梅隆大學(xué) ( CMU ) 的Baker和IBM的Jelinek等人應(yīng)用到語音識別中。在20世紀(jì)80年代中期,Bell實驗室的L.R. Rabiner等人對HMM進(jìn)行了深入淺出的介紹[7],并出版了語音識別專著Fundamentals of Speech Recognition[8],有力地推動了HMM在語音識別中的應(yīng)用。Mark Gales和Steve Young在2007年對HMM在語音識別中的應(yīng)用做了詳細(xì)闡述[9]。隨著統(tǒng)計模型的成功應(yīng)用,HMM開始了對語音識別數(shù)十年的統(tǒng)治,直到現(xiàn)今仍被看作是領(lǐng)域內(nèi)的主流技術(shù)。在DARPA的語音研究計劃的資助下,又誕生了一批著名的語音識別系統(tǒng),其中包括李開復(fù) ( K.F.Lee ) 在卡耐基梅隆大學(xué)攻讀博士學(xué)位時開發(fā)的SPHINX系統(tǒng)。該系統(tǒng)也是基于統(tǒng)計模型的非特定說話人連續(xù)語音識別系統(tǒng),其采用了如下技術(shù):① 用HMM對語音狀態(tài)的轉(zhuǎn)移概率建模;② 用高斯混合模型 ( Gaussian Mixture Model,GMM ) 對語音狀態(tài)的觀察值概率建模。這種把上述二者相結(jié)合的方法,稱為高斯混合模型-隱馬爾可夫模型 ( Gaussian Mixture Model-Hidden Markov Model,GMM-HMM )[9][10]。在深度學(xué)習(xí)熱潮出現(xiàn)之前,GMM-HMM一直是語音識別最主流最核心的技術(shù)。值得注意的是,在20世紀(jì)80年代末,隨著分布式知識表達(dá)和反向傳播算法 ( Backpropagation,BP ) 的提出,解決了非線性學(xué)習(xí)問題,于是關(guān)于神經(jīng)網(wǎng)絡(luò)的研究興起,人工神經(jīng)網(wǎng)絡(luò) ( Artificial Neural Network,ANN )[11]被應(yīng)用到語音領(lǐng)域并且掀起了一定的熱潮。這是具有里程碑意義的事件,它為若干年后深度學(xué)習(xí)在語音識別中的崛起奠定了一定的基礎(chǔ)。但是由于人工神經(jīng)網(wǎng)絡(luò)其自身的缺陷還未得到完全解決,它相對于GMM-HMM系統(tǒng)并沒有什么優(yōu)勢可言,研究人員還是更傾向于基于統(tǒng)計模型的方法。在20世紀(jì)80年代還有一個值得一提的事件,美國國家標(biāo)準(zhǔn)技術(shù)署 ( NIST ) 在1987年第一次舉辦了NIST評測,這項評測在后來成為了全球最權(quán)威的語音評測。
20世紀(jì)90年代,語音識別進(jìn)入了一個技術(shù)相對成熟的時期,主流的GMM-HMM框架得到了更廣泛的應(yīng)用,在領(lǐng)域中的地位越發(fā)穩(wěn)固。聲學(xué)模型的說話人自適應(yīng) ( Speaker Adaptation ) 方法和區(qū)分性訓(xùn)練 ( Discriminative Training ) 準(zhǔn)則的提出,進(jìn)一步提升了語音識別系統(tǒng)的性能。1994年提出的最大后驗概率估計 ( Maximum A Posteriori Estimation,MAP )[12]和1995年提出的最大似然線性回歸 ( Maximum Likelihood Linear Regression,MLLR )[13],幫助HMM實現(xiàn)了說話人自適應(yīng)。最大互信息量 ( Maximum Mutual Information,MMI )[14]和最小分類錯誤 ( Minimum Classification Error,MCE )[15]等聲學(xué)模型的區(qū)分性訓(xùn)練準(zhǔn)則相繼被提出,使用這些區(qū)分性準(zhǔn)則去更新GMM-HMM的模型參數(shù),可以讓模型的性能得到顯著提升。此外,人們開始使用以音素為代表的字詞單元作為基本單元,一些支持大詞匯量的語音識別系統(tǒng)被陸續(xù)開發(fā)出來,這些系統(tǒng)不但可以做到支持大詞匯量非特定人連續(xù)語音識別,而且有的產(chǎn)品在可用性方面達(dá)到了很好的性能,例如微軟公司的Whisper、貝爾實驗室的PLATO、麻省理工學(xué)院的SUMMIT系統(tǒng)、IBM的ViaVioce系統(tǒng)。英國劍橋大學(xué)Steve Young開創(chuàng)的語音識別工具包HTK ( Hidden Markov Tool Kit )[10],是一套開源的基于HMM的語音識別軟件工具包,它采用模塊化設(shè)計,而且配套了非常詳細(xì)的HTKBook 文檔,這既方便了初學(xué)者的學(xué)習(xí)、實驗 ( HTKBook 文檔做得很好 ),也為語音識別的研究人員提供了專業(yè)且便于搭建的開發(fā)平臺。HTK自1995年發(fā)布以來,被廣泛采用。即便如今,大部分人在接受語音專業(yè)啟蒙教育時,依然還是要通過HTK輔助將理論知識串聯(lián)到工程實踐中。可以說,HTK對語音識別行業(yè)的發(fā)展意義重大。
進(jìn)入21世紀(jì)頭幾年,基于GMM-HMM的框架日臻成熟完善,人們對語音識別的要求已經(jīng)不再滿足于簡單的朗讀和對話,開始將目光著眼于生活中的普通場景,因此研究的重點轉(zhuǎn)向了具有一定識別難度的日常流利對話、電話通話、會議對話、新聞廣播等一些貼近人類實際應(yīng)用需求的場景。但是在這些任務(wù)上,基于GMM-HMM框架的語音識別系統(tǒng)的表現(xiàn)并不能令人滿意,識別率達(dá)到80%左右后,就無法再取得突破。人們發(fā)現(xiàn)一直占據(jù)主流的GMM-HMM框架也不是萬能的,它在某些實際場景下的識別率無法達(dá)到人們對實際應(yīng)用的要求和期望,這個階段語音識別的研究陷入了瓶頸期。
第三階段:深度學(xué)習(xí) ( DNN-HMM,E2E )
2006年,變革到來。Hinton在全世界最權(quán)威的學(xué)術(shù)期刊Science上發(fā)表了論文,第一次提出了"深度置信網(wǎng)絡(luò)"的概念[16][17]。深度置信網(wǎng)絡(luò)與傳統(tǒng)訓(xùn)練方式的不同之處在于它有一個被稱為"預(yù)訓(xùn)練" ( pre-training ) 的過程,其作用是為了讓神經(jīng)網(wǎng)絡(luò)的權(quán)值取到一個近似最優(yōu)解的值,之后使用反向傳播算法 ( BP ) 或者其他算法進(jìn)行"微調(diào)" ( fine-tuning ),使整個網(wǎng)絡(luò)得到訓(xùn)練優(yōu)化。Hinton給這種多層神經(jīng)網(wǎng)絡(luò)的相關(guān)學(xué)習(xí)方法賦予了一個全新的名詞——"深度學(xué)習(xí)" ( Deep Learning,DL )[18]。深度學(xué)習(xí)不僅使深層的神經(jīng)網(wǎng)絡(luò)訓(xùn)練變得更加容易,縮短了網(wǎng)絡(luò)的訓(xùn)練時間,而且還大幅度提升了模型的性能。以這篇劃時代的論文的發(fā)表為轉(zhuǎn)折點,從此,全世界再次掀起了對神經(jīng)網(wǎng)絡(luò)的研究熱潮,揭開了屬于深度學(xué)習(xí)的時代序幕。
在2009年,Hinton和他的學(xué)生Mohamed將深層神經(jīng)網(wǎng)絡(luò) ( DNN ) 應(yīng)用于聲學(xué)建模,他們的嘗試在TIMIT音素識別任務(wù)上取得了成功。然而TIMIT數(shù)據(jù)庫包含的詞匯量較小,在面對連續(xù)語音識別任務(wù)時還往往達(dá)不到人們期望的識別詞和句子的正確率。2012年,微軟研究院的俞棟和鄧力等人將深度學(xué)習(xí)與HMM相結(jié)合,提出了上下文相關(guān)的深度神經(jīng)網(wǎng)絡(luò) ( Context Dependent Deep Neural Network,CD-DNN ) 與HMM融合的聲學(xué)模型 ( CD-DNN-HMM )[19],在大詞匯量的連續(xù)語音識別任務(wù)上取得了顯著的進(jìn)步,相比于傳統(tǒng)的GMM-HMM系統(tǒng)獲得超過20%的相對性能提升。這是深度學(xué)習(xí)在語言識別上具有重大意義的成果。從此,自動語音識別 ASR 的準(zhǔn)確率得到了快速提升,深度學(xué)習(xí)徹底打破了GMM-HMM 的傳統(tǒng)框架對于語音識別技術(shù)多年的壟斷,使得人工智能獲得了突破性的進(jìn)展。由Daniel Povey領(lǐng)銜開發(fā)在2011年發(fā)布的Kaldi[20],是DNN-HMM系統(tǒng)的基石,在工業(yè)界得到廣泛應(yīng)用。大多數(shù)主流的語音識別解碼器基于加權(quán)有限狀態(tài)轉(zhuǎn)換器 ( WFST )[21],把發(fā)音詞典、聲學(xué)模型和語言模型編譯成靜態(tài)解碼網(wǎng)絡(luò),這樣可大大加快解碼速度,為語音識別的實時應(yīng)用奠定基礎(chǔ)。
近幾年,隨著機(jī)器學(xué)習(xí)算法的持續(xù)發(fā)展,各種神經(jīng)網(wǎng)絡(luò)模型結(jié)構(gòu)層出不窮。循環(huán)神經(jīng)網(wǎng)絡(luò) ( Recurrent Neural Network,RNN ) 可以更有效、更充分地利用語音中的上下文信息[22],卷積神經(jīng)網(wǎng)絡(luò) ( Convolutional Neural Network,CNN ) 可以通過共享權(quán)值來減少計算的復(fù)雜度,并且CNN被證明在挖掘語音局部信息的能力上更為突出。引入了長短時記憶網(wǎng)絡(luò) ( Long Short Term Memory,LSTM ) 的循環(huán)神經(jīng)網(wǎng)絡(luò) RNN,能夠通過遺忘門和輸出門忘記部分信息來解決梯度消失的問題[23]。由LSTM 也衍生出了許多變體,較為常用的是門控循環(huán)單元 ( Gated Recurrent Unit,GRU ),在訓(xùn)練數(shù)據(jù)很大的情況下GRU相比LSTM參數(shù)更少,因此更容易收斂,從而能節(jié)省很多時間。LSTM及其變體使得識別效果再次得到提升,尤其是在近場的語音識別任務(wù)上達(dá)到了可以滿足人們?nèi)粘I畹臉?biāo)準(zhǔn)。另外,時延神經(jīng)網(wǎng)絡(luò) ( Time Delay Neural Network,TDNN )[24]也獲得了不錯的識別效果,它可以適應(yīng)語音的動態(tài)時域變化,能夠?qū)W習(xí)到特征之間的時序依賴。
深度學(xué)習(xí)技術(shù)在近十幾年中,一直保持著飛速發(fā)展的狀態(tài),它也推動語音識別技術(shù)不斷取得突破。尤其是最近幾年,基于端到端的語音識別方案逐漸成了行業(yè)中的關(guān)注重點,CTC ( Connectionist Temporal Classification )[25]算法就是其中一個較為經(jīng)典的算法。在LSTM-CTC的框架中,最后一層往往會連接一個CTC模型,用它來替換HMM。CTC的作用是將Softmax層的輸出向量直接輸出成序列標(biāo)簽,這樣就實現(xiàn)了輸入語音和輸出結(jié)果的直接映射,也實現(xiàn)了對整個語音的序列建模,而不僅僅是針對狀態(tài)的靜態(tài)分類。2012年,Graves等人又提出了循環(huán)神經(jīng)網(wǎng)絡(luò)變換器RNN Transducer[26],它是CTC的一個擴(kuò)展,能夠整合聲學(xué)模型與語言模型,同時進(jìn)行優(yōu)化。自 2015 年以來,谷歌、亞馬遜、百度等公司陸續(xù)開始了對CTC模型的研發(fā)和使用,并且都獲得了不錯的性能提升。
2014年,基于 Attention ( 注意力機(jī)制 ) 的端到端技術(shù)在機(jī)器翻譯領(lǐng)域中得到了廣泛的應(yīng)用并取得了較好的實驗結(jié)果[27],之后很快被大規(guī)模商用。于是,Jan Chorowski在2015年將Attention的應(yīng)用擴(kuò)展到了語音識別領(lǐng)域[28],結(jié)果大放異彩。在最近的兩年里,有一種稱為Seq2Seq ( Sequence to Sequence ) 的基于Attention的語音識別模型[29]在學(xué)術(shù)界引起了極大的關(guān)注,相關(guān)的研究取得了較大的進(jìn)展。在加拿大召開的國際智能語音領(lǐng)域的頂級會議ICASSP2018上,谷歌公司發(fā)表的研究成果顯示,在英語語音識別任務(wù)上,基于 Attention 的 Seq2Seq 模型表現(xiàn)強勁,它的識別結(jié)果已經(jīng)超越了其他語音識別模型[30]。但 Attention 模型的對齊關(guān)系沒有先后順序的限制,完全靠數(shù)據(jù)驅(qū)動得到,對齊的盲目性會導(dǎo)致訓(xùn)練和解碼時間過長。而 CTC 的前向后向算法可以引導(dǎo)輸出序列與輸入序列按時間順序?qū)R。因此 CTC 和 Attention 模型各有優(yōu)勢,可把兩者結(jié)合起來,構(gòu)建 Hybrid CTC/Attention模型[31],并采用多任務(wù)學(xué)習(xí),以取得更好的效果。
2017年,google和多倫多大學(xué)提出一種稱為Transformer[32]的全新架構(gòu),這種架構(gòu)在Decoder和Encoder中均采用Attention機(jī)制。特別是在Encoder層,將傳統(tǒng)的RNN完全用Attention替代,從而在機(jī)器翻譯任務(wù)上取得了更優(yōu)的結(jié)果,引起了極大關(guān)注。隨后,研究人員把Transformer應(yīng)用到端到端語音識別系統(tǒng)[33][34]中,也取得了非常明顯的改進(jìn)效果。
另外,生成式對抗網(wǎng)絡(luò) ( Generative Adversarial Network,GAN ) 是近年來無監(jiān)督學(xué)習(xí)方面最具前景的一種新穎的深度學(xué)習(xí)模型,Ian J. Goodfellow等人于2014年10月發(fā)表論文"Generative Adversarial Nets"[36],文中提出了一個通過對抗過程估計生成模型框架的全新方法。通過對抗學(xué)習(xí),GAN可用于提升語音識別的噪聲魯棒性。GAN網(wǎng)絡(luò)在無監(jiān)督學(xué)習(xí)方面展現(xiàn)出了較大的研究潛質(zhì)和較好的應(yīng)用前景。
從一個更高的角度來看待語音識別的研究歷程,從HMM到GMM,到DNN,再到CTC和Attention,這個演進(jìn)過程的主線是如何利用一個網(wǎng)絡(luò)模型實現(xiàn)對聲學(xué)模型層面更精準(zhǔn)的刻畫。換言之,就是不斷嘗試更好的建模方式以取代基于統(tǒng)計的建模方式。
在2010年以前,語音識別行業(yè)水平普遍還停留在80%的準(zhǔn)確率以下。在接下來的幾年里,機(jī)器學(xué)習(xí)相關(guān)模型算法的應(yīng)用和計算機(jī)性能的增強,帶來了語音識別準(zhǔn)確率的大幅提升。到 2015年,識別準(zhǔn)確率就達(dá)到了 90%以上。谷歌公司在2013年時,識別準(zhǔn)確率還僅僅只有77%,然而到2017年5月時,基于谷歌深度學(xué)習(xí)的英語語音識別錯誤率已經(jīng)降低到4.9%,即識別準(zhǔn)確率為95.1%,相較于2013年的準(zhǔn)確率提升了接近20個百分點。這種水平的準(zhǔn)確率已經(jīng)接近正常人類。2016年10月18日,微軟語音團(tuán)隊在Switchboard語音識別測試中打破了自己的最好成績,將詞錯誤率降低至 5.9%。次年,微軟語音團(tuán)隊研究人員通過改進(jìn)語音識別系統(tǒng)中基于神經(jīng)網(wǎng)絡(luò)的聲學(xué)模型和語言模型,在之前的基礎(chǔ)上引入了CNN-BLSTM ( Convolutional Neural Network Combined with Bidirectional Long Short-Term Memory,帶有雙向LSTM的卷積神經(jīng)網(wǎng)絡(luò) ) 模型,用于提升語音建模的效果。2017年8月20日,微軟語音團(tuán)隊再次將這一紀(jì)錄刷新,在Switchboard測試中將詞錯誤率從5.9%降低到5.1%,即識別準(zhǔn)確率達(dá)到 94.9%,與谷歌一起成為了行業(yè)新的標(biāo)桿。另外,亞馬遜 ( Amazon ) 公司在語音行業(yè)可謂后發(fā)制人,其在2014年底正式推出了Echo智能音箱,并通過該音箱搭載的Alexa語音助理,為使用者提供種種應(yīng)用服務(wù)。Echo 智能音箱一經(jīng)推出,在消費市場上取得了巨大的成功,如今已成為美國使用最廣的智能家居產(chǎn)品,至今累計銷量已超過2000萬臺。投資機(jī)構(gòu)摩根士丹利分析師稱智能音箱是繼iPad之后"最成功的消費電子產(chǎn)品"。
04
國內(nèi)語音識別現(xiàn)狀
國內(nèi)最早的語音識別研究開始于1958年,中國科學(xué)院聲學(xué)所研究出一種電子管電路,該電子管可以識別10個元音。1973年,中國科學(xué)院聲學(xué)所成為國內(nèi)首個開始研究計算機(jī)語音識別的機(jī)構(gòu)。受限于當(dāng)時的研究條件,我國的語音識別研究在這個階段一直進(jìn)展緩慢。
改革放開以后,隨著計算機(jī)應(yīng)用技術(shù)和信號處理技術(shù)在我國的普及,越來越多的國內(nèi)單位和機(jī)構(gòu)具備了語音研究的成熟條件。而就在此時,外國的語音識別研究取得了較大的突破性進(jìn)展,語音識別成為科技浪潮的前沿,得到了迅猛的發(fā)展,這推動了包括中科院聲學(xué)所、中科院自動化所、清華大學(xué)、中國科技大學(xué)、哈爾濱工業(yè)大學(xué)、上海交通大學(xué)、西北工業(yè)大學(xué)、廈門大學(xué)等許多國內(nèi)科研機(jī)構(gòu)和高等院校投身到語音識別的相關(guān)研究當(dāng)中。大多數(shù)的研究者將研究重點聚焦在語音識別基礎(chǔ)理論研究和模型、算法的研究改進(jìn)上。
1986年3月,我國的"863"計劃正式啟動。"863"計劃即國家高技術(shù)研究發(fā)展計劃,是我國的一項高科技發(fā)展計劃。作為計算機(jī)系統(tǒng)和智能科學(xué)領(lǐng)域的一個重要分支,語音識別在該計劃中被列為一個專項研究課題。隨后,我國展開了系統(tǒng)性的針對語音識別技術(shù)的研究。因此,對于我國國內(nèi)的語音識別行業(yè)來說,"863"計劃是一個里程碑,它標(biāo)志著我國的語音識別技術(shù)進(jìn)入了一個嶄新的發(fā)展階段。但是由于研究起步晚、基礎(chǔ)薄弱、硬件條件和計算能力有限,導(dǎo)致我國的語音識別研究在整個20世紀(jì)80年代都沒有取得顯著的學(xué)術(shù)成果,也沒有開發(fā)出具有優(yōu)良性能的識別系統(tǒng)。
20世紀(jì)90年代,我國的語音識別研究持續(xù)發(fā)展,開始逐漸地緊追國際領(lǐng)先水平。在"863"計劃、國家科技攻關(guān)計劃、國家自然科學(xué)基金的支持下,我國在中文語音識別技術(shù)方面取得了一系列研究成果。
21世紀(jì)初期,包括科大訊飛、中科信利、捷通華聲等一批致力于語音應(yīng)用的公司陸續(xù)在我國成立。語音識別龍頭企業(yè)科大訊飛早在2010年,就推出了業(yè)界首個中文語音輸入法,引領(lǐng)了移動互聯(lián)網(wǎng)的語音應(yīng)用。2010年以后,百度、騰訊、阿里巴巴等國內(nèi)各大互聯(lián)網(wǎng)公司相繼組建語音研發(fā)團(tuán)隊,推出了各自的語音識別服務(wù)和產(chǎn)品。在此之后,國內(nèi)語音識別的研究水平在之前建立的堅實基礎(chǔ)上,取得了突飛猛進(jìn)的進(jìn)步。如今,基于云端深度學(xué)習(xí)算法和大數(shù)據(jù)的在線語音識別系統(tǒng)的識別率可以達(dá)到95%以上,科大訊飛、百度、阿里巴巴都提供了達(dá)到商業(yè)標(biāo)準(zhǔn)的語音識別服務(wù),如語音輸入法、語音搜索等應(yīng)用,語音云用戶達(dá)到了億級規(guī)模。
人工智能和物聯(lián)網(wǎng)的迅猛發(fā)展,使得人機(jī)交互方式發(fā)生重大變革,語音交互產(chǎn)品也越來越多。國內(nèi)消費者接受語音產(chǎn)品也有一個過程,最開始的認(rèn)知大部分是從蘋果Siri開始。亞馬遜的Echo音箱剛開始推出的兩三年,國內(nèi)的智能音箱市場還不溫不火,不為消費者所接受,因此銷量非常有限。但自2017年以來,智能家居逐漸普及,音箱市場開始火熱,為搶占語音入口,阿里巴巴、百度、小米、華為等大公司紛紛推出了各自的智能音箱。據(jù)Canalys報告,2019年第1季度中國市場智能音箱出貨量全球占比51%,首次超過美國,成為全球最大的智能音箱市場。據(jù)奧維云網(wǎng) ( AVC ) 數(shù)據(jù)顯示,2019年上半年中國智能音箱市場銷量為1556萬臺,同比增長233%。
隨著語音市場的擴(kuò)大,國內(nèi)涌現(xiàn)出一批具有強大競爭力的語音公司和研究團(tuán)隊,包括云知聲、思必馳、出門問問、聲智科技、北科瑞聲、天聰智能等。他們推出的語音產(chǎn)品和解決方案主要針對特定場景,如車載導(dǎo)航、智能家居、醫(yī)院的病歷輸入、智能客服、會議系統(tǒng)、證券柜臺業(yè)務(wù)等,因為采用深度定制,識別效果和產(chǎn)品體驗更佳,在市場上獲得了不錯的反響。針對智能硬件的離線識別,云知聲和思必馳等公司還研發(fā)出專門的語音芯片,進(jìn)一步降低功耗,提高產(chǎn)品的性價比。
在國內(nèi)語音應(yīng)用突飛猛進(jìn)的同時,各大公司和研究團(tuán)隊紛紛在國際學(xué)術(shù)會議和期刊上發(fā)表研究成果。2015年,張仕良等人提出了前饋型序列記憶網(wǎng)絡(luò) ( feed-forward sequential memory network,F(xiàn)SMN ),在DNN 的隱層旁增加了一個“記憶模塊”,這個記憶模塊用來存儲對判斷當(dāng)前語音幀有用的語音信號的歷史信息和未來信息,并且只需等待有限長度的未來語音幀。隨后,科大訊飛進(jìn)一步提出了深度全序列卷積神經(jīng)網(wǎng)絡(luò) ( DFCNN )。2018年,阿里巴巴改良并開源了語音識別模型DFSMN ( Deep FSMN )。2018年,中科院自動化所率先把Transformer應(yīng)用到語音識別任務(wù),并進(jìn)一步拓展到中文語音識別。
不管是在研究成果還是在產(chǎn)品性能體驗上,國內(nèi)的語音行業(yè)整體水平已經(jīng)達(dá)到甚至超越了國際尖端水平。2016年10月,時任百度首席科學(xué)家的吳恩達(dá)在對微軟的語音識別技術(shù)與人類水平持平的消息表示祝賀的同時聲稱,百度的漢語語音識別在2015年就已經(jīng)超越了人類的平均水平,也就是說百度比微軟提前一年實現(xiàn)了這一成績。2016年11月,搜狗、百度和科大訊飛三家公司相繼召開了三場發(fā)布會,分別向外界展示了他們各自在語音識別等方面的最新進(jìn)展。這三家公司幾乎不約而同地宣布各自的中文語音識別準(zhǔn)確率達(dá)到了97%,這充分說明大數(shù)據(jù)和深度神經(jīng)網(wǎng)絡(luò)的成功應(yīng)用使得國內(nèi)的語音識別技術(shù)取得了質(zhì)的突破。
盡管如此,當(dāng)前語音識別系統(tǒng)依然面臨著不少應(yīng)用挑戰(zhàn),其中包括以下主要問題:
- 魯棒性。目前語音識別準(zhǔn)確率超過人類水平主要還是在受限的場景下,比如在安靜環(huán)境的情況下,而一旦加入干擾信號,尤其是環(huán)境噪聲和人聲干擾,性能往往會明顯下降。因此,如何在復(fù)雜場景 ( 包括非平穩(wěn)噪聲、混響、遠(yuǎn)場 ) 下,提高語音識別的魯棒性,研發(fā)"能用=>好用"的語音識別產(chǎn)品,提升用戶體驗,仍然是要重點解決的問題。
- 口語化。每個說話人的口音、語速和發(fā)聲習(xí)慣都是不一樣的,尤其是一些地區(qū)的口音 ( 如南方口音、山東重口音 ),會導(dǎo)致準(zhǔn)確率急劇下降。還有電話場景和會議場景的語音識別,其中包含很多口語化表達(dá),如閑聊式的對話,在這種情況下的識別效果也很不理想。因此語音識別系統(tǒng)需要提升自適應(yīng)能力,以便更好地匹配個性化、口語化表達(dá),排除這些因素對識別結(jié)果的影響,達(dá)到準(zhǔn)確穩(wěn)定的識別效果。
- 低資源。特定場景、方言識別還存在低資源問題。手機(jī)App采集的是16kHz寬帶語音,有大量的數(shù)據(jù)可以訓(xùn)練,因此識別效果很好,但特定場景如銀行/證券柜臺很多采用專門設(shè)備采集語音,保存的采樣格式壓縮比很高,跟一般的16kHz或8kHz語音不同,而相關(guān)的訓(xùn)練數(shù)據(jù)又很缺乏,因此識別效果會變得很差。低資源問題同樣存在于方言識別,中國有七大方言區(qū),包括官話方言 ( 又稱北方方言 )、吳語、湘語、贛語、客家話、粵語、閩語 ( 閩南語 ),還有晉語、湘語等分支,要搜集各地數(shù)據(jù) ( 包括文本語料 ) 相當(dāng)困難。因此如何從高資源的聲學(xué)模型和語言模型遷移到低資源的場景,減少數(shù)據(jù)搜集的代價,是很值得研究的方向。
- 語種混雜 ( code-switch )。在日常交流中,還可能存在語種混雜現(xiàn)象,如中英混雜 ( 尤其是城市白領(lǐng) )、普通話與方言混雜,但商業(yè)機(jī)構(gòu)在這方面的投入還不多,對于中英混雜語音一般僅能識別簡單的英文詞匯 ( 如"你家Wi-Fi密碼是多少" ),因此如何有效提升多語種識別的準(zhǔn)確率,也是當(dāng)前語音識別技術(shù)面臨的挑戰(zhàn)之一。
05
語音識別建模方法
語音識別建模方法主要分為模板匹配、統(tǒng)計模型和深度模型幾種類型,以下分別介紹DTW、GMM-HMM、DNN-HMM和端到端模型。
1. DTW
當(dāng)同一個人說同一個詞時,往往會因為語速、語調(diào)等差異導(dǎo)致這個詞的發(fā)音特征和時間長短各不相同,這樣就造成通過采樣得到的語音數(shù)據(jù)在時間軸上無法對齊的情況。如果時間序列無法對齊,那么傳統(tǒng)的歐氏距離是無法有效地衡量出這兩個序列間真實的相似性的。而DTW的提出就是為了解決這一問題,它是一種將兩個不等長時間序列進(jìn)行對齊并且衡量出這兩個序列間相似性的有效方法。
如圖 1-8 所示,DTW 采用動態(tài)規(guī)劃的算法思想,通過時間彎折,實現(xiàn)P和Q兩條語音的不等長匹配,將語音匹配相似度問題轉(zhuǎn)換為最優(yōu)路徑問題。DTW是模板匹配法中的典型方法,非常適合用于小詞匯量孤立詞語音識別系統(tǒng)。但DTW過分依賴端點檢測,不適合用于連續(xù)語音識別,DTW對特定人的識別效果較好。

圖1-8 動態(tài)時間規(guī)整(DTW)
2. GMM-HMM
HMM是一種統(tǒng)計分析模型,它是在馬爾可夫鏈的基礎(chǔ)上發(fā)展起來的,用來描述雙重隨機(jī)過程。HMM有算法成熟、效率高、易于訓(xùn)練等優(yōu)點,被廣泛應(yīng)用于語音識別、手寫字識別和天氣預(yù)報等多個領(lǐng)域,目前仍然是語音識別中的主流技術(shù)。
如圖1-9所示,HMM包含S1、S2、S3、S4和S55個狀態(tài),每個狀態(tài)對應(yīng)多幀觀察值,這些觀察值是特征序列 ( o1、o2、o3、o4,...,oT ),沿時刻t遞增,多樣化而且不局限取值范圍,因此其概率分布不是離散的,而是連續(xù)的。自然界中的很多信號可用高斯分布表示,包括語音信號。由于不同人發(fā)音會存在較大差異,具體表現(xiàn)是,每個狀態(tài)對應(yīng)的觀察值序列呈現(xiàn)多樣化,單純用一個高斯函數(shù)來刻畫其分布往往不夠,因此更多的是采用多高斯組合的 GMM 來表征更復(fù)雜的分布。這種用 GMM 作為 HMM 狀態(tài)產(chǎn)生觀察值的概率密度函數(shù) ( pdf ) 的模型就是GMM- HMM,如圖1-9所示,每個狀態(tài)對應(yīng)的GMM由2個高斯函數(shù)組合而成。

圖1-9 GMM-HMM
3. DNN-HMM
DNN擁有更強的表征能力,其能夠?qū)?fù)雜的語音變化情況進(jìn)行建模。把GMM-HMM的GMM用DNN替代,如圖1-10所示,HMM的轉(zhuǎn)移概率和初始狀態(tài)概率保持不變。

圖1-10 把GMM-HMM的GMM用DNN替代
DNN的輸出節(jié)點與所有HMM ( 包括"a"、"o"等音素 ) 的發(fā)射狀態(tài)一一對應(yīng) ( 如圖1-11所示 ),因此可通過DNN的輸出得到每個狀態(tài)的觀察值概率。

圖1-11 DNN-HMM
4. 端到端
從2015年,端到端模型開始流行,并被應(yīng)用于語音識別領(lǐng)域。如圖1-12所示,傳統(tǒng)語音識別系統(tǒng)的發(fā)音詞典、聲學(xué)模型和語言模型三大組件被融合為一個E2E模型,直接實現(xiàn)輸入語音到輸出文本的轉(zhuǎn)換,得到最終的識別結(jié)果。

圖1-12 E2E模型
06
語音識別開源工具
HTK ( HMM Toolkit ) 是一個專門用于建立和處理HMM的實驗工具包[10],由劍橋大學(xué)的Steve Young等人開發(fā),非常適合GMM-HMM系統(tǒng)的搭建。2015年DNN-HMM推出,該新版本主要由張超博士開發(fā)。
Kaldi是一個開源的語音識別工具箱[20],它是基于C++編寫的,可以在windows和UNIX平臺上編譯,主要由Daniel Povey博士在維護(hù)。Kaldi適合DNN-HMM系統(tǒng) ( 包括Chain模型 ) 的搭建,支持TDNN/TDNN-F等模型。其基于有限狀態(tài)轉(zhuǎn)換器 ( FST ) 進(jìn)行訓(xùn)練和解碼,可用于x-vector等聲紋識別系統(tǒng)的搭建。
Espnet是一個端到端語音處理工具集[35],其側(cè)重于端到端語音識別和語音合成。Espnet是使用Python開發(fā)的,它將Chainer和Pytorch作為主要的深度學(xué)習(xí)引擎,并遵循Kaldi風(fēng)格的數(shù)據(jù)處理方式,為語音識別和其他語音處理實驗提供完整的設(shè)置,支持CTC/Attention等模型。
07
語音識別常用數(shù)據(jù)庫
TIMIT——經(jīng)典的英文語音識別庫,其中包含,來自美國8個主要口音地區(qū)的630人的語音,每人10句,并包括詞和音素級的標(biāo)注。圖1-13給出了一條語音的波形圖、語譜圖和標(biāo)注。這個庫主要用來測試音素識別任務(wù)。

圖1-13 語音文件“/timit/test/dr5/fnlp0/sa1.wav”的波形圖、語譜圖和標(biāo)注
SwitchBoard——對話式電話語音庫,采樣率為8 kHz,包含來自美國各個地區(qū)543人的2400條通話錄音。研究人員用這個數(shù)據(jù)庫做語音識別測試已有20多年的歷史。
LibriSpeech——免費的英文語音識別數(shù)據(jù)庫,總共1000小時,采樣率為16kHz,包含朗讀式語音和對應(yīng)的文本。
Thchs-30——清華大學(xué)提供的一個中文示例,并配套完整的發(fā)音詞典,其數(shù)據(jù)集有30小時,采樣率為16 kHz。
AISHELL-1——希爾貝殼開源的 178 小時中文普通話數(shù)據(jù),采樣率為16kHz。包含400位來自中國不同口音地區(qū)的發(fā)音人的語音,語料內(nèi)容涵蓋財經(jīng)、科技、體育、娛樂、時事新聞等。
語音識別數(shù)據(jù)庫還有很多,包括16kHz和8kHz的數(shù)據(jù)。海天瑞聲、數(shù)據(jù)堂等數(shù)據(jù)庫公司提供大量的商用數(shù)據(jù)庫,可用于工業(yè)產(chǎn)品的開發(fā)。
08
語音識別評價指標(biāo)
假設(shè)"我們明天去動物園"的語音識別結(jié)果如下:

識別結(jié)果包含了刪除、插入和替換錯誤。
度量語音識別性能的指標(biāo)有許多個,通常使用測試集上的詞錯誤率 ( word Error Rate,WER ) 來判斷整個系統(tǒng)的性能,其公式定義如下:

其中,NRef表示測試集所有的詞數(shù)量,NDel表示識別結(jié)果相對于實際標(biāo)注發(fā)生刪除錯誤的詞數(shù)量,NSub代表發(fā)生替換錯誤的詞數(shù)量,而NIns則表示發(fā)生插入錯誤的詞數(shù)量。
針對中文普通話,評價指標(biāo)也經(jīng)常采用字錯誤率 ( CER ),即用單字而不是詞來計算錯誤率。
作者:洪青陽,廈門大學(xué)副教授,天聰智能創(chuàng)始人,主要研究方向是語音識別、聲紋識別,先后主持國家自然基金兩項,科技部創(chuàng)新基金兩項。牽頭組建廈門大學(xué)智能語音實驗室,帶領(lǐng)xmuspeech團(tuán)隊連續(xù)兩屆獲東方語種識別 ( OLR ) 競賽第一名,成功研發(fā)國內(nèi)第一套閩南語合成系統(tǒng)。具有豐富的工業(yè)界研發(fā)經(jīng)驗,與華為、云從、掌數(shù)科技等知名企業(yè)合作,承擔(dān)過大量的智能語音項目,核心技術(shù)應(yīng)用到華為智能手機(jī)和全國十五個省市的司法/社保/證券/電力系統(tǒng)。長期從事本科生、研究生的語音識別教學(xué)工作,從動態(tài)時間規(guī)整 ( DTW )、隱馬爾可夫模型 ( HMM ) 到E2E語音識別框架,與時俱進(jìn)更新教學(xué)內(nèi)容,積累了豐富的教學(xué)經(jīng)驗。