讓機(jī)器“聽懂”人類語(yǔ)言,是“語(yǔ)音識(shí)別”技術(shù)自誕生起,就一直致力的目標(biāo)。
自20世紀(jì)中葉以來(lái),經(jīng)過(guò)近70年的發(fā)展,特別是隨著深度學(xué)習(xí)技術(shù)的引入,自動(dòng)語(yǔ)音識(shí)別已取得突破性進(jìn)展——在標(biāo)準(zhǔn)口音、常見詞匯、安靜環(huán)境的應(yīng)用場(chǎng)景下,機(jī)器已然具備接近人類的“聽覺(jué)”能力。
然而,一旦面臨口音、方言等情境,AI便顯得有些“力不從心”,哪怕你一字一句盡力向智能設(shè)備發(fā)出清晰的指令,得到的回答仍可能是:“對(duì)不起,我好像不明白你在說(shuō)什么……”
語(yǔ)音識(shí)別技術(shù)發(fā)展的終極目標(biāo),是實(shí)現(xiàn)自然、順暢的“人機(jī)交互”,正如同人與人的交互。如何解決橫亙?cè)诋?dāng)下的這道難題,抵達(dá)人類暢想的智能未來(lái),已成為全球智能語(yǔ)音技術(shù)公司共同面對(duì)的挑戰(zhàn)。
全世界的AI,都栽在了“口音”上?
口音、方言等問(wèn)題,困擾著幾乎全世界所有的智能語(yǔ)音助手。
2018年,《華盛頓郵報(bào)》曾與Globalme、Pulse Labs兩家語(yǔ)言研究公司合作,研究智能音箱的口音識(shí)別問(wèn)題,結(jié)果顯示,谷歌智能音箱Google Home更容易“聽懂”美國(guó)西岸口音,對(duì)南部口音的識(shí)別準(zhǔn)確率則要低3%;而亞馬遜Echo搭載的語(yǔ)音助手Alexa,識(shí)別東岸口音的準(zhǔn)確率要比中西部口音高2%。
更大的問(wèn)題還在于對(duì)非本土口音的識(shí)別。研究顯示,對(duì)于非英語(yǔ)母語(yǔ)者,比如以西班牙語(yǔ)或漢語(yǔ)作為第一語(yǔ)言的人所說(shuō)的英文,不論是Google Home還是Amazon Echo,其識(shí)別準(zhǔn)確率都要比美國(guó)本土口音低30%,而拉丁裔和華裔是美國(guó)的兩大移民族群。
這項(xiàng)研究結(jié)果引起了人們對(duì)智能語(yǔ)音助手“地域歧視”問(wèn)題的廣泛關(guān)注。實(shí)際上,不只是Google Home和Amazon Echo,市場(chǎng)上主流的智能語(yǔ)音設(shè)備,在應(yīng)對(duì)方言、口音等非標(biāo)準(zhǔn)語(yǔ)言場(chǎng)景時(shí),表現(xiàn)都差強(qiáng)人意。
在中國(guó)市場(chǎng),這個(gè)問(wèn)題同樣凸顯。
所謂“十里不同音,百里不同俗”。作為一個(gè)幅員遼闊的多民族國(guó)家,我國(guó)56個(gè)民族使用的語(yǔ)言分屬五大語(yǔ)系,共有80種以上語(yǔ)言。其中,漢語(yǔ)的使用人數(shù)最多,分為標(biāo)準(zhǔn)語(yǔ)(普通話)和方言。
根據(jù)教育部2019年發(fā)布的《中國(guó)語(yǔ)言文字概況》,漢語(yǔ)方言通常分為十大方言,各方言區(qū)內(nèi),又分布著若干次方言和許多種土語(yǔ)。部分方言之間差異很大,無(wú)法通話。為了消除語(yǔ)言隔閡,國(guó)家在全社會(huì)大力推廣普通話。然而,來(lái)自天南海北的人們,又賦予普通話五花八門的口音。
帶有鮮明地域特色的口音,雖然對(duì)于人們的日常交流無(wú)傷大雅,有時(shí)還帶來(lái)些“塑料普通話”的樂(lè)趣,但你的智能語(yǔ)音助手就樂(lè)不起來(lái)了,甚至在它聽來(lái),你說(shuō)的極有可能是另一門語(yǔ)言……
與此同時(shí),用戶也很惱火:“難道普通話不過(guò)一級(jí)乙等,我就不配擁有智能音箱?!”
口音、方言識(shí)別,到底難在哪兒?
從理論上來(lái)說(shuō),只要有足夠的數(shù)據(jù)供機(jī)器進(jìn)行訓(xùn)練,那么讓AI識(shí)別任何一種語(yǔ)言或口音,都不是問(wèn)題。
以人機(jī)交互為目的的語(yǔ)音識(shí)別,是一個(gè)把聲學(xué)信號(hào)轉(zhuǎn)化為文本信息的過(guò)程。目前主流的語(yǔ)音識(shí)別框架主要由三個(gè)部分組成:聲學(xué)模型(AM)、語(yǔ)言模型(LM)和解碼器。可以形象地理解為:聲學(xué)模型負(fù)責(zé)找到對(duì)應(yīng)的拼音,語(yǔ)言模型負(fù)責(zé)找到對(duì)應(yīng)的句子。
要得到一個(gè)出色的語(yǔ)音識(shí)別模型,需要有大量標(biāo)注數(shù)據(jù)的訓(xùn)練,簡(jiǎn)單來(lái)說(shuō):首先,要進(jìn)行語(yǔ)音內(nèi)容的采集;其次,需要人工對(duì)這些語(yǔ)音進(jìn)行標(biāo)注,將語(yǔ)音內(nèi)容轉(zhuǎn)寫成文本,讓算法能夠識(shí)別它;之后,算法再將識(shí)別后的文本內(nèi)容與對(duì)應(yīng)的音頻進(jìn)行邏輯關(guān)聯(lián)。經(jīng)過(guò)這樣大量、反復(fù)的學(xué)習(xí)訓(xùn)練之后,機(jī)器就能實(shí)現(xiàn)語(yǔ)音識(shí)別了。
“對(duì)于方言、口音的識(shí)別來(lái)說(shuō),最難的部分是在于語(yǔ)音數(shù)據(jù)的采集。”百度智能云數(shù)據(jù)眾包項(xiàng)目專家曹靜文表示。
2019年9月,百度數(shù)據(jù)眾包團(tuán)隊(duì)曾執(zhí)行過(guò)一個(gè)藏語(yǔ)方言語(yǔ)音采集的項(xiàng)目。客戶為了提升藏語(yǔ)方言的識(shí)別和翻譯準(zhǔn)確率,與百度團(tuán)隊(duì)合作,招募870位藏民,整體采集87萬(wàn)條藏語(yǔ)語(yǔ)音,覆蓋安多、康巴、衛(wèi)藏等三個(gè)藏語(yǔ)方言區(qū)。
藏語(yǔ)與漢語(yǔ)同屬漢藏語(yǔ)系,但與漢語(yǔ)這樣資源豐富的語(yǔ)言不同,藏語(yǔ)屬于低資源語(yǔ)言,目前全世界約有800萬(wàn)人使用藏語(yǔ),訓(xùn)練數(shù)據(jù)稀少。
曹靜文介紹,藏區(qū)采集工作面臨安全風(fēng)險(xiǎn)大、質(zhì)檢難度高等挑戰(zhàn)。整個(gè)項(xiàng)目過(guò)程涉及諸多環(huán)節(jié),從按需定制采集方案,到采集布點(diǎn)、人員招募、培訓(xùn)、隱私授權(quán),再到對(duì)采集流程、進(jìn)度和項(xiàng)目風(fēng)險(xiǎn)進(jìn)行把控,最后經(jīng)過(guò)多輪質(zhì)檢,在數(shù)據(jù)核驗(yàn)通過(guò)后,才能最終交付確認(rèn)。
百度團(tuán)隊(duì)在第一時(shí)間聯(lián)系到當(dāng)?shù)氐馁Y源布點(diǎn),并派遣項(xiàng)目經(jīng)理前往西藏、青海等地指導(dǎo)采集。最終該項(xiàng)目用時(shí)一個(gè)半月,實(shí)際交付數(shù)據(jù)92萬(wàn)條,驗(yàn)收合格率高于95%,滿足交付要求。
“這個(gè)過(guò)程往往成本高昂、流程繁瑣,還存在諸多門檻。”曹靜文表示。
應(yīng)對(duì)“數(shù)據(jù)稀缺”,眾包模式受青睞
語(yǔ)料庫(kù)的質(zhì)量越高,語(yǔ)言模型越豐富,語(yǔ)音識(shí)別的準(zhǔn)確率就越高。如何獲取大量訓(xùn)練數(shù)據(jù),就成為AI在口音、方言及低資源語(yǔ)言的識(shí)別上,面臨的關(guān)鍵問(wèn)題。
全球各大AI巨頭和前沿的科技公司,都在積極致力于解決這個(gè)問(wèn)題。
一方面,對(duì)于投入市場(chǎng)的智能語(yǔ)音產(chǎn)品來(lái)說(shuō),隨著越來(lái)越多擁有不同口音的用戶與其進(jìn)行交流,訓(xùn)練數(shù)據(jù)持續(xù)積累,語(yǔ)音助手的識(shí)別能力會(huì)不斷提升。另一方面,在自身語(yǔ)音數(shù)據(jù)集的擴(kuò)充上,一些公司也在嘗試采取各種“眾包模式”。
“眾包”是一種分布式的問(wèn)題解決和生產(chǎn)模式,企業(yè)通過(guò)互聯(lián)網(wǎng),以自由自愿的形式,將工作分配給外部的大眾群體。
比如,谷歌、亞馬遜等科技巨頭,以游戲的形式鼓勵(lì)用戶使用不同地區(qū)的方言進(jìn)行交談;國(guó)內(nèi)智能語(yǔ)音企業(yè)科大訊飛推出“方言保護(hù)計(jì)劃”,鼓勵(lì)用戶“留下鄉(xiāng)音”,共建“中國(guó)方言庫(kù)”;一些機(jī)構(gòu)和企業(yè)呼吁齊力“獻(xiàn)聲”,打破巨頭公司的數(shù)據(jù)壟斷,建立開源開放的語(yǔ)音數(shù)據(jù)集等。
這些方式實(shí)際上都是以眾包模式,獲取大量的語(yǔ)音訓(xùn)練數(shù)據(jù)。
“眾包模式的優(yōu)勢(shì)在于,可以低成本、高效率地整合資源。”曹靜文表示。
2019年底,百度數(shù)據(jù)眾包團(tuán)隊(duì)承接了一項(xiàng)海外英文語(yǔ)音采集項(xiàng)目。某手機(jī)廠商為了提升海外各國(guó)英文喚醒詞的識(shí)別率,需要采集海外不同地域用戶的英文語(yǔ)音,包括亞太地區(qū)口音、英式口音、美式口音、印式口音及阿拉伯口音,需招募2000人,總數(shù)據(jù)量為20萬(wàn)條。
“這個(gè)項(xiàng)目的難點(diǎn)在于,要求采集的用戶口音遍布多國(guó),交付時(shí)間短,且對(duì)用戶的性別、年齡段要求嚴(yán)格。”曹靜文說(shuō),“但我們通過(guò)百度覆蓋全國(guó)及全球22個(gè)國(guó)家的資源池,在短時(shí)間內(nèi)招募到了全球多種口音用戶參與采集。”
項(xiàng)目執(zhí)行期間,恰逢春節(jié)假期和突發(fā)的新冠疫情,百度團(tuán)隊(duì)通過(guò)國(guó)內(nèi)線上和國(guó)外線下的采集方式,執(zhí)行布點(diǎn)覆蓋9個(gè)國(guó)家,用時(shí)45天,按照客戶要求完成了全部數(shù)據(jù)交付。
實(shí)踐證明,眾包模式的確是完善語(yǔ)音數(shù)據(jù)庫(kù)的一條有效路徑。
但光有數(shù)據(jù)庫(kù)的支持還不夠。要提高某種語(yǔ)言的識(shí)別準(zhǔn)確率,還需要對(duì)該語(yǔ)言的文化、語(yǔ)素、音素等有相當(dāng)?shù)难芯俊R虼耍獙?shí)現(xiàn)方言、口音的準(zhǔn)確識(shí)別,也需要方言學(xué)者、音韻學(xué)者等專業(yè)人士的深度參與。
此外,另一個(gè)現(xiàn)實(shí)情況是,一些方言和低資源語(yǔ)言,很難提供充足的數(shù)據(jù)資源以供采集。這種情況下,探索如何通過(guò)遷移學(xué)習(xí),用較少數(shù)據(jù)量得到一個(gè)好的聲學(xué)模型,就成為當(dāng)前一個(gè)熱門且極具價(jià)值的研究方向。