出門問問論文入選全球語音技術(shù)頂會INTERSPEECH 2022-魔扣目錄

如何讓AI語音更富有人類情感？

近日，全球語音領(lǐng)域頂級會議INTERSPEECH 2022公布論文入選名單，出門問問與西工大謝磊教授ASLP實(shí)驗(yàn)室合作撰寫的團(tuán)隊(duì)情感語音合成論文入選，并將在會議上進(jìn)行展示。

INTERSPEECH在國際上享有極高盛譽(yù)并具有廣泛的學(xué)術(shù)影響力，是由國際語音通訊協(xié)會（ISCA）創(chuàng)辦的旗艦級國際會議，也是全球最大的綜合性語音領(lǐng)域的科技盛會，對參會企業(yè)和單位有著嚴(yán)苛的準(zhǔn)入門檻，歷屆INTERSPEECH會議都倍受全球各地語音研究領(lǐng)域人士的廣泛關(guān)注。此次論文入選，代表出門問問在語音合成領(lǐng)域的科研實(shí)力和技術(shù)創(chuàng)新能力獲得國際學(xué)術(shù)界的認(rèn)可。

圖片1.jpg

論文貢獻(xiàn)：跨說話人情感遷移語音合成的實(shí)現(xiàn)路徑

如何讓AI語音更富有人類情感，更有情緒化的表達(dá)？出門問問在題為《端到端語音合成中基于韻律補(bǔ)償?shù)目缯f話人情感遷移》的論文中作以闡述。

跨說話人情感遷移語音合成主要是將情感從具有情感數(shù)據(jù)的源說話人遷移到新的沒有該情感的目標(biāo)說話人上，使目標(biāo)說話人能夠表達(dá)其訓(xùn)練數(shù)據(jù)中不存在的各種情感。“情感遷移”是跨說話人場景中最流行的策略。在這項(xiàng)研究中，從源說話人的情感參考音頻中提取與說話人無關(guān)的情感嵌入至關(guān)重要。否則，情感嵌入中保留的說話人信息就會影響目標(biāo)說話人的音色。然而，在消除源說話人音色信息的過程中，情感嵌入所傳遞的情感信息往往會被削弱，導(dǎo)致合成目標(biāo)說話人的情感語音表現(xiàn)力平淡。

如何防止情感嵌入中的情感信息被削弱是一個(gè)挑戰(zhàn)。具體來說，在合成語音中，具有足夠情感信息的reference embedding 往往會導(dǎo)致源說話人音色泄漏，而進(jìn)一步消除reference embedding中的說話人信息可能會使遷移的情感表達(dá)削弱。為了應(yīng)對這一挑戰(zhàn)，出門問問在論文中提出一種韻律補(bǔ)償策略來補(bǔ)償情感嵌入中由于說話人信息消除造成的情感信息損失，以提升合成語音的情感表達(dá)能力。

WPS圖片拼圖.jpg

論文中表達(dá)，由預(yù)訓(xùn)練的 Automatic Speech Recognition（ASR）模型產(chǎn)生的隱藏表征保留了一定的韻律信息，但沒有明顯的說話人信息，于是我們提出了一個(gè)韻律補(bǔ)償模塊（prosody compensation module, PCM）以參考音頻通過ASR模型得到的中間表征作為輸入用于補(bǔ)償情感信息。本文提出的帶韻律補(bǔ)償?shù)目缯f話人情感語音合成模型，包含說話人解耦模塊（speaker disentangling module, SDM）、說話人嵌入模塊和PCM模塊。其中，SDM是從參考頻譜中獲得說話人無關(guān)的情感嵌入，PCM是從AIF中獲得額外的情感信息，以補(bǔ)償因解藕說話人音色而導(dǎo)致的情感嵌入中的情感信息損失。為了有效地從AIF中提取全局韻律信息，還引入了一種由全局上下文模塊global context（GC） (如Figure 2所示) 輔助的韻律補(bǔ)償編碼器。實(shí)驗(yàn)表明，該方法能夠有效地緩解解耦后的情感嵌入中情感表現(xiàn)力受損的影響，在提升遷移情感表現(xiàn)力的同時(shí)保持目標(biāo)說話人的音色。

語音合成示例:

圖片4.jpg

行業(yè)應(yīng)用：打造業(yè)內(nèi)領(lǐng)先的AI配音神器「魔音工坊」

近年來，出門問問在語音技術(shù)上的積累日漸成熟，并逐漸打磨一款面向消費(fèi)者的AI配音產(chǎn)品——「魔音工坊」。該產(chǎn)品基于出門問問自研語音合成系統(tǒng)MeetVoice，發(fā)音精準(zhǔn)，韻律流暢，現(xiàn)已成為深受短視頻創(chuàng)作者們喜愛的頂級配音神器。

魔音工坊擁有豐富的配音編輯功能，在類似word「編輯器」界面，可輕松實(shí)現(xiàn)停頓調(diào)節(jié)、多音字、多發(fā)音人、局部變速等全方位的編輯，另有行業(yè)獨(dú)創(chuàng)的重讀、拖音等調(diào)音功能，讓AI配音進(jìn)一步媲美真人。

但如何應(yīng)用魔音工坊的海量數(shù)據(jù)，讓不同風(fēng)格、不同情感的說話人互相結(jié)合，使之擁有更多情感豐富、風(fēng)格多樣的發(fā)音人，如何讓發(fā)音人的情感更生動充沛，是魔音工坊一直追求的極致產(chǎn)品體驗(yàn)。

當(dāng)前語音合成系統(tǒng)對風(fēng)格/情感匹配的高質(zhì)量音庫有較強(qiáng)的依賴性，該項(xiàng)技術(shù)可以通過風(fēng)格/情感遷移，實(shí)現(xiàn)“單人千音”的效果。該項(xiàng)技術(shù)的落地將大大提升風(fēng)格化情感化語音合成系統(tǒng)的構(gòu)建效率，降低系統(tǒng)構(gòu)建的成本。

為了實(shí)現(xiàn)“單人千音”的效果，魔音工坊也研發(fā)實(shí)現(xiàn)了“聲音轉(zhuǎn)換”，即把A的說話風(fēng)格（節(jié)奏和韻律等）遷移到B上。轉(zhuǎn)換后的聲音，會有B的音色，并擁有A的節(jié)奏和韻律等信息。

圖片5.jpg

（魔音工坊產(chǎn)品界面）

「魔音工坊」的“聲音轉(zhuǎn)換”可實(shí)現(xiàn)：

1、AI合成效果不佳之處，比如破音、發(fā)音不清晰/不飽滿等，可以使用這個(gè)功能，讓你的AI主播，學(xué)習(xí)其他AI主播的播報(bào)效果，或?qū)W習(xí)你的朗讀效果；

2、某個(gè)地方需要重讀，但是AI卻輕描淡寫，這時(shí)候可以嘗試使用聲音轉(zhuǎn)換功能，實(shí)現(xiàn)「知輕重」的效果；

3、某個(gè)地方想要拖音，但是AI讀的比較短平快，這時(shí)候使用聲音轉(zhuǎn)換，實(shí)現(xiàn)「懂緩急」的效果；

4、某句關(guān)鍵的臺詞，AI合成的效果不夠出色，感覺AI配音的效果不佳（比如視頻的開頭黃金10秒，用戶都希望配音能夠出彩），這時(shí)可以嘗試使用聲音轉(zhuǎn)換，讓你的精彩演繹，賦能給魔音工坊的AI發(fā)音人，讓聲音更生動，富于情緒，更有情感。

此篇論文是我們的一部分探索，期待一下魔音工坊上線更多樣性的發(fā)音人，也讓每一個(gè)人都成為聲音的導(dǎo)演，助力AI配音行業(yè)的蓬勃發(fā)展。

未來，出門問問將繼續(xù)深耕語音、聲學(xué)研發(fā)積累，并逐步落地在更多產(chǎn)品服務(wù)中。以更智能的技術(shù)創(chuàng)造更貼心的語音體驗(yàn)，富于情感，按「需」發(fā)音。讓人和機(jī)器的交互更自然，讓AI走進(jìn)更多人的日常生活。

論文：《Cross-speaker Emotion Transfer Based on Prosody Compensation for End-to-End Speech Synthesis》

作者：李濤，王新升，謝啟聰，王智超，江明奇，謝磊

日日操夜夜添-日日操影院-日日草夜夜操-日日干干-精品一区二区三区波多野结衣-精品一区二区三区高清免费不卡

出門問問論文入選全球語音技術(shù)頂會INTERSPEECH 2022

數(shù)獨(dú)大挑戰(zhàn)2018-06-03

答題星2018-06-03

全階人生考試2018-06-03

運(yùn)動步數(shù)有氧達(dá)人2018-06-03

每日養(yǎng)生app2018-06-03

體育訓(xùn)練成績評定2018-06-03