8 月 18 日消息 智能語(yǔ)音技術(shù)的飛速發(fā)展,讓 AI 合成語(yǔ)音的聽(tīng)感更加自然、逼真,讓越來(lái)越多企業(yè)實(shí)現(xiàn)了與客戶的多模態(tài)互動(dòng)。基于微軟 Azure 云平臺(tái)創(chuàng)建聲音定制服務(wù)定制的專屬個(gè)性化聲音,已被廣泛應(yīng)用在諸如語(yǔ)音助手、聊天機(jī)器人、在線學(xué)習(xí)、有聲讀物或新聞播報(bào)等多種使用場(chǎng)景。

傳統(tǒng)上,完成一個(gè)定制聲音時(shí)間周期長(zhǎng)、復(fù)雜度高。需要發(fā)音人錄制成千上萬(wàn)句語(yǔ)料作為訓(xùn)練數(shù)據(jù),再由擁有深度神經(jīng)網(wǎng)絡(luò)和語(yǔ)音合成專業(yè)背景的專家針對(duì)客戶的語(yǔ)音數(shù)據(jù)進(jìn)行聲學(xué)模型和語(yǔ)音合成器的訓(xùn)練及調(diào)優(yōu),整個(gè)過(guò)程往往需要數(shù)月的時(shí)間。微軟推出基于深度神經(jīng)網(wǎng)絡(luò)的聲音定制服務(wù),所需訓(xùn)練數(shù)據(jù)更少,只要 300 至 2000 句語(yǔ)料數(shù)據(jù)(約 30-120 分鐘);訓(xùn)練調(diào)優(yōu)的難度和復(fù)雜度更加簡(jiǎn)化,即使沒(méi)有深度神經(jīng)網(wǎng)絡(luò)和語(yǔ)音合成專業(yè)背景的用戶也可實(shí)現(xiàn)自助訓(xùn)練,得到媲美人類發(fā)音的效果。用戶需注冊(cè) Azure 云平臺(tái) Speech Studio,申請(qǐng)獲得深度神經(jīng)網(wǎng)絡(luò)聲音定制權(quán)限后,即可一鍵完成個(gè)性化聲音模型的訓(xùn)練,并快速部署 API,適用于各種場(chǎng)景的應(yīng)用開(kāi)發(fā)。
除平臺(tái)自助服務(wù),微軟專家還可為有需求的客戶提供包括聲音畫像設(shè)計(jì)、發(fā)音人選擇、錄音指導(dǎo)、模型評(píng)估和調(diào)優(yōu)等全流程的語(yǔ)音定制支持和輔導(dǎo),幫助英國(guó) BBC 廣播公司、Swisscom 瑞士電信、美國(guó) AT&T 旗下的華納兔八哥體驗(yàn)店、美國(guó) Progressive 前進(jìn)保險(xiǎn)公司、Duolingo 多鄰國(guó)和國(guó)內(nèi)的小米、華人運(yùn)通等不同行業(yè)的客戶成功打造了自己的專屬定制聲音。
據(jù)悉,美國(guó) AT&T 體驗(yàn)店兔八哥語(yǔ)音助手,采用了微軟的聲音定制服務(wù),并以兔八哥配音演員的授權(quán)聲音創(chuàng)建了這一虛擬動(dòng)畫人物的語(yǔ)音模型,以奇趣的風(fēng)格與顧客對(duì)話,回答常見(jiàn)的問(wèn)題,增強(qiáng)了顧客粘性。
微軟 AI 語(yǔ)音技術(shù)在 AT & T 體驗(yàn)店的兔八哥上的應(yīng)用:
