說(shuō)到語(yǔ)音合成,大家都不陌生。從語(yǔ)音導(dǎo)航到智能客服,從智能手機(jī)到智能家居,基于AI的合成語(yǔ)音無(wú)處不在。特別是今年以來(lái),以GPT大模型為代表的AIGC技術(shù)迅猛發(fā)展,AI語(yǔ)音生成作為其中的重要一環(huán),正受到越來(lái)越多人的關(guān)注和探索。
語(yǔ)音合成 (Text-to-speech, TTS) 是將文本轉(zhuǎn)換為自然語(yǔ)音,服務(wù)于人機(jī)智能語(yǔ)音交互場(chǎng)景的核心技術(shù)。過(guò)去十年,通過(guò)神經(jīng)網(wǎng)絡(luò)和端到端建模技術(shù)的發(fā)展,語(yǔ)音合成技術(shù)也取得了巨大突破,自然度和音質(zhì)得到了極大提升。
伴隨大模型時(shí)代的到來(lái),引發(fā)了新一輪的AI革命浪潮,更自然、更智能的人機(jī)交互逐漸進(jìn)入到我們的生活中。人們?cè)絹?lái)越需要機(jī)器給予“情感”回饋,越來(lái)越多的企業(yè)開始致力于追求語(yǔ)音合成在情感、韻律、高保真等方面的高表現(xiàn)力。
標(biāo)貝科技深耕AI語(yǔ)音交互領(lǐng)域多年,致力于語(yǔ)音交互技術(shù)的創(chuàng)新研發(fā)和商業(yè)化應(yīng)用,推出高品質(zhì)通用語(yǔ)音方案和特色語(yǔ)音定制服務(wù),能夠滿足虛擬人、有聲閱讀、短視頻、智能客服等多種場(chǎng)景需求。
為了賦予聲音更多的情感表現(xiàn)力和個(gè)性化風(fēng)格,標(biāo)貝科技依托于先進(jìn)的深度學(xué)習(xí)技術(shù)和多情感風(fēng)格大語(yǔ)言模型,在情感生成、風(fēng)格拓展等方面的取得重要突破,實(shí)現(xiàn)了合成效果的全面提升,讓新一代語(yǔ)音合成系統(tǒng)4.0適配到各種標(biāo)準(zhǔn)化和個(gè)性化場(chǎng)景中。最終的合成音色保真度更高,情感更真實(shí)豐富,合成效率更快更穩(wěn)定,有效提升用戶對(duì)生成聲音的“粘性”。
TTS4.0全面升級(jí) 打造極致聲音體驗(yàn)
●支持多情感、歌聲合成
標(biāo)貝科技TTS4.0基于成熟的深度神經(jīng)網(wǎng)絡(luò)技術(shù)及全新的高音質(zhì)合成系統(tǒng),可提供商業(yè)級(jí)情感合成以及歌聲合成方案。
情感合成支持超過(guò)20余種情緒和風(fēng)格的音色表達(dá),同時(shí)我們還引入細(xì)粒度控制能力,通過(guò)對(duì)情感強(qiáng)弱、語(yǔ)速、停頓,音量等關(guān)鍵音色屬性的控制調(diào)節(jié),使得合成的情感聲音更具表現(xiàn)力,適應(yīng)不同情境下的語(yǔ)意表達(dá)。
歌曲合成方案支持用戶自由填詞,然后選擇合適的音色,利用成熟的AI歌唱合成技術(shù)實(shí)現(xiàn)歌曲合成。用戶一鍵即可體驗(yàn)短視頻填詞成曲的玩梗樂(lè)趣,適用于短視頻、廣告配音等各種泛娛樂(lè)場(chǎng)景。
●合成效果更優(yōu)
標(biāo)貝科技TTS4.0采用全新的深度神經(jīng)網(wǎng)絡(luò)的聲學(xué)模型架構(gòu)和聲碼器結(jié)構(gòu),與上一代語(yǔ)音技術(shù)相比,聲音質(zhì)量再創(chuàng)新高,MOS得分可以達(dá)到4.5以上,主要體現(xiàn)在發(fā)音更準(zhǔn)確、韻律更自然、高保真效果更完美。
●合成效率更快更穩(wěn)定
通過(guò)算法和模型優(yōu)化,標(biāo)貝科技TTS4.0對(duì)于硬件算力的要求更低,可以大大縮短訓(xùn)練時(shí)間,提高合成效率。據(jù)介紹,首包合成時(shí)間提升至少50%,實(shí)現(xiàn)更快的響應(yīng)速度。在語(yǔ)音聊天、語(yǔ)音助手等實(shí)時(shí)應(yīng)用場(chǎng)景下,給帶來(lái)用戶更加流暢的交互體驗(yàn)。
此外,標(biāo)貝科技面向私部署場(chǎng)景下提供了不同類型的高可用部署方案。既支持少量服務(wù)器的輕量級(jí)多機(jī)高可用,也支持實(shí)現(xiàn)彈性擴(kuò)容的大規(guī)模容器集群的部署。讓應(yīng)用程序開發(fā)和部署變得更加簡(jiǎn)單和可靠,確保語(yǔ)音合成系統(tǒng)平穩(wěn)順滑。
●功能更豐富
(1)長(zhǎng)文本、短文本支持流式合成:用戶輸入文本的同時(shí),可以逐段生成并輸出相應(yīng)的語(yǔ)音數(shù)據(jù),讓用戶實(shí)時(shí)聽到合成內(nèi)容。例如在實(shí)時(shí)交互的虛擬人場(chǎng)景下,需要虛擬人對(duì)用戶指令快速做出應(yīng)答,否則會(huì)消耗用戶的耐心、降低用戶體驗(yàn)。此時(shí)就需要流式語(yǔ)音合成系統(tǒng),在保障合成質(zhì)量的同時(shí)提高響應(yīng)速度。
(2)更多類型時(shí)間戳:標(biāo)貝科技TTS4.0支持字級(jí)別、音素級(jí)別和句子級(jí)別等不同顆粒度的時(shí)間戳輸出,滿足多場(chǎng)景展示和口型呈現(xiàn)需求,給用戶帶來(lái)更便捷的畫音同步體驗(yàn)。
多層級(jí)音色定制,適應(yīng)不同業(yè)務(wù)場(chǎng)景需求
基于成熟的語(yǔ)音合成技術(shù),標(biāo)貝科技上線了上百種覆蓋不同語(yǔ)言和場(chǎng)景的可商用音色,支持西語(yǔ)、韓語(yǔ)、日語(yǔ)、英語(yǔ)、美語(yǔ)、維語(yǔ)、東北話、粵語(yǔ)等多語(yǔ)言,影視配音、賽事解說(shuō)、直播帶貨、自然對(duì)話、老年人等多風(fēng)格的場(chǎng)景音色,快速匹配各業(yè)務(wù)場(chǎng)景需求。
為進(jìn)一步拓寬語(yǔ)音使用場(chǎng)景,滿足各行業(yè)客戶的多元化需求,標(biāo)貝科技也在不斷探索新的服務(wù)和能力。在產(chǎn)品日益同質(zhì)化的當(dāng)下,標(biāo)貝科技提供一站式TTS音色定制服務(wù),包括普通聲音復(fù)刻、精品聲音復(fù)刻、標(biāo)準(zhǔn)化音色定制等方案,為企業(yè)打打造專屬IP音色,實(shí)現(xiàn)品牌價(jià)值的最大化。
●普通聲音復(fù)刻
僅需5分鐘音頻數(shù)據(jù),無(wú)需開發(fā)人員,機(jī)器自動(dòng)進(jìn)行音頻標(biāo)注,對(duì)聲音進(jìn)行快速的模型訓(xùn)練,即可實(shí)現(xiàn)與真人語(yǔ)氣音調(diào)基本接近的合成音色。
●精品聲音復(fù)刻
基于30-60分鐘的音頻數(shù)據(jù),提取說(shuō)話人的音色和發(fā)音特征,然后人工對(duì)標(biāo)注結(jié)果進(jìn)行檢測(cè)。經(jīng)過(guò)2-3天的模型訓(xùn)練及效果調(diào)優(yōu),實(shí)現(xiàn)客戶個(gè)性化的情感音色定制。適用于虛擬數(shù)字人音色定制場(chǎng)景,賦予數(shù)字人更加鮮明的人格化魅力。
●標(biāo)準(zhǔn)音色定制
專業(yè)錄音棚采集不少于4小時(shí)的高質(zhì)量語(yǔ)音數(shù)據(jù),并通過(guò)人工進(jìn)行專業(yè)的聲學(xué)層面的精細(xì)化標(biāo)注,2-3周的優(yōu)化定制,生成高度還原發(fā)音人聲音的情感合成音色,滿足不同層面客戶的定制需求。
實(shí)際上,在智能語(yǔ)音產(chǎn)業(yè)中,AI語(yǔ)音定制的能力始終被報(bào)以高度期待。音色,是每個(gè)人獨(dú)有的聲音特色,也是機(jī)器人表達(dá)情感、對(duì)外溝通不可或缺的部分。強(qiáng)大的音色定制能力能夠賦予機(jī)器人擁有媲美真人的聲音屬性,個(gè)體形象更為鮮活。
然而,當(dāng)前市場(chǎng)上傳統(tǒng)人工合成音色定制服務(wù)通常流程較為復(fù)雜,高昂的定制成本與定制周期,遠(yuǎn)遠(yuǎn)無(wú)法滿足高頻應(yīng)用的需求。
標(biāo)貝科技TTS4.0支持聲音自選或提供語(yǔ)料定制,提供全鏈路深度語(yǔ)音合成定制服務(wù),讓AI語(yǔ)音定制不再需耗費(fèi)過(guò)多時(shí)間和資源,滿足不同層面企業(yè)用戶的個(gè)性化需求,以更普惠的方式賦能千行百業(yè)。同時(shí),標(biāo)貝科技不忘支持國(guó)家信創(chuàng)產(chǎn)業(yè)發(fā)展,當(dāng)前,語(yǔ)音合成系列產(chǎn)品已經(jīng)完成全棧的國(guó)產(chǎn)化ARM服務(wù)器適配。
專注AI語(yǔ)音技術(shù)探索 引領(lǐng)行業(yè)變革
在AIGC蓬勃發(fā)展的關(guān)鍵時(shí)期,語(yǔ)音合成扮演著不可或缺的重要角色,賦能機(jī)器的語(yǔ)言更逼真、自然、流暢,全面提升用戶體驗(yàn)。
成立多年來(lái),標(biāo)貝科技始終將技術(shù)引領(lǐng)作為發(fā)展第一要位,專注于產(chǎn)品的研發(fā)與創(chuàng)新。如今,標(biāo)貝科技正利用全新推出的多情感、多風(fēng)格、多語(yǔ)種的語(yǔ)音合成技術(shù)助力各領(lǐng)域企業(yè)快速擁有更具競(jìng)爭(zhēng)力的語(yǔ)音產(chǎn)品,為用戶創(chuàng)造更加逼真、個(gè)性化的語(yǔ)音體驗(yàn)。
目前,標(biāo)貝科技TTS產(chǎn)品已覆蓋智能客服、語(yǔ)音交互、有聲閱讀、導(dǎo)航播報(bào)等眾多應(yīng)用場(chǎng)景,并助力中國(guó)銀行、人民日?qǐng)?bào)、湖南電信、恒生電子等多家行業(yè)頭部企業(yè)實(shí)現(xiàn)AI語(yǔ)音能力的應(yīng)用與拓展。未來(lái),隨著語(yǔ)音技術(shù)的進(jìn)一步迭代發(fā)展,標(biāo)貝科技將持續(xù)釋放自己的勢(shì)能,引領(lǐng)行業(yè)變革。