【ITBEAR】近日,RTE2024第十屆實(shí)時(shí)互聯(lián)網(wǎng)大會(huì)于北京盛大召開,本次大會(huì)由聲網(wǎng)與RTE開發(fā)者社區(qū)聯(lián)合舉辦。在備受矚目的“重塑語(yǔ)音交互:音頻技術(shù)和Voice AI”技術(shù)專場(chǎng)上,標(biāo)貝科技聯(lián)合創(chuàng)始人兼CTO李秀林博士發(fā)表了題為《語(yǔ)音合成大模型與高質(zhì)量數(shù)據(jù)》的演講,深入探討了語(yǔ)音合成技術(shù)的最新進(jìn)展。
李秀林博士首先回顧了語(yǔ)音合成技術(shù)的發(fā)展歷程,指出隨著大模型時(shí)代的來(lái)臨,用戶對(duì)于合成聲音的需求已趨向個(gè)性化和情感化。他提到,如今的語(yǔ)音合成技術(shù)已能在音質(zhì)、斷句、韻律等多方面實(shí)現(xiàn)高度自然與真實(shí)的表達(dá),這得益于大模型技術(shù)的深度應(yīng)用。
標(biāo)貝科技作為智能語(yǔ)音領(lǐng)域的佼佼者,緊跟技術(shù)潮流,推出了自家的語(yǔ)音合成大模型。該模型僅需極短的樣音即可生成自然且個(gè)性化的合成聲音,同時(shí)保留了樣音中的情感特征,為用戶提供了更為貼心的語(yǔ)音交互體驗(yàn)。
李博士還強(qiáng)調(diào)了高質(zhì)量數(shù)據(jù)在語(yǔ)音合成大模型訓(xùn)練中的重要性。他表示,標(biāo)貝科技擁有豐富的多模態(tài)數(shù)據(jù)資源和精標(biāo)數(shù)據(jù)能力,為模型訓(xùn)練提供了堅(jiān)實(shí)的基礎(chǔ)。通過(guò)大規(guī)模、多樣化的數(shù)據(jù)集訓(xùn)練,標(biāo)貝科技的語(yǔ)音合成大模型得以在多個(gè)語(yǔ)種和風(fēng)格上實(shí)現(xiàn)出色的表現(xiàn)。
目前,標(biāo)貝科技已建立起涵蓋40余種語(yǔ)種及方言的高標(biāo)準(zhǔn)合成數(shù)據(jù)庫(kù),滿足不同年齡段、風(fēng)格和情感的需求。這些豐富的數(shù)據(jù)資源為語(yǔ)音合成技術(shù)的進(jìn)一步發(fā)展和創(chuàng)新提供了有力支撐。
通過(guò)李秀林博士的深入解讀,與會(huì)者對(duì)語(yǔ)音合成大模型及其背后的高質(zhì)量數(shù)據(jù)支撐有了更為全面的了解。標(biāo)貝科技在智能語(yǔ)音領(lǐng)域的持續(xù)創(chuàng)新和應(yīng)用實(shí)踐,無(wú)疑為行業(yè)的未來(lái)發(fā)展注入了新的活力。