在人工智能語音技術的前沿探索中,出門問問攜手香港科技大學、上海交通大學、南洋理工大學及西北工業大學等頂尖學府,共同推出了一項開創性的成果——新一代語音生成模型Spark-TTS,并隨之發布了其商業化版本TicVoice 7.0,這一舉動標志著語音合成技術邁入了一個嶄新的階段。
TicVoice 7.0,作為出門問問第七代文本轉語音(TTS)引擎,其獨特之處在于能夠摒棄傳統多階段、多流生成模型的依賴,僅憑單一的語言模型(序列猴子)以簡潔的單階段、單流方式高效完成TTS生成。這一革新不僅賦予了TicVoice 7.0超自然的語音克隆與跨語種生成能力,還允許用戶根據個人需求定制專屬聲音,為個性化語音服務樹立了新的標桿。
出門問問已將TicVoice 7.0應用于其AI配音產品“魔音工坊”,顯著提升了用戶體驗。憑借領先的3秒語音克隆技術和卓越的精品發音人定制效果,魔音工坊在客服、有聲書、情感直播、影視解說及配音等多個應用場景中展現了非凡的表現力,為用戶帶來了前所未有的聽覺盛宴。
Spark-TTS模型一經發布,便迅速在Hugging Face趨勢榜上占據TTS領域前列,其增長勢頭強勁,同時伴隨相關論文的發布,在學術界也引發了廣泛關注和熱烈討論。Spark-TTS之所以能引起如此反響,關鍵在于它引入了全新的語音編碼范式,實現了建模結構與文本大型語言模型(LLMs)結構的高度統一,為行業帶來了革命性的變化。
針對主流語音token存在的痛點,TicVoice 7.0與Spark-TTS提出了一種創新的BiCodec編碼方式,將語音編碼為Global Token和Semantic Tokens兩部分,分別負責建模全局特征和語義相關信息。這種設計不僅簡化了模型結構,還提高了音色等屬性的精準控制,實現了高效性與可控性的完美結合。
在語音克隆能力方面,TicVoice 7.0再次刷新了行業標準,尤其在跨語言聲音克隆上表現卓越。與上一代產品MeetVoice Pro及國內外同類產品相比,TicVoice 7.0在“3秒克隆”和“至臻Pro-精品發音人”定制方面展現出明顯優勢。其國際通用MOS評分從3.9提升至4.2,音色相似度、情感表現及穩定性均有顯著提升,為用戶帶來了更加自然、悅耳、穩定的聽覺體驗。
TicVoice 7.0還支持用戶通過調整性別、語速、基頻等多種屬性(即將上線)來精準定制獨特的聲音風格。在“至臻Pro-精品發音人”定制服務中,用戶僅需提供20至200句語料,即可獲得播音級的專業配音體驗。其國際通用MOS分數從4.3提升至4.7,語音效果達到了廣播級水平,為影視、游戲角色配音等場景提供了專業級的定制服務。
出門問問自2012年成立以來,一直致力于人工智能語音技術的研發與應用,不斷迭代升級TTS引擎。通過深厚的技術積累和先進的產品應用經驗,出門問問成功推出了“魔音工坊”、“奇妙元”、“元創島”等一系列語音產品或搭載語音功能的產品,穩固了其在行業內的技術與產品領先地位。此次Spark-TTS的開源與TicVoice 7.0的發布,不僅展現了出門問問在語音生成領域的又一次重大突破,更為行業的發展注入了新的活力與動能。