在人工智能領域,一次創新性的飛躍近日由美國情感智能技術初創公司Hume AI實現。該公司發布了一款名為Octave的新型文本轉語音大模型,該模型能夠根據用戶輸入的提示詞或劇本,生成富有人設特點、語調起伏和情感色彩的AI語音,并允許用戶通過文本指令進行二次調整和創作。
Hume AI由DeepMind前研究員Alan Cowen于2021年創立,最近一輪融資后估值達到2.19億美元。在接受采訪時,Cowen表示:“我們推出的首個AI文本轉語音大模型,能夠理解上下文中的詞匯,并預測出適當的情緒、節奏、韻律和重音,從而使AI語音聽起來比以往更人性化。”
Octave的設計初衷是為了解決過往AI語音生硬、缺乏情感表達的問題。它不僅能夠表達憤怒、悲傷或快樂等單一情緒,還能將多種情感交織融合在一起,如“夾雜著幽默或惱怒的輕度沮喪”。這種能力使得Octave非常適合用于有聲讀物、播客、視頻畫外音和視頻游戲角色配音等預先制作的內容。
Hume AI在社交媒體上發布的信息顯示,Octave的訓練數據量是傳統文本轉語音大模型的1000倍,這包括數百萬小時的公開長篇語音數據和Hume AI獨家采集的聲音、視頻數據。這種龐大的數據集使得Octave能夠理解劇本,并使用更逼真的情感、語義、節奏、詞語和重音等要素。
除了文本轉語音功能,Octave還具備語音設計、表演指令和即將上線的語音克隆功能。在語音設計方面,Octave能夠基于提示詞或劇本生成各種設定的AI語音,包括人稱代詞、簡稱、用詞等,從而生成與角色相符的連貫語音內容。在表演指令功能中,用戶可以基于現有語音類型,用指定的情感或說話風格來朗讀新劇本。而語音克隆功能則只需一段5秒的音頻,就能快速克隆出相應的語音。
在一項人類評審盲測的對比實驗中,Octave的輸出在音質、自然度以及語音生成與預期描述匹配度等方面均優于ElevenLabs,這表明其AI語音生成過程的可控性和生成質量均高于行業水準。
目前,Octave已在Hume AI的平臺和API上線,支持超過40種預設語音的語音庫,以及用于生成有聲書、播客等長篇內容的項目界面(預覽版)。開發者可以通過Python和Type SDK訪問Octave,這些SDK會處理身份驗證,并提供類型化接口以確保集成的可靠性。命令行界面支持快速原型設計、測試以及直接從終端批量處理。
Hume AI的收費方式采用訂閱制,分為免費、入門版、Creator和專業版等多個級別。免費版提供每月1萬個字符的文本轉語音服務,總時長約10分鐘,并允許無限自定義聲音。其他版本則提供更多的字符數和時長,以及額外的項目支持和優惠價格。
Octave的發布標志著AI語音技術向更加人性化和情感化的方向邁出了重要一步。它不僅有望解決AI語音應答機械、語調生硬的問題,還能為影視、視聽、新媒體、數字人等多個行業提供定制化的配音服務,加速AI語音的商業化落地。