Hume AI發布情感智能語音大模型Octave，AI語音能否以假亂真？-魔扣目錄

日日操夜夜添-日日操影院-日日草夜夜操-日日干干-精品一区二区三区波多野结衣-精品一区二区三区高清免费不卡

公告：魔扣目錄網為廣大站長提供免費收錄網站服務，提交前請做好本站友鏈：【網站目錄：http://www.ylptlb.cn 】，免友鏈快審服務（50元/站），

網站：52011
待審：79
小程序：12
文章：1184964
會員：801

Hume AI發布情感智能語音大模型Octave，AI語音能否以假亂真？

發布時間：2025-02-27 20:24:16 作者：網友整理

在人工智能領域，一次創新性的飛躍近日由美國情感智能技術初創公司Hume AI實現。該公司發布了一款名為Octave的新型文本轉語音大模型，該模型能夠根據用戶輸入的提示詞或劇本，生成富有人設特點、語調起伏和情感色彩的AI語音，并允許用戶通過文本指令進行二次調整和創作。

Hume AI由DeepMind前研究員Alan Cowen于2021年創立，最近一輪融資后估值達到2.19億美元。在接受采訪時，Cowen表示：“我們推出的首個AI文本轉語音大模型，能夠理解上下文中的詞匯，并預測出適當的情緒、節奏、韻律和重音，從而使AI語音聽起來比以往更人性化。”

Octave的設計初衷是為了解決過往AI語音生硬、缺乏情感表達的問題。它不僅能夠表達憤怒、悲傷或快樂等單一情緒，還能將多種情感交織融合在一起，如“夾雜著幽默或惱怒的輕度沮喪”。這種能力使得Octave非常適合用于有聲讀物、播客、視頻畫外音和視頻游戲角色配音等預先制作的內容。

Hume AI在社交媒體上發布的信息顯示，Octave的訓練數據量是傳統文本轉語音大模型的1000倍，這包括數百萬小時的公開長篇語音數據和Hume AI獨家采集的聲音、視頻數據。這種龐大的數據集使得Octave能夠理解劇本，并使用更逼真的情感、語義、節奏、詞語和重音等要素。

除了文本轉語音功能，Octave還具備語音設計、表演指令和即將上線的語音克隆功能。在語音設計方面，Octave能夠基于提示詞或劇本生成各種設定的AI語音，包括人稱代詞、簡稱、用詞等，從而生成與角色相符的連貫語音內容。在表演指令功能中，用戶可以基于現有語音類型，用指定的情感或說話風格來朗讀新劇本。而語音克隆功能則只需一段5秒的音頻，就能快速克隆出相應的語音。

在一項人類評審盲測的對比實驗中，Octave的輸出在音質、自然度以及語音生成與預期描述匹配度等方面均優于ElevenLabs，這表明其AI語音生成過程的可控性和生成質量均高于行業水準。

目前，Octave已在Hume AI的平臺和API上線，支持超過40種預設語音的語音庫，以及用于生成有聲書、播客等長篇內容的項目界面（預覽版）。開發者可以通過Python和Type SDK訪問Octave，這些SDK會處理身份驗證，并提供類型化接口以確保集成的可靠性。命令行界面支持快速原型設計、測試以及直接從終端批量處理。