基石智算 CoresHub 將 AI 算力云與模型開發(fā)部署服務完美融合,致力于為開發(fā)者打造完整的 AI 應用落地生態(tài)。對于初涉開發(fā)的用戶而言,平臺支持多模態(tài)模型及應用的一鍵啟動,為眾多 AI 愛好者賦予強大能量。目前,平臺已推出文本類、文生圖、文生視頻、語音轉換等模型,且支持一鍵啟動、一鍵部署以及在線微調,助力用戶打造專屬 AI 應用。
本期,將為大家詳細呈現基于基石智算 CoresHub 平臺的 FunAudioLLM 模型使用教程。
FunAudioLLM 模型介紹
FunAudioLLM 是阿里巴巴通義實驗室推出的一款開源語音大模型,它包含兩個核心模型:SenseVoice 和 CosyVoice 。SenseVoice 專注于多語言語音識別、情感辨識和聲音事件檢測,支持超過 50 種語言,尤其在中文和粵語的識別上表現優(yōu)異,準確率提升超過 50%。它還能夠識別多種情緒和交互事件,如音樂、掌聲、笑聲、哭聲等。CosyVoice 則擅長語音合成,能夠根據少量原始音頻快速生成模擬音色,包括韻律和情感細節(jié),并支持跨語言合成。
FunAudioLLM 的應用場景非常廣泛,如語音到語音翻譯、情感語音對話、互動播客和有聲讀物等。例如,在語音到語音翻譯場景中,它可以將中文語音翻譯成英文語音,同時保留原說話人的音色和情感色彩。在情感語音對話中,它可以與用戶進行帶有情緒色彩的交互,提升用戶體驗。此外,它還可以用于制作互動播客和有聲讀物,提供豐富多彩的聽覺體驗。
語音翻譯:將輸入語音翻譯成目標語言,并使用目標語言生成語音。
情感語音聊天:識別輸入語音的情緒和音頻事件,并生成與情緒相符的語音。
交互式播客:根據實時資訊、知識等內容生成播客腳本,并使用 CosyVoice 合成語音。
有聲讀物:分析文本中的情感和角色,并使用 CosyVoice 合成具有豐富情感的有聲讀物。
在 coreshub 上的使用方式
CosyVoice 模型使用
1.創(chuàng)建容器實例。
2.選擇資源與鏡像 FunAudio 下的 CosyVoice 模型(推薦選擇 1 卡 3090 )。
3.創(chuàng)建好容器實例后,選擇更多訪問,點擊端口 9001,進入 WebUI 界面。
4.根據頁面操作提示可以使用不同的功能生成音頻。
預訓練音色:使用模型本身預訓練音色,按照輸入文本生成音頻;
【音頻文件:預訓練:基石智算是青云科技旗下的 AI 算力云服務平臺,為用戶提供一站式模型開發(fā)訓練一體化服務】
3s 極速復刻:上傳自己的音頻文件或在線錄制音頻,模型會根據你的音頻訓練出相同音色,輸入 prompt 文本,就可以使用你的音色讀出文字了;
【音頻文件】
跨語種復刻:將你上傳的普通話音頻,轉變成粵語、日語、英語等;
【音頻文件】
自然語言控制:可在語音中添加自然的笑聲,喘氣、生氣等語氣。
【音頻文件】
注意:使用自然語言控制功能時,需要更換模型,重新創(chuàng)建實例,選擇 FunAudioLLM 中的CosyVoice-300-instruct 使用。
SenseVoice 模型使用
同樣創(chuàng)建容器實例,選擇資源,但在選擇應用鏡像時,選擇 FunAudioLLM 中的 SenseVoice 模型。以同樣方式進入 WebUI 界面,使用流程與 CosyVoice 相同。
立即開啟你的創(chuàng)作之旅吧!!