AI越來越強大,不僅能模仿別人的表情,還能模仿別人說話的聲音和語氣,以后電話聽到好友的聲音也有可能不是本人哦,今天小編來講講一個實時聲音克隆庫Real-Time-Voice-Cloning
github地址為:https://github.com/CorentinJ/Real-Time-Voice-Cloning
該庫是使用谷歌的開源聲音處理算法(SV2TTS)實現。
SV2TTS是一個三階段的深度學習框架,它允許從幾秒鐘的音頻中創建語音的數字表示,并使用它來調節經過訓練的文本到語音模型,以生成到新的語音。
如果您只想克隆您的聲音(而不是其他人的聲音):我建議在Resemble.AI上使用免費計劃。
首先,因為您將獲得更好的語音質量和更少的韻律錯誤,其次,因為它不需要像此回購協議那樣的復雜設置。
具體的步驟
一、安裝要求
需要Python/ target=_blank class=infotextkey>Python 3.6或3.7才能運行該工具箱。
安裝PyTorch(> = 1.0.1)。
安裝ffmpeg。
運行pip install -r requirements.txt以安裝其余必需的軟件包。
二、下載預訓練的模型
下載地址:https://github.com/CorentinJ/Real-Time-Voice-Cloning/wiki/Pretrained-models
三、(可選)測試配置
在下載任何數據集之前,您可以使用以下方法測試配置:
python demo_cli.py
如果所有測試都通過,那您就很好了。
四、(可選)下載數據集
對于僅使用工具箱的情況,我只建議下載LibriSpeech/train-clean-100。下載地址:http://www.openslr.org/resources/12/train-clean-100.tar.gz,提取內容<datasets_root>/LibriSpeech/train-clean-100這里<datasets_root>是你選擇的目錄。工具箱中支持其他數據集,請參見此處。您可以自由地不下載任何數據集,但是您將需要自己的數據作為音頻文件,或者必須在工具箱中記錄下來。
五、啟動工具箱
然后,您可以嘗試使用工具箱:
python demo_toolbox.py -d <datasets_root>
要么
python demo_toolbox.py
取決于您是否下載了任何數據集。如果您正在運行X服務器或出現錯誤Aborted (core dumped)

這個就是操作界面了,先錄音然后輸入文字就可以模仿別人的聲音說話了
六、啟用GPU支持
注意:啟用GPU支持是很多工作。如果您要訓練自己的模型,則需要進行設置。有人花時間為如何安裝所有內容提供了更好的指南。我建議使用它。
此命令將安裝其他GPU依賴項和推薦的軟件包: pip install -r requirements_gpu.txt
此外,您需要確保正確安裝了GPU驅動程序,并且您的CUDA版本與PyTorch和Tensorflow安裝相匹配。