三、这个时候你的默认浏览器应该会自动弹出一个网页,如果没有弹出,那请你手动复制控制台上的网址进入,比如我的网址就是:http://0.0.0.0:9874,你可以看到网页内容是分为三个部分:0-前置数据集获取工具,1-GPT-SoVITS-TTS,2-GPT-SoVITS-变声,其中变声部分作者还在开发,所以显示还在施工中。千万不要看到这么多选项就害怕了,其实很简单,我接下来按照每个功能的序号一一讲解

4.jpg


5.jpg


0a.

这个时候你要准备一份声音素材,时长1分钟到30分钟都行,不用太长,质量好就行,并且越清晰等一下复刻的效果就越好,如果是很干净的,没有杂音的人声,那你可以直接跳过这一步,不然就需要用软件提供的UVR5来进行声音分离,或者你也可以用我上个帖子里面的FasterWhisperGUI里面的Demucs v4来提取,这两个目前都是最强的声音分离工具之一,再或者你也可以用UVR5客户端,比网页版的效果更好,论坛已经有人发过这个客户端了,因此我不多说客户端了

1.我们先点击“是否开启UVR5-WebUI”文字前面的框框,等待几秒,就会自己弹出来一个界面


6.jpg

2.在弹出来的界面中输入输入待处理音频文件夹路径,或者直接把你的音频文件拖进去,之后选择模型,这一步我们正常情况下选择HP2,如果音频文件有和声就选择HP5,导出文件格式可以选择wav或者flac,然后点击转换,速度的话3060处理40分钟音频耗时4分钟,转换完成之后还要继续处理,把分离好的人声文件再次拖进来选择“onnx_dereverb模型来去混响,之后再把去好混响的音频文件拖进来选择“DeEcho-Aggressive”来去延迟,这样你就得到了一份处理的比较完美干净的纯人声音频文件了,这个纯人声音频文件的文件夹路径为GPT-SoVITS-beta\output\uvr5_opt


7.jpg