1A.
点击最开始弹出的界面上面的"1-GPT-SoVITS-TTS"进入这个步骤,首先填写模型名,一定不能填中文,填英文就好,然后填好“文本标注文件”的路径,一般为GPT-SoVITS-beta\output\asr_opt\xxx.list文件,之后填“训练集音频文件目录”,一般为GPT-SoVITS-beta\output\slicer_opt,都填完之后点击最下面的“一键三连”按钮,等待一小会,这时可以在控制台看到进度,显示完成之后进入下一个步骤

12.jpg


1B.
这里又要敲黑板了,这个也是重点部分这个步骤就是训练,训练过程分为SoVITS训练和GPT训练,其中SoVITS比较慢,它的轮数不建议设置过多,多了容易出现过拟合现象,导致电音什么的,至于GPT训练,这个蛮快的,也不用训练太多轮,特别要注意的就是每张显卡的batch_size值,这个值是按照你的显卡显存/2来算的,比如6G的显存这里就推荐填3,至于怎么看显存,文章开头就告诉你了,都填好之后,先点击"开启SoVITS训练",训练完成后再点击"开启GPT训练",控制台可以看到进度,报错了请调低batch_size值,这个值也不是越高越好的,两次训练都完成了就进行最后一步了
PS:这里要引入一个重要概念:步数,步数=训练轮数*(你最终筛选出来的音频数量/batch_size值),这个是针对SoVITS模型来说的,训练步数不能过高,否则会出现过拟合,一般最多10000步,你筛选出来的音频越多,步数就越多,在你训练完成之后,你的模型名称结尾会有"exx_sxxxx"这种字样,"exx"中的"xx"就是代表轮数,"sxxxx"中的"xxxx"就是代表步数


13.jpg1C.
1.这是最后一个步骤,这个步骤要先点击"刷新模型路径",然后在GPT模型列表和SoVITS模型列表里面选择模型,一般就选轮数最多的,之后点击"是否开启TTS推理WebUI"的框框,等待一会弹出新的窗口

14.jpg

2.在弹出来的这个界面,我们要先上传参考音频,注意这个参考音频非常重要等一会生成的音频文件的语气和语速还有音色都会最接近这个参考音频因此你要按照你等一会想生成的句子来上传参考语句,这个也是可以随时换的,效果不好换一个就行,一般第一次用你就上传一个之前切割好了的音频文件就行,这时参考文本你可以在GPT-SoVITS-beta\logs\模型名称\2-name2text.txt里面找到

15.jpg3.上传完参考音频,还需要填写参考音频对应的参考文本,并且选择参考音频语种,之后才能填写需要合成的目标文本就行,中文英语日语都能填,需要合成的语种纯中文就填中文,纯英文就填英文,纯日语就填日文,中英混合填中文,日英混合填日文,中日暂时不支持,毕竟日文和中文中都有相同的汉字并且读音不同,这里填写文本一次最好不要填太多,要少量多次,不然就有可能漏字,填完之后点击合成语音,生成速度一般都蛮快的,大概是文字内容字数的1/2秒,重要的是如果你觉得效果不太好,可以在上方的GPT和SoVITS模型列表里面切换模型,就算是相同的模型,每次生成的效果也是不一样的,如果不满意可以多试几次

使用教程就此结束,下面是分享模型的教程:
你生成的SoVITS模型就在GPT-SoVITS-beta\SoVITS_weights文件夹下,你生成的GPT模型就在GPT-SoVITS-beta\GPT_weights文件夹下,你可以选择这两个模型的合适的轮数,并且附上参考音频和文本进行压缩打包就能分享给别人了

关于报错,先看一下白菜工厂1145号员工写的报错合集再提问吧:https://www.yuque.com/baicaigong ... 1e/pgah3gvetrdy8ryt,如果感觉有用,可以点一下文章下面的“有用”按钮,点这个可以增加推荐指数让更多人看到




转自:https://www.52pojie.cn/thread-1886747-1-1.html