简介:
本软件为B站UP主@花儿不哭耗时两个月自主研发的开源低成本AI音色克隆软件(
GitHub Star7.9k),他也是知名声音克隆软件Bert-vits2和RVC变声器的创始人,按照他视频里的说法,本软件一分钟就能复刻声音(并且效果比今年1月爆火的人工智能语音公司ElevenLabs的技术好很多),还有5秒极限复刻模式,用于特殊情况。我花了三天时间实测了一下效果确实很好,只需要半个小时就能训练出你想要的声音,并且1分钟的音频训练出来的相似度已经很高了,底下评论区置顶也有成功案例,因此来向大家推荐
目前软件已经给出明确版本号为0131,已修改标题,123云盘的是旧版本等待更新

配置要求(直接借用秋月大佬的话了)

训练至少10系及以上,A卡(rx6000除外)和I卡别想训练,推理还行(cpu)
训练显存至少6G,推理至少2G
看显存:任务管理器/性能/GPU/专用GPU内存
16系显卡需要额外配置
硬要用cpu训练的劝你不要为难电脑,不如玩其他去

功能:

  • 零样本文本到语音(TTS):输入 5 秒的声音样本,即刻体验文本到语音转换。

  • 少样本 TTS:仅需 1 分钟的训练数据即可微调模型,提升声音相似度和真实感。

  • 跨语言支持:支持与训练数据集不同语言的推理,目前支持英语、日语和中文。

  • WebUI 工具:集成工具包括声音伴奏分离、自动训练集分割、中文自动语音识别(ASR)和文本标注,协助初学者创建训练数据集和 GPT/SoVITS 模型。


音频展示:
这部分请大家先去看官方的演示视频吧,体验一下这个视频最开始给我的震撼
官方演示视频地址:https://www.bilibili.com/video/BV12g4y1m7Uw

再附上我自己初步训练的日文测试音频以及B站UP和辛勤答疑员白菜工厂1145号员工训练的很不错的测试音频合集:https://wwb.lanzouq.com/iJ7Ku1mved5c

整合包下载地址:

城通网盘:GPT-SoVITS:  https://url55.ctfile.com/d/14928255-59949817-ec476b?p=7242   (访问密码: 7242)



请大家不要将该软件用于违法用途,并且在开始之前,你必须同意并遵循使用规约,在任何音视频网站发布基于 GPT-SoVITS 项目或本整合包制作的作品时,必须在简介注明相关的说明。简介模板在下方。

本软件以MIT协议开源, 作者不对软件具备任何控制力, 使用软件者、传播软件导出的声音者自负全责.
如不认可该条款, 则不能使用或引用软件包内任何代码和文件. 详见根目录LICENSE.


软件安装使用详细教程(本人纯手打,写了几个小时,因为图片多所以显得长,其实操作起来蛮快的)
一、从度盘或者123云盘下载整合包并且用7z或者Nanazip解压,前者论坛有人发,后者能在微软官方商店下载,极其不推荐用360解压,快压等软件,可能会缺失文件


1.jpg

1a.jpg

PS:要注意解压路径不能出现中文,不然出现各种报错别怪我没告诉你

二、解压完成之后运行"go-webui.bat"文件,直接双击就行,别右键用管理员身份启动,此时会出现一个黑色的控制台窗口,一定不要关闭它,关闭它程序就结束运行了

2.jpg

3.jpg