rvc模型小白教程(ai实时变声器)
up的效果展示:【交作业】巨赞的RVC人声模型效果,炼丹2个月成品展示!!!_哔哩哔哩_bilibili
1.源文件安装包和百度网盘版本
这是个开源软件,咸鱼和淘宝直接卖软件的都是坑货?,开发者实时更新的:
1.hugging face链接(有每个阶段的安装包下载)
lj1995/VoiceConversionWebUI at main (huggingface.co) 如果当前版本的rvc使用异常,可以切换其他版本,模型通用。
目前有2个底模,建议使用v1底模炼丹,v2底模处于测试阶段,实时使用很多bug,且和v1出来的丹不兼容。
2.github链接:(这里面的文件更新最频繁,可以用huggingface的比如514版本的包,去下载github的文件进行覆盖,这样理论上就是最新的了,但是稳定性存疑)
https://github.com/RVC-Project/Retrieval-based-Voice-Conversion-WebUI
3.风仔把完整的包都上穿到百度网盘啦~大家自取!
链接:https://pan.baidu.com/s/19c9pF4AKyUZm1Ug0kNAipg?pwd=lthv 提取码:lthv
2.风仔的配置参考
cpu 13600kf 64gb 的内存+4070ti 的显卡,声卡 icon micu 五代,麦克风 babybootle-u87. 这套配置属于高端性价比款,都是最新质量不错但不那么贵的选择~扣紧每一个钢镚!
如果需要高强度炼丹,建议直接拉满4090~
需要买低价套装也可以联系交流群群主,套装的声卡同款,麦克风的话?,风仔用的比较贵哈。
目前这个软件,需要至少20系显卡,16系显卡需要替换gui文件,群文件中有。
如果硬件不太好,即使是成功运行,在玩一些比较吃配置的游戏或者使用较多软件时,也会出现卡顿延迟的情况。
影响延迟的硬件:cpu,声卡
影响音质的硬件:麦克风,声卡
独立声卡和麦克风,能够很好的控制不会有杂音,这样出来的变声效果,也就很清晰没杂音,如果使用集成声卡+耳麦的话,实际使用,杂音多,音质糊~
3.安装及设置
huggingface(百度网盘可以直接下载)
如果想使用最新的文件,可以去github把压缩包下载后,解压替换根目录下的文件。 up目前已经在使用最新的528版本的整合包了,已经可以稳定使用实时功能,v1和v2的模型都能正常使用,528的安装包也已经上传到百度网盘。
链接:https://pan.baidu.com/s/19c9pF4AKyUZm1Ug0kNAipg?pwd=lthv 提取码:lthv
下载后解压到本地,不包含中文的路径中。
寻找目录中的“go-realtime-gui.bat”图标,打开后是如下这个界面:
还会跳出一个黑色的命令行窗口,请无视它。
上图中需要填写如下几个:
1.hubert_base.pt 此文件在文件夹RVC-beta内,往下拉找到它,并复制到你专门准备模型文件夹中(比如我的模型库叫nice,记住纯英文!!!)方便后续打开。
2.pth文件,请在群文件中下载下方的免费模型,里面就包含pth文件,也请放在英文路径的模型文件夹中!!!
3.index同上;
4.npy可以忽视了,这东西是个没人要的孩子QAQ,没去掉,可能是因为开发者懒得去掉? 虽然风仔每次都习惯性加载~
4.输入输出通道设置(请对号入座)
1.群文件有”不用下载虚拟声卡和设置条线的方法“,如果用这个方式能实现是最方便的。
2.如果是虚拟声卡(voicemeeter):
Rvc,虚拟声卡,使用教程,无声卡人的福音 (bilibili.com) 这是B站做的虚拟声卡跳线教程,如果你没有独立声卡,按照这个操作就可以了。
3.如果是独立声卡:
这个跳线异常复杂,也是目前阻碍大部分小白们成功搞事情的关键点,up也是在大佬的帮助下搞定的,不同品牌的声卡,跳线差异很大,如果自己实在搞不定,可以有偿找高手调下哈~
5.参数面板设置
1.响应阈值
尽量拉满-60,即使有比较大的环境噪音,也可以通过nvidia broadcast的ai降噪处理噪音,独立声卡可以接入机架的降噪插件(推荐rx10 denosie yyds),效果更好,同时开多个ai处理软件,对显存要求比较高,尽量8gb以上,不然打游戏都会卡的。 需要注意的是:开了nvidia broadcast后,音色会发闷些,无法达到完美的效果。
2.音调设置
男转女一般在12,在这附近左右调整,分别可以变粗或变细,选好之后就不要动了。
女转男一般在-12左右。
3.index rate
这东西左边是接近底模的音色,右边是接近模型的音色。如果调高不影响口齿,可以略微调高,一般0.2-0.5都是可以的。如果装备的模型效果不理想,尽量往左拉。
4.采样长度
尽量调低一些,只要不卡,0.3以上都可以。13600k为例一般是0.8左右比较稳定,0.6就容易出爆音。
之前群里有大佬13900k拉到了0.1,cpu瞬间满载,所以慎重选择。
5.淡入淡出长度
可以理解为尾音的长短,小了声音清脆但容易断字,大了声音连贯但音色会糊。根据自己听感来。
6.额外推理时长
一般2种选择,当采样长度比较大的适合,可以保持采样长度一样的数值,但是说话会比较干,没什么拖音。
另外一种选择,可以考虑公式:采样长度+额外推理时长=2这个公式,一般效果效果还不错,说话连续性更强。
推理这个参数有点像压限器的释放时长,如果你想你的尾音拖的比较长就拉到1.5左右,如果想清爽点,吐字如机关枪,那就往低了拉,一般到采样长度左右就行。
6.炼丹步骤详解
第一步:打开go-web.bat(在实时变声旁边)进入炼丹炉;
第二步:等待网页自动打开后点击“训练”
第三步:填写红框框中的内容?
红框框图
1.实验名:注意英文格式哟~比如这里填写:”supersoft“,炼一个超级可软模型~ 2.输入文件夹路径:注意要把文件夹放在桌面上,且保持纯英文路径,如果不在桌面,非常容易无法读取并报错!!!
素材长度建议:至少30分钟,无底噪的无损音频文件,且你用来干啥的,就用干啥的素材,比如我要用来唱歌,那么素材尽量都是唱歌的素材,这样契合度更高~
风仔建议这个文件夹里的文件提前用“格式工厂”进行切片处理,切成10秒一段,并且是wav的无损音频格式,这样方便比让rvc自己切跑得更快速~
格式工厂切片步骤图
切好的文件,也会自动出现在桌面~·
3.依次点击处理数据,特征提取后设置step3的红框部分。
4.第三步中的参数说明~
保存频率:建议拉满50(拉太低硬盘不够用哟~如果拉很低,炼1个丹就需要几十上百gb的容量存放)
总训练轮数:200-500轮,低于100轮效果一般不太行,除非是v2底模,超过500轮如果素材数量不够多,往往白费力气~
每张显卡的bitch-size:这个根据显卡的显存设置,风仔12gb显存,炼丹只敢开9gb,不然啥都干不了,一旦爆显存,丹就百炼了~
- 最后点击:一件训练,当个甩手掌柜吧~?
第四步:验收环节:
最终成品包含3个文件,分别是pth文件,index文件,npy文件。 pth文件仔根目录下的weights中,index和npy文件则在根目录的logs—supersoft(实验名文件夹)下。
(ง •_•)ง好好保存,每一个成品都是显卡努力的结晶~ 文件请保持英文目录~方便每次使用~
7.融丹步骤
1.为什么需要融丹?
本质上,rvc比sovits的优越点,就在于底模和自炼模型的融合,在较低成本(素材和轮数)上保持一个较好的效果。
融丹一方面可以让模型的声音的音域更加的宽广,比如一个偏低沉的模型和一个偏嘹亮的模型,融合后就能生成一个两边都能get到的模型。 另一方面,也可以让音色具有多重属性,比如可软的暖和元气属性,以及kiki的细腻和委婉。融合后,会同时感觉到这些特质,可能有些比较木耳的同学,不能一下子听出来,但是当同时听到这些声音的时候,就会产生比较明显的对比。
演示视频:【顶级RVC实时变声模型展示】最暖亮和最细柔的少御音,可软和KiKi的不同配方展示~_哔哩哔哩_bilibili
需要注意的是,融丹不是百分之百会提升,经常会出现古神低语的现象,或者融合后反而音色模糊的情况,需要多次抽卡尝试~
2.融丹步骤肢解版(ง •_•)ง
打开炼丹炉(根目录下的go-web.bat),点击ckpt处理,填写如图内容。
a.填写标号1和2处的文件路径,请注意,包含文件名称和后缀,且文件需要拖到桌面,不能包含中文,否则会报错;
b.在标号3处选择配方,从1:9到9:1,想怎么参和都行~后续需要在推理界面,一个一个试听;
c.填写标号4处保存模型名称,注意不带后缀!
d.点击标号5处的融合按钮。
最终输出结果为成功(ง •_•)ง,文件自动生成在weights目录内,刷新推理页面的音色,即可在下拉页面中查看,请严格按照以上步骤,基本不会报错~
8.常见问题Q&A
1.为什么模型在跑了发不出声、有回音、复读机、或者自己能听到变声其他人听不见?
基本都是跳线问题,按照输入输出通道设置重新检查一遍,或寻求大佬帮助。
2.说话好卡,是不是模型有问题?
实时卡的原因一般有几种:
模型问题(素材太少缺字缺音色)
响应阈值太高(轻的声音进不来)建议都拉满-60
麦克风输入音量太小(设备输入音量尽量拉到最大,如果觉得吵可以调小输出)。
模型问题可以用推理来排除,如果推理效果正常即可排除。
3.qq说话音条带电,怎么回事?
QQ音条老问题,推荐解决方式:
·虚拟声卡重启后再试;
·其他建议同时打开常见语音软件(YY,TT等)频道自由麦;
4.同样的模型其他人很好听,我就很奇怪?
变声除了音色以外,语气和流畅度也是很重要的。因为监听有延迟,刚使用可能会有点不适应,可以调小监听提升流畅度。语气问题emm…..(大老粗语气变软妹还是有点难度
5.炼丹后没有index文件怎么办?
图解版本
首先重新填写之前炼丹时相同的数据地址,然后依次操作
①点击处理数据
②点击特征提取
③点击训练特征索引
这是就会很快的提取出来一份index文件,出现在你的logs文件夹下的对应实验名下。
9.待更新列表
攒钱买4090显卡中~
想入手一个精品模型或者定制专属模型的大佬们,都可以联系qq501212576,本up在线接单哟~
附带模型链接
https://rune-hourglass-1a5.notion.site/qq501212576-30c6f6e3a2fe461ba15dbca7357bddda