rvc模型小白教程（ai实时变声器）

技术3年前更新不存在的铃喵

599 0 0

rvc模型小白教程（ai实时变声器）

up的效果展示：【交作业】巨赞的RVC人声模型效果，炼丹2个月成品展示！！！_哔哩哔哩_bilibili

1.源文件安装包和百度网盘版本

这是个开源软件，咸鱼和淘宝直接卖软件的都是坑货?，开发者实时更新的：

1.hugging face链接（有每个阶段的安装包下载）

lj1995/VoiceConversionWebUI at main (huggingface.co) 如果当前版本的rvc使用异常，可以切换其他版本，模型通用。

目前有2个底模，建议使用v1底模炼丹，v2底模处于测试阶段，实时使用很多bug，且和v1出来的丹不兼容。

2.github链接：（这里面的文件更新最频繁，可以用huggingface的比如514版本的包，去下载github的文件进行覆盖，这样理论上就是最新的了，但是稳定性存疑）

https://github.com/RVC-Project/Retrieval-based-Voice-Conversion-WebUI

3.风仔把完整的包都上穿到百度网盘啦~大家自取！

链接：https://pan.baidu.com/s/19c9pF4AKyUZm1Ug0kNAipg?pwd=lthv 提取码：lthv

2.风仔的配置参考

cpu 13600kf 64gb 的内存+4070ti 的显卡，声卡 icon micu 五代，麦克风 babybootle-u87. 这套配置属于高端性价比款，都是最新质量不错但不那么贵的选择~扣紧每一个钢镚！

如果需要高强度炼丹，建议直接拉满4090~

需要买低价套装也可以联系交流群群主，套装的声卡同款，麦克风的话?，风仔用的比较贵哈。

目前这个软件，需要至少20系显卡，16系显卡需要替换gui文件，群文件中有。

如果硬件不太好，即使是成功运行，在玩一些比较吃配置的游戏或者使用较多软件时，也会出现卡顿延迟的情况。

影响延迟的硬件：cpu，声卡

影响音质的硬件：麦克风，声卡

独立声卡和麦克风，能够很好的控制不会有杂音，这样出来的变声效果，也就很清晰没杂音，如果使用集成声卡+耳麦的话，实际使用，杂音多，音质糊~

3.安装及设置

huggingface（百度网盘可以直接下载）

如果想使用最新的文件，可以去github把压缩包下载后，解压替换根目录下的文件。 up目前已经在使用最新的528版本的整合包了，已经可以稳定使用实时功能，v1和v2的模型都能正常使用，528的安装包也已经上传到百度网盘。

链接：https://pan.baidu.com/s/19c9pF4AKyUZm1Ug0kNAipg?pwd=lthv 提取码：lthv

下载后解压到本地，不包含中文的路径中。

寻找目录中的“go-realtime-gui.bat”图标，打开后是如下这个界面：

还会跳出一个黑色的命令行窗口，请无视它。

上图中需要填写如下几个：

1.hubert_base.pt 此文件在文件夹RVC-beta内，往下拉找到它，并复制到你专门准备模型文件夹中（比如我的模型库叫nice，记住纯英文！！！）方便后续打开。

2.pth文件，请在群文件中下载下方的免费模型，里面就包含pth文件，也请放在英文路径的模型文件夹中！！！

3.index同上；

4.npy可以忽视了，这东西是个没人要的孩子QAQ，没去掉，可能是因为开发者懒得去掉? 虽然风仔每次都习惯性加载~

4.输入输出通道设置（请对号入座）

1.群文件有”不用下载虚拟声卡和设置条线的方法“，如果用这个方式能实现是最方便的。

2.如果是虚拟声卡(voicemeeter)：

Rvc，虚拟声卡，使用教程，无声卡人的福音 (bilibili.com) 这是B站做的虚拟声卡跳线教程，如果你没有独立声卡，按照这个操作就可以了。

3.如果是独立声卡：

这个跳线异常复杂，也是目前阻碍大部分小白们成功搞事情的关键点，up也是在大佬的帮助下搞定的，不同品牌的声卡，跳线差异很大，如果自己实在搞不定，可以有偿找高手调下哈~

5.参数面板设置

1.响应阈值

尽量拉满-60，即使有比较大的环境噪音，也可以通过nvidia broadcast的ai降噪处理噪音，独立声卡可以接入机架的降噪插件（推荐rx10 denosie yyds），效果更好，同时开多个ai处理软件，对显存要求比较高，尽量8gb以上，不然打游戏都会卡的。 需要注意的是：开了nvidia broadcast后，音色会发闷些，无法达到完美的效果。

2.音调设置

男转女一般在12，在这附近左右调整，分别可以变粗或变细，选好之后就不要动了。

女转男一般在-12左右。

3.index rate

这东西左边是接近底模的音色，右边是接近模型的音色。如果调高不影响口齿，可以略微调高，一般0.2-0.5都是可以的。如果装备的模型效果不理想，尽量往左拉。

4.采样长度

尽量调低一些，只要不卡，0.3以上都可以。13600k为例一般是0.8左右比较稳定，0.6就容易出爆音。

之前群里有大佬13900k拉到了0.1，cpu瞬间满载，所以慎重选择。

5.淡入淡出长度

可以理解为尾音的长短，小了声音清脆但容易断字，大了声音连贯但音色会糊。根据自己听感来。

6.额外推理时长

一般2种选择，当采样长度比较大的适合，可以保持采样长度一样的数值，但是说话会比较干，没什么拖音。

另外一种选择，可以考虑公式：采样长度+额外推理时长=2这个公式，一般效果效果还不错，说话连续性更强。

推理这个参数有点像压限器的释放时长，如果你想你的尾音拖的比较长就拉到1.5左右，如果想清爽点，吐字如机关枪，那就往低了拉，一般到采样长度左右就行。

6.炼丹步骤详解

第一步：打开go-web.bat（在实时变声旁边）进入炼丹炉；

第二步：等待网页自动打开后点击“训练”

第三步：填写红框框中的内容?

红框框图

1.实验名：注意英文格式哟~比如这里填写：”supersoft“，炼一个超级可软模型~ 2.输入文件夹路径：注意要把文件夹放在桌面上，且保持纯英文路径，如果不在桌面，非常容易无法读取并报错！！！

素材长度建议：至少30分钟，无底噪的无损音频文件，且你用来干啥的，就用干啥的素材，比如我要用来唱歌，那么素材尽量都是唱歌的素材，这样契合度更高~

风仔建议这个文件夹里的文件提前用“格式工厂”进行切片处理，切成10秒一段，并且是wav的无损音频格式，这样方便比让rvc自己切跑得更快速~

格式工厂切片步骤图

切好的文件，也会自动出现在桌面~·

3.依次点击处理数据，特征提取后设置step3的红框部分。

4.第三步中的参数说明~

保存频率：建议拉满50（拉太低硬盘不够用哟~如果拉很低，炼1个丹就需要几十上百gb的容量存放）

总训练轮数：200-500轮，低于100轮效果一般不太行，除非是v2底模，超过500轮如果素材数量不够多，往往白费力气~

每张显卡的bitch-size：这个根据显卡的显存设置，风仔12gb显存，炼丹只敢开9gb，不然啥都干不了，一旦爆显存，丹就百炼了~

最后点击：一件训练，当个甩手掌柜吧~?

第四步：验收环节：

最终成品包含3个文件，分别是pth文件，index文件，npy文件。 pth文件仔根目录下的weights中，index和npy文件则在根目录的logs—supersoft（实验名文件夹）下。

(ง •_•)ง好好保存，每一个成品都是显卡努力的结晶~ 文件请保持英文目录~方便每次使用~

7.融丹步骤

1.为什么需要融丹？

本质上，rvc比sovits的优越点，就在于底模和自炼模型的融合，在较低成本（素材和轮数）上保持一个较好的效果。

融丹一方面可以让模型的声音的音域更加的宽广，比如一个偏低沉的模型和一个偏嘹亮的模型，融合后就能生成一个两边都能get到的模型。 另一方面，也可以让音色具有多重属性，比如可软的暖和元气属性，以及kiki的细腻和委婉。融合后，会同时感觉到这些特质，可能有些比较木耳的同学，不能一下子听出来，但是当同时听到这些声音的时候，就会产生比较明显的对比。

演示视频：【顶级RVC实时变声模型展示】最暖亮和最细柔的少御音，可软和KiKi的不同配方展示~_哔哩哔哩_bilibili

需要注意的是，融丹不是百分之百会提升，经常会出现古神低语的现象，或者融合后反而音色模糊的情况，需要多次抽卡尝试~

2.融丹步骤肢解版(ง •_•)ง

打开炼丹炉（根目录下的go-web.bat），点击ckpt处理，填写如图内容。

a.填写标号1和2处的文件路径，请注意，包含文件名称和后缀，且文件需要拖到桌面，不能包含中文，否则会报错；

b.在标号3处选择配方，从1：9到9：1，想怎么参和都行~后续需要在推理界面，一个一个试听；

c.填写标号4处保存模型名称，注意不带后缀！

d.点击标号5处的融合按钮。

最终输出结果为成功(ง •_•)ง，文件自动生成在weights目录内，刷新推理页面的音色，即可在下拉页面中查看，请严格按照以上步骤，基本不会报错~

8.常见问题Q&A

1.为什么模型在跑了发不出声、有回音、复读机、或者自己能听到变声其他人听不见？

基本都是跳线问题，按照输入输出通道设置重新检查一遍，或寻求大佬帮助。

2.说话好卡，是不是模型有问题？

实时卡的原因一般有几种：

模型问题（素材太少缺字缺音色）

响应阈值太高（轻的声音进不来）建议都拉满-60

麦克风输入音量太小（设备输入音量尽量拉到最大，如果觉得吵可以调小输出）。

模型问题可以用推理来排除，如果推理效果正常即可排除。

3.qq说话音条带电，怎么回事？

QQ音条老问题，推荐解决方式：

·虚拟声卡重启后再试；

·其他建议同时打开常见语音软件(YY,TT等)频道自由麦;

4.同样的模型其他人很好听，我就很奇怪？

变声除了音色以外，语气和流畅度也是很重要的。因为监听有延迟，刚使用可能会有点不适应，可以调小监听提升流畅度。语气问题emm…..（大老粗语气变软妹还是有点难度

5.炼丹后没有index文件怎么办？

图解版本

首先重新填写之前炼丹时相同的数据地址，然后依次操作

①点击处理数据

②点击特征提取

③点击训练特征索引

这是就会很快的提取出来一份index文件，出现在你的logs文件夹下的对应实验名下。

9.待更新列表

攒钱买4090显卡中~

想入手一个精品模型或者定制专属模型的大佬们，都可以联系qq501212576，本up在线接单哟~

附带模型链接

https://rune-hourglass-1a5.notion.site/qq501212576-30c6f6e3a2fe461ba15dbca7357bddda

技术 # ai变声 # ai实时变声器 # ai语言合成 # rvc # rvc模型 # 变声

文章版权归作者所有，未经允许请勿转载。

没有相关内容!

暂无评论

您必须登录才能参与评论！

立即登录

暂无评论...

rvc模型小白教程（ai实时变声器）

rvc模型小白教程（ai实时变声器）

1.源文件安装包和百度网盘版本

2.风仔的配置参考

3.安装及设置

4.输入输出通道设置（请对号入座）

5.参数面板设置

6.炼丹步骤详解

7.融丹步骤

8.常见问题Q&A

9.待更新列表

chatGPT身份指令

Stable Diffusion AI绘图，使用OpenPose控制绘图中人物动作

相关文章

暂无评论

随机网址

rvc模型小白教程（ai实时变声器）

rvc模型小白教程（ai实时变声器）

1.源文件安装包和百度网盘版本

2.风仔的配置参考

3.安装及设置

4.输入输出通道设置（请对号入座）

5.参数面板设置

6.炼丹步骤详解

7.融丹步骤

8.常见问题Q&A

9.待更新列表

chatGPT身份指令

Stable Diffusion AI绘图，使用OpenPose控制绘图中人物动作

相关文章

暂无评论

标签云

随机网址