莉可POI
AI语音合成
AI Vtuber
AI Vtuber是一个由 ChatterBot/GPT/Claude/langchain本地or云端/chatglm/text-generation-webui/讯飞星火/智谱AI 做为"大脑"驱动的虚拟主播(Live2D/Vtube Studio/UE5+Audio2Face),可以在 Bilibili/抖音/快手/斗鱼 直播中与观众实时互动 或者 直接在本地和您进行聊天。 它使用自然语言处理和文本转语音技术(Edge-TTS/VITS-Fast/elevenlabs/bark-gui/VALL-E-X)生成对观众问题的回答并可以通过so-vits-svc/DDSP-SVC变声;另外还可以通过特定指令协同Stable Diffusion进行画图展示。并且可以自定义文案进行循环播放。 本项目完全免费,如有发现一模一样的套壳售卖程序,皆为盗版,请及时止损~
MB iSTFT VITS
我们提出了一个轻量级的端到端文本到语音模型,使用多波段生成和逆短时距傅里叶变换。我们的模型基于 VITS,一个高质量的端到端文本到语音模型,但是为了更有效的推理,我们采用了两个改变: 1)计算量最大的部分被简单的逆短时距傅里叶变换部分取代,2)多波段产生,使用固定或可训练的合成滤波器,用于产生波形。该方法不同于传统的轻量级模型,传统的轻量级模型分别使用优化或知识提取来训练两个级联组件,该方法充分利用了端到端优化的优点。实验结果表明,该模型合成的语音与 VITS 合成的语音一样自然,在 Intel Core i7 CPU 上实现了0.066的实时性,比 VITS 快4.1倍。此外,在自然性和推理速度方面,较小版本的模型明显优于轻量级基线模型。
1
2