2 分•作者: ZDisket•4 天前
大家好!我基于我高度升级的 VITS 模型,并以外部说话人嵌入(Resemble AI 的 Resemblyzer)为条件,制作了一个 TTS 模型。<p>该模型大约有 3100 万个参数(ONNX),针对延迟和本地推理进行了调整,并且已经导出。我试图突破小型、快速模型的极限。在服务器 CPU 上以 5.6 倍的实时速度运行。<p>它支持声音克隆、声音混合(混合两个或多个说话人以创建新声音),许可证为 Apache 2.0,并使用 DeepPhonemizer (MIT) 进行音素化,因此没有许可证问题。<p>该仓库包含检查点、运行方法以及 Colab 和 HuggingFace 演示的链接。<p>现在,由于它很小,音频质量不是最佳,并且因为它是在 LibriTTS-R + VCTK(都是完全开放的数据集)上训练的,说话人相似度也不是很好。<p>尽管如此,我希望它是有用的。