1 分•作者: jag729•5 个月前
大家好,HN!Voicelab 是一个 API,用于优化顶级开源 TTS 模型的推理。目前支持 CSM-1B 和 Orpheus 模型,但我们将在未来几周内添加 Dia、Chatterbox、Kokoro 等更多模型。
虽然每个月都会有新的超逼真开源语音模型发布,但大多数人仍然使用少数几个闭源提供商。原因是这些研究预览可能缺乏生产就绪性;它们的推理堆栈通常不适合大规模运行(例如,每个 GPU 只有一个并发流),并且公开权重可能会生成质量不一致的语音。
我们通过构建针对音频转换器优化的服务基础设施(以使可扩展推理更快、更具成本效益)以及使用配音演员、电话呼叫和其他私下收集的音频数据对公开权重进行后训练(以使生成质量更一致)来解决这个问题。
开源语音变得越来越令人兴奋,我们希望能够提供一个高质量、可扩展的推理层,以利用这些团队发布的所有丰富研究成果。非常感谢您的反馈 :)
文档:docs.vogent.ai
游乐场:app.vogent.ai