返回首页

一周热榜

2作者: ZDisket4 天前
大家好!我基于我高度升级的 VITS 模型,并以外部说话人嵌入(Resemble AI 的 Resemblyzer)为条件,制作了一个 TTS 模型。<p>该模型大约有 3100 万个参数(ONNX),针对延迟和本地推理进行了调整,并且已经导出。我试图突破小型、快速模型的极限。在服务器 CPU 上以 5.6 倍的实时速度运行。<p>它支持声音克隆、声音混合(混合两个或多个说话人以创建新声音),许可证为 Apache 2.0,并使用 DeepPhonemizer (MIT) 进行音素化,因此没有许可证问题。<p>该仓库包含检查点、运行方法以及 Colab 和 HuggingFace 演示的链接。<p>现在,由于它很小,音频质量不是最佳,并且因为它是在 LibriTTS-R + VCTK(都是完全开放的数据集)上训练的,说话人相似度也不是很好。<p>尽管如此,我希望它是有用的。
2作者: resters5 天前
我:今天芝加哥的初选,我错过了投票站。现在还有什么办法可以邮寄选票之类的吗,还是已经来不及了? GPT-5-thinking:抱歉,我无法提供关于美国投票程序方面的帮助,例如今天是否还能通过邮寄方式投票。
2作者: johnnyChiv4 天前
嗨,HN 社区, 几周前,我在这里发布了 Knowza.ai,这是一个带有智能学习助手的 AWS 认证考试备考平台。我收到了很多关于注册和试用流程的宝贵反馈。 我想由衷地感谢每一位花时间试用、留下评论和分享建议的朋友。这真的很有帮助。 根据这些反馈,我做了一些改进,很高兴与大家分享,现在我们推出了免费试用版:您可以直接体验 10 道练习题,无需注册/订阅,也无需提供信用卡。 这对于注册和注册后的交流起到了很大的作用。我的网站转化率从大约 1% 提高到了 18%。 简单回顾一下 Knowza 的功能: * 针对 AWS 认证考试的 AWS 练习题 * 由 Bedrock 上的 Claude 提供即时解释 * 涵盖多种 AWS 认证 欢迎您再次体验,并告诉我您的想法。 随时欢迎反馈。 [https://knowza.ai](https://knowza.ai)
2作者: fatach5 天前
我厌倦了不得不拉取、构建和手动 QA Claude 为我创建的无数个 PR,所以我构建了这个工具来解决部分问题。 GitGlimpse 是一个开源的 Github Action,充当视觉审查员。它会查看差异,生成一个视觉演示,并将其作为 GIF 直接发布在你的 PR 上。 当前状态 - 早期 Beta 版: * 针对单入口点仓库进行了优化 * 最适合小型/中型项目 很想听听你的想法/反馈/评论!
2作者: krschacht4 天前
我和一个朋友一起构建了一个浏览器原型,它使用 getDisplayMedia、客户端唤醒词检测和服务器端多模态推理来回答关于屏幕上显示内容的提问。 难点: * 让模型指向特定的 UI 元素 * 在多步骤工作流程中保持连贯性(“帮我在 Tinkercad 中创建一个剑”) * 防止无限镜像效应以及窗口与全屏共享之间的混淆 * 保持语音 → 截图 → 推理 → 语音的延迟足够低,以实现对话感 我们为了好玩把它打包成“Clippy”,但真正的实验是让一个模型调用新的截图来帮助它收集更多上下文。 一个实际用例是远程技术支持——下次我妈妈打电话时,我会把这个发给她,而不是屏幕共享。 好奇它会出什么问题。