1 分•作者: dcreater•大约 11 小时前
返回首页
一周热榜
1 分•作者: leoncos•大约 11 小时前
我正在构建一个小型文本转语音模型,专门针对ASMR和放松内容进行调优。
大多数TTS模型都旨在清晰度和活力。为了获得那种特定的“酥麻”效果,我使用ASMR录音数据集对该模型进行了微调,以捕捉标准模型通常会过滤掉的呼吸感、耳语和柔和的动态。
目前,控制仅限于文本(还没有速度或音调滑块),但出现了一种有趣的涌现行为:
由于训练数据,该模型有时会“幻觉”或生成环境背景声音——比如噼啪作响的火焰、海浪或柔和的静电——以及声音,这取决于您输入的文本的上下文。它不是一个背景音轨混合器;该模型实际上是在生成这些声音作为音频输出的一部分。
我搭建了一个简单的网络演示来测试它。我很想听听您对声音质感的看法,以及您是否遇到任何有趣的环境生成。
在这里查看:<a href="https://www.aiasmrvoice.com/en" rel="nofollow">https://www.aiasmrvoice.com/en</a>
1 分•作者: Traumen•大约 11 小时前
1 分•作者: yumeda•大约 11 小时前
Hi HN,
我制作了“电现神社”,一个基于网络的传统日本神道仪式的体验。
主要特点:
隐私设计:您的“言灵”(信息/祈愿)不会存储在任何数据库中。它们只存在于动画中,并在完成后消失。
无需登录:您可以立即体验仪式,无需账户。
数字供奉:对于希望支持该项目的人,我通过 Stripe 集成了“数字供奉”(Osaisen)。这完全是可选的——您可以免费体验核心仪式,无需任何支付。这并非捐款,而是一种付费的数字体验,为支持者解锁独特的“完成信息”。
我为什么制作这个:我想探索像神道这样的古老传统如何以数字、短暂的方式被重新诠释。在神道中,言语具有灵魂(言灵),我觉得网络的“短暂”特性非常适合这一点。
我很想听听您对 UI/UX 和“短暂数字仪式”概念的看法。
1 分•作者: DesaiAshu•大约 10 小时前
1 分•作者: IgorPartola•大约 10 小时前
1 分•作者: eric2675•大约 10 小时前
1 分•作者: Paodim•大约 10 小时前
1 分•作者: signa11•大约 10 小时前
1 分•作者: thunderbong•大约 10 小时前
1 分•作者: mooreds•大约 10 小时前
1 分•作者: mooreds•大约 10 小时前
1 分•作者: mooreds•大约 10 小时前
1 分•作者: h0rv•大约 9 小时前
buquet (桶队列) 是一款仅使用兼容 S3* 的对象存储的队列和工作流编排工具。S3 作为控制平面,使其比其他方案更简单。当然,这也有一些权衡(参见文档),但我相信它能很好地服务于一个特定的领域。
<p><a href="https://horv.co/buquet.html" rel="nofollow">https://horv.co/buquet.html</a>
<a href="https://github.com/h0rv/buquet" rel="nofollow">https://github.com/h0rv/buquet</a><p>* 参见 <a href="https://github.com/h0rv/buquet/blob/main/docs/guides/s3-compatibility.md" rel="nofollow">https://github.com/h0rv/buquet/blob/main/docs/guides/s3-comp...</a>
1 分•作者: skogstokig•大约 9 小时前
1 分•作者: fabioluciano•大约 9 小时前
1 分•作者: alecfong•大约 9 小时前
1 分•作者: enlinks•大约 9 小时前
我一直在探索如何有效地向大型语言模型(LLM)描述 UI 布局。<p>问题:当你要求 AI 生成或修改 UI 时,如何描述当前状态?
- 自然语言(“顶部是标题,下面是表单”)具有歧义性
- ASCII 艺术在编辑时会出错(对齐问题)
- HTML 精确但冗长<p>我进行了一些测量。对于一个简单的登录表单:
- 自然语言:102 个 token
- ASCII 艺术:84 个 token
- HTML:330 个 token<p>我尝试了一种基于网格的文本格式,使用类似 Excel 的单元格引用:<p><pre><code> grid: 4x3
A1..D1: { type: txt, value: "Login" }
A2..D2: { type: input, label: "Email" }
D3: { type: btn, value: "Submit" }
</code></pre>
这用了 120 个 token – 比 HTML 少,比自然语言更精确。<p>构建了一个 CLI 用于将其渲染成 SVG/PNG:npx ktr input.kui -o output.png<p>很好奇其他人对这个问题尝试了什么方法。我是否遗漏了已经很好地解决了这个问题的方法?<p>代码:<a href="https://github.com/enlinks-llc/katsuragi" rel="nofollow">https://github.com/enlinks-llc/katsuragi</a>
1 分•作者: helloplanets•大约 9 小时前
1 分•作者: nutanc•大约 8 小时前