3 分•作者: EvansWilson•6 个月前
返回首页
最新
3 分•作者: unisub_guy•6 个月前
1 分•作者: hnroo99•6 个月前
我是一名独立前端开发者,正在开发一个简单的多人在线卡牌游戏网站。我的技术栈包括 Next.js 前端和 Node.js 后端,使用 socket.io 处理多人互动。<p>正如标题所示,我想为这个网站开发一个移动端应用。起初我考虑使用 React Native,但后来从 Puzzmo 的这篇精彩博文[0]中了解到了 Webview。Webview 看起来很有吸引力,因为我可以重用许多现有的组件(尽管我知道 Next.js 相关的挑战,需要导出静态构建),并且可以在 Web 开发环境中保持舒适和高效™。我也不介意失去“原生”移动端的用户体验,因为考虑到我独自开发这款应用,更好的开发者体验似乎更值得。而且,似乎也有一些很棒的 Webview 工具可以简化开发流程,例如 Ionic 的 Capacitor[1]。<p>大家对这些有什么看法/见解/恐怖故事吗?<p>[0] https://blog.puzzmo.com/posts/2025/06/01/ios-app-architecture/<p>[1] https://capacitorjs.com/
3 分•作者: vismit2000•6 个月前
4 分•作者: wewewedxfgdf•6 个月前
2 分•作者: alvinunreal•6 个月前
16 分•作者: scoofy•6 个月前
7 分•作者: zdw•6 个月前
34 分•作者: wglb•6 个月前
1 分•作者: acoyfellow•6 个月前
我一直在开发 t2t,一个语音转文本应用程序,它可以在系统范围内运行,并且有一个特别之处:它支持 MCP(模型上下文协议)服务器,以实现可扩展的自动化。<p>*它的功能:*
- 按住 `fn` 键 → 说话 → 文本出现在任何地方(本地 Whisper 转录)
- 按住 `fn+ctrl` 键 → 代理模式,连接到任何 MCP 服务器
- 除了代理模式下的 OpenRouter API 调用外,所有处理都在本地进行
- 跨平台:macOS、Windows、Linux<p>*我为什么开发它:*
我想要一个不绑定特定应用程序的语音转文本功能,并且我对 MCP 作为一种使代理模式可扩展的方式感到兴奋。您可以连接到任何 MCP 服务器(数据库、API、文件系统等),而不是硬编码集成。<p>*架构:*
- Rust + Tauri 用于桌面应用程序
- 本地 Whisper 模型 (whisper-rs) 用于转录
- 本地 MCP 客户端 (stdio/HTTP/SSE) - 没有远程工作者
- OpenRouter API 用于 AI(直接从 Rust 调用)
- Svelte 5 前端<p>MCP 客户端完全在 Rust 中运行,因此它可以在开发和生产构建中工作。工具执行通过 JSON-RPC 在本地进行。<p>*开源:* <a href="https://github.com/acoyfellow/t2t" rel="nofollow">https://github.com/acoyfellow/t2t</a><p>我非常欢迎大家对架构提出反馈意见,特别是关于本地 MCP 客户端的方法。也很好奇其他人是否觉得 MCP 集成有用,或者我是否把事情复杂化了。<p>你觉得怎么样?
1 分•作者: gaganyatri•6 个月前
ASR + TTS + 聊天 + 视觉 + 文档
试用演示:<a href="https://workshop.dwani.ai" rel="nofollow">https://workshop.dwani.ai</a>
过去11个月里构建了 dwani.ai。
用印度语言与 AI 对话,并通过语音和文本获得回复。
结合开源模型,为印度语言构建 AI。
Github:<a href="https://github.com/dwani-ai" rel="nofollow">https://github.com/dwani-ai</a>
设置:<a href="https://docs.dwani.ai" rel="nofollow">https://docs.dwani.ai</a>
1 分•作者: ibobev•6 个月前
1 分•作者: signa11•6 个月前
1 分•作者: imcotton•6 个月前
1 分•作者: neehao•6 个月前
2 分•作者: geox•6 个月前
1 分•作者: svggrfgovgf•6 个月前
1 分•作者: ahsekka•6 个月前
大家好,HN — 分享 ragctl,这是一个开源的 CLI 工具,用于处理 RAG 管道中最容易出错的部分:文档摄取、OCR、解析/清理和分块。<p>现在,向量数据库的设置已经相当标准化了,但是将高质量、一致的文本和元数据输入其中仍然需要大量的脆弱的粘合代码。ragctl 旨在使“预向量”步骤可重复:通过几个命令将混乱的文档转换为可检索的块。<p>功能
• 多格式输入:PDF、DOCX、HTML、图像
• 扫描/基于图像的文档的 OCR
• 语义分块(LangChain)
• 带有重试和错误处理的批量运行
• 输出:直接摄取到 Qdrant(目前)<p>征求反馈意见
• DX:CLI 是否直观?
• 性能/边缘情况:奇怪的 PDF、混合布局、表格
• 路线图:接下来应该添加哪些连接器(S3、Slack、Notion)或向量数据库?<p>仓库:<a href="https://github.com/datallmhub/ragstudio" rel="nofollow">https://github.com/datallmhub/ragstudio</a>
欢迎就架构和分块方法提出问题。
1 分•作者: subramanya1997•6 个月前
4 分•作者: thomaswc•6 个月前
这是一个漫长的谜题,有点像一个 2000 块的拼图。鼓励与他人一起合作解决。<p>如果你喜欢规则,规则就是你可以使用谷歌或任何你喜欢的外部资源来寻求帮助。但是,查看页面源代码是作弊行为。<p>感谢 Octagon 和 TND 团队在游戏测试和提出类别方面的帮助。