1作者: thijser大约 20 小时前
我开始了一个实验,让一个由 WASM 驱动的 Web 应用程序与本地 git 仓库交互,看看效果如何。结果表明,效果相当不错! 我把它做成了一个“git 包装器”工具,可以显示你提交最频繁的时间,以及你接触最多的语言和文件。 尽管在使用文件系统 API 时会出现令人不安的提示,但所有操作都发生在本地,你的代码是私密的。(当然,你也可以在克隆的公共 GitHub 仓库上试用)。 请告诉我你的想法!
1作者: kshk123大约 20 小时前
我开发了一个小型的浏览器扩展程序,用于帮助用户从任何网站上选中的文本创建提醒。我经常在电子邮件和网页上看到日期/时间信息(例如“下周二下午3点”、“2025年12月25日”、“14:30”),希望能够方便地将它们转换为提醒,而无需切换应用程序。 工作原理: * 在任何网页上选择文本 → 右键点击“添加到提醒” * 它会检测常见的日期/时间格式(英语 + 欧洲/德语),并预先填充提醒时间 * 在弹窗中查看/编辑/删除提醒,或手动添加提醒 * 也可以手动编辑/添加日期,并且高亮显示的文本不必包含日期。 可选集成(仅在您选择时): * 通过OAuth与Google日历同步(创建事件) * 通过您在自己的机器上运行的小型本地桥接程序与macOS Apple Reminders同步 链接: * Chrome网上应用店:https://chromewebstore.google.com/detail/create-reminders/ecifdofkbodefbieanakcmhnncjhflkh * Firefox附加组件:https://addons.mozilla.org/en-US/firefox/addon/create-reminders/
2作者: willm大约 20 小时前
嗨,各位 HN 用户, 到 2025 年年中,我曾是一家名为 Textualize 的初创公司的 CEO/CTO。不知怎么的,我设法为我的 Python 库获得了种子轮融资,这些库用于实现花哨的终端输出。三年后,我们结束了,因为资金耗尽了。 老实说,那时我以为自己已经厌倦了编程。但事实证明,我厌倦的是压力和没日没夜地工作。几周的休息就足够了。 大约在那个时候,编程代理爆发了,我再也不能忽视它们了。我对这些工具提供的用户界面印象不深。在终端工作了几年后,我知道你可以获得更好的用户体验。因此,这个项目诞生了。 我曾计划在代理的 SDK 和前端之间创建一个中间层。幸运的是,在我开始构建这个项目后,Zed Industries 发布了 Agent Client Protocol (<a href="https://agentclientprotocol.com/" rel="nofollow">https://agentclientprotocol.com/</a>)。这正是我所需要的。 我刚刚发布了代码(它曾是一个私有仓库一段时间)。Toad(Textual Code 的一个文字游戏)可以运行大量 AI 代理,并提供一个更友好的终端用户界面。 可以把它想象成一个“自带代理”的编程 CLI。使用你想要的任何代理。我不是想向你推销代币。 欢迎提问。如果这个帖子火了,我会在这里待一段时间。
2作者: Mey0320大约 20 小时前
大家好, 我们是来自北京大学的 OpenDCAI 团队。我们开发了 Paper2Any,这是一个开源工具,旨在基于我们的 DataFlow-Agent 框架,自动化“论文转幻灯片”的工作流程。 问题:撰写论文很困难,但创建专业的架构图和幻灯片(PPT)往往更加繁琐。大多数 AI 工具只能生成静态图像(PNG),这些图像无法进行调整以用于最终出版。 解决方案:Paper2Any 接受 PDF、文本或草图作为输入,理解研究逻辑,并生成完全可编辑的 PPTX(PowerPoint)文件和 SVG 文件。我们优先考虑灵活性和保真度——允许您指定页面范围、切换视觉风格并保留原始素材。 工作原理: 1. 多模态阅读:从论文中提取文本和视觉元素。您现在可以指定页面范围(例如,仅方法部分)以聚焦上下文并减少 token 使用量。 2. 内容理解:识别核心贡献和结构逻辑。 3. PPT 生成:它不是生成一张扁平的图像,而是生成独立的元素(块、箭头、文本),这些元素具有可选的视觉风格,并将它们组织成幻灯片布局。 链接: * 演示:[http://dcai-paper2any.cpolar.top/](http://dcai-paper2any.cpolar.top/) * 代码 (DataFlow-Agent):[https://github.com/OpenDCAI/DataFlow-Agent](https://github.com/OpenDCAI/DataFlow-Agent) 我们很乐意听取您对生成质量和 agent 工作流程的反馈!
2作者: Yatharth3501大约 21 小时前
我一直在开发 MiraTTS,这是一个针对高真实感和稳定文本转语音(TTS)而微调的 Spark-TTS 模型。目标是创建一个速度极快但质量极高的模型。 大多数开源 TTS 模型要么计算量大,要么生成 16-24kHz 的音频。Mira 通过结合以下两点来实现高保真度和速度: * **FlashSR:** 用于生成清晰、更清晰的 48kHz 音频输出。 * **LMDeploy:** 经过高度优化的推理,实现 100 倍的实时速度和低延迟(大约 150 毫秒)。 我构建这个模型是为了让本地用户能够使用高质量的本地文本转语音模型,适用于任何用例。它目前还处于早期阶段,我正在尝试多语言版本和多说话人版本。流式传输功能也即将推出。 项目代码库:[https://github.com/ysharma3501/MiraTTS](https://github.com/ysharma3501/MiraTTS) 模型:[https://huggingface.co/YatharthS/MiraTTS](https://huggingface.co/YatharthS/MiraTTS) 我还写了一篇关于这些基于 LLM 的 TTS 模型如何工作的文章:[https://huggingface.co/blog/YatharthS/llm-tts-models](https://huggingface.co/blog/YatharthS/llm-tts-models)
15作者: injung大约 21 小时前
现在大家都在争相推出 AI 工具,而我却带来了一个可视化编辑器。不过,我认为很多团队都对“市场部又想改着陆页了”这个问题非常熟悉。<p>多年来,我一直遇到这种情况。活动页面来了,工程师们就被拉去帮忙,工单也堆积如山。通常都是相同的组件,只是重新排列一下。<p>几年前,在一家我工作过的初创公司,我们构建了一个内部工具来解决这个问题。你注册现有的 React 组件,它们就会显示为可拖放的块,结果是一个 JSX 字符串。无需学习模式,也无需更改你的组件代码。<p>我们把它用在了生产环境中,处理着一个混乱、遗留问题严重的真实流量。它表现良好。随着时间的推移,它支撑了我们大约 60% 的流量。市场部无需提交工单就能发布页面,产品团队也能进行布局级别的 A/B 测试。这段经历最终促使我清理并开源了它。<p>Composify 的定位介于无代码页面构建器和无头 CMS 之间。像 Wix 或 Squarespace 这样的页面构建器提供了拖放功能,但会将你锁定在它们的组件中。也有像 Builder.io、Puck 和 Storyblok 这样出色的工具,但许多工具需要你将组件适配到它们的模型中。Composify 刻意保持极简:它让你直接使用实际的生产组件。<p>现在还处于早期阶段。文档需要完善,还有一些粗糙的地方。但它已经在生产环境中运行,并且为我们解决了一个实际问题。如果你已经有一个组件库,并且希望非开发人员能够从中组合页面,它可能会对你有所帮助。<p>主页:<a href="https://composify.js.org" rel="nofollow">https://composify.js.org</a><p>欢迎提问或提供反馈!