1 分•作者: kshk123•大约 22 小时前
我开发了一个小型的浏览器扩展程序,用于帮助用户从任何网站上选中的文本创建提醒。我经常在电子邮件和网页上看到日期/时间信息(例如“下周二下午3点”、“2025年12月25日”、“14:30”),希望能够方便地将它们转换为提醒,而无需切换应用程序。
工作原理:
* 在任何网页上选择文本 → 右键点击“添加到提醒”
* 它会检测常见的日期/时间格式(英语 + 欧洲/德语),并预先填充提醒时间
* 在弹窗中查看/编辑/删除提醒,或手动添加提醒
* 也可以手动编辑/添加日期,并且高亮显示的文本不必包含日期。
可选集成(仅在您选择时):
* 通过OAuth与Google日历同步(创建事件)
* 通过您在自己的机器上运行的小型本地桥接程序与macOS Apple Reminders同步
链接:
* Chrome网上应用店:https://chromewebstore.google.com/detail/create-reminders/ecifdofkbodefbieanakcmhnncjhflkh
* Firefox附加组件:https://addons.mozilla.org/en-US/firefox/addon/create-reminders/
2 分•作者: willm•大约 22 小时前
嗨,各位 HN 用户,
到 2025 年年中,我曾是一家名为 Textualize 的初创公司的 CEO/CTO。不知怎么的,我设法为我的 Python 库获得了种子轮融资,这些库用于实现花哨的终端输出。三年后,我们结束了,因为资金耗尽了。
老实说,那时我以为自己已经厌倦了编程。但事实证明,我厌倦的是压力和没日没夜地工作。几周的休息就足够了。
大约在那个时候,编程代理爆发了,我再也不能忽视它们了。我对这些工具提供的用户界面印象不深。在终端工作了几年后,我知道你可以获得更好的用户体验。因此,这个项目诞生了。
我曾计划在代理的 SDK 和前端之间创建一个中间层。幸运的是,在我开始构建这个项目后,Zed Industries 发布了 Agent Client Protocol (<a href="https://agentclientprotocol.com/" rel="nofollow">https://agentclientprotocol.com/</a>)。这正是我所需要的。
我刚刚发布了代码(它曾是一个私有仓库一段时间)。Toad(Textual Code 的一个文字游戏)可以运行大量 AI 代理,并提供一个更友好的终端用户界面。
可以把它想象成一个“自带代理”的编程 CLI。使用你想要的任何代理。我不是想向你推销代币。
欢迎提问。如果这个帖子火了,我会在这里待一段时间。
2 分•作者: Mey0320•大约 22 小时前
大家好,
我们是来自北京大学的 OpenDCAI 团队。我们开发了 Paper2Any,这是一个开源工具,旨在基于我们的 DataFlow-Agent 框架,自动化“论文转幻灯片”的工作流程。
问题:撰写论文很困难,但创建专业的架构图和幻灯片(PPT)往往更加繁琐。大多数 AI 工具只能生成静态图像(PNG),这些图像无法进行调整以用于最终出版。
解决方案:Paper2Any 接受 PDF、文本或草图作为输入,理解研究逻辑,并生成完全可编辑的 PPTX(PowerPoint)文件和 SVG 文件。我们优先考虑灵活性和保真度——允许您指定页面范围、切换视觉风格并保留原始素材。
工作原理:
1. 多模态阅读:从论文中提取文本和视觉元素。您现在可以指定页面范围(例如,仅方法部分)以聚焦上下文并减少 token 使用量。
2. 内容理解:识别核心贡献和结构逻辑。
3. PPT 生成:它不是生成一张扁平的图像,而是生成独立的元素(块、箭头、文本),这些元素具有可选的视觉风格,并将它们组织成幻灯片布局。
链接:
* 演示:[http://dcai-paper2any.cpolar.top/](http://dcai-paper2any.cpolar.top/)
* 代码 (DataFlow-Agent):[https://github.com/OpenDCAI/DataFlow-Agent](https://github.com/OpenDCAI/DataFlow-Agent)
我们很乐意听取您对生成质量和 agent 工作流程的反馈!
2 分•作者: Yatharth3501•大约 22 小时前
我一直在开发 MiraTTS,这是一个针对高真实感和稳定文本转语音(TTS)而微调的 Spark-TTS 模型。目标是创建一个速度极快但质量极高的模型。
大多数开源 TTS 模型要么计算量大,要么生成 16-24kHz 的音频。Mira 通过结合以下两点来实现高保真度和速度:
* **FlashSR:** 用于生成清晰、更清晰的 48kHz 音频输出。
* **LMDeploy:** 经过高度优化的推理,实现 100 倍的实时速度和低延迟(大约 150 毫秒)。
我构建这个模型是为了让本地用户能够使用高质量的本地文本转语音模型,适用于任何用例。它目前还处于早期阶段,我正在尝试多语言版本和多说话人版本。流式传输功能也即将推出。
项目代码库:[https://github.com/ysharma3501/MiraTTS](https://github.com/ysharma3501/MiraTTS)
模型:[https://huggingface.co/YatharthS/MiraTTS](https://huggingface.co/YatharthS/MiraTTS)
我还写了一篇关于这些基于 LLM 的 TTS 模型如何工作的文章:[https://huggingface.co/blog/YatharthS/llm-tts-models](https://huggingface.co/blog/YatharthS/llm-tts-models)
15 分•作者: injung•大约 22 小时前
现在大家都在争相推出 AI 工具,而我却带来了一个可视化编辑器。不过,我认为很多团队都对“市场部又想改着陆页了”这个问题非常熟悉。<p>多年来,我一直遇到这种情况。活动页面来了,工程师们就被拉去帮忙,工单也堆积如山。通常都是相同的组件,只是重新排列一下。<p>几年前,在一家我工作过的初创公司,我们构建了一个内部工具来解决这个问题。你注册现有的 React 组件,它们就会显示为可拖放的块,结果是一个 JSX 字符串。无需学习模式,也无需更改你的组件代码。<p>我们把它用在了生产环境中,处理着一个混乱、遗留问题严重的真实流量。它表现良好。随着时间的推移,它支撑了我们大约 60% 的流量。市场部无需提交工单就能发布页面,产品团队也能进行布局级别的 A/B 测试。这段经历最终促使我清理并开源了它。<p>Composify 的定位介于无代码页面构建器和无头 CMS 之间。像 Wix 或 Squarespace 这样的页面构建器提供了拖放功能,但会将你锁定在它们的组件中。也有像 Builder.io、Puck 和 Storyblok 这样出色的工具,但许多工具需要你将组件适配到它们的模型中。Composify 刻意保持极简:它让你直接使用实际的生产组件。<p>现在还处于早期阶段。文档需要完善,还有一些粗糙的地方。但它已经在生产环境中运行,并且为我们解决了一个实际问题。如果你已经有一个组件库,并且希望非开发人员能够从中组合页面,它可能会对你有所帮助。<p>主页:<a href="https://composify.js.org" rel="nofollow">https://composify.js.org</a><p>欢迎提问或提供反馈!
1 分•作者: mattgodbolt•大约 22 小时前
1 分•作者: hn_acker•大约 22 小时前
1 分•作者: whou•大约 23 小时前
1 分•作者: teleforce•大约 23 小时前
2 分•作者: speckx•大约 23 小时前
1 分•作者: bilegeek•大约 23 小时前
1 分•作者: geox•大约 23 小时前
1 分•作者: timeproofs•大约 23 小时前
我经常在许多领域(文档、AI输出、数据集、代码、日志)遇到同样的问题。<p>存储告诉我我现在有什么。版本控制告诉我发生了什么变化。<p>但当发生争议时,真正的问题往往更简单:
这些数据到底是什么时候存在的?<p>截图、PDF、仪表盘、电子邮件……
它们大多依赖于对系统或平台的信任。<p>在许多情况下,存储或共享原始数据甚至不可行(隐私、合规性、规模)。<p>我很好奇其他人今天是如何处理这个问题的。
你见过哪些方法在实践中有效?
1 分•作者: geerlingguy•大约 23 小时前
2 分•作者: ekzhang•大约 23 小时前
43 分•作者: ee64a4a•大约 23 小时前
100 分•作者: Kerrick•大约 23 小时前
6 分•作者: sidmanchkanti21•大约 23 小时前
嗨 HN,我们是 Pulse 的联合创始人 Sid 和 Ritvik。Pulse 是一个文档提取系统,用于创建 LLM 预处理文本。我们构建 Pulse 是因为我们意识到,尽管现代视觉语言模型在生成看似合理的文本方面表现出色,但这使得它们在大规模 OCR 和数据摄取方面存在风险。
当我们开始研究文档提取时,我们假设了当今许多团队都在做的事情:基础模型正在快速改进,多模态系统似乎可以很好地读取文档,对于小型或干净的输入,这种假设通常是成立的。一旦我们开始批量处理真实文档,局限性就显现出来了。长篇 PDF、密集的表格、混合布局、低保真扫描以及财务或运营数据暴露了微妙、难以检测且纠正成本高昂的错误。输出结果通常看起来合理,但却包含小的但有意义的错误,尤其是在表格和数字字段中。
从那时起,我们的大部分工作都是应用研究。我们对复杂文档进行受控评估,微调视觉模型,并构建了真实情况真正重要的标记数据集。我们的团队曾多次熬夜手动注释页面,在表格周围绘制边界框,逐点标记图表,或者争论一个数字是无法辨认还是仅仅扫描不佳。这个过程塑造了我们的直觉,远远超过了基准测试。
有一点很快变得清晰。核心挑战不在于提取本身,而在于置信度。视觉语言模型将文档图像嵌入到高维表示中,这些表示针对语义理解而不是精确转录进行了优化。这个过程本质上是有损的。当出现不确定性时,模型倾向于使用已学习的先验来解决它,而不是揭示歧义。这种行为在消费者环境中可能有所帮助。但在生产流水线中,它会产生无法很好扩展的验证问题。
Pulse 的出现源于试图通过系统设计而非仅仅通过提示来解决这一差距。该系统没有将文档理解视为单个生成步骤,而是将布局分析与语言建模分开。文档被规范化为结构化表示,在进行模式映射之前保留层次结构和表格。提取受到预先定义的模式的约束,并且提取的值与源位置相关联,因此可以检查不确定性,而不是将其猜测掉。实际上,这产生了一种混合方法,结合了传统的计算机视觉技术、布局模型和视觉语言模型,因为没有单一方法可以单独可靠地处理这些情况。
我们有意分享了一些文档,这些文档反映了促使这项工作产生的输入类型。这些是我们在通用 OCR 或基于 VLM 的流水线中看到问题的案例的代表。
这是一个财务 10K 文件:
[https://platform.runpulse.com/dashboard/examples/example1](https://platform.runpulse.com/dashboard/examples/example1)
这是一份报纸:
[https://platform.runpulse.com/dashboard/examples/example2](https://platform.runpulse.com/dashboard/examples/example2)
这是一个租金清单:
[https://platform.runpulse.com/dashboard/examples/example3](https://platform.runpulse.com/dashboard/examples/example3)
Pulse 并非完美无缺,尤其是在高度退化的扫描或不常见的笔迹上,并且仍有改进的空间。目标不是完全消除错误,而是使其可见、可审计且更易于推理。
Pulse 通过基于使用的 API 和平台访问提供。您可以在此处试用,并在此处访问 API 文档。
演示链接:[https://video.runpulse.com/video/pulse-platform-walkthrough-69f9](https://video.runpulse.com/video/pulse-platform-walkthrough-69f9)
我们有兴趣听取这里其他人如何评估文档提取的正确性,您在实践中看到了哪些失败模式,以及您依赖哪些信号来决定是否可以信任输出。我们将随时回答问题,并很乐意运行其他文档,如果人们想分享示例的话。
5 分•作者: tomfox2•大约 23 小时前
我是一名独立开发者,已经开发了几款免费使用的工具类应用。我计划在它们积累足够用户后,通过广告来盈利。我目前面临的困境是,现在就将这些产品开源,还是等到它们更成熟后再开源。
2 分•作者: highwayman47•大约 23 小时前
如果撇开科技领域,你最想学习的专业、大学或课程是什么?