6作者: sidmanchkanti211 天前
嗨 HN,我们是 Pulse 的联合创始人 Sid 和 Ritvik。Pulse 是一个文档提取系统,用于创建 LLM 预处理文本。我们构建 Pulse 是因为我们意识到,尽管现代视觉语言模型在生成看似合理的文本方面表现出色,但这使得它们在大规模 OCR 和数据摄取方面存在风险。 当我们开始研究文档提取时,我们假设了当今许多团队都在做的事情:基础模型正在快速改进,多模态系统似乎可以很好地读取文档,对于小型或干净的输入,这种假设通常是成立的。一旦我们开始批量处理真实文档,局限性就显现出来了。长篇 PDF、密集的表格、混合布局、低保真扫描以及财务或运营数据暴露了微妙、难以检测且纠正成本高昂的错误。输出结果通常看起来合理,但却包含小的但有意义的错误,尤其是在表格和数字字段中。 从那时起,我们的大部分工作都是应用研究。我们对复杂文档进行受控评估,微调视觉模型,并构建了真实情况真正重要的标记数据集。我们的团队曾多次熬夜手动注释页面,在表格周围绘制边界框,逐点标记图表,或者争论一个数字是无法辨认还是仅仅扫描不佳。这个过程塑造了我们的直觉,远远超过了基准测试。 有一点很快变得清晰。核心挑战不在于提取本身,而在于置信度。视觉语言模型将文档图像嵌入到高维表示中,这些表示针对语义理解而不是精确转录进行了优化。这个过程本质上是有损的。当出现不确定性时,模型倾向于使用已学习的先验来解决它,而不是揭示歧义。这种行为在消费者环境中可能有所帮助。但在生产流水线中,它会产生无法很好扩展的验证问题。 Pulse 的出现源于试图通过系统设计而非仅仅通过提示来解决这一差距。该系统没有将文档理解视为单个生成步骤,而是将布局分析与语言建模分开。文档被规范化为结构化表示,在进行模式映射之前保留层次结构和表格。提取受到预先定义的模式的约束,并且提取的值与源位置相关联,因此可以检查不确定性,而不是将其猜测掉。实际上,这产生了一种混合方法,结合了传统的计算机视觉技术、布局模型和视觉语言模型,因为没有单一方法可以单独可靠地处理这些情况。 我们有意分享了一些文档,这些文档反映了促使这项工作产生的输入类型。这些是我们在通用 OCR 或基于 VLM 的流水线中看到问题的案例的代表。 这是一个财务 10K 文件: [https://platform.runpulse.com/dashboard/examples/example1](https://platform.runpulse.com/dashboard/examples/example1) 这是一份报纸: [https://platform.runpulse.com/dashboard/examples/example2](https://platform.runpulse.com/dashboard/examples/example2) 这是一个租金清单: [https://platform.runpulse.com/dashboard/examples/example3](https://platform.runpulse.com/dashboard/examples/example3) Pulse 并非完美无缺,尤其是在高度退化的扫描或不常见的笔迹上,并且仍有改进的空间。目标不是完全消除错误,而是使其可见、可审计且更易于推理。 Pulse 通过基于使用的 API 和平台访问提供。您可以在此处试用,并在此处访问 API 文档。 演示链接:[https://video.runpulse.com/video/pulse-platform-walkthrough-69f9](https://video.runpulse.com/video/pulse-platform-walkthrough-69f9) 我们有兴趣听取这里其他人如何评估文档提取的正确性,您在实践中看到了哪些失败模式,以及您依赖哪些信号来决定是否可以信任输出。我们将随时回答问题,并很乐意运行其他文档,如果人们想分享示例的话。
6作者: timatping1 天前
嘿,HN!我们创建了 DNS 目录(<a href="https://dnsdirectory.com" rel="nofollow">https://dnsdirectory.com</a>),这是一个免费、可搜索的公共 DNS 服务器数据库,每 10 分钟进行一次实时监控。 我们最初是为了一个代理指纹识别/网络抓取项目,需要找到一份全球运营商使用的 DNS 服务器的最新列表,但我们惊讶地发现竟然没有这样的数据库,所以我们在一次内部黑客马拉松中自己动手构建了它。 我们正在添加更多功能,但目前我们已经实现了: * 每 10 分钟测试 77000 多个服务器 * 允许按正常运行时间、位置、安全功能(广告拦截、恶意软件防护、DNSSEC)进行筛选 * 显示 IPv6 支持、任播等信息 * 显示所有历史测试信息 我们没有将该网站货币化的计划,它将保持免费,以便作为公共资源使用。 我很乐意听取大家对改进网站的建议。它目前可以运行,但某些方面,例如内容过滤检测,还不够完善,我们希望在亚洲和美国增加测试节点,以获得更好的覆盖范围,因为目前我们只从阿姆斯特丹进行测试。 如果你想添加网站上没有的 DNS 服务器,可以通过表格添加。如果你是一个大型组织,需要添加大量服务器,可以通过 support@dnsdirectory.com 给我发邮件,我们会导入它们。 谢谢!
2作者: pelmenibenni1 天前
我是一名独立开发者,在过去一年里,我反复遇到同样的问题: 我发布项目时总想着“稍后我会妥善处理安全问题”,但说实话,我的网络安全知识很差劲。 我经常会忘记一些事情,比如: * 缺少安全标头 * 薄弱的 TLS / SSL 配置 * 扫描器应该及早发现的基本配置错误 所以我开发了 SecureNow,一个安全扫描器,用于检查网站是否存在常见漏洞,并提供清晰的报告和修复建议。 它并非要取代渗透测试——它旨在作为一个快速的“基线安全检查”,您可以在部署之前或之后运行。 它专为开发者 / 小型团队设计。 我认为一些功能非常酷: * 开放端口扫描(很少有网站具备这些功能) * 速率限制检测器 * API 路由检查器 我今天发布了它,真心希望得到反馈: * 这有用吗? * 您希望此类工具有哪些检查功能? * 什么会让您不信任它? * 价格是否过高? 链接:https://www.securenow.dev 很乐意回答任何技术问题。