2 分•作者: speckx•6 个月前
返回首页
最新
1 分•作者: bilegeek•6 个月前
1 分•作者: geox•6 个月前
1 分•作者: timeproofs•6 个月前
我经常在许多领域(文档、AI输出、数据集、代码、日志)遇到同样的问题。<p>存储告诉我我现在有什么。版本控制告诉我发生了什么变化。<p>但当发生争议时,真正的问题往往更简单:
这些数据到底是什么时候存在的?<p>截图、PDF、仪表盘、电子邮件……
它们大多依赖于对系统或平台的信任。<p>在许多情况下,存储或共享原始数据甚至不可行(隐私、合规性、规模)。<p>我很好奇其他人今天是如何处理这个问题的。
你见过哪些方法在实践中有效?
1 分•作者: geerlingguy•6 个月前
2 分•作者: ekzhang•6 个月前
43 分•作者: ee64a4a•6 个月前
100 分•作者: Kerrick•6 个月前
45 分•作者: tosh•6 个月前
6 分•作者: sidmanchkanti21•6 个月前
嗨 HN,我们是 Pulse 的联合创始人 Sid 和 Ritvik。Pulse 是一个文档提取系统,用于创建 LLM 预处理文本。我们构建 Pulse 是因为我们意识到,尽管现代视觉语言模型在生成看似合理的文本方面表现出色,但这使得它们在大规模 OCR 和数据摄取方面存在风险。
当我们开始研究文档提取时,我们假设了当今许多团队都在做的事情:基础模型正在快速改进,多模态系统似乎可以很好地读取文档,对于小型或干净的输入,这种假设通常是成立的。一旦我们开始批量处理真实文档,局限性就显现出来了。长篇 PDF、密集的表格、混合布局、低保真扫描以及财务或运营数据暴露了微妙、难以检测且纠正成本高昂的错误。输出结果通常看起来合理,但却包含小的但有意义的错误,尤其是在表格和数字字段中。
从那时起,我们的大部分工作都是应用研究。我们对复杂文档进行受控评估,微调视觉模型,并构建了真实情况真正重要的标记数据集。我们的团队曾多次熬夜手动注释页面,在表格周围绘制边界框,逐点标记图表,或者争论一个数字是无法辨认还是仅仅扫描不佳。这个过程塑造了我们的直觉,远远超过了基准测试。
有一点很快变得清晰。核心挑战不在于提取本身,而在于置信度。视觉语言模型将文档图像嵌入到高维表示中,这些表示针对语义理解而不是精确转录进行了优化。这个过程本质上是有损的。当出现不确定性时,模型倾向于使用已学习的先验来解决它,而不是揭示歧义。这种行为在消费者环境中可能有所帮助。但在生产流水线中,它会产生无法很好扩展的验证问题。
Pulse 的出现源于试图通过系统设计而非仅仅通过提示来解决这一差距。该系统没有将文档理解视为单个生成步骤,而是将布局分析与语言建模分开。文档被规范化为结构化表示,在进行模式映射之前保留层次结构和表格。提取受到预先定义的模式的约束,并且提取的值与源位置相关联,因此可以检查不确定性,而不是将其猜测掉。实际上,这产生了一种混合方法,结合了传统的计算机视觉技术、布局模型和视觉语言模型,因为没有单一方法可以单独可靠地处理这些情况。
我们有意分享了一些文档,这些文档反映了促使这项工作产生的输入类型。这些是我们在通用 OCR 或基于 VLM 的流水线中看到问题的案例的代表。
这是一个财务 10K 文件:
[https://platform.runpulse.com/dashboard/examples/example1](https://platform.runpulse.com/dashboard/examples/example1)
这是一份报纸:
[https://platform.runpulse.com/dashboard/examples/example2](https://platform.runpulse.com/dashboard/examples/example2)
这是一个租金清单:
[https://platform.runpulse.com/dashboard/examples/example3](https://platform.runpulse.com/dashboard/examples/example3)
Pulse 并非完美无缺,尤其是在高度退化的扫描或不常见的笔迹上,并且仍有改进的空间。目标不是完全消除错误,而是使其可见、可审计且更易于推理。
Pulse 通过基于使用的 API 和平台访问提供。您可以在此处试用,并在此处访问 API 文档。
演示链接:[https://video.runpulse.com/video/pulse-platform-walkthrough-69f9](https://video.runpulse.com/video/pulse-platform-walkthrough-69f9)
我们有兴趣听取这里其他人如何评估文档提取的正确性,您在实践中看到了哪些失败模式,以及您依赖哪些信号来决定是否可以信任输出。我们将随时回答问题,并很乐意运行其他文档,如果人们想分享示例的话。
5 分•作者: tomfox2•6 个月前
我是一名独立开发者,已经开发了几款免费使用的工具类应用。我计划在它们积累足够用户后,通过广告来盈利。我目前面临的困境是,现在就将这些产品开源,还是等到它们更成熟后再开源。
2 分•作者: highwayman47•6 个月前
如果撇开科技领域,你最想学习的专业、大学或课程是什么?
6 分•作者: timatping•6 个月前
嘿,HN!我们创建了 DNS 目录(<a href="https://dnsdirectory.com" rel="nofollow">https://dnsdirectory.com</a>),这是一个免费、可搜索的公共 DNS 服务器数据库,每 10 分钟进行一次实时监控。
我们最初是为了一个代理指纹识别/网络抓取项目,需要找到一份全球运营商使用的 DNS 服务器的最新列表,但我们惊讶地发现竟然没有这样的数据库,所以我们在一次内部黑客马拉松中自己动手构建了它。
我们正在添加更多功能,但目前我们已经实现了:
* 每 10 分钟测试 77000 多个服务器
* 允许按正常运行时间、位置、安全功能(广告拦截、恶意软件防护、DNSSEC)进行筛选
* 显示 IPv6 支持、任播等信息
* 显示所有历史测试信息
我们没有将该网站货币化的计划,它将保持免费,以便作为公共资源使用。
我很乐意听取大家对改进网站的建议。它目前可以运行,但某些方面,例如内容过滤检测,还不够完善,我们希望在亚洲和美国增加测试节点,以获得更好的覆盖范围,因为目前我们只从阿姆斯特丹进行测试。
如果你想添加网站上没有的 DNS 服务器,可以通过表格添加。如果你是一个大型组织,需要添加大量服务器,可以通过 support@dnsdirectory.com 给我发邮件,我们会导入它们。
谢谢!
4 分•作者: aymenfurter•6 个月前
111 分•作者: pember•6 个月前
46 分•作者: lafond•6 个月前
1 分•作者: ksec•6 个月前
2 分•作者: pelmenibenni•6 个月前
我是一名独立开发者,在过去一年里,我反复遇到同样的问题:
我发布项目时总想着“稍后我会妥善处理安全问题”,但说实话,我的网络安全知识很差劲。
我经常会忘记一些事情,比如:
* 缺少安全标头
* 薄弱的 TLS / SSL 配置
* 扫描器应该及早发现的基本配置错误
所以我开发了 SecureNow,一个安全扫描器,用于检查网站是否存在常见漏洞,并提供清晰的报告和修复建议。
它并非要取代渗透测试——它旨在作为一个快速的“基线安全检查”,您可以在部署之前或之后运行。
它专为开发者 / 小型团队设计。
我认为一些功能非常酷:
* 开放端口扫描(很少有网站具备这些功能)
* 速率限制检测器
* API 路由检查器
我今天发布了它,真心希望得到反馈:
* 这有用吗?
* 您希望此类工具有哪些检查功能?
* 什么会让您不信任它?
* 价格是否过高?
链接:https://www.securenow.dev
很乐意回答任何技术问题。
2 分•作者: simonw•6 个月前
1 分•作者: belter•6 个月前