1作者: brokeceo77 个月前
我们创建 Chargenda 的初衷是,如今的企业会使用数十种工具——而大多数人都会忘记续订日期、免费试用期和重复发生的费用。Chargenda 将所有信息集中在一处,在续订前发送提醒,并帮助团队削减不必要的开支。
1作者: 2dogsanerd7 个月前
嘿 HN, 我构建这个工具是因为我厌倦了传统 PDF 表格提取工具中出现的“静默失败”。 在我的日常工作中,我需要处理金融和法律文件,像 Camelot 或 Tabula 这样的工具经常会返回看起来合理但列错位或缺少小数点的的数据。在受监管的环境中,你无法承受猜测的风险。 我构建了一个管道,将提取视为一个需要验证的假设: 1. *提取:* 使用 IBM 的 Docling 解析布局并获取结构(Markdown)。 2. *视觉验证:* 截取 PDF 中特定表格区域的屏幕截图。 3. *验证:* 将 Markdown 和屏幕截图都输入到本地 Vision LLM(通过 Ollama 的 Llama 3.2)。 4. *评分:* LLM 比较像素真值与提取的文本,并输出置信度分数 + 审计跟踪。 这种方法在速度(每个表格大约需要 5 秒)和置信度之间做了权衡。它设计为 100% 在本地运行,以保护隐私敏感的文档。 代码库在这里:<a href="https://github.com/2dogsandanerd/validated-table-extractor" rel="nofollow">https://github.com/2dogsandanerd/validated-table-extractor</a> 很想听听你们在 RAG 管道中如何处理数据完整性!