2 分•作者: binning•7 个月前
返回首页
最新
1 分•作者: mohi-kalantari•7 个月前
1 分•作者: alexcos•7 个月前
1 分•作者: binning•7 个月前
2 分•作者: mitchbob•7 个月前
1 分•作者: kevin061•7 个月前
1 分•作者: binning•7 个月前
1 分•作者: mylifeandtimes•7 个月前
1 分•作者: ingve•7 个月前
1 分•作者: bastienbeurier•7 个月前
1 分•作者: brokeceo7•7 个月前
我们创建 Chargenda 的初衷是,如今的企业会使用数十种工具——而大多数人都会忘记续订日期、免费试用期和重复发生的费用。Chargenda 将所有信息集中在一处,在续订前发送提醒,并帮助团队削减不必要的开支。
1 分•作者: 2dogsanerd•7 个月前
嘿 HN,
我构建这个工具是因为我厌倦了传统 PDF 表格提取工具中出现的“静默失败”。
在我的日常工作中,我需要处理金融和法律文件,像 Camelot 或 Tabula 这样的工具经常会返回看起来合理但列错位或缺少小数点的的数据。在受监管的环境中,你无法承受猜测的风险。
我构建了一个管道,将提取视为一个需要验证的假设:
1. *提取:* 使用 IBM 的 Docling 解析布局并获取结构(Markdown)。
2. *视觉验证:* 截取 PDF 中特定表格区域的屏幕截图。
3. *验证:* 将 Markdown 和屏幕截图都输入到本地 Vision LLM(通过 Ollama 的 Llama 3.2)。
4. *评分:* LLM 比较像素真值与提取的文本,并输出置信度分数 + 审计跟踪。
这种方法在速度(每个表格大约需要 5 秒)和置信度之间做了权衡。它设计为 100% 在本地运行,以保护隐私敏感的文档。
代码库在这里:<a href="https://github.com/2dogsandanerd/validated-table-extractor" rel="nofollow">https://github.com/2dogsandanerd/validated-table-extractor</a>
很想听听你们在 RAG 管道中如何处理数据完整性!
1 分•作者: chii•7 个月前
1 分•作者: dustingetz•7 个月前
1 分•作者: todsacerdoti•7 个月前
1 分•作者: der_gopher•7 个月前
2 分•作者: mpweiher•7 个月前
1 分•作者: dnetesn•7 个月前
1 分•作者: dnetesn•7 个月前
1 分•作者: sipofwater•7 个月前