1 分•作者: robertlagrant•7 个月前
返回首页
最新
1 分•作者: breadislove•7 个月前
1 分•作者: gpi•7 个月前
1 分•作者: preetamjinka•7 个月前
1 分•作者: diogenes_atx•7 个月前
1 分•作者: pregnenolone•7 个月前
1 分•作者: PaulHoule•7 个月前
1 分•作者: ripe•7 个月前
9 分•作者: tonyhb•7 个月前
2 分•作者: victorevogor•7 个月前
嗨,Hacker News!我开发了 Docuglean,一个开源的 SDK,用于智能文档处理,它与 OpenAI、Mistral、Google Gemini 和 Hugging Face 模型兼容。
这个想法源于我反复编写样板代码,从发票、收据和其他文档中提取结构化数据。我不想再纠结于不同的 API 格式,而是希望有一个统一的接口,能够:
- 使用 Zod/Pydantic 模式提取结构化数据
- 对多部分文档(例如,医疗记录)进行分类和拆分
- 批量处理文档,并自动处理错误
- 在本地运行,无需 API(适用于 PDF、DOCX、XLSX 等)
主要功能:
- 同时支持 TypeScript 和 Python
- 批量处理,并发请求
- 文档分类(按类别拆分 100 多页的文档)
- 本地解析器(基本提取无需 API)
- 采用 Apache 2.0 许可证
目前支持 OpenAI、Mistral、Gemini 和 Hugging Face。计划添加 Together AI、Anthropic 等。
欢迎大家对 API 设计提出反馈,以及哪些功能最有用。
23 分•作者: rbanffy•7 个月前
23 分•作者: jandeboevrie•7 个月前
1 分•作者: kens•7 个月前
1 分•作者: gkapur•7 个月前
1 分•作者: Indri-Fazliji•7 个月前
我创建 GitPulse 是为了解决我遇到的一个问题:寻找对新手友好的代码库。<p>功能:
• 200 多个精选的“新手友好问题”
• AI 驱动的难度预测
• 智能代码库匹配
• 贡献者分析
• 代码库健康评分<p>在线体验:<a href="https://git-pulsee.vercel.app" rel="nofollow">https://git-pulsee.vercel.app</a>
1 分•作者: pavel_lishin•7 个月前
1 分•作者: nrig•7 个月前
我维护着几个开源项目,依赖管理变得不堪重负。<p>Dependabot 每周会在我的仓库中创建 20-30 个 PR。大多数是小版本更新,但其中也埋藏着关键的安全问题。我发现自己要么忽略所有 PR(风险很高),要么花费数小时进行筛选(难以持续)。<p>问题在于:我无法很好地判断哪些是真正紧急的,哪些可以等待。<p>我尝试过的方法:
- 遵循 CVSS 评分 → 但“严重”并不意味着“在我的环境中可被利用”
- 自动合并补丁版本 → 错过了几个重要的安全修复
- 手动审查所有内容 → 每周需要 5-10 小时<p>我最近发现了 CISA 的 KEV 目录(已知被利用的漏洞),它标记了正在被实际利用的 CVE。这似乎比单独使用 CVSS 提供了更好的信号,但我很好奇:<p>1. 您如何决定哪些是真正紧急的?CVSS?EPSS?手动评估?<p>2. 您是否将“已过时但没有漏洞”的依赖项与“存在 CVE”的依赖项区别对待?<p>3. 对于那些使用 Dependabot/Renovate/Snyk 的人 - 你们的工作流程是什么?您会审查每个警报,还是找到了一个好的过滤系统?<p>我正在考虑构建一些东西来帮助解决这个问题(健康评分 + 基于利用的优先级排序),但想确保我没有仅仅在解决自己的奇怪问题。<p>什么对您有效?
2 分•作者: SeenNotHeard•7 个月前
1 分•作者: connorjewiss•7 个月前
1 分•作者: haunter•7 个月前