2作者: victorevogor7 个月前
嗨,Hacker News!我开发了 Docuglean,一个开源的 SDK,用于智能文档处理,它与 OpenAI、Mistral、Google Gemini 和 Hugging Face 模型兼容。 这个想法源于我反复编写样板代码,从发票、收据和其他文档中提取结构化数据。我不想再纠结于不同的 API 格式,而是希望有一个统一的接口,能够: - 使用 Zod/Pydantic 模式提取结构化数据 - 对多部分文档(例如,医疗记录)进行分类和拆分 - 批量处理文档,并自动处理错误 - 在本地运行,无需 API(适用于 PDF、DOCX、XLSX 等) 主要功能: - 同时支持 TypeScript 和 Python - 批量处理,并发请求 - 文档分类(按类别拆分 100 多页的文档) - 本地解析器(基本提取无需 API) - 采用 Apache 2.0 许可证 目前支持 OpenAI、Mistral、Gemini 和 Hugging Face。计划添加 Together AI、Anthropic 等。 欢迎大家对 API 设计提出反馈,以及哪些功能最有用。
1作者: Indri-Fazliji7 个月前
我创建 GitPulse 是为了解决我遇到的一个问题:寻找对新手友好的代码库。<p>功能: • 200 多个精选的“新手友好问题” • AI 驱动的难度预测 • 智能代码库匹配 • 贡献者分析 • 代码库健康评分<p>在线体验:<a href="https:&#x2F;&#x2F;git-pulsee.vercel.app" rel="nofollow">https:&#x2F;&#x2F;git-pulsee.vercel.app</a>
1作者: nrig7 个月前
我维护着几个开源项目,依赖管理变得不堪重负。<p>Dependabot 每周会在我的仓库中创建 20-30 个 PR。大多数是小版本更新,但其中也埋藏着关键的安全问题。我发现自己要么忽略所有 PR(风险很高),要么花费数小时进行筛选(难以持续)。<p>问题在于:我无法很好地判断哪些是真正紧急的,哪些可以等待。<p>我尝试过的方法: - 遵循 CVSS 评分 → 但“严重”并不意味着“在我的环境中可被利用” - 自动合并补丁版本 → 错过了几个重要的安全修复 - 手动审查所有内容 → 每周需要 5-10 小时<p>我最近发现了 CISA 的 KEV 目录(已知被利用的漏洞),它标记了正在被实际利用的 CVE。这似乎比单独使用 CVSS 提供了更好的信号,但我很好奇:<p>1. 您如何决定哪些是真正紧急的?CVSS?EPSS?手动评估?<p>2. 您是否将“已过时但没有漏洞”的依赖项与“存在 CVE”的依赖项区别对待?<p>3. 对于那些使用 Dependabot/Renovate/Snyk 的人 - 你们的工作流程是什么?您会审查每个警报,还是找到了一个好的过滤系统?<p>我正在考虑构建一些东西来帮助解决这个问题(健康评分 + 基于利用的优先级排序),但想确保我没有仅仅在解决自己的奇怪问题。<p>什么对您有效?