2作者: raelmiu9 个月前
在一家拥有变更管理流程的公司从事 IT 工作?您是如何处理 MCP 的?完全没有处理?还是使用昂贵但无法胜任任务的工具?不如让它融入您现有的设置! 我们为 inxm.ai 构建了它,并意识到这是回馈社区的绝佳时机。 Enterprise MCP Bridge 是一个开源项目,通过封装您现有的 MCP 来解决身份验证、多用户和 REST API 问题。
2作者: sangsattawat9 个月前
我在生病期间尝试发布一个应用,当时精神状态不佳,大量使用了 Claude Code。 因此,我“过度”依赖 Claude Code,结果我的 Supabase 密钥意外地出现在一个“隐藏”的端点中,导致一些电子邮件泄露。 在深刻反思之后,并思考了 Lovable、Replit、Cursor、Claude Code 等基于 AI 的应用爆炸式增长,我开始思考目前开发者领域最最新、最令人头疼的痛点是什么。 我想到了一个场景:调试一些不明显的错误时,你选择的 AI 会回复“你说得对!让我来修复它”,但却永远无法指出代码库中哪里出了问题。 因此,在过去的一周里,我构建了 Ubon,详细列出了我作为一名软件工程师(主要是前端)15 年来所经历的所有痛点。Ubon 可以捕捉到那些会被代码检查工具忽略的东西——硬编码的 API 密钥、损坏的链接、缺失的 alt 属性、不安全的 cookie。这些问题只有在生产环境中才会爆发。 现在,我可以通过将 Ubon 添加到我的代码库中使用它(“npx ubon scan .”,或者简单地告诉 Claude Code “在提交之前安装 Ubon”),它会给出开发人员或 AI 代理都能阅读的输出,以查明真正的问题,并指出问题所在行和建议的修复方案。 它是开源的,免费使用,采用 MIT 许可证,而且我不会在 7 天后就放弃它,哈哈。我希望它能成为 AI 代理工作流程的一部分,或者作为 ESlint 等代码检查工具的补充。 很高兴分享的是,经过一些深入的测试,它运行得相当好。我尝试了数十个有问题的代码库,还模拟了由 Cursor、Windsurf、Lovable 等生成的有缺陷的存储库,并在其上使用 Ubon,结果非常好。 很想听取关于哪些其他检查有用的反馈。如果需求量足够大,我很乐意提供在线演示,以吸引用户使用 Ubon。
2作者: sp19829 个月前
免责声明:我不是机器学习研究员,所以术语可能比较随意/不严谨。请见谅! 我正在做一个小实验,想看看模型在 T20 国际板球比分卡(数据来源:cricsheet.com)上是否“知道自己知道”。 这个想法是测试模型在它们可能在训练期间看到过的公开数据上的表现,看看它们是否会产生幻觉或者承认自己不知道。 设置:每个问题都来自一场 T20 比赛。模型必须返回一个答案(数字或从选项中选择)或 `no_answer`。 结果(每个模型 N=100): - gpt-4o-search-preview • 回答率:0.96 • 准确率:0.88 • 已回答的准确率:0.91 • 幻觉(已回答):0.09 • 错误/100:9 - gpt-5 • 回答率:0.35 • 准确率:0.27 • 已回答的准确率:0.77 • 幻觉(已回答):0.23 • 错误/100:8 - gpt-4o-mini • 回答率:0.37 • 准确率:0.14 • 已回答的准确率:0.38 • 幻觉(已回答):0.62 • 错误/100:23 - gpt-5-mini • 回答率:0.05 • 准确率:0.02 • 已回答的准确率:0.40 • 幻觉(已回答):0.60 • 错误/100:3 注意:使用搜索时,剩余的大部分“错误”都是模糊/有争议的情况,公共来源对此存在分歧。 似乎对于模型可能看过 *一些* 数据的领域,依赖于弃权 + RAG 比依赖于覆盖范围更广但幻觉率更差的更大模型更好。 代码/数据:https://github.com/jobswithgpt/llmcriceval
1作者: steorra9 个月前
大家好,我们开发了 Pantheon-CLI,这是一个完全开源的项目,旨在成为“Python 版的 Claude Code + Notebook”——但专为数据分析而非仅仅是编码而设计。 与大多数 AI 编码助手不同,Pantheon-CLI 完全在您的机器(或服务器)上运行。无需上传数据。它将自然语言和代码融合在一个工作流程中,将变量保存在内存中,让您可以在输入代码和用通俗易懂的英语提问之间无缝切换。 它的功能: 1. 与您的数据聊天:直接处理 CSV、Excel、AnnData、Pickle、Torch 张量或 Python/R/Julia 支持的任何格式。 2. 混合编程:变量在自然语言和代码之间保持不变;CLI 自动为您生成并运行代码。 3. 类似 MCP 的代理集成:读取/创建文件、运行命令、获取网页、生成/修改代码。 4. 类似人类的学习:向它提供 PDF 论文或教程——Pantheon-CLI 会阅读它,规划步骤,并在分析之前复制方法。 5. 任务规划:通过从论文/教程中学习来构建科学代理(不仅仅是固定的、人为预定义的步骤)。 6. 多模型支持:支持 OpenAI、Anthropic、Gemini、DeepSeek、Qwen 等 + 离线本地 LLM(ollama、deepseek、gpt-oss)。 7. 多 RAG 支持:从文档/网络预先学习到本地“大脑”中,以获得更可靠的输出,而无需大量的 token 成本。 8. 内置生物学工具集:用于组学分析(比对、注释、差异表达、完整论文复现)。 9. Notebook 模式:将相同的主动式工作流程带入 Jupyter——自动运行和修改代码,操作文件,并从教程/论文中学习。 Pantheon-CLI 是我们尝试超越“AI 为您编写代码”的尝试。相反,它是一个用于数据分析的主动式操作系统,涵盖终端和笔记本。 代码库:[https://github.com/aristoteleo/pantheon-cli](https://github.com/aristoteleo/pantheon-cli) 教程:[https://pantheonos.stanford.edu/cli/docs/intro/getting-started](https://pantheonos.stanford.edu/cli/docs/intro/getting-started) 主页:[https://pantheonos.stanford.edu/](https://pantheonos.stanford.edu/) 很想听取来自 HN 社区的反馈——您会尝试将它用于哪些用例,以及哪些功能会使其对您更有用?
1作者: twendykirn9 个月前
嗨,HN 大家好, 我是 Igor,我正在开发 Unlingo,一个开源平台,旨在让国际化变得更轻松。<p>功能:<p><pre><code> - 设置非常快。你真的可以在大约 3 分钟内从零开始创建一个多语言应用程序。 - AI 辅助。当没有人类翻译人员时,可以即时生成翻译。 - 版本控制。在隔离的分支中安全地测试新的文案和功能,而不会影响生产环境。 - 截图。你可以直接将截图附加到翻译键上,这样翻译人员就能确切地知道他们正在处理什么。 - 键的即时同步。编辑你的主要语言,所有其他语言的键会立即创建,准备好进行翻译。 </code></pre> 演示在这里:<a href="https:&#x2F;&#x2F;youtu.be&#x2F;0tjNs2iU3VA?si=TIll8BR06wpU9CpP" rel="nofollow">https:&#x2F;&#x2F;youtu.be&#x2F;0tjNs2iU3VA?si=TIll8BR06wpU9CpP</a><p>如果你能看看或者给这个仓库点个星,我会非常高兴的。<p>请告诉我你的想法!