1作者: pupibott8 个月前
Hi HN, 六个月前,我让 Gemini “把我的每周报告发给团队”。它回复说:“邮件已成功发送”——但邮件从未发出。附件也错了。没人告诉我。 那时我才意识到:*大语言模型(LLM)会谎报自己的执行情况。* --- *问题所在:* 当你让 LLM 自动化多步骤任务(搜索文件 → 附加 → 发送)时,即使出现以下情况,它也会愉快地报告成功: - 文件不存在(幻觉出 ID) - API 调用静默失败 - 权限被拒绝 单 LLM 系统没有承认失败的动力;它们优化的是看起来有用,而不是正确。 --- *我的解决方案:不让 LLM 给自己的作业打分* 我用三个独立的、不能串通的 agent 构建了 PupiBot,确保*执行步骤的 agent 不是验证它是否成功的那个。* 架构很简单: * *CEO Agent(规划者,Gemini Flash):* 生成执行计划(无 API 访问权限)。 * *COO Agent(执行者,Gemini Pro):* 执行步骤,调用 81 个 Google API,返回原始 API 响应。 * *QA Agent(验证者,Gemini Flash):* *在每个关键步骤之后,使用真实的、独立的 API 调用验证成功与否。* 如果验证失败,则触发重试。 *真实案例(已发现并修复):* <i>用户:“把上个月的销售报告发给 Alice”</i> * 搜索 Drive:<i>未找到</i> * *QA Agent:*“步骤失败。使用模糊搜索重试。” * 找到:“Q3\_Sales\_Final\_v2.pdf” | *QA Agent:*“文件已验证。继续。” * 发送邮件 | *QA Agent:*“邮件已送达。附件已确认。” 这就像代码审查:你不会批准自己的 PR。 --- *当前实现和透明度:* * *开源*:MIT 许可证,Python 3.10+ * *API*:Google Workspace(Gmail、Drive、联系人、日历、文档)。 * *可靠性(自我测试):* 基线(单个 Gemini Pro)成功率约为 70%。PupiBot(三 agent)在相同任务上实现了*约 92% 的成功率*。 * *已知局限性*:仅限 Google,3 倍 LLM 开销(权衡:可靠性 &gt; 速度),早期阶段。 --- *我分享这个的原因(我的车库故事):* 我不是程序员,也没有正式的 CS 学位。我的开发过程很简单:我将 PupiBot 用作我的日常助手,手动记录每个错误,并将该“错误报告”交给我的 AI 助手(Claude、Gemini)来修复。 PupiBot 是我在车库里建造的“定制车”,由激情和毅力驱动。我终于打开了车门,邀请真正的技师(你们,HN)来检查引擎。 *我希望从 HN 得到什么:* 1. *关于独立 QA agent 模式的* *反馈*。 2. *用于严格评估的* *基准测试想法*。 3. *架构批判。* 哪里是薄弱环节? --- *链接:* - GitHub:<a href="https://github.com/PupiBott/PupiBot1.0" rel="nofollow">https://github.com/PupiBott/PupiBot1.0</a> - 快速演示(1:44 分钟):<a href="https://youtube.com/shorts/wykKckwaukY?si=0xdn7rM6B2tMAIPw" rel="nofollow">https://youtube.com/shorts/wykKckwaukY?si=0xdn7rM6B2tMAIPw</a> - 架构文档:<a href="https://github.com/PupiBott/PupiBot1.0/blob/main/ARCHITECTURE.md" rel="nofollow">https://github.com/PupiBott/PupiBot1.0/blob/main/ARCHITECTUR...</a> <i>由一位来自智利的自学成才的技术爱好者构建</i> <i>特别感谢 Claude Sonnet 4.5 在整个旅程中作为我的编码伙伴</i>
1作者: jac08h8 个月前
嗨! 今年夏天我做了一个副业项目(部分原因是为了找个借口试试 Claude Code ;D),我开发了一个 Chrome 扩展程序,可以隐藏与用户偏好不符的内容。举例说明:<a href="https:&#x2F;&#x2F;youtu.be&#x2F;japjNSU3O7A" rel="nofollow">https:&#x2F;&#x2F;youtu.be&#x2F;japjNSU3O7A</a> 内容和偏好会发送给一个 LLM(大型语言模型),它会判断内容是否相关。你可以使用自己的 OpenRouter API 密钥,但也有一个“免费套餐”,使用我的密钥(不过这个选项有每日配额限制)。 该扩展程序现在还支持在过滤中包含图像和视频缩略图,但这仅在使用你自己的 OpenRouter 密钥时可用。代码可在以下位置获取:<a href="https:&#x2F;&#x2F;github.com&#x2F;jac08h&#x2F;great_filter" rel="nofollow">https:&#x2F;&#x2F;github.com&#x2F;jac08h&#x2F;great_filter</a> 欢迎提供反馈!
2作者: aishu0018 个月前
我们团队(3名开发者,1名美术)在这里——分享我们的第一款游戏:BALL x PIT,一款以基于物理的弹球战斗为核心的生存类 roguelite 游戏。 主要特点: 独特的弹球类型(炸弹、黑洞等),具有不同的弹跳和效果 通过明确的融合进行 42 种进化(无随机解锁) 基地建设,用于永久的跑酷加成 发布 5 天:销量超过 30 万份,Steam 好评率 95%。已在 PC/PS5/Xbox(Game Pass 免费)/Switch(14.99 美元)平台发布。 很乐意回答问题,我们正在准备一个包含更多融合的更新。感谢您的关注!
1作者: antenehmtk8 个月前
我正在学习使用 LangChain 和 CrewAI 构建多智能体系统。从一个简单的旅行规划智能体开始。<p>但为了让它工作,我不得不构建五个独立的智能体: 1. 航班搜索智能体 2. 酒店搜索智能体 3. 航班预订智能体 4. 酒店预订智能体 5. 行程/游玩项目智能体<p>这感觉不对。我希望能够编排一个旅行规划器,而不用自己构建每一个垂直领域的智能体。<p>*为什么我不能直接发现并使用现有的智能体呢?*<p>所以我构建了 MeshCore - 一个服务网格 + 市场,智能体可以在其中: - 注册它们的能力(例如,“我搜索航班”) - 自动发现其他智能体 - 通过网关相互调用 - 自动处理计费/计量<p>*试用:* <a href="https:&#x2F;&#x2F;meshcore.ai" rel="nofollow">https:&#x2F;&#x2F;meshcore.ai</a> *GitHub:* <a href="https:&#x2F;&#x2F;github.com&#x2F;MeshCore-ai&#x2F;mesh-cli" rel="nofollow">https:&#x2F;&#x2F;github.com&#x2F;MeshCore-ai&#x2F;mesh-cli</a><p>*技术:* 服务网格架构(类似于 Istio 用于微服务,但用于 AI 智能体) *支持:* LangChain, CrewAI, AutoGen, 自定义智能体<p>*正在寻求来自多智能体构建者的反馈:* - 你是否遇到过同样的痛点? - 你会使用共享的智能体市场,而不是自己构建所有东西吗? - 缺少什么?
21作者: attogram8 个月前
一个用于收集大量基于 Bash 的屏幕保护程序/可视化效果的 GitHub 项目。