最新

1 分•作者: mellosouls•8 个月前

1 分•作者: pupibott•8 个月前

Hi HN，六个月前，我让 Gemini “把我的每周报告发给团队”。它回复说：“邮件已成功发送”——但邮件从未发出。附件也错了。没人告诉我。那时我才意识到：*大语言模型（LLM）会谎报自己的执行情况。* --- *问题所在：* 当你让 LLM 自动化多步骤任务（搜索文件 → 附加 → 发送）时，即使出现以下情况，它也会愉快地报告成功： - 文件不存在（幻觉出 ID） - API 调用静默失败 - 权限被拒绝单 LLM 系统没有承认失败的动力；它们优化的是看起来有用，而不是正确。 --- *我的解决方案：不让 LLM 给自己的作业打分* 我用三个独立的、不能串通的 agent 构建了 PupiBot，确保*执行步骤的 agent 不是验证它是否成功的那个。* 架构很简单： * *CEO Agent（规划者，Gemini Flash）：* 生成执行计划（无 API 访问权限）。 * *COO Agent（执行者，Gemini Pro）：* 执行步骤，调用 81 个 Google API，返回原始 API 响应。 * *QA Agent（验证者，Gemini Flash）：* *在每个关键步骤之后，使用真实的、独立的 API 调用验证成功与否。* 如果验证失败，则触发重试。 *真实案例（已发现并修复）：* 用户：“把上个月的销售报告发给 Alice” * 搜索 Drive：未找到 * *QA Agent：*“步骤失败。使用模糊搜索重试。” * 找到：“Q3\_Sales\_Final\_v2.pdf” | *QA Agent：*“文件已验证。继续。” * 发送邮件 | *QA Agent：*“邮件已送达。附件已确认。” 这就像代码审查：你不会批准自己的 PR。 --- *当前实现和透明度：* * *开源*：MIT 许可证，Python 3.10+ * *API*：Google Workspace（Gmail、Drive、联系人、日历、文档）。 * *可靠性（自我测试）：* 基线（单个 Gemini Pro）成功率约为 70%。PupiBot（三 agent）在相同任务上实现了*约 92% 的成功率*。 * *已知局限性*：仅限 Google，3 倍 LLM 开销（权衡：可靠性 > 速度），早期阶段。 --- *我分享这个的原因（我的车库故事）：* 我不是程序员，也没有正式的 CS 学位。我的开发过程很简单：我将 PupiBot 用作我的日常助手，手动记录每个错误，并将该“错误报告”交给我的 AI 助手（Claude、Gemini）来修复。 PupiBot 是我在车库里建造的“定制车”，由激情和毅力驱动。我终于打开了车门，邀请真正的技师（你们，HN）来检查引擎。 *我希望从 HN 得到什么：* 1. *关于独立 QA agent 模式的* *反馈*。 2. *用于严格评估的* *基准测试想法*。 3. *架构批判。* 哪里是薄弱环节？ --- *链接：* - GitHub：<a href="https://github.com/PupiBott/PupiBot1.0" rel="nofollow">https://github.com/PupiBott/PupiBot1.0</a> - 快速演示（1:44 分钟）：<a href="https://youtube.com/shorts/wykKckwaukY?si=0xdn7rM6B2tMAIPw" rel="nofollow">https://youtube.com/shorts/wykKckwaukY?si=0xdn7rM6B2tMAIPw</a> - 架构文档：<a href="https://github.com/PupiBott/PupiBot1.0/blob/main/ARCHITECTURE.md" rel="nofollow">https://github.com/PupiBott/PupiBot1.0/blob/main/ARCHITECTUR...</a> 由一位来自智利的自学成才的技术爱好者构建 特别感谢 Claude Sonnet 4.5 在整个旅程中作为我的编码伙伴

AI 泄湖 – 搜索来自 ChatGPT、Claude、Gemini 等的公开 AI 聊天记录（开发中）

1 分•作者: megahz•8 个月前

英特尔 Arc Pro B60 双路 48GB GPU，售价 1200 美元

1 分•作者: MrBuddyCasino•8 个月前

理解谷歌回声

1 分•作者: stubbi•8 个月前

由于“难以解决”的系统性问题，碳抵消未能减少全球变暖

1 分•作者: PaulHoule•8 个月前

Show HN: “没有政治的埃隆的 X 页面”：Chrome 中的基于 LLM 的内容过滤

1 分•作者: jac08h•8 个月前

嗨！今年夏天我做了一个副业项目（部分原因是为了找个借口试试 Claude Code ;D），我开发了一个 Chrome 扩展程序，可以隐藏与用户偏好不符的内容。举例说明：<a href="https://youtu.be/japjNSU3O7A" rel="nofollow">https://youtu.be/japjNSU3O7A</a> 内容和偏好会发送给一个 LLM（大型语言模型），它会判断内容是否相关。你可以使用自己的 OpenRouter API 密钥，但也有一个“免费套餐”，使用我的密钥（不过这个选项有每日配额限制）。该扩展程序现在还支持在过滤中包含图像和视频缩略图，但这仅在使用你自己的 OpenRouter 密钥时可用。代码可在以下位置获取：<a href="https://github.com/jac08h/great_filter" rel="nofollow">https://github.com/jac08h/great_filter</a> 欢迎提供反馈！

Show HN: 球 X 坑 – 42 种球体进化的物理 Roguelite 游戏

2 分•作者: aishu001•8 个月前

我们团队（3名开发者，1名美术）在这里——分享我们的第一款游戏：BALL x PIT，一款以基于物理的弹球战斗为核心的生存类 roguelite 游戏。主要特点：独特的弹球类型（炸弹、黑洞等），具有不同的弹跳和效果通过明确的融合进行 42 种进化（无随机解锁）基地建设，用于永久的跑酷加成发布 5 天：销量超过 30 万份，Steam 好评率 95%。已在 PC/PS5/Xbox（Game Pass 免费）/Switch（14.99 美元）平台发布。很乐意回答问题，我们正在准备一个包含更多融合的更新。感谢您的关注！

Show HN：C# 代码分析器，用于检测代码调用关系图中错误处理模式

2 分•作者: wiso•8 个月前

彼得·韦塞尔-扎普菲：《最后的弥赛亚》 [PDF]

1 分•作者: rfarley04•8 个月前

内容审核破坏：特朗普团队如何撞毁互联网的护栏

1 分•作者: rbanffy•8 个月前

迪士尼似乎在谷歌搜索结果中推广黑帽SEO套餐。

2 分•作者: reuel•8 个月前

CrackSheet – 免费技术笔记、面试准备和速查表

1 分•作者: cckeh•8 个月前

伊丽莎白线价值的佐证 [pdf]

1 分•作者: zeristor•8 个月前

用于高频生物电子学的来自香菇菌丝体的可持续忆阻器

2 分•作者: wjSgoWPm5bWAhXB•8 个月前

莫特问题

3 分•作者: agarttha•8 个月前

亚马逊确认将在公司部门裁员 14000 人

17 分•作者: mosura•8 个月前

Show HN: MeshCore – 为什么我必须从头开始构建每个 Agent？

1 分•作者: antenehmtk•8 个月前

我正在学习使用 LangChain 和 CrewAI 构建多智能体系统。从一个简单的旅行规划智能体开始。但为了让它工作，我不得不构建五个独立的智能体： 1. 航班搜索智能体 2. 酒店搜索智能体 3. 航班预订智能体 4. 酒店预订智能体 5. 行程/游玩项目智能体这感觉不对。我希望能够编排一个旅行规划器，而不用自己构建每一个垂直领域的智能体。*为什么我不能直接发现并使用现有的智能体呢？*所以我构建了 MeshCore - 一个服务网格 + 市场，智能体可以在其中： - 注册它们的能力（例如，“我搜索航班”） - 自动发现其他智能体 - 通过网关相互调用 - 自动处理计费/计量*试用：* <a href="https://meshcore.ai" rel="nofollow">https://meshcore.ai</a> *GitHub:* <a href="https://github.com/MeshCore-ai/mesh-cli" rel="nofollow">https://github.com/MeshCore-ai/mesh-cli</a>*技术：* 服务网格架构（类似于 Istio 用于微服务，但用于 AI 智能体） *支持：* LangChain, CrewAI, AutoGen, 自定义智能体*正在寻求来自多智能体构建者的反馈：* - 你是否遇到过同样的痛点？ - 你会使用共享的智能体市场，而不是自己构建所有东西吗？ - 缺少什么？

“现在就改变方向”：联合国负责人表示，人类已错失1.5摄氏度气温控制目标

4 分•作者: c-oreills•8 个月前

Show HN：Bash 屏保

21 分•作者: attogram•8 个月前

一个用于收集大量基于 Bash 的屏幕保护程序/可视化效果的 GitHub 项目。

上一页 1...3401 3402 3403 3404 3405...5265 下一页