Show HN:用于测试 AI 智能体的自定义数据集 1 分•作者: rishavmitra•8 天前我们在 Zalor 发布了一项新功能:用于 Agent 测试的自定义数据集。<p>现在您可以: • 上传包含真实输入和预期输出的 CSV 文件 • 针对这些数据集运行您的 Agent • 从现有测试用例中生成新的测试用例,以涵盖边缘情况<p>这使得测试您之前手动测试的场景以及在 Agent 更改时捕获回归问题变得更加容易。<p>演示如下。欢迎任何构建 Agent 的人提供反馈。
Show HN: ToolGuard – AI 智能体工具调用 Pytest 测试框架 1 分•作者: Heer_J•8 天前我厌倦了我的 AI 智能体因为 LLM 幻觉 JSON 键或传递字符串而不是整数而崩溃。所以我构建了 ToolGuard——它使用边缘情况(空值、缺失字段、类型不匹配、10MB 负载)对你的 Python 工具函数进行模糊测试,并给你一个 100 分的可靠性评分。<p>运行测试不需要 LLM。它读取你的类型提示,生成一个 Pydantic 模式,并确定性地破坏事物。<p>pip install py-toolguard<p>GitHub: <a href="https://github.com/Harshit-J004/toolguard" rel="nofollow">https://github.com/Harshit-J004/toolguard</a><p>如果你正在构建复杂的工具链,如果你查看该仓库,我将感到非常荣幸。 强烈欢迎对架构进行严厉的反馈!