10 分•作者: sfaist•5 个月前
大家好,我是 superglue 的 Stefan。今天我想分享我们刚刚开源的一个新基准测试:Agent-API 基准测试,我们用它来测试 LLM 处理 API 的能力。<p>我们向 LLM 提供了 API 文档,并要求它们编写代码来实际调用 API。例如“创建 Stripe 客户”或“发送 Slack 消息”。我们不是在测试它们是否可以使用 SDK;我们测试的是它们是否可以编写原始 HTTP 请求(具有适当的身份验证、标头、正文格式),这些请求在针对真实的 API 端点执行时确实有效,并且可以从响应中提取相关信息。<p>总结:LLM 在编写使用 API 的代码方面很糟糕。<p>我们使用 6 种不同的 LLM 运行了 630 个集成测试,涵盖了 21 个常用 API(Stripe、Slack、GitHub 等)。以下是我们的主要发现:<p>- 最佳通用 LLM:成功率为 68%。这意味着每 3 次 API 调用中就有 1 次失败,大多数人认为这在生产环境中是不可行的<p>- 我们的集成层获得了 91% 的成功率,这表明仅仅依靠更大/更好的 LLM 无法解决这个问题。<p>- 只有 21 个 API 中的 6 个 API 始终有效,其他每个 API 都有失败的情况。<p>- Anthropic 的模型在构建 API 集成方面明显优于其他提供商。<p>以下是结果图表:<a href="https://superglue.ai/files/performance.png">https://superglue.ai/files/performance.png</a><p>导致 LLM 失败的原因:<p>- 缺乏上下文(LLM 并不擅长理解存在哪些 API 端点以及它们的作用,即使你向它们提供了文档,我们也这样做了)<p>- 多步骤工作流程(链接 API 调用)<p>- 复杂的 API 设计:像 Square、PostHog、Asana 这样的 API(强制选择项目等会使 LLM 崩溃)<p>我们已经开源了该基准测试,因此你可以测试任何 API 并查看其排名:<a href="https://github.com/superglue-ai/superglue/tree/main/packages/core/eval/api-ranking">https://github.com/superglue-ai/superglue/tree/main/packages...</a><p>查看该存储库,考虑点个星,或在 <a href="https://superglue.ai/api-ranking/">https://superglue.ai/api-ranking/</a> 处查看完整排名。<p>如果你正在构建需要可靠 API 访问的 Agent,我们很乐意听取你的方法,或者你可以在 superglue.ai 尝试我们的集成层。<p>接下来:基准测试 MCP。