2 分•作者: mrqjr•8 个月前
我最近构建了一个小型开源工具,用于基准测试不同的 LLM API 端点——包括 OpenAI、Claude 和自托管模型(如 llama.cpp)。
它运行可配置数量的测试请求,并报告两个关键指标:
* 首个 token 延迟(毫秒):第一个 token 出现所需的时间
* 输出速度(token/秒):整体输出流畅度
演示:[https://llmapitest.com/](https://llmapitest.com/)
代码:[https://github.com/qjr87/llm-api-test](https://github.com/qjr87/llm-api-test)
目标是提供一种简单、直观且可复现的方式,来评估不同 LLM 提供商的性能,包括越来越多的第三方“代理”或“廉价 LLM API”服务。
它支持:
* 与 OpenAI 兼容的 API(官方 + 代理)
* Claude(通过 Anthropic)
* 本地端点(自定义/自托管)
您也可以使用 docker-compose 自行托管它。
配置清晰,添加新的提供商只需一个简单的插件式添加。
欢迎提供反馈、PR,甚至您正在使用的 API 的测试报告。特别感兴趣的是一些鲜为人知的服务之间的比较。