2作者: mrqjr7 个月前
我最近构建了一个小型开源工具,用于基准测试不同的 LLM API 端点——包括 OpenAI、Claude 和自托管模型(如 llama.cpp)。 它运行可配置数量的测试请求,并报告两个关键指标: * 首个 token 延迟(毫秒):第一个 token 出现所需的时间 * 输出速度(token/秒):整体输出流畅度 演示:[https://llmapitest.com/](https://llmapitest.com/) 代码:[https://github.com/qjr87/llm-api-test](https://github.com/qjr87/llm-api-test) 目标是提供一种简单、直观且可复现的方式,来评估不同 LLM 提供商的性能,包括越来越多的第三方“代理”或“廉价 LLM API”服务。 它支持: * 与 OpenAI 兼容的 API(官方 + 代理) * Claude(通过 Anthropic) * 本地端点(自定义/自托管) 您也可以使用 docker-compose 自行托管它。 配置清晰,添加新的提供商只需一个简单的插件式添加。 欢迎提供反馈、PR,甚至您正在使用的 API 的测试报告。特别感兴趣的是一些鲜为人知的服务之间的比较。
1作者: bicepjai7 个月前
我刚刚参加了一个包含 10 道题的测验,其中混合了真实视频和使用 Google Veo 创建的 AI 生成的假视频。这个测验是《纽约时报》文章“AI 视频从未如此逼真,你能分辨真假吗?”的一部分。<p>我一直对 AI 视频生成器很着迷,并试图了解像 Stable Diffusion 这样的模型是如何工作的。但说实话,这次测验让我感到不安。我只对了 60%,而且经常无法分辨真假。<p>目前有哪些工具或技术可以帮助我们可靠地区分真实视频和 AI 生成的视频?