返回首页

一周热榜

1作者: joegibbs大约 8 小时前
我进行的一项实验。模型可以访问 E2B 沙盒,并被指示根据规范创建广告(它们可以选择任何它们想使用的工具,例如 Pillow、Chromium),以此来评估它们使用工具、创建其他类型图像、进行复杂布局等的能力。目前 Opus 4.8 位居榜首(这并不令人意外,但它花了 66 个对话轮次才创建出图像),GLM-5.2 位列第五(这确实让我感到惊讶,因为它没有图像能力)。
1作者: theanonymousone大约 7 小时前