7作者: someguy10101019 天前
大家好,我们很高兴分享 Cua-Bench ( <a href="https:&#x2F;&#x2F;github.com&#x2F;trycua&#x2F;cua" rel="nofollow">https:&#x2F;&#x2F;github.com&#x2F;trycua&#x2F;cua</a> ),这是一个开源框架,用于评估和训练跨不同环境的计算机使用代理。 计算机使用代理在不同的用户界面上表现出巨大的性能差异——一个在 Windows 11 上成功率为 90% 的代理,在 Windows XP 上执行相同任务时可能降至 9%。问题在于操作系统主题、浏览器版本和现有基准测试未捕捉到的用户界面变化。 现有的基准测试(OSWorld、Windows Agent Arena、AndroidWorld)很棒,但它们各自为政——不同的框架、不同的格式,没有标准化的方法来跨平台测试同一个代理。更重要的是,它们仅用于评估。我们需要能够生成训练数据并运行强化学习循环的环境,而不仅仅是衡量性能。 Cua-Bench 采用了不同的方法:它是一个统一的框架,标准化了跨平台的环境,并支持完整的代理开发生命周期——基准测试、训练、部署。 使用 Cua-Bench,您可以: - 通过一个 CLI 评估跨多个基准测试的代理(原生任务 + OSWorld + Windows Agent Arena 适配器) - 在不同的操作系统变体上测试同一个代理(Windows 11/XP/Vista、macOS 主题、Linux、通过 QEMU 的 Android) - 从自然语言提示生成新任务 - 为强化学习训练创建模拟环境(如 Spotify、Slack 等 shell 应用程序,具有程序化奖励) - 运行 oracle 验证,在代理评估之前验证环境 - 通过跟踪和截图实时监控代理运行情况 所有这些都适用于 macOS、Linux、Windows 和 Android,并且可以自托管。 开始使用: 安装 cua-bench: % pip install cua-bench 运行基本评估: % cb run dataset datasets&#x2F;cua-bench-basic --agent demo 打开监控仪表板: % cb run watch &lt;run_id&gt; 对于跨多个工作节点的并行评估: % cb run dataset datasets&#x2F;cua-bench-basic --agent your-agent --max-parallel 8 想跨不同的操作系统变体进行测试?只需指定环境: % cb run task slack_message --agent your-agent --env windows_xp % cb run task slack_message --agent your-agent --env macos_sonoma 从提示生成新任务: % cb task generate &quot;在 kayak.com 上预订航班&quot; 使用 oracle 实现验证环境: % cb run dataset datasets&#x2F;cua-bench-basic --oracle 模拟环境对于强化学习训练特别有用——它们是 HTML/JS 应用程序,可以在 10 多个操作系统主题上呈现,并具有程序化奖励验证。无需启动实际的虚拟机进行训练循环。 我们看到团队使用 Cua-Bench 进行: - 在移动和桌面环境中训练计算机使用模型 - 生成大规模训练数据集(与实验室合作,处理跨操作系统变体的数百万张截图) - 使用 shell 应用程序模拟器进行强化学习微调 - 跨操作系统主题和浏览器版本进行系统评估 - 构建任务注册表(与 Snorkel AI 合作进行任务设计和数据整理,类似于他们的 Terminal-Bench 工作) Cua-Bench 在 MIT 许可证下 100% 开源。我们正在积极开发它,作为 Cua (<a href="https:&#x2F;&#x2F;github.com&#x2F;trycua&#x2F;cua" rel="nofollow">https:&#x2F;&#x2F;github.com&#x2F;trycua&#x2F;cua</a>)(我们的计算机使用代理 SDK)的一部分,我们非常欢迎您的反馈、错误报告或功能建议。 GitHub: <a href="https:&#x2F;&#x2F;github.com&#x2F;trycua&#x2F;cua" rel="nofollow">https:&#x2F;&#x2F;github.com&#x2F;trycua&#x2F;cua</a> 文档: <a href="https:&#x2F;&#x2F;cua.ai&#x2F;docs&#x2F;cuabench">https:&#x2F;&#x2F;cua.ai&#x2F;docs&#x2F;cuabench</a> 技术报告: <a href="https:&#x2F;&#x2F;cuabench.ai" rel="nofollow">https:&#x2F;&#x2F;cuabench.ai</a> 我们将在这里回答任何技术问题,并期待您的评论!
4作者: eastoeast19 天前
在发布了我的前几款应用后,我遇到了一个意想不到的问题:年龄较小的孩子最有可能点击我的广告,他们使用的是父母的手机/平板电脑。这绕过了年龄限制,实际上还产生了复合效应:他们年龄太小,没有自己的设备(所以他们只是安装了应用,然后就再也不用了),浪费了广告费,而且最重要的是,将目标受众群体扭曲成与他们相似的用户——因此广告投放最终会更多地针对他们,因为他们最有可能点击! 这导致我所有的广告活动立即失败,无论我怎么调整年龄限制(还是因为父母的设备)。我已经更改了设置,停止在游戏和平板电脑上展示广告,这有所帮助,但没有完全解决问题。 显然,我不可能在应用本身添加真正的年龄验证。