1 分•作者: gstovall•19 天前
返回首页
最新
1 分•作者: XzetaU8•19 天前
1 分•作者: fsflover•19 天前
2 分•作者: hmmmmmmmmmmmmmm•19 天前
1 分•作者: studiousbunt•19 天前
Hi HN,
多年来,我一直深受“分析瘫痪”的困扰。这不仅体现在重大的生活决策上,也包括一些小事:产品方向、功能优先级,甚至是微不足道的选择。
我的默认模式是:对每一个可能的结果进行建模,列举风险和边缘情况,然后……什么也不做。
最终,我意识到了一件令人不安的事情:我花在优化决策上的时间,比实际交付产品的时间还要多。
于是,我为自己构建了一个小型的 AI 辅助工具:SpinForClarity。
它的功能:
* 你用通俗易懂的英语描述一个问题
* 一个 LLM 生成候选选项
* 这些选项以决策轮盘的形式呈现
* 你转动轮盘,故意引入随机性,从而迫使你做出承诺
* 系统随后会为选定的选项生成一个简短的理由,以减少事后质疑
技术细节:
* 前端:Next.js + React + TypeScript
* 后端:Python (FastAPI)
* 身份验证 & 数据库:Supabase
* AI:OpenAI API(用于选项生成和解释)
我不认为这能取代思考或适当的分析。对我来说,它更像是一个强制函数——一种打破僵局,促进行动的方式。
我在这里分享这个工具,主要是为了学习:
* 这是否也是其他人的真实问题,还是仅仅是我个人的问题?
* 在什么情况下,你真的会使用类似这样的工具?
* 这感觉像一个有用的工具,还是一个噱头?
* 你会删除、简化或重新设计什么?
应用:[https://spinforclarity.com](https://spinforclarity.com)
感谢阅读。我非常感谢诚实的反馈——尤其是批评性的反馈。
Sagar
1 分•作者: el_duderino•19 天前
2 分•作者: virtualorca•19 天前
1 分•作者: randycupertino•19 天前
1 分•作者: speckx•19 天前
12 分•作者: todsacerdoti•19 天前
46 分•作者: jandeboevrie•19 天前
7 分•作者: someguy101010•19 天前
大家好,我们很高兴分享 Cua-Bench ( <a href="https://github.com/trycua/cua" rel="nofollow">https://github.com/trycua/cua</a> ),这是一个开源框架,用于评估和训练跨不同环境的计算机使用代理。
计算机使用代理在不同的用户界面上表现出巨大的性能差异——一个在 Windows 11 上成功率为 90% 的代理,在 Windows XP 上执行相同任务时可能降至 9%。问题在于操作系统主题、浏览器版本和现有基准测试未捕捉到的用户界面变化。
现有的基准测试(OSWorld、Windows Agent Arena、AndroidWorld)很棒,但它们各自为政——不同的框架、不同的格式,没有标准化的方法来跨平台测试同一个代理。更重要的是,它们仅用于评估。我们需要能够生成训练数据并运行强化学习循环的环境,而不仅仅是衡量性能。
Cua-Bench 采用了不同的方法:它是一个统一的框架,标准化了跨平台的环境,并支持完整的代理开发生命周期——基准测试、训练、部署。
使用 Cua-Bench,您可以:
- 通过一个 CLI 评估跨多个基准测试的代理(原生任务 + OSWorld + Windows Agent Arena 适配器)
- 在不同的操作系统变体上测试同一个代理(Windows 11/XP/Vista、macOS 主题、Linux、通过 QEMU 的 Android)
- 从自然语言提示生成新任务
- 为强化学习训练创建模拟环境(如 Spotify、Slack 等 shell 应用程序,具有程序化奖励)
- 运行 oracle 验证,在代理评估之前验证环境
- 通过跟踪和截图实时监控代理运行情况
所有这些都适用于 macOS、Linux、Windows 和 Android,并且可以自托管。
开始使用:
安装 cua-bench:
% pip install cua-bench
运行基本评估:
% cb run dataset datasets/cua-bench-basic --agent demo
打开监控仪表板:
% cb run watch <run_id>
对于跨多个工作节点的并行评估:
% cb run dataset datasets/cua-bench-basic --agent your-agent --max-parallel 8
想跨不同的操作系统变体进行测试?只需指定环境:
% cb run task slack_message --agent your-agent --env windows_xp
% cb run task slack_message --agent your-agent --env macos_sonoma
从提示生成新任务:
% cb task generate "在 kayak.com 上预订航班"
使用 oracle 实现验证环境:
% cb run dataset datasets/cua-bench-basic --oracle
模拟环境对于强化学习训练特别有用——它们是 HTML/JS 应用程序,可以在 10 多个操作系统主题上呈现,并具有程序化奖励验证。无需启动实际的虚拟机进行训练循环。
我们看到团队使用 Cua-Bench 进行:
- 在移动和桌面环境中训练计算机使用模型
- 生成大规模训练数据集(与实验室合作,处理跨操作系统变体的数百万张截图)
- 使用 shell 应用程序模拟器进行强化学习微调
- 跨操作系统主题和浏览器版本进行系统评估
- 构建任务注册表(与 Snorkel AI 合作进行任务设计和数据整理,类似于他们的 Terminal-Bench 工作)
Cua-Bench 在 MIT 许可证下 100% 开源。我们正在积极开发它,作为 Cua (<a href="https://github.com/trycua/cua" rel="nofollow">https://github.com/trycua/cua</a>)(我们的计算机使用代理 SDK)的一部分,我们非常欢迎您的反馈、错误报告或功能建议。
GitHub: <a href="https://github.com/trycua/cua" rel="nofollow">https://github.com/trycua/cua</a>
文档: <a href="https://cua.ai/docs/cuabench">https://cua.ai/docs/cuabench</a>
技术报告: <a href="https://cuabench.ai" rel="nofollow">https://cuabench.ai</a>
我们将在这里回答任何技术问题,并期待您的评论!
10 分•作者: orange_redditor•19 天前
21 分•作者: speckx•19 天前
10 分•作者: jasondavies•19 天前
1 分•作者: teleforce•19 天前
1 分•作者: janandonly•19 天前
1 分•作者: duxup•19 天前
2 分•作者: speckx•19 天前
1 分•作者: anticlickwise•19 天前