HackerNews中文版

自主智能体的构建模块

1 分•作者: gstovall•19 天前

天气类应用有时会忽略的危险冬季风暴状况

1 分•作者: XzetaU8•19 天前

苹果操作系统为协助监视而设计，天生不安全（2024）

1 分•作者: fsflover•19 天前

分析显示，超过70万毕业生失业并申领救济金

2 分•作者: hmmmmmmmmmmmmmm•19 天前

Show HN：我开发了 SpinForClarity 来摆脱决策瘫痪

1 分•作者: studiousbunt•19 天前

Hi HN，多年来，我一直深受“分析瘫痪”的困扰。这不仅体现在重大的生活决策上，也包括一些小事：产品方向、功能优先级，甚至是微不足道的选择。我的默认模式是：对每一个可能的结果进行建模，列举风险和边缘情况，然后……什么也不做。最终，我意识到了一件令人不安的事情：我花在优化决策上的时间，比实际交付产品的时间还要多。于是，我为自己构建了一个小型的 AI 辅助工具：SpinForClarity。它的功能： * 你用通俗易懂的英语描述一个问题 * 一个 LLM 生成候选选项 * 这些选项以决策轮盘的形式呈现 * 你转动轮盘，故意引入随机性，从而迫使你做出承诺 * 系统随后会为选定的选项生成一个简短的理由，以减少事后质疑技术细节： * 前端：Next.js + React + TypeScript * 后端：Python (FastAPI) * 身份验证 & 数据库：Supabase * AI：OpenAI API（用于选项生成和解释）我不认为这能取代思考或适当的分析。对我来说，它更像是一个强制函数——一种打破僵局，促进行动的方式。我在这里分享这个工具，主要是为了学习： * 这是否也是其他人的真实问题，还是仅仅是我个人的问题？ * 在什么情况下，你真的会使用类似这样的工具？ * 这感觉像一个有用的工具，还是一个噱头？ * 你会删除、简化或重新设计什么？应用：[https://spinforclarity.com](https://spinforclarity.com) 感谢阅读。我非常感谢诚实的反馈——尤其是批评性的反馈。 Sagar

绕过 Windows 管理员保护

1 分•作者: el_duderino•19 天前

一个（过度设计）的苹果 Scribble 克隆

2 分•作者: virtualorca•19 天前

女性拍摄社交媒体内容，随后遭到网络骚扰

1 分•作者: randycupertino•19 天前

我决定不再依赖 API 了

1 分•作者: speckx•19 天前

Fedora Asahi Remix 现在已支持 Apple M3 芯片

12 分•作者: todsacerdoti•19 天前

JuiceSSH – 还我专业版功能！

46 分•作者: jandeboevrie•19 天前

Show HN: Cua-Bench – GUI 环境中 AI 智能体的基准测试

7 分•作者: someguy101010•19 天前

大家好，我们很高兴分享 Cua-Bench ( <a href="https://github.com/trycua/cua" rel="nofollow">https://github.com/trycua/cua</a> )，这是一个开源框架，用于评估和训练跨不同环境的计算机使用代理。计算机使用代理在不同的用户界面上表现出巨大的性能差异——一个在 Windows 11 上成功率为 90% 的代理，在 Windows XP 上执行相同任务时可能降至 9%。问题在于操作系统主题、浏览器版本和现有基准测试未捕捉到的用户界面变化。现有的基准测试（OSWorld、Windows Agent Arena、AndroidWorld）很棒，但它们各自为政——不同的框架、不同的格式，没有标准化的方法来跨平台测试同一个代理。更重要的是，它们仅用于评估。我们需要能够生成训练数据并运行强化学习循环的环境，而不仅仅是衡量性能。 Cua-Bench 采用了不同的方法：它是一个统一的框架，标准化了跨平台的环境，并支持完整的代理开发生命周期——基准测试、训练、部署。使用 Cua-Bench，您可以： - 通过一个 CLI 评估跨多个基准测试的代理（原生任务 + OSWorld + Windows Agent Arena 适配器） - 在不同的操作系统变体上测试同一个代理（Windows 11/XP/Vista、macOS 主题、Linux、通过 QEMU 的 Android） - 从自然语言提示生成新任务 - 为强化学习训练创建模拟环境（如 Spotify、Slack 等 shell 应用程序，具有程序化奖励） - 运行 oracle 验证，在代理评估之前验证环境 - 通过跟踪和截图实时监控代理运行情况所有这些都适用于 macOS、Linux、Windows 和 Android，并且可以自托管。开始使用：安装 cua-bench： % pip install cua-bench 运行基本评估： % cb run dataset datasets/cua-bench-basic --agent demo 打开监控仪表板： % cb run watch <run_id> 对于跨多个工作节点的并行评估： % cb run dataset datasets/cua-bench-basic --agent your-agent --max-parallel 8 想跨不同的操作系统变体进行测试？只需指定环境： % cb run task slack_message --agent your-agent --env windows_xp % cb run task slack_message --agent your-agent --env macos_sonoma 从提示生成新任务： % cb task generate "在 kayak.com 上预订航班" 使用 oracle 实现验证环境： % cb run dataset datasets/cua-bench-basic --oracle 模拟环境对于强化学习训练特别有用——它们是 HTML/JS 应用程序，可以在 10 多个操作系统主题上呈现，并具有程序化奖励验证。无需启动实际的虚拟机进行训练循环。我们看到团队使用 Cua-Bench 进行： - 在移动和桌面环境中训练计算机使用模型 - 生成大规模训练数据集（与实验室合作，处理跨操作系统变体的数百万张截图） - 使用 shell 应用程序模拟器进行强化学习微调 - 跨操作系统主题和浏览器版本进行系统评估 - 构建任务注册表（与 Snorkel AI 合作进行任务设计和数据整理，类似于他们的 Terminal-Bench 工作） Cua-Bench 在 MIT 许可证下 100% 开源。我们正在积极开发它，作为 Cua (<a href="https://github.com/trycua/cua" rel="nofollow">https://github.com/trycua/cua</a>)（我们的计算机使用代理 SDK）的一部分，我们非常欢迎您的反馈、错误报告或功能建议。 GitHub: <a href="https://github.com/trycua/cua" rel="nofollow">https://github.com/trycua/cua</a> 文档: <a href="https://cua.ai/docs/cuabench">https://cua.ai/docs/cuabench</a> 技术报告: <a href="https://cuabench.ai" rel="nofollow">https://cuabench.ai</a> 我们将在这里回答任何技术问题，并期待您的评论！

使用 PDB 调试信息反编译 Xbox 游戏

10 分•作者: orange_redditor•19 天前

关于向后兼容性的趣闻

21 分•作者: speckx•19 天前

技术的青春期

10 分•作者: jasondavies•19 天前

来自真实 5G 云核心网安全评估的零信任经验

1 分•作者: teleforce•19 天前

AI 编程初创公司 Replit 接近完成融资，估值达 90 亿美元

1 分•作者: janandonly•19 天前

国土安全部屡次尝试，却未能揭露匿名在线批评 ICE 的人士的身份

1 分•作者: duxup•19 天前

为什么过度授权的AI代理会成为企业下一个盲点

2 分•作者: speckx•19 天前

同频：会后 60 秒对齐，查漏补缺

1 分•作者: anticlickwise•19 天前

最新