5作者: felarof9 个月前
大家好,我们是 BrowserOS.com (YC S24) 的创始人,我们正在构建一个开源的智能代理 Web 浏览器。我们基于 Chromium 开发,目标是让非开发者也能在浏览器本地创建和运行有用的智能代理。 --- 一个月前我们发布时,我们认为我们的方法是正确的:一个“一次性”代理,你给它一个高级任务,比如“从亚马逊订购牙膏”,它就会自己制定计划并执行。 但我们很快就遇到了一个问题,这个问题一直困扰着我们:用户体验完全是碰运气的。有时候它像变魔术一样好用,但有时候代理会卡住,生成错误的计划,或者偏离轨道。它不够可靠,没人敢信任它。 这迫使我们重新思考,并质疑用户体验。在过去的几周里,我们尝试了三种不同的方式,让用户可以构建智能代理: A) 拖放式工作流程:类似于 n8n 等工具。这种方法创建的代理非常可靠,但我们发现,对于新用户来说,界面感觉复杂且令人望而生畏。一位测试者(我的妻子)说:“这比我自己完成任务还要麻烦。”构建一个简单的工作流程需要 20 多分钟的配置。 B) “一次性”代理:这是我们的起点。你给代理一个高级目标,它会完成剩下的事情。当它工作时感觉很神奇,但它很脆弱,而且较小的本地模型真的很难自己制定好的计划。 C) 计划跟随代理:一种折衷方案,人类用自然语言提供一个简单的高级计划,然后 LLM 执行每个步骤。LLM 不必规划;它只需要按照指示操作,就像一个初级员工。 --- 在构建和尝试了这三种方法后,我们最终选择了 C) 作为可靠性和易用性之间的最佳平衡。这是演示 <a href="https:&#x2F;&#x2F;youtu.be&#x2F;ulTjRMCGJzQ" rel="nofollow">https:&#x2F;&#x2F;youtu.be&#x2F;ulTjRMCGJzQ</a> 例如,用户不再只是说“订购牙膏”,而是提供一个简单的计划: 1. 导航到亚马逊 2. 搜索 Sensodyne 牙膏 3. 从搜索结果中选择 1 盒 Sensodyne 牙膏 4. 将选定的牙膏添加到购物车 5. 前往结账 6. 验证购物车中只有一件商品。如果有多个商品,请提醒我 7. 最后下单 有了这个指导,即使使用本地模型,我们的成功率也从 30% 跃升至约 80%。作为交换:用户需要花 30 秒写一个计划,而不是仅仅陈述一个目标。但他们获得了可靠性。请注意,我们的代理构建器提供了一个好的初始计划,然后用户只需要编辑/自定义它即可。 --- 你可以试用我们的代理构建器,并告诉我们你的想法。我们非常支持隐私,因此我们对本地 LLM 提供一流的支持。你可以通过 Ollama 或 LMStudio 试用 GPT-OSS,它运行良好! 我今天大部分时间都会在这里,很乐意回答任何问题!