1作者: nicolaib7 个月前
大家好,我是 Nicolai。我和德国的一个小团队一起开发 Rhesis,这是一个用于测试对话式 LLM 应用和智能体的开源平台。今天我们发布了早期的社区预览版。 我们为什么构建它: 我们看到团队在测试方面反复遇到困难:测试用例分散,指标不明确或不一致,需要大量手动工作,但在投入生产前仍然会错过明显的故障。大多数工具都假设单个开发者单独运行评估;而实际上,测试往往涉及产品经理、领域专家、质量保证人员和工程师。我们构建 Rhesis 就是为了让这种协作变得简单。 它的功能: Rhesis 是一个可自托管的平台(带 UI),团队可以在其中创建、运行和审查对话式 AI 系统的测试。几个核心理念: * 测试生成:为单轮或完整对话创建和运行测试;该平台还可以使用您的领域上下文来协助生成单轮和多轮场景。 * 领域上下文/知识:提供背景材料以指导测试创建,这样您就不会从一个空提示开始。 * 协作工具:非技术团队成员可以编写测试用例、留下评论和审查结果;开发人员可以通过详细的跟踪和输出深入研究故障。 * 统一指标:引入来自 DeepEval、RAGAS 和类似 OSS 框架的评估指标,无需重新实现它们。 当前状态: 还处于早期阶段。我们上周发布了 v0.4.2,带有零配置的 Docker 设置。核心流程已经可用,但还有一些粗糙的地方。所有内容都已获得 MIT 许可;稍后将推出企业版,但 OSS 核心将保持免费。我们目前专注于对话式应用,因为我们看到评估和质量保证工作流程中存在最大的痛点。 链接: 应用:app.rhesis.ai GitHub:github.com/rhesis-ai/rhesis 文档:docs.rhesis.ai 很乐意听取您的想法,并回答有关平台设计、架构或我们对协作测试工作流程的思考的任何问题。
7作者: segmenta7 个月前
嗨,HN! Claude Code 很棒,但它专注于编码。缺少的部分是构建和运行非代码任务的自定义后台代理的本地方法。我们构建了 RowboatX,它是一个类似于 Claude Code 的 CLI 工具,可以让你做到这一点。它使用文件系统和 Unix 工具来创建和监控日常任务的后台代理,将它们连接到任何 MCP 服务器以获取工具,并对它们的输出进行推理。 由于 RowboatX 在本地运行并具有 shell 访问权限,代理可以安装工具、执行代码,并在你明确许可的情况下自动化你在终端中可以做的任何事情。它适用于任何兼容的 LLM,包括开源的。 我们的代码库在 <a href="https:&#x2F;&#x2F;github.com&#x2F;rowboatlabs&#x2F;rowboat" rel="nofollow">https:&#x2F;&#x2F;github.com&#x2F;rowboatlabs&#x2F;rowboat</a>,这里有一个演示视频:<a href="https:&#x2F;&#x2F;youtu.be&#x2F;cyPBinQzicY" rel="nofollow">https:&#x2F;&#x2F;youtu.be&#x2F;cyPBinQzicY</a> 例如,你可以将 RowboatX 连接到 ElevenLabs MCP 服务器,并创建一个后台工作流程,每天从 arXiv 上的最新 AI 代理论文中生成 NotebookLM 风格的播客。或者,你可以将其连接到 Google 日历和 Exa Search,以研究会议参与者并在每次活动前生成简报。 你可以使用以下命令进行尝试:`npx @rowboatlabs&#x2F;rowboatx` 我们结合了三个简单的想法: 1. 文件系统作为状态:每个代理的指令、内存、日志和数据都只是磁盘上的文件,可以被 grep、diff 和本地化。例如,你可以运行:`grep -rl '&quot;agent&quot;:&quot;&lt;agent-name&gt;&quot;' ~&#x2F;.rowboat&#x2F;runs` 来列出特定工作流程的每次运行。 2. 主管代理:一个 Claude Code 风格的代理,可以创建和运行后台代理。它主要使用 Unix 命令来监控、更新和调度代理。LLM 处理 Unix 工具比后端 API 更好 [1][2],所以我们倾向于这样做。它还可以探测任何 MCP 服务器并将工具附加到代理。 3. 人机交互:每个后台代理可以在需要时发出 `human_request` 消息(例如,起草棘手的电子邮件或安装工具),暂停执行并等待输入后继续。主管协调这一点。 我十多年前开始职业生涯,在 Twitter 上构建垃圾邮件检测模型,花了很多时间在终端中使用 Unix 命令进行数据分析 [0] 和 Vowpal Wabbit 进行建模。当 Claude Code 出现时,使用它感觉很熟悉,也很棒。但是,尝试将其用于代码之外的任务时,总觉得有点勉强。我们构建了 RowboatX,将相同的工作流程带到日常任务中。它采用 Apache-2.0 许可证,并且易于扩展。 虽然有很多代理构建器,但在用户的终端上运行可以实现独特的用例,例如云端工具无法比拟的计算机和浏览器自动化。这种能力需要仔细的安全设计。我们实现了命令级别的允许/拒绝列表,接下来将进行容器化。我们从第一天起就尝试进行安全设计,但我们很乐意听取社区的意见,了解你认为在这里应该考虑哪些额外的安全措施或方法。 我们很高兴在这里与大家分享 RowboatX。我们很乐意听取你的想法并欢迎贡献! — [0] <a href="https:&#x2F;&#x2F;web.stanford.edu&#x2F;class&#x2F;cs124&#x2F;kwc-unix-for-poets.pdf" rel="nofollow">https:&#x2F;&#x2F;web.stanford.edu&#x2F;class&#x2F;cs124&#x2F;kwc-unix-for-poets.pdf</a> [1] <a href="https:&#x2F;&#x2F;arxiv.org&#x2F;pdf&#x2F;2405.06807" rel="nofollow">https:&#x2F;&#x2F;arxiv.org&#x2F;pdf&#x2F;2405.06807</a> [2] <a href="https:&#x2F;&#x2F;arxiv.org&#x2F;pdf&#x2F;2501.10132" rel="nofollow">https:&#x2F;&#x2F;arxiv.org&#x2F;pdf&#x2F;2501.10132</a>
2作者: Handuo7 个月前
嘿,HN! 我们是一个由艺术家、开发者和咖啡爱好者组成的小团队,这些年来,我们眼睁睁地看着许多我们喜爱的网站关闭。我们一直在寻找一种方式,通过收入和曝光来支持它们。 我们看到越来越多的人通过人工智能与网络互动,而不是直接访问网站,因此基于广告的模式正在瓦解。开放的网络需要一种新的商业模式。 我们的方案是激励人们(以及未来的 AI 智能体)去发现和分享有价值的内容(链接),并奖励发现者和原创作者。 在此过程中,我们受到了以下讨论的启发: Pocket 关闭:[https://news.ycombinator.com/item?id=44063662](https://news.ycombinator.com/item?id=44063662) x402 协议:[https://news.ycombinator.com/item?id=45347335](https://news.ycombinator.com/item?id=45347335) “为了在 AI 时代生存,网络需要一种新的商业模式”:[https://news.ycombinator.com/item?id=44598248](https://news.ycombinator.com/item?id=44598248) 主要功能 社交书签 它就像一个去中心化的 Digg 或 Pinterest 版的网站。您可以通过网站或浏览器扩展程序分享(策划)任何 URI(URL)。其他人可以收集并在此基础上构建您的收藏。 付费访问 发现有价值的内容是有价值的。您可以为访问您分享的链接设置稳定币价格。支付由 x402 协议提供支持。 支持您喜爱的网站/内容 付费访问收入的一半归原创内容的作者所有,在他们选择加入 x402 或注册 Copus 帐户后即可领取。 永久存储 您的收藏(书签)会自动存储在 Arweave 区块链上。我们支付存储费用,因此您永远不会丢失它们。 我们正在考虑的其他功能 空间 类似于 Pinterest 板,用于组织您的收藏并与他人协作。 编织 如果一个链接让您想起了另一个链接,您可以在“您可能也喜欢”部分将它们“编织”在一起。这有点像一个集体 Obsidian 图,独立的网站变成了一个互联的地图,每个网站都是一个兔子洞。 AI 智能体支持 您可以训练智能体为您策划和购买。 社交功能 关注品味极佳的帐户。 我们设想的目标用户 如果您多年来一直在收藏书签,那么您已经掌握了大量互联网瑰宝!请挑选最好的与世界分享。这对读者和原创作者都很有价值。 您是 Pocket 用户吗?在这里保存您最好的书签,永远不会丢失它们。(我们计划在项目扩展后支持将整个网站的副本上链。目前,我们免费将链接、类别信息和您的推荐笔记放在链上。) 其他一些事情 Copus 是开源的,前端使用 Claude Code 构建。 我们计划推出一个治理代币,将项目的所有权交给使用它的人。 我们不会干涉权利和隐私。除了维持项目运行所需的一些基本条款外,您的权利仍然是您的。 Copus 有一个中文版 (Copus.io),目前是大约 15 万中国粉丝小说爱好者的天堂。我们可能会在英文内容达到一定规模后合并这两个网站,也可能不会。 我们计划如何赚钱 我们还在研究中。第一个想法是: 对每笔付款收取 10% 的费用。 将无人认领的创作者收入投入低风险投资(类似于稳定币赚取收益的方式)。 希望您喜欢 Copus,并感谢您提前试用!