5 分•作者: callmeed•7 天前
返回首页
一周热榜
5 分•作者: abdelhousni•3 天前
5 分•作者: g-mork•1 天前
5 分•作者: abdelhousni•3 天前
5 分•作者: NBenkovich•1 天前
为了提高 AI 智能体的效率,我们需要构建与真实系统之间的反馈循环:部署、日志、配置、环境、仪表盘。<p>但问题就出在这里。<p>大多数现代应用程序没有细粒度的权限控制。<p>举个具体的例子:Vercel。如果我想让一个智能体读取日志或检查环境变量,我必须给它一个令牌,而这个令牌也允许它修改或删除东西。没有干净的只读或能力范围限定的访问权限。<p>这不仅仅是 Vercel 的问题。我在云仪表盘、CI/CD 系统和 SaaS API 中也看到了同样的模式,这些系统都是围绕着值得信赖的人类设计的,而不是自主智能体。<p>所以真正的问题是:<p>人们今天在生产环境中是如何限制 AI 智能体的?<p>你们是在构建强制执行策略的代理层吗?用白名单封装 API 吗?还是仅仅接受风险?<p>感觉我们正在试图将自主系统连接到从未为它们设计的基础设施上。<p>很想知道其他人是如何在实际环境中处理这个问题的,而不是停留在理论层面。
5 分•作者: smashah•3 天前
大家好,
我希望找到一种可靠的方法来跟踪我的收据,而无需将它们保存在盒子里,所以我找到了 paperless - 但现有的 paperless AI 项目并没有真正将我的收据转换为可用的数据。
所以我创建了 nutlope 的 receipthero 的一个分支(实际上它是一个完全重写的版本,唯一保留的是系统提示)。
这个项目的目标是成为一个一站式解决方案,用于自动检测已标记的文档并使用模式定义将其转换为 JSON - 这包括发票,... 我现在想不出其他的了,也许你能想到?如果你有想法,请为此创建一个 issue!
感谢您的任何反馈/问题!
(附注:我确保了它可以通过 dockge/基本的 docker-compose.yml 轻松设置)
仓库:[https://github.com/smashah/receipthero-ng](https://github.com/smashah/receipthero-ng)
教程:[https://youtu.be/LNlUDtD3og0](https://youtu.be/LNlUDtD3og0)
5 分•作者: yuppiepuppie•7 天前
我喜欢看到大家在这个网站上制作并发布的各种小游戏。<p>我不想错过任何一个,所以我为这里的游戏建立了一个目录/街机,并负责维护。<p>欢迎大家来查看,如果你的游戏没有收录,也可以添加,并告诉我你的想法。谢谢!
5 分•作者: breve•4 天前
5 分•作者: jauws•大约 17 小时前
我多年来一直是网络小说读者(在 Royal Road 上花费了太多时间),并且一直遇到同样的问题:哪些 LLM 真正创作出人们想一直阅读的小说?这就是我构建 Narrator(<https://narrator.sh/llm-leaderboard)的原因——一个 LLM 生成连载小说并根据真实读者参与度进行排名的平台。
事实证明,这个问题出乎意料地难以回答。创意写作并非单一能力,而是一个流程:头脑风暴 → 写作 → 记忆。你需要生成有趣的设定,用优美的文笔来执行它们,并在长篇叙事中保持一致性。大多数基准测试分别测试这些方面,但读者会将它们作为一个整体来体验。
目前的评估格局是分散的:
像 FictionLive 的测试这样的记忆力基准测试使用多项选择题来检查模型是否记住了长篇上下文中的情节细节。这很有用,但记忆力是写好小说的必要条件,而不是充分条件。一个模型可以轻松通过回忆测试,但仍然写出无聊的故事。
来自 Novelcrafter 等工具的作者端使用数据表明,作家更喜欢哪些模型作为副驾驶。但这衡量的是对人机协作有用的东西,而不是产生引人入胜的独立输出。作者和读者有不同的需求。
LLM 作为评判者是评估写作质量最常见的方法,但它在创意作品方面是出了名的不可靠。模型存在系统性偏差(偏爱冗长的文笔、某些结构),而“好的写作”在某种程度上是主观的,这与“正确的代码”不同。
缺少的是一个读者端的定量基准——衡量真实人类是否真的喜欢阅读这些模型产生的内容。这正是 Narrator 填补的空白:浏览量、阅读时间、评分、书签、评论、回访。可以把它想象成一个“AI 版 Wattpad”,其中模型是作者。
我 5 个月前在这里分享了一个基于 DSPy 的早期版本(<https://news.ycombinator.com/item?id=44903265)。最大的教训是:单次生成不适用于长篇小说。模型会丢失情节线索,忘记角色,并且质量会随着章节的推移而下降。
重写:从单次生成到持久的代理循环
当前版本通过一个写作工具运行每个模型,该工具在各章节中保持状态。在生成之前,代理会查看结构化的上下文:人物设定、情节大纲、未解决的线索、世界构建笔记。在生成之后,它会更新这些工件以用于下一章。本质上,每个模型都获得了一个“作家的笔记本”,该笔记本贯穿整个故事。
这带来了可衡量的差异——在单次生成版本中难以保持一致性的模型,在能够访问自己的笔记后,有了显著的改进。
细粒度过滤而不是单一分数:
我们预先按语言、类型、标签和内容分级对故事进行分类。我们没有一个“创意写作”排行榜,而是可以深入研究具体内容:哪个模型写得最好的西班牙喜剧?哪个模型最擅长处理以男性为主角的 LitRPG 故事?哪个模型在浪漫与恐怖方面表现出色?
答案并不总是你从一般基准测试中期望的那样。一些整体排名中等的模型在特定领域占据主导地位。
我引以为豪的几个功能:
故事分叉允许读者以 CYOA(选择你自己的冒险)风格分支故事——如果你不喜欢情节的发展方向,可以分叉它,看看同一个模型如何处理这种分歧。创建自然的 A/B 比较。
视觉 LitRPG 是一个我个人想解决的问题。统计数据和技能树呈现为实际的 UI 元素,而不是一堆 [STR: 15 → 16] 文本。示例:<https://narrator.sh/novel/beware-the-starter-pet/chapter/1>
我正在寻找:
更多的读者来构建参与度数据。也很好奇是否有其他人在研究长篇 LLM 生成方面的人发现了更好的模式来保持各章节之间的一致性——代理工具方法有效,但我相信会有改进。
5 分•作者: elashri•6 天前
5 分•作者: ilyaizen•2 天前
一项通过Hacker News帖子追踪开发者对 AI 辅助编程看法的调查。
5 分•作者: neuralkoi•7 天前
我最近创建了一个非营利组织,在通过 Google 非营利组织审批后,我尝试注册 Google Workspace。<p>我创建了一个帐户,但在登录时,它提示我输入电话号码以进行“额外安全验证”。输入我的手机号码后,我收到了消息:“此电话号码已被用于验证的次数过多。”<p>似乎除了获取一个新的电话号码外,没有任何其他方法可以解决这个问题。 无法联系到真人寻求支持。 从其他帐户(例如大学、工作)中删除我的手机号码似乎没有任何效果。<p>一个可怕的想法浮现在脑海:如果 Google 决定将我从他们的系统中踢出去,我就完蛋了。 我用它来做所有事情。<p>我怎样才能开始实际地“去 Google 化”自己?
5 分•作者: echelon•大约 19 小时前
我做了十多年的“光子在玻璃上”的电影制作人,一直在为自己、朋友和同事开发 ArtCraft。<p>我所有的电影学院的朋友都雄心勃勃,但制作金字塔并不能让个人才能轻易闪耀。一万名学生进入电影学院,但只有少数人能够自主地执导他们想要的项目——而且几乎从未达到能满足他们想要的创意愿景的巨额预算水平。裙带关系也很严重。<p>AI 是电影的个人电脑时代,就像 DAW(数字音频工作站)。<p>我的一位朋友用真人做了动态描绘:<p><a href="https://www.youtube.com/watch?v=Tii9uF0nAx4" rel="nofollow">https://www.youtube.com/watch?v=Tii9uF0nAx4</a><p>Corridor 工作室的人们用这项技术展示了很多创造力:<p><a href="https://www.youtube.com/watch?v=_9LX9HSQkWo" rel="nofollow">https://www.youtube.com/watch?v=_9LX9HSQkWo</a><p><a href="https://www.youtube.com/watch?v=DSRrSO7QhXY" rel="nofollow">https://www.youtube.com/watch?v=DSRrSO7QhXY</a><p><a href="https://www.youtube.com/watch?v=iq5JaG53dho" rel="nofollow">https://www.youtube.com/watch?v=iq5JaG53dho</a><p>我们自己也制作了一些愚蠢的短片:<p><a href="https://www.youtube.com/watch?v=oqoCWdOwr2U" rel="nofollow">https://www.youtube.com/watch?v=oqoCWdOwr2U</a><p><a href="https://www.youtube.com/watch?v=H4NFXGMuwpY" rel="nofollow">https://www.youtube.com/watch?v=H4NFXGMuwpY</a><p>秘密是很多工作室使用 AI 已经一年多了。你只是没有注意到,而且他们永远不会告诉你,因为有污名。这就是“糟糕的假发谬论”——你只有在它很糟糕的时候才会注意到,而且他们永远不会告诉你其他情况。<p>Comfy 很棒,但我与那些不理解节点图的人一起工作,他们要么没有具有足够 VRAM 的显卡,要么无法管理 Python 依赖项。基础模型都很有竞争力,而且它们变得越来越可控——而这才是关键——控制。所以我一直在研究 UI/UX 控制层。<p>ArtCraft 具有 2D 和 3D 控制界面,其中 3D 部分可以用作“图像到图像”(I2I)和“图像到视频”(I2V)工作流程的强大而直观的 ControlNet。它几乎就像一个所见即所得,我确信这是这项技术将为创意专业人士演进的方向,而不是以文本为中心的提示。<p>我一直对 Gimp 和 Blender 这样的工具感到沮丧。我不是 UX/UI 大师,但我不喜欢复杂的工具——尤其是复杂的开源工具。商业级工具更好。Figma 是崇高的。创意人员的 IDE 应该简单、神奇和强大。<p>ArtCraft 允许你轻松地从各种创意画布和资源抽屉中拖放。它快速而直观。在文本到图像进行快速原型设计、图像编辑、3D 生成到 3D 合成之间切换非常流畅。感觉就像“制作”,而不是提示或节点图的奇技淫巧。<p>ArtCraft 作为一个桌面应用程序,允许我们登录第三方计算提供商。我非常支持使用和集成你订阅的模型,无论你在哪里拥有它们。例如,这让我们集成了 WorldLabs 的 Marble Gaussian Splats,而且没有人这样做过。我的计划是随着时间的推移添加每个提供商,包括基于通用 API 密钥的计算提供商,如 FAL 和 Replicate。我不在乎你是否为 ArtCraft 付费——我只是希望它有用。<p>两个免责声明:<p>ArtCraft 是“公平来源”——我想走 Cockroach DB 的路线,最终获得资金,但保留该工具本身 100% 的源代码,供人们自己构建和运行。就像 Obsidian,但有源代码。如果我们做大了,我会花很多时间制作电影。<p>目前 ArtCraft 绑定到一个轻量级的云服务——我不喜欢这样。这是一个选择,这样我就可以重用一个旧项目并快速行动,但我打算让它很快完全离线工作。所有服务器代码都在 monorepo 中,因此你可以自己运行所有内容。在适当的时候,我确实设想了一个可移植的 OSS 云,供各种 AI 工具读/写,就像一个用于资产的 Github,但这目前只是一个遥远的想法。<p>我已经在 repo 中写了关于路线图的内容:我想为每个计算提供商开发集成,用 Bevy 重写前端 UI/UX 以获得完全原生的客户端,并集成本地模型。
4 分•作者: Teever•5 天前
4 分•作者: u1hcw9nx•大约 24 小时前
4 分•作者: insane_dreamer•6 天前
4 分•作者: mifydev•7 天前
我一直在尝试将类似 Claude Code/Cursor 的编码代理直接嵌入到浏览器中。<p>从宏观层面来说,该代理会生成并维护在页面加载时重新应用的 userscripts 和 CSS。该代理不是仅仅通过控制台中的 JS 编辑 DOM,而是将页面和 DOM 视为一个文件。<p>这些模型通常在具有完全访问文件系统和 bash 权限的 RL 沙盒中进行训练,因此它们非常擅长使用这些工具。为了让代理表现良好,我模拟了这个环境。<p>整个页面和脚本的状态都实现为一个虚拟文件系统,该文件系统构建在 browser.local storage 之上。URL 被映射到目录,代理从该目录开始。它具有读取/编辑文件、grep 搜索的工具,以及一个用于运行脚本和执行 JS 代码的假 bash 命令。<p>到目前为止,我只用 Opus 4.5 进行了测试,它运行得相当可靠。文件系统的状态可以同步到真实文件系统,但由于 Firefox 不支持 Filesystem API,您需要先手动导入文件系统内容。<p>这个代理对于将数据提取到 CSV 文件中非常有用,但也可以用于娱乐。<p>演示:<a href="https://x.com/ichebykin/status/2015686974439608607" rel="nofollow">https://x.com/ichebykin/status/2015686974439608607</a>
4 分•作者: gorfian_robot•5 天前
今天又看到了 ICElist 被提及,所以我想再次尝试访问它(最初因为流量过大而无法访问)。
它是一个 Mediawiki 站点(太棒了!)。但我想看看它包含哪些实际信息,以及我如何从远处做出贡献。
我从 Agent 页面开始。在我写这篇文章的时候,维基上有 1574 个 Agent,我随机选择了大约十几个点击。每一个页面都什么都没有,只有一个指向该人 LinkedIn 个人资料的链接,他们大概在那里自我介绍。好吧,但这没什么意思。许多 Agent 确实有不寻常的名字,这有助于在网上挖掘更多细节。
Incidents 页面更有趣。有 377 个 Incident,其中包含合理的细节和描述。这绝对是一件好事,因为它们很容易被遗忘/忽略。
Unidentified 页面也有些意思,因为它们包含大约 50 个身份不明 Agent 的照片,但关于 Incident 甚至位置的信息并不完整。有些甚至不清楚是 Agent,这让我完全质疑一些提交内容。
Vehicles 可能是数据最完整的页面,有 1142 辆带有车牌号的车辆。用在 Incidents 中观察到的车牌更新 ICElist 是一种低风险的方式,可以提供有价值的信息。特别是如果 ICE 正在进行非法更换车牌的行为。
Boycott 部分也很有趣,因为它包含了关于各种公司如何支持 ICE 的具体信息。虽然个人很难通过抵制产生影响,甚至很难记住所有那些混蛋公司,但在你即将签订商业协议时,检查一下是有用的。
还有其他人浏览过该网站并有一些想法吗?
4 分•作者: jimminyx•2 天前
我过去几周一直在运行 Clawdbot,确实觉得它很有用,但运行它让我非常害怕。<p>OpenClaw 有 52 多个模块,并在单个 Node 进程中运行具有近乎无限权限的代理。NanoClaw 的核心代码大约有 500 行,代理在具有文件系统隔离的实际 Apple 容器中运行。每个聊天都有自己的沙盒上下文。<p>这并不是一把瑞士军刀。它完全是为满足我的确切需求而构建的。Fork 它并将其变成你自己的。
4 分•作者: AbuAssar•6 天前