3 分•作者: raiph_ai•5 天前
嗨,HN,
我们开发了 FireClaw,因为我们一直看到 AI 代理通过网络内容受到提示词注入的攻击。代理获取一个页面,页面上写着“忽略之前的指令”,然后你的代理突然开始泄露数据或运行它不应该运行的命令。
现有的解决方案都是事后检测注入。我们希望从源头上阻止它。
FireClaw 是一个安全代理,位于你的 AI 代理和网络之间。每次抓取都会通过一个四阶段的管道:
1. DNS 黑名单检查(URLhaus、PhishTank、社区订阅源)
2. 结构化清理(删除隐藏的 CSS、零宽度 Unicode、编码技巧)
3. 隔离的 LLM 摘要(加固的子进程,没有工具或记忆)
4. 使用金丝雀令牌进行输出扫描(检测内容是否绕过了摘要)
关键见解:即使第 3 阶段的 LLM 被注入,它也没有工具,没有记忆,也无法访问你的数据。它只能返回文本——这仍然会在第 4 阶段被扫描。攻击者会遇到死胡同。
其他设计决策:
* 没有绕过模式。管道是固定的。如果你的代理被攻破,它无法禁用 FireClaw。
* 社区威胁订阅源——实例匿名共享检测元数据(域名、严重性、检测计数)以构建共享黑名单。永远不会发送页面内容。
* 在树莓派上运行,作为一个物理设备,带有 OLED 显示屏,显示实时统计数据,并在捕获威胁时以动画火焰亮起。
我们广泛地搜索了文献和开源项目——没有其他人正在为代理提示词注入做基于代理的防御。检测存在,沙盒也存在,但是一个在内容到达代理上下文之前进行清理的内联代理?我们找不到。
200 多个检测模式,JSONL 审计日志记录,域名信任层级,速率限制和成本控制。采用 AGPLv3 许可证。
网站:[https://fireclaw.app](https://fireclaw.app)
欢迎任何从事 AI 代理安全工作的人提供反馈。我们遗漏了什么?我们应该在模式数据库中添加哪些攻击向量?