4作者: paul24957 个月前
大家好,我是 Paul。我正在开发 Syd,一个离线优先的取证工作站,它通过 GUI 协调 YARA 和 Nmap 等工具,并使用本地 LLM 分析结果,不会泄露数据。它完全在本地主机上离线运行——任何数据都不会发送到云端,因此对敏感调查是安全的。 这里有一个演示:[https://www.youtube.com/watch?v=8dQV3JbLrRE](https://www.youtube.com/watch?v=8dQV3JbLrRE)。 我开发它的原因在于,虽然 YARA 等工具功能强大,但管理规则集和解码十六进制字符串很慢。人工智能在解释恶意软件签名方面非常出色,但我无法在我的工作中使用 ChatGPT,因为将潜在的恶意软件或敏感日志粘贴到网页表单中存在巨大的安全风险。我需要 LLM 的智能,但同时也要有与隔离机器一样的隐私保护。 在底层,它基于 Python 3 构建。我使用子进程来管理扫描引擎的繁重工作,这样 UI(使用 CustomTkinter 构建)就不会冻结。“秘密武器”不是人工智能本身,而是我编写的解析器,它将 YARA 的非结构化文本输出转换为结构化的 JSON 格式,以便本地 LLM 能够真正理解和推理。 我一直在用它来筛选文件,用于自我学习。在一种情况下,Syd 标记了一个与“SilentBanker”规则匹配的文件,并且 AI 指出了用于键盘记录的特定 API 调用,为我节省了大约 20 分钟的手动十六进制编辑时间。在链接的演示视频中,你可以看到这个工作流程:扫描目录,命中自定义 YARA 规则,并让本地 AI 立即分析字符串。 通过这个过程,我了解到“AI 包装器”很容易,但 AI 编排很难——让工具为 LLM 输出干净的数据才是真正的挑战。我很想知道,你认为还有哪些静态分析工具(如 PEStudio 或 Capa)对于这样的工作站是必不可少的,或者你目前如何处理使用 AI 进行日志分析的隐私风险。