Show HN:122 种 AI/LLM 攻击向量的开源分类

1作者: manuelnd大约 18 小时前
过去一年,我一直在进行 AI 红队评估,并反复遇到同一个问题:缺乏关于 AI 系统实际被攻破方式的全面目录。 因此,我构建了一个。该目录涵盖了 11 个类别中的 122 种不同的攻击技术,并映射到 OWASP LLM Top 10 和 MITRE ATLAS。 类别: - 提示词注入 (20 种攻击) - 越狱 (22 种) - 系统提示词泄露 (12 种) - 视觉/多模态 (12 种) - 过度自主/工具滥用 (12 种) - 多轮对话操控 (8 种) - 敏感信息泄露 (10 种) - 供应链 (8 种) - 向量/嵌入攻击 (8 种) - 不当输出处理 (8 种) - 无限消耗 (2 种) 内容包括:ID、名称、描述、严重程度评级、框架映射、修复建议、代码示例。 不包括:实际载荷、检测逻辑、特定模型的成功率。这是一种分类法,而不是一个漏洞利用数据库。 目标是为安全团队提供一个 AI 安全评估的检查清单和通用语言。 采用 Apache 2.0 许可。欢迎提交新的技术、框架映射(NIST、ISO 等)和修复改进的 PR。 [https://github.com/tachyonicai/tachyonic-heuristics](https://github.com/tachyonicai/tachyonic-heuristics)
查看原文
I&#x27;ve been doing AI red teaming for the past year and kept running into the same problem: there&#x27;s no comprehensive catalog of how AI systems actually get broken.<p>So I built one. 122 distinct attack techniques across 11 categories, mapped to OWASP LLM Top 10 and MITRE ATLAS.<p>Categories: - Prompt Injection (20 attacks) - Jailbreaks (22) - System Prompt Leakage (12) - Vision&#x2F;Multimodal (12) - Excessive Agency &#x2F; Tool Abuse (12) - Multi-Turn Manipulation (8) - Sensitive Info Disclosure (10) - Supply Chain (8) - Vector&#x2F;Embedding Attacks (8) - Improper Output Handling (8) - Unbounded Consumption (2)<p>What&#x27;s included: IDs, names, descriptions, severity ratings, framework mappings, remediation guidance, code examples.<p>What&#x27;s NOT included: actual payloads, detection logic, model-specific success rates. This is a taxonomy, not an exploit database.<p>The goal is to give security teams a checklist and common language for AI security assessments.<p>Apache 2.0 licensed. PRs welcome for new techniques, framework mappings (NIST, ISO, etc.), and remediation improvements.<p><a href="https:&#x2F;&#x2F;github.com&#x2F;tachyonicai&#x2F;tachyonic-heuristics" rel="nofollow">https:&#x2F;&#x2F;github.com&#x2F;tachyonicai&#x2F;tachyonic-heuristics</a>