Show HN:122 种 AI/LLM 攻击向量的开源分类
1 分•作者: manuelnd•大约 18 小时前
过去一年,我一直在进行 AI 红队评估,并反复遇到同一个问题:缺乏关于 AI 系统实际被攻破方式的全面目录。
因此,我构建了一个。该目录涵盖了 11 个类别中的 122 种不同的攻击技术,并映射到 OWASP LLM Top 10 和 MITRE ATLAS。
类别:
- 提示词注入 (20 种攻击)
- 越狱 (22 种)
- 系统提示词泄露 (12 种)
- 视觉/多模态 (12 种)
- 过度自主/工具滥用 (12 种)
- 多轮对话操控 (8 种)
- 敏感信息泄露 (10 种)
- 供应链 (8 种)
- 向量/嵌入攻击 (8 种)
- 不当输出处理 (8 种)
- 无限消耗 (2 种)
内容包括:ID、名称、描述、严重程度评级、框架映射、修复建议、代码示例。
不包括:实际载荷、检测逻辑、特定模型的成功率。这是一种分类法,而不是一个漏洞利用数据库。
目标是为安全团队提供一个 AI 安全评估的检查清单和通用语言。
采用 Apache 2.0 许可。欢迎提交新的技术、框架映射(NIST、ISO 等)和修复改进的 PR。
[https://github.com/tachyonicai/tachyonic-heuristics](https://github.com/tachyonicai/tachyonic-heuristics)
查看原文
I've been doing AI red teaming for the past year and kept running into the same problem: there's no comprehensive catalog of how AI systems actually get broken.<p>So I built one. 122 distinct attack techniques across 11 categories, mapped to OWASP LLM Top 10 and MITRE ATLAS.<p>Categories:
- Prompt Injection (20 attacks)
- Jailbreaks (22)
- System Prompt Leakage (12)
- Vision/Multimodal (12)
- Excessive Agency / Tool Abuse (12)
- Multi-Turn Manipulation (8)
- Sensitive Info Disclosure (10)
- Supply Chain (8)
- Vector/Embedding Attacks (8)
- Improper Output Handling (8)
- Unbounded Consumption (2)<p>What's included: IDs, names, descriptions, severity ratings, framework mappings, remediation guidance, code examples.<p>What's NOT included: actual payloads, detection logic, model-specific success rates. This is a taxonomy, not an exploit database.<p>The goal is to give security teams a checklist and common language for AI security assessments.<p>Apache 2.0 licensed. PRs welcome for new techniques, framework mappings (NIST, ISO, etc.), and remediation improvements.<p><a href="https://github.com/tachyonicai/tachyonic-heuristics" rel="nofollow">https://github.com/tachyonicai/tachyonic-heuristics</a>