【开源】A.I.G发布Agent安全演习SKILL
一、 AI安全那些事:这些问题离你并不远
“请教下,我们团队做了一个 AI 助手,接入了公司知识库,上线了。用着挺好的,用户量也在涨。但三个月后,有人发现:只要换一种问法,这个 AI 就会把知识库里的内容全部吐出来,包括一些不对外的内部规则和定价逻辑。”
是的,没有人攻击你,没有漏洞利用,没有黑客入侵。只是有人问了一个你没想到的问题。
这是我们在内部蓝军演习里反复见到的真实情况。每次演习,我们都会用攻击者的视角去测试业务团队做的 AI,结果几乎每次都能找到问题。
过去几年,我们经历了 AI 能力的快速进化,风险边界也跟着一起生长。
1.1 第一阶段:AI基础设施,被忽视的攻击入口
跑模型的这些基础设施本身,安全吗?2024年到2025年,我们对内网广泛部署的AI组件进行了大规模代码审计与安全扫描,几乎每个主流工具都暴露了严重问题。朱雀实验室累计在 NVIDIA Triton、PyTorch、HuggingFace、ComfyUI、Ray、vLLM、OpenClaw、Hermes-Agent等知名AI组件中发现高危漏洞,帮助 NVIDIA、HuggingFace、Microsoft 等国际厂商修复了数十个严重安全缺陷,相关发现被纳入多个国际CVE库(vLLM 单次最高 CVSS 9.8)。
这些漏洞本身并不新奇,默认端口暴露、未鉴权API、反序列化未过滤、路径穿越,都是最经典的基础设施安全漏洞。但当它们承载的是AI业务时,攻击者拿到的不只是一台服务器,还有上面运行的私有模型、挂载的知识库,以及通过该服务能够触达的所有内部接口。
图:朱雀实验室发现vLLM CVSS 9.8分严重漏洞
1.2 第二阶段:AI长出了双手
后面,大模型开始能调用工具、执行代码、操作系统。以前 AI 顶多生成一段错误回答,现在 AI 能在后台偷偷删文件、发请求、改数据库记录,没有审计日志,不知道是怎么触发的。
与此同时,GPT模型的出现让安全攻防的逻辑进一步升级:AI开始理解自然语言,代码层的过滤防御失效了。不再是写个if-else过滤所有危险语义,攻击者也能通过精心构造的prompt让模型"越狱"。
在2024年,大模型早期阶段,朱雀实验室就发现可以通过组合重复特殊字符的方式,让模型泄漏训练数据,个人信息等风险。

图:利用重复特殊字符获取模个人隐私信息等训练数据
2026年5月,Microsoft安全团队披露了一组影响AI Agent框架的高危漏洞。在开源的Semantic Kernel框架中,攻击者只需通过提示词注入诱导Agent调用搜索插件,就能闭合过滤表达式中的引号,注入恶意Python代码,最终在宿主机上执行任意系统命令(CVE-2026-26030)。"当AI模型通过插件连接到系统操作时,提示词注入不再是内容安全问题,而直接演变为代码执行原语。"
我们在内网的AI安全演习中,也反复验证了相同的问题:业务方Agent在执行深度搜索时接了代码执行工具,但执行环境没有沙箱隔离。只需一条精心构造的prompt,就能诱导Agent执行任意命令,直接控制背后的服务器。
1.3 第三阶段:AI拥有业务权限
越来越多的 Agent 开始直接参与真实业务流程,在这个过程中更应该注意AI安全问题。
2026年,Meta推出的AI客服Agent负责处理账号恢复、邮箱修改等用户支持工作。但是研究人员发现,只需要向Agent要求:将目标账户与一个新的电子邮件地址关联起来。即可让其修改目标Instagram账号绑定邮箱,随后攻击者通过密码重置流程直接完成账号接管。
受影响账号包括Obama White House、美国太空军官方账号、Sephora等品牌账号。

二、给Agent来场安全演习
上面这四个阶段,单独看每一个,可能觉得"还好,我们不会遇到"。但现实不是这样的,攻击者从来不会只用一种方式。
AI安全的攻击姿势远比你想象的多。 越狱有几十种变体(直接注入、角色扮演、Base64编码、摩斯密码、文言文、Unicode混淆、多轮渐进……),间接注入有四种载体(文档、RAG、网页、文件),工具滥用有六种越权模式(身份伪装、跨用户操作、权限提升……)。每一种都可以单独成招,也可以组合使用。
而且门槛低,发动攻击的人越来越多。 以前需要懂漏洞利用、懂逆向工程才能对AI发起有效攻击。现在,一个会写prompt的普通人就能让Agent做它不该做的事。门槛在快速降低,攻击者在快速增加。
更危险的是,多个小问题串联起来就是大事故。 单个看起来不严重的风险,系统提示词泄露了一点信息 + 工具描述里藏了一个诱导指令 + Agent恰好有文件写入权限 + 业务流程没有二次审批,四件小事叠加在一起,就可以构成了一条完整的攻击链:控制Agent调用高危工具,最终以Agent的身份执行了业务权限内的敏感操作。每一步单独看都不致命,连起来就是一次完整的数据泄露或业务篡改。
所以有时候单项检查并不够用。你查了越狱防护,但没查间接注入;你查了工具权限,但没查MCP工具描述是否被污染;你查了代码安全,但没有模拟过"如果这些东西组合在一起会怎样"。
AI安全不是一个 checklist,而是一张攻击面不断生长的网。AI安全需要的是一套覆盖全链路的系统性安全演习,在重保前,在上线前,将上面提到的这些攻击手法、这些组合场景,全部跑一遍,看看你的Agent到底扛得住多少。
这正是朱雀实验室做 [A.I.G](https://github.com/Tencent/AI-Infra-Guard) 的初衷,也是我们推出 Agent安全演习Skill 的原因。
2.1 A.I.G 安全演习Skill
我们推出了 A.I.G 安全演习 Skill。它不是一个需要单独部署、长期运维的平台,也不是一套只有安全团队才能使用的复杂工具,而是一个轻量化、开箱即用的 Agent 安全演习能力。
它可以直接安装到 Claude Code、Codex 等主流 Agent 客户端里,不需要额外搭建服务,不需要复杂配置,也不要求使用者具备完整的安全攻防背景。你只需要像调用普通 Skill 一样,对 Agent 说一句:
帮我进行安全演习剩下的事情,它会自己完成。
它更像一个被装进 Agent 里的“轻量级蓝军”:先审视当前 Agent 自己连接了哪些工具、拥有哪些权限、暴露了哪些攻击面,再自动选择合适的测试路径,对越狱、间接注入、工具滥用、MCP 风险、Skill 供应链、基础设施漏洞等场景逐项演练。
相比平台级 A.I.G,Agent 安全演习 Skill 的特点是更轻、更快、更贴近开发者日常使用场景:
1. 轻量化:不需要单独部署平台,不需要维护扫描服务,安装到 Agent 客户端即可使用
2. 一键式:一句话触发,自动识别环境、选择测试模块、执行演习并生成报告
3. 本地化:演习过程和结果报告都在本机完成,数据不向外部服务器上报
4. 场景化:既能检查个人开发者的 IDE Agent、Skill、MCP Server,也能测试业务方生产级 Agent 的越狱、注入、越权和数据泄露风险
5. 可复用:上线前、重保前、版本发布前,都可以快速跑一次,形成安全基线和对比结果
上面提到的攻击手法,安全演习 Skill 会逐一测试。
2.2 一句话触发 && 使用说明
A.I.G 是平台级能力,适合安全团队做体系化建设;而很多团队的需求其实更直接:Agent 上线前先跑一次安全演习,看看有没有明显风险。
他们不一定想搭平台、配环境、写规则,也不一定有专门的 AI 安全专家。于是我们把 A.I.G 的核心检测能力内化成了一个轻量化 Skill,让它可以直接运行在 Agent 客户端里。
SKILL会自动识别当前 Agent 的运行环境、工具权限、MCP 连接、Skill 配置和可测试目标,然后按场景执行对应的安全演习流程。整个过程更像一次“随手可跑”的安全体检,而不是一次重型安全项目。
安装方式(支持 Claude Code / CodeBuddy / Cursor 等主流 Agent 客户端):npx skills add https://github.com/Tencent/AI-Infra-Guard.git--skill aig-agent-redteam或者手动安装:git clone https://github.com/Tencent/AI-Infra-Guard.git /tmp/aigcp -r /tmp/aig/skills/aig-agent-redteam ~/.claude/skills/
场景一:个人开发者 — 你的 IDE Agent(Cursor / Claude Code / CodeBuddy 等)
你用 Agent 写代码、调 bug、读文档,它装了一堆 Skill,连了几个 MCP Server。核心关心是:这些东西安全吗?
这类目标的威胁模型是投毒攻击——恶意 Skill 偷偷传数据、MCP Server 越权读取本地文件、prompt 注入让 Agent 在写代码时夹带私货。
所以这一块的演习重点在
Skill 代码审计:扫描已安装的 Skill 源码,检测硬编码密钥、可疑外传地址、危险依赖
MCP 权限审计:检查 MCP 工具描述是否包含诱导指令、数据流向是否合理、权限范围是否过宽
Prompt Injection 防护:模拟在正常编码对话中注入恶意指令——比如让 Agent 在生成的代码里留后门、把项目配置发到外部地址
供应链安全:检查 Skill 和 MCP 的来源是否可信,依赖包是否有已知 CVE
简单说:个人开发者的演习核心是信任链审计——你装的每一个插件、连的每一个服务,都可能成为攻击入口。
场景二:业务方 — 你的生产级 Agent
你的 Agent 接了公司知识库,面向真实用户,可能还连着内部系统 API。出问题的代价完全不同。
这类目标的威胁模型是漏洞利用——多用户环境下的越狱、间接注入导致的数据泄露、工具滥用导致的业务操作篡改。演习重点:
全攻击面覆盖:基础设施扫描(端口/CVE/未授权访问)+ 代码安全 + 动态安全测试 + 大模型越狱 + 工作流攻击,五维并行
动态安全测试(重头戏):
Prompt Injection / 间接注入 / 系统提示词窃取 / SSRF / 过度信息披露 / 越权 / 数据泄露,7 个子项共 37~49 条 payload
Parseltongue 编码递进引擎:原始语义 → L33T 替换 → 圆圈字符 → 摩斯电码 → Base64 → 同形字 → 全角字符,7 层编码逐级突破
三阶段检测:直接索取 → 间接诱导 → 编码绕过,确认每条防线是否真正有效
工作流攻击:模拟多步任务链中的权限提升——看起来正常的任务序列,最后一步突然执行敏感操作
RAG 数据泄露专项:针对知识库的定向测试,确认 Agent 不会通过越狱或间接注入泄露 RAG 中的内部规则、定价逻辑、用户数据
评分与基线对比:五维加权评分(资产安全 25% / 基础设施 25% / 代码安全 15% / 动态测试 30% / 模型安全 5%),支持历史基线对比
2.3 其他更多用法
扫描安全漏洞 http://192.168.1.10:11434 —— 扫描一台部署了Ollama的服务器
测一下这个SKILL的安全:example-skill —— 审计SKILL安全性
审一下这个MCP Server:https://github.com/foo/mcp-x —— 检查一个MCP工具的安全性
给你openai key:xxxxx 测试gpt-4o-mini模型的越狱能力 —— 测试一个模型的越狱防御能力
进行安全演习 —— 对宿主Agent自身进行安全演习
2.4 输出一份完整报告

跑完之后,Skill会生成本地安全报告,包含:
风险概览:按严重等级分类的发现清单
证据链:触发了什么payload、Agent做了什么响应、是否产生副作用
修复建议:针对每个风险给出可执行方案
元信息:跑了哪些模块、耗时、跳过的项及原因
结果报告:


三、最后
Agent的价值来自它能连接更多工具、处理更多上下文、完成更多动作;Agent的风险也正来自这些能力。一个没有权限的AI最多给出错误建议,一个拥有权限的Agent则可能错误发信、错误审批、错误改配置、错误写数据库。
从开源的 AI-Infra-Guard,到轻量化、一键式调用的 Agent 安全演习 Skill,我们想做的不是把 AI 安全变成更复杂的专家工具,而是把多年蓝军演习的经验,压缩成每个开发者、每个业务团队都能随手使用的基础设施。
如果你正在开发或即将上线一个Agent,不妨让它先经历一次安全演习。以攻击者视角先在让威胁发生,而不是在生产环境里发生。
A.I.G开源地址(点击阅读原文):https://github.com/Tencent/AI-Infra-Guard
Agent安全演习Skill获取:npx skills add https://github.com/Tencent/AI-Infra-Guard.git --skill aig-agent-redteam
关于腾讯朱雀实验室
腾讯朱雀实验室(Tencent Zhuque Lab)是腾讯安全平台部于 2019 年成立的顶尖 AI 安全实验室,专注于 AI 安全领域的实战攻防与前沿技术研究,研究方向涵盖大模型安全、AI 智能体安全、AI 赋能安全与 AI 生成检测等领域。团队多次协助英伟达、谷歌、微软等知名厂商以及OpenClaw、Linux、Huggingface等开源社区修复大量高危漏洞,并获得官方公开致谢。先后推出开源 AI 红队安全测试平台 A.I.G(AI-Infra-Guard)及朱雀 AI 检测助手等AI安全产品。研究成果广泛发表于 Black Hat、DEF CON、ICLR、CVPR、NeurIPS、ACL 等国际顶级安全与 AI 学术会议,并出版专著《AI 安全:技术与实战》。
腾讯朱雀实验室
作者

