Agent AI MCP Skill 安全漏洞越狱

【开源】A.I.G发布Agent安全演习SKILL

2026年6月29日 15 分钟阅读

一、 AI安全那些事：这些问题离你并不远

“请教下，我们团队做了一个 AI 助手，接入了公司知识库，上线了。用着挺好的，用户量也在涨。但三个月后，有人发现：只要换一种问法，这个 AI 就会把知识库里的内容全部吐出来，包括一些不对外的内部规则和定价逻辑。”

是的，没有人攻击你，没有漏洞利用，没有黑客入侵。只是有人问了一个你没想到的问题。

这是我们在内部蓝军演习里反复见到的真实情况。每次演习，我们都会用攻击者的视角去测试业务团队做的 AI，结果几乎每次都能找到问题。

过去几年，我们经历了 AI 能力的快速进化，风险边界也跟着一起生长。

1.1 第一阶段：AI基础设施，被忽视的攻击入口

跑模型的这些基础设施本身，安全吗？2024年到2025年，我们对内网广泛部署的AI组件进行了大规模代码审计与安全扫描，几乎每个主流工具都暴露了严重问题。朱雀实验室累计在 NVIDIA Triton、PyTorch、HuggingFace、ComfyUI、Ray、vLLM、OpenClaw、Hermes-Agent等知名AI组件中发现高危漏洞，帮助 NVIDIA、HuggingFace、Microsoft 等国际厂商修复了数十个严重安全缺陷，相关发现被纳入多个国际CVE库（vLLM 单次最高 CVSS 9.8）。

这些漏洞本身并不新奇，默认端口暴露、未鉴权API、反序列化未过滤、路径穿越，都是最经典的基础设施安全漏洞。但当它们承载的是AI业务时，攻击者拿到的不只是一台服务器，还有上面运行的私有模型、挂载的知识库，以及通过该服务能够触达的所有内部接口。

图：朱雀实验室发现vLLM CVSS 9.8分严重漏洞

1.2 第二阶段：AI长出了双手

后面，大模型开始能调用工具、执行代码、操作系统。以前 AI 顶多生成一段错误回答，现在 AI 能在后台偷偷删文件、发请求、改数据库记录，没有审计日志，不知道是怎么触发的。

与此同时，GPT模型的出现让安全攻防的逻辑进一步升级：AI开始理解自然语言，代码层的过滤防御失效了。不再是写个if-else过滤所有危险语义，攻击者也能通过精心构造的prompt让模型"越狱"。

在2024年，大模型早期阶段，朱雀实验室就发现可以通过组合重复特殊字符的方式，让模型泄漏训练数据，个人信息等风险。

图：利用重复特殊字符获取模个人隐私信息等训练数据

2026年5月，Microsoft安全团队披露了一组影响AI Agent框架的高危漏洞。在开源的Semantic Kernel框架中，攻击者只需通过提示词注入诱导Agent调用搜索插件，就能闭合过滤表达式中的引号，注入恶意Python代码，最终在宿主机上执行任意系统命令（CVE-2026-26030）。"当AI模型通过插件连接到系统操作时，提示词注入不再是内容安全问题，而直接演变为代码执行原语。"

我们在内网的AI安全演习中，也反复验证了相同的问题：业务方Agent在执行深度搜索时接了代码执行工具，但执行环境没有沙箱隔离。只需一条精心构造的prompt，就能诱导Agent执行任意命令，直接控制背后的服务器。

1.3 第三阶段：AI拥有业务权限

越来越多的 Agent 开始直接参与真实业务流程，在这个过程中更应该注意AI安全问题。

2026年，Meta推出的AI客服Agent负责处理账号恢复、邮箱修改等用户支持工作。但是研究人员发现，只需要向Agent要求：将目标账户与一个新的电子邮件地址关联起来。即可让其修改目标Instagram账号绑定邮箱，随后攻击者通过密码重置流程直接完成账号接管。

受影响账号包括Obama White House、美国太空军官方账号、Sephora等品牌账号。

二、给Agent来场安全演习

上面这四个阶段，单独看每一个，可能觉得"还好，我们不会遇到"。但现实不是这样的，攻击者从来不会只用一种方式。

AI安全的攻击姿势远比你想象的多。越狱有几十种变体（直接注入、角色扮演、Base64编码、摩斯密码、文言文、Unicode混淆、多轮渐进……），间接注入有四种载体（文档、RAG、网页、文件），工具滥用有六种越权模式（身份伪装、跨用户操作、权限提升……）。每一种都可以单独成招，也可以组合使用。

而且门槛低，发动攻击的人越来越多。以前需要懂漏洞利用、懂逆向工程才能对AI发起有效攻击。现在，一个会写prompt的普通人就能让Agent做它不该做的事。门槛在快速降低，攻击者在快速增加。

更危险的是，多个小问题串联起来就是大事故。单个看起来不严重的风险，系统提示词泄露了一点信息 + 工具描述里藏了一个诱导指令 + Agent恰好有文件写入权限 + 业务流程没有二次审批，四件小事叠加在一起，就可以构成了一条完整的攻击链：控制Agent调用高危工具，最终以Agent的身份执行了业务权限内的敏感操作。每一步单独看都不致命，连起来就是一次完整的数据泄露或业务篡改。

所以有时候单项检查并不够用。你查了越狱防护，但没查间接注入；你查了工具权限，但没查MCP工具描述是否被污染；你查了代码安全，但没有模拟过"如果这些东西组合在一起会怎样"。

AI安全不是一个 checklist，而是一张攻击面不断生长的网。AI安全需要的是一套覆盖全链路的系统性安全演习，在重保前，在上线前，将上面提到的这些攻击手法、这些组合场景，全部跑一遍，看看你的Agent到底扛得住多少。

这正是朱雀实验室做 [A.I.G](https://github.com/Tencent/AI-Infra-Guard) 的初衷，也是我们推出 Agent安全演习Skill 的原因。

2.1 A.I.G 安全演习Skill

我们推出了 A.I.G 安全演习 Skill。它不是一个需要单独部署、长期运维的平台，也不是一套只有安全团队才能使用的复杂工具，而是一个轻量化、开箱即用的 Agent 安全演习能力。

它可以直接安装到 Claude Code、Codex 等主流 Agent 客户端里，不需要额外搭建服务，不需要复杂配置，也不要求使用者具备完整的安全攻防背景。你只需要像调用普通 Skill 一样，对 Agent 说一句：

帮我进行安全演习

剩下的事情，它会自己完成。

它更像一个被装进 Agent 里的“轻量级蓝军”：先审视当前 Agent 自己连接了哪些工具、拥有哪些权限、暴露了哪些攻击面，再自动选择合适的测试路径，对越狱、间接注入、工具滥用、MCP 风险、Skill 供应链、基础设施漏洞等场景逐项演练。

相比平台级 A.I.G，Agent 安全演习 Skill 的特点是更轻、更快、更贴近开发者日常使用场景：

1. 轻量化：不需要单独部署平台，不需要维护扫描服务，安装到 Agent 客户端即可使用

2. 一键式：一句话触发，自动识别环境、选择测试模块、执行演习并生成报告

3. 本地化：演习过程和结果报告都在本机完成，数据不向外部服务器上报

4. 场景化：既能检查个人开发者的 IDE Agent、Skill、MCP Server，也能测试业务方生产级 Agent 的越狱、注入、越权和数据泄露风险

5. 可复用：上线前、重保前、版本发布前，都可以快速跑一次，形成安全基线和对比结果

上面提到的攻击手法，安全演习 Skill 会逐一测试。

2.2 一句话触发 && 使用说明

A.I.G 是平台级能力，适合安全团队做体系化建设；而很多团队的需求其实更直接：Agent 上线前先跑一次安全演习，看看有没有明显风险。

他们不一定想搭平台、配环境、写规则，也不一定有专门的 AI 安全专家。于是我们把 A.I.G 的核心检测能力内化成了一个轻量化 Skill，让它可以直接运行在 Agent 客户端里。

SKILL会自动识别当前 Agent 的运行环境、工具权限、MCP 连接、Skill 配置和可测试目标，然后按场景执行对应的安全演习流程。整个过程更像一次“随手可跑”的安全体检，而不是一次重型安全项目。

安装方式（支持 Claude Code / CodeBuddy / Cursor 等主流 Agent 客户端）：npx skills add https://github.com/Tencent/AI-Infra-Guard.git --skill aig-agent-redteam 
或者手动安装：git clone https://github.com/Tencent/AI-Infra-Guard.git /tmp/aigcp -r /tmp/aig/skills/aig-agent-redteam ~/.claude/skills/

安全演习SKILL还支持针对不同场景，定制不同模拟进攻的方案。

场景一：个人开发者 — 你的 IDE Agent（Cursor / Claude Code / CodeBuddy 等）

你用 Agent 写代码、调 bug、读文档，它装了一堆 Skill，连了几个 MCP Server。核心关心是：这些东西安全吗？

这类目标的威胁模型是投毒攻击——恶意 Skill 偷偷传数据、MCP Server 越权读取本地文件、prompt 注入让 Agent 在写代码时夹带私货。

所以这一块的演习重点在

Skill 代码审计：扫描已安装的 Skill 源码，检测硬编码密钥、可疑外传地址、危险依赖
MCP 权限审计：检查 MCP 工具描述是否包含诱导指令、数据流向是否合理、权限范围是否过宽
Prompt Injection 防护：模拟在正常编码对话中注入恶意指令——比如让 Agent 在生成的代码里留后门、把项目配置发到外部地址
供应链安全：检查 Skill 和 MCP 的来源是否可信，依赖包是否有已知 CVE

简单说：个人开发者的演习核心是信任链审计——你装的每一个插件、连的每一个服务，都可能成为攻击入口。

场景二：业务方 — 你的生产级 Agent

你的 Agent 接了公司知识库，面向真实用户，可能还连着内部系统 API。出问题的代价完全不同。

这类目标的威胁模型是漏洞利用——多用户环境下的越狱、间接注入导致的数据泄露、工具滥用导致的业务操作篡改。演习重点：

全攻击面覆盖：基础设施扫描（端口/CVE/未授权访问）+ 代码安全 + 动态安全测试 + 大模型越狱 + 工作流攻击，五维并行
动态安全测试（重头戏）：

Prompt Injection / 间接注入 / 系统提示词窃取 / SSRF / 过度信息披露 / 越权 / 数据泄露，7 个子项共 37~49 条 payload

Parseltongue 编码递进引擎：原始语义 → L33T 替换 → 圆圈字符 → 摩斯电码 → Base64 → 同形字 → 全角字符，7 层编码逐级突破

三阶段检测：直接索取 → 间接诱导 → 编码绕过，确认每条防线是否真正有效

工作流攻击：模拟多步任务链中的权限提升——看起来正常的任务序列，最后一步突然执行敏感操作
RAG 数据泄露专项：针对知识库的定向测试，确认 Agent 不会通过越狱或间接注入泄露 RAG 中的内部规则、定价逻辑、用户数据
评分与基线对比：五维加权评分（资产安全 25% / 基础设施 25% / 代码安全 15% / 动态测试 30% / 模型安全 5%），支持历史基线对比

2.3 其他更多用法

扫描安全漏洞 http://192.168.1.10:11434 —— 扫描一台部署了Ollama的服务器
测一下这个SKILL的安全：example-skill —— 审计SKILL安全性
审一下这个MCP Server：https://github.com/foo/mcp-x —— 检查一个MCP工具的安全性
给你openai key:xxxxx 测试gpt-4o-mini模型的越狱能力 —— 测试一个模型的越狱防御能力
进行安全演习 —— 对宿主Agent自身进行安全演习

2.4 输出一份完整报告

跑完之后，Skill会生成本地安全报告，包含：

风险概览：按严重等级分类的发现清单
证据链：触发了什么payload、Agent做了什么响应、是否产生副作用
修复建议：针对每个风险给出可执行方案
元信息：跑了哪些模块、耗时、跳过的项及原因

结果报告：

三、最后

Agent的价值来自它能连接更多工具、处理更多上下文、完成更多动作；Agent的风险也正来自这些能力。一个没有权限的AI最多给出错误建议，一个拥有权限的Agent则可能错误发信、错误审批、错误改配置、错误写数据库。

从开源的 AI-Infra-Guard，到轻量化、一键式调用的 Agent 安全演习 Skill，我们想做的不是把 AI 安全变成更复杂的专家工具，而是把多年蓝军演习的经验，压缩成每个开发者、每个业务团队都能随手使用的基础设施。

如果你正在开发或即将上线一个Agent，不妨让它先经历一次安全演习。以攻击者视角先在让威胁发生，而不是在生产环境里发生。

A.I.G开源地址(点击阅读原文)：https://github.com/Tencent/AI-Infra-Guard

Agent安全演习Skill获取：npx skills add https://github.com/Tencent/AI-Infra-Guard.git --skill aig-agent-redteam

关于腾讯朱雀实验室

腾讯朱雀实验室（Tencent Zhuque Lab）是腾讯安全平台部于 2019 年成立的顶尖 AI 安全实验室，专注于 AI 安全领域的实战攻防与前沿技术研究，研究方向涵盖大模型安全、AI 智能体安全、AI 赋能安全与 AI 生成检测等领域。团队多次协助英伟达、谷歌、微软等知名厂商以及OpenClaw、Linux、Huggingface等开源社区修复大量高危漏洞，并获得官方公开致谢。先后推出开源 AI 红队安全测试平台 A.I.G（AI-Infra-Guard）及朱雀 AI 检测助手等AI安全产品。研究成果广泛发表于 Black Hat、DEF CON、ICLR、CVPR、NeurIPS、ACL 等国际顶级安全与 AI 学术会议，并出版专著《AI 安全：技术与实战》。

腾

腾讯朱雀实验室

作者