AI Agent 安全系列(一):AI Agent 基础和威胁建模理论

多客科技 · 发表于 2025-9-4 23:04

马上注册，结交更多好友，享用更多功能，让你轻松玩转社区。

您需要登录才可以下载或查看，没有账号？注册

×

作者：微信文章

AI Agents基础

这部分内容主要来自HF AI Agents Course 的整理。
什么是AI Agents

AI 智能体是一个利用 AI 模型与环境交互（interacting）以实现用户定义目标的系统。它结合推理（reasoning）、规划（planning）和执行动作（通常通过外部工具）来完成任务。

AI 智能体由两个主要部分组成：

AI 智能体的组成

Agent 的分级定义，来源于smolagents[https://huggingface.co/docs/smolagents/conceptual_guides/intro_agents]

AI Agents 中的模型

AI Agents 中的模型决定了其以下几个要素：

工具

AI Agents 中的 Tools 调用：

AI Agents 的架构分类

单一代理框架

Google 的安全智能体威胁建模也是基于单一代理框架来设计的。

多代理框架

多代理框架下，每个代理和单一代理框架的架构类似，但增加了代理间的通信和用于代理协调监督的应用。

感觉 Claude code 的 sub-agent 模式就是一种多代理架构的实现。

OWASP还总结了AI 智能体的设计模式分类：

AI Agents workflow

AI Agents 的工作流可以抽象为一个Thought-Action-Observation循环。Thought是 LLM 用于决定下一步计划，Action 是Agents调用工具，Observation是模型反思工具的响应结果。以迭代优化最终达到用户的目标。
Thought

Thought 类型的分类：

Thought 当前应该可以使用如下的方式：

Action

Action 的类型主要包括：

Observation

Observation阶段，Agent 会：

Observation 的类型示例：

AI Agents库

常用的 AI Agents 库包括：

AI Agents 威胁建模

AI Agents攻击知识库

这是由Zenity开源的一个知识库项目，以 ATT&CK 的形式构建的 AI Agents 攻击知识库。这里会列举其中和 AI Agents 特有的一些攻击技术。

RAG（检索增强生成）相关的攻击技术

提示词相关的攻击技术

AI Agents 系统的信息收集相关

防御机制绕过相关

数据窃取和命令控制相关

其他

AI 代理三重威胁

这是来自研究人员Simon Willison的博客，其指出 AI 代理的三个致命的能力组合：

满足上述三种能力的 AI 代理，很容易被攻击者欺骗，并将用户隐私数据发送给攻击者。
Google安全 AI Agents

Google 认为 AI Agents的主要风险为恶意行为（非预期、有害或违反政策）和敏感数据泄露，并且当代理的自主性和权限增加以提高效用时，直接会导致风险也增加。
AI Agents 的原理框架

AI Agents 的输入不仅来自用户指令（命名文字、语音等），还有环境数据（文档、环境变量等，以claude-cli为例），以及多模态的输入。

系统指令整合了预定义的系统指令（定义代理的目的、能力和边界）、工具定义以及特定的用户查询和各种数据源，如代理内存或外部检索信息。

推理和计划是将处理后的输入结合系统指令输入到AI 模型中，由模型对用户的目标进行推理并制定一个计划，通常是信息检索和工具使用的STEP序列，并且根据新的信息或工具反馈来迭代。

这个部分主要为 Action 和 Tool，AI Agents 会根据计划选择合适的工具并提供必要的参数。

Agent Memory 就是 Agent 的上下文，其存储用户偏好，或者记忆前序任务的结果。

将最终生成格式化输出。

Agent安全的核心原则

原则 1：代理必须具有明确定义的人类控制器

代理本质上是继承了用户的指令与其他的输入，并继承了用户访问资源和执行操作的权限，所以代理的行为需要是用户可监督的，即授权和控制。

涉及的威胁攻击面包括：

原则 2：代理的权限必须有限制

代理的权限不仅仅是静态的最小化原则，而是根据其目的和用户意图进行动态对齐的。其实现包括基本的Authentication, Authorization, and Auditing (AAA)基础设施，可验证代理身份，细粒度的权限系统，类似 OAuth token的安全管理机制。

涉及的威胁攻击面包括：

原则 3：代理的操作（Actions）和规划（planning）必须是可观察的（observable）

代理行为的透明性设计，通过日志记录实现对接受的输入、调用的工具、传递的参数、生成的输出、推理步骤、操作的属性、敏感数据的处理、参考的数据来源等。

涉及的威胁攻击面包括：

Google的混合防御策略

混合防御架构：

Layer 1：运行时策略执行

采用可靠、确定性的安全机制（即策略引擎），在代理执行操作前进行监控和控制。

Layer2：基于推理的防御策略

使用 AI 模型本身来评估输入、输出或代理的内部推理，以识别潜在风险，以解决 Layer 1策略引擎在处理上下文和新威胁方面的局限性。其实现包括对抗训练，护栏模型（通常为小的分类器模型），实现对代理提出的行动计划的分析和预测该计划导致不良结果的概率，以将可能的高风险计划标记供审查或触发更严格的策略执行。

代理安全的验证

回归测试，变体分析，红队模拟。
OWASP AI Agent威胁建模

OWASP关于 AI 代理安全分为了四个关键性文档：

AI Agent威胁建模

基于单一代理框架的威胁建模：

T1：内存中毒（Memory Poisoning ）

引入恶意或虚假数据并利用代理上下文，可能导致决策改变或者未授权操作。内存中毒也是持久化的一种攻击向量。

T2：工具误用（Tool Misuse）

通过欺骗性提示词或者命令，在已授权的权限范围内操纵工具。

T3：权限入侵（Privilege Compromise）

权限管理中存在弱点导致执行未授权操作，涉及动态角色继承或配置错误。

T4：资源过载（Resource Overload）

针对 AI 系统的算力、内存和服务，使其性能下降或者故障。

T5：级联幻觉攻击（Cascading Hallucination Attacks）

利用幻觉在系统内传播导致破坏决策，其也导致影响推理和工具调用。

T6：意图破坏与目标操纵（Intent Breaking & Goal Manipulation）

针对代理的规划和目标设定能力，并操纵或重定向目标和推理，例如：代理劫持攻击。

T7：未对齐和欺骗性行为（Misaligned & Deceptive Behaviors）

利用推理和欺骗性响应来执行有害或被禁止的行为。

T8：抵赖和无法跟踪（Repudiation & Untraceability）

代理行为存在无法追溯或解释，通常由于记录不足或者透明度不够。

T9：身份欺骗和伪装（Identity Spoofing & Impersonation）

对认证机制的攻击，通过冒充AI 代理或人类用户。

T10：人类参与过载（Overwhelming Human in the Loop）

针对有人参与监督和决策的系统，旨在利用人类的认知局限性或破坏交互框架。

T11：非预期的代码执行（Unexpected RCE and Code Attacks）

执行环境注入恶意代码。

T12：代理通信中毒（Agent Communication Poisoning）

操纵代理间的通信渠道，包括传播虚假信息，中断工作流，影响决策。

T13：多代理系统中的恶意代理（Rogue Agents in Multi-Agent Systems）

利用恶意的代理或者失陷的代理。

T14：多代理系统中的人类攻击（Human Attacks on Multi-Agent Systems）

利用智能体间代理（delegation）、信任关系和工作流依赖来提升权限或操纵 AI 驱动的操作。

T15：人类操纵（Human Manipulation）

在人工智能代理与人类用户直接交互的场景中，信任关系会降低用户的怀疑，增加对代理回应和自主性的依赖。这种隐性的信任和直接的人机交互会带来风险，攻击者可以胁迫代理操控用户、传播虚假信息，并采取隐蔽行动。

人类操纵本质是利用代理的输出来操作用户行为。

OWASP 提出了一种代理威胁类型的决策路径：

STEP 1：代理是如何实现其目标及所需步骤的，具备什么程度的自主性。造成代理和推理（Agency & Reasoning）层面的威胁

识别是否能够操作代理的推理和规划能力，使用提示注入、污染代理依赖的数据源、植入恶意工具的技术。（T6、T7）

是否存在行为的审计日志，以及审计是否全面和透明。（T8）

STEP 2：代理对存储记忆的依赖程度。记忆与上下文（Memory & Context）威胁

包括T1、T5

STEP 3：代理集成的内部工具、系统命令、插件和外部工具，其可能导致工具和执行（Tools and Execution）类威胁

针对工具参数的污染和脆弱性利用，利用工具实现组合攻击效果。（T2、T4、T11）

针对权限管理的脆弱性利用，包括动态的权限提升，跨系统跨代理的授权，影子代理部署。（T3）

STEP 4：针对用户、工具和服务的身份验证实现。身份和认证（Identity and Authentication）类威胁

包括T9

STEP 5：人类参与（Human Engagement）程度

包括T10、T15

STEP 6：多代理（Multi-Agency）系统

包括T12、T13、T14

参考链接

HF AI Agents 课程[https://huggingface.co/learn/agents-course/]
smolagents安全代码执行[https://huggingface.co/docs/smolagents/tutorials/secure_code_execution]
AI Agents Attack Matrix[https://ttps.ai/]
AI Agents三重威胁[https://simonwillison.net/2025/Jun/16/the-lethal-trifecta/]
Google's Approach for Secure AI Agents[https://research.google/pubs/an-introduction-to-googles-approach-for-secure-ai-agents/]
OWASP Agents框架不安全示例[https://github.com/OWASP/www-project-top-10-for-large-language-model-applications/tree/main/initiatives/agent_security_initiative/samples]
OWASP agenticinitiative[https://genai.owasp.org/initiatives/#agenticinitiative]

账号		自动登录	找回密码
密码			注册

萍聚头条

AI Agent 安全系列(一):AI Agent 基础和威胁建模理论

马上注册，结交更多好友，享用更多功能，让你轻松玩转社区。

浏览过的版块