Agent Harness安全怎么管?看OfficeClaw如何构建纵深防御体系
2026年,OpenClaw作为个人AI助手领域的现象级产品迅速走红,GitHub星标突破10万,短短数月成为开发者与极客圈的热门选择。它以本地优先、多通道集成、技能自扩展等特性,重新定义了Agent的形态。
OpenClaw爆火背后的安全隐忧
然而,爆火的背后也带来了前所未有的安全挑战。当Agent拥有文件读写、浏览器控制、命令执行、跨设备协同等强大能力时,传统的LLM安全防护已远远不够。一次成功的提示注入或工具滥用,就可能导致数据泄露、系统被控甚至供应链攻击。2026年3月23日,人民日报发布《关于OpenClaw安全应用的风险提示》,指出OpenClaw存在“提示词注入”、“重要信息误操作”等安全漏洞,甚至可能导致系统被控、隐私信息和敏感数据泄露。
2025年底,OWASP正式发布《2026版AI智能体应用十大安全风险》,系统梳理了AI Agent特有的十大核心风险,包括Agent目标劫持、工具滥用与利用、身份与特权滥用、Agent供应链漏洞、非预期代码执行、不安全的Agent间通信、级联故障、人机信任利用、失控Agent等。
这些风险标志着Agent安全已进入全新阶段,亟需一套系统性的Harness安全设计方法。

▲ 来源:《 OWASP Top 10 for Agentic Applications for 2026 》
OfficeClaw的Harness安全设计理念
随着 Agent 向长时程、强自主及多工具协同的方向演进,安全机制的重心必须从模型外层的对话过滤转向执行框架Harness的底层设计。
传统的LLM防御手段在应对Agent特有风险时表现出明显的局限性,为了系统性地应对这些安全挑战,华为云OfficeClaw团队提出Harness安全8个设计理念。
对Agent的完整行动链、决策过程、工具调用、状态变更进行全程记录与可追溯审计。

1. 纵深防御。 单一安全机制很容易被绕过,必须构建多层、相互独立的防护体系。NVIDIA openshell采用四层安全架构(网络策略、文件系统、系统调用、推理路由),即使沙箱被突破,网络层仍能阻断数据外泄;即使网络策略失效,进程能力剥离也能限制攻击者权限。这种设计让攻击者需要同时突破多层防御,大幅提升攻击成本。
2. Agent身份是第一等公民。 Agent应被视为独立的安全主体,而非简单依附于用户或服务账号。每个Agent应拥有独立的身份标识和短期凭证,并支持基于身份的细粒度访问控制。这解决了传统方案中“Agent 用谁的权限执行”的模糊地带,也让权限审计和事后追责变得清晰可行。
3. 隔离优先。 在架构设计阶段就优先实现多维度隔离,隔离应优于安全检测作为首要安全手段。我们主张敏感信息与普通代码执行隔离、凭证与沙箱隔离、规划 Agent 与执行沙箱隔离,并支持安全沙箱的分级设计。同时,执行沙箱与规划逻辑完全解耦,不同会话之间的上下文、记忆和Skill也实现完全隔离。这些措施确保即使Agent执行过程中产生恶意行为或沙箱被攻破,也无法对系统和用户造成实质性损害。
4. 解耦演进。 通过彻底解耦状态、记忆与沙箱执行,不仅能够实现安全能力独立演进,同时显著提升系统韧性。这种设计支持Agent按需创建执行环境,并让沙箱在出现问题时可随时重启、快速恢复,而无需重启整个 Agent系统,从而在保障安全的前提下保持高可用性。
5. 默认拒绝。 所有访问、命令、工具调用默认处于拒绝状态,仅通过显式白名单授权后放行。Hermes Agent默认拦截所有危险命令(如 rm -rf、curl | bash),仅允许明确列入白名单的操作执行。
6. 权限分级。 按照任务类型和风险等级对权限进行精细化分级,避免一刀切授权。不同权限等级对应不同的策略配置,例如代码审查类任务仅授予只读权限,而代码生成类任务可获得写入工作目录的权限,确保 Agent 在执行任务时始终保持最小必要权限,从而在保障功能完整性的同时有效控制安全风险。
7. 人机协同(Human-in-the-Loop)。 在高风险、不可逆操作前引入人工审批或确认,防止模型幻觉或恶意命令执行导致灾难性后果。对于删除生产数据、执行支付、发送敏感信息等关键操作,必须设置人工确认环节,使其成为安全体系中最可靠的最后一道防线。
8. 全链路审计。 完整记录Agent从规划到执行的全过程,包括工具调用、参数、返回结果、决策推理和状态变更。通过结构化日志记录完整行动链,不仅满足企业合规要求,也为安全事件的事后溯源和模型优化提供数据支撑。
我们认为,应从Agent身份管理、权限分级到全链路审计等多个维度通过相互支撑来形成完整的安全治理体系。从而确保系统在执行任务时能够维持最小权限运行,并在发生安全异常时具备有效的阻断与状态恢复能力。
七层纵深,立体防御:OfficeClaw安全架构设计
为践行安全设计理念,华为云AgentArts的OfficeClaw设计了七层纵深安全架构,通过“Agent身份+用户身份”双重认证进行会话级的上下文隔离,将Harness规划与执行沙箱解耦,提供可快速恢复的Serveless服务,将安全钩子与执行层解耦,实现安全能力的独立演进。
OfficeClaw 中执行沙箱根据运行代码所需信息进行差异化处理,确保Agent系统在复杂环境中持续保持高安全水平。
-
对于不涉及敏感信息的Dry-run代码,采用普通隔离策略运行; -
涉及用户敏感信息的代码则运行在可信执行环境中,实现敏感信息可用不可见。

▲ OfficeClaw 安全架构
-
网关控制层 完成身份认证和基础接入控制后 -
策略配置层 进行此次任务的权限分配; -
安全验证钩子层 提供独立调用的安全检测工具对整个生命周期的prompt、输出、命令等进行安全检测; -
状态隔离层 为任务分配合适的执行环境,根据权限将任务可读的持久化信息注入到沙箱中; -
沙箱执行层 负责实际代码执行; -
观测审计层 完整记录Agent所有行为; -
自演进层 则通过对历史任务的持续分析,不断优化上层策略和检测规则。
7层之间形成有机整体,确保安全能力覆盖从接入到执行到输出的全过程。
网关控制层
网关控制层是Agent的统一入口,建立所有外部请求的第一道安全防线,实现身份认证、接入控制和基础安全校验。该层通过集中的网关组件,对进入系统的所有请求进行严格的身份验证,防止未授权访问和常见网络攻击直接渗透至内部系统。

OfficeClaw使用华为云Agent Identity服务来提供整个系统的接入认证、权限分级以及安全策略的整体配置。
OfficeClaw将Agent身份视为第一等公民,每个Agent拥有独立身份,和与用户身份一起贯穿整个Agent执行过程。请求来临时,Agent身份和用户身份会一起作为可信上下文注入。通过Agent身份锁定权限,解决MCP网络代理访问时自动切到高权限身份的问题。同时,Agent Identity提供凭证管理能力对敏感凭证进行加密存储和短期动态颁发,避免长期凭证在系统中长期暴露,所有凭证均采取零信任动态获取。安全管理员可以针对Agent与用户身份统一编写安全策略。
能力说明:
-
Agent身份系统:为每个Agent分配独立身份标识并进行全生命周期管理。 -
凭证管理模块:负责凭证的加密存储、短期 Token 颁发和安全分发。 -
安全策略模块:编写安全策略,根据Agent身份和用户身份进行策略下发。 -
SSRF防护:检测并拦截通过用户输入发起的服务器端请求伪造攻击。 -
MCP接入控制模块:对多云平台和多Agent控制面的接入进行统一鉴权管理。 -
工具注册与管理模块:提供工具的统一注册入口,并进行基础合规性校验。
策略配置层
策略配置层是整个安全架构的策略供给中枢,为系统提供预先定义好的安全策略配置文件,作为策略的集中配置和管理中心,确保Agent执行不同安全级别的任务时能够加载正确的权限。
本层以权限分级为核心,通过预先编写的策略配置文件来实现差异化的安全控制。我们划分了多种权限模式(例如自动模式、默认模式、管理员模式等),每种模式分配了不同的权限(可读、可写、可执行等),并为每个权限模式预先配置对应的策略集合,包括网络访问策略、命令执行策略、工具使用策略以及高风险操作的处理规则。
不同的策略配置模块负责对应安全策略配置文件的存储、版本管理和热更新,确保策略变更能够快速生效而无需重启系统。人工参与审批模块也集成在这一层,当高风险操作被触发时,系统会根据当前Agent的权限模式和策略配置,决定是否需要人工审核,并将审批请求路由至相应审批流程。
能力说明:
-
权限分级管理:定义并管理不同权限模式及其对应的策略映射关系。 -
网络策略引擎:控制Agent的网络访问范围和协议类型。 -
命令策略配置:定义危险命令拦截规则并支持实时更新。 -
人工参与审批模块:根据策略配置,对高风险操作触发人工审核流程。
安全验证钩子层
安全验证钩子层是整个架构中贯穿 Agent 执行全生命周期的安全防护层,在Agent任务执行的不同阶段提供可插拔的安全检测工具,实现任务执行前(pre-hook)和执行后(post-hook)的安全校验与防护。通过在关键节点插入安全钩子,对Agent的行为进行实时干预和校验,确保安全策略在执行过程中得到有效落地。
OfficeClaw中目前融合了命令扫描、Prompt 注入防护、输出内容审核、工具与技能安全校验、恶意行为检测以及路径安全校验等钩子工具。
-
Prompt 注入检测在输入阶段对用户提示和工具返回内容进行语义分析和注入检测。 -
输出内容审核钩子在模型生成响应后进行敏感信息过滤和合规性检查,防止Agent输出涉政/涉黄/涉暴/敏感信息等违规内容。 -
Tools/Skill 扫描钩子在工具注册和调用阶段进行安全性评估,利用命令扫描工具分析Skill中是否存在高危命令。 -
恶意代码扫描钩子通过静态分析识别Skill/git拉取代码/生成代码中的潜在恶意行为。 -
路径校验钩子则对文件操作路径进行严格校验,防止越权访问等。
能力说明:
-
命令扫描:实时检测并拦截高风险命令执行请求。 -
Prompt 注入检测:识别并阻断针对模型的提示注入攻击。 -
输出内容审核:对模型输出进行敏感信息过滤和合规检查。 -
Tools/Skill扫描:对注册和调用的工具与技能进行安全性和合规性评估。 -
恶意代码扫描:通过静态分析识别恶意代码。 -
路径校验:对文件操作路径进行严格校验。
状态隔离层
状态隔离层提供上下文隔离、记忆隔离以及Skill隔离的会话隔离能力以及沙箱生命周期管理能力。
OfficeClaw中Agent状态与执行环境解耦,防止低权限恶意代码攻破沙箱后窃取敏感信息或篡改代码,通过会话级命名空间和严格的访问控制策略实现不同会话不同Agent之间的状态隔离。
工程中,OfficeClaw采用动态沙箱池的方式,实现了基于microVM的羽量级安全沙箱池。当请求到来需要执行命令或代码时,Agent会通过该模块主动拉起一个执行沙箱,拉起时会根据任务内容进行安全配置,并且根据任务所需将上下文注入到沙箱中。上下文隔离模块确保不同会话的对话历史和中间状态完全隔离,记忆隔离模块则对 Agent 的长期记忆进行严格的访问控制和加密存储。Skill隔离模块将不同Agent加载的技能模块进行物理和逻辑隔离,防止技能之间的相互干扰和权限越界。

能力说明:
-
沙箱生命周期管理模块:负责沙箱的拉起、监控、资源限制、恢复和销毁。 -
上下文隔离:不同会话的上下文完全隔离。 -
记忆隔离:对Agent长期记忆进行加密存储和访问控制。 -
Skill 隔离:逻辑模块,实现不同会话之间的技能隔离。
沙箱执行层
尽管我们在沙箱中已经提供了足够的安全防护手段防止沙箱被攻破,但对于银行/券商等类型的客户,其数据属于绝密资产。监管要求核心交易数据不仅普通的Agent使用者不可见,双方的运维运营人员也均不可见,但传统 Agent架构下,无论是部署在公有云还是私有云,管理员权限都是数据泄露的达摩克利斯之剑。
因此我们在OfficeClaw中采用了分级分区的沙箱执行架构,沙箱内部不仅要根据任务所需权限的不同进行安全配置,同时对于能够接触到客户敏感信息的任务,OfficeClaw会采用可信执行环境(TEE)对沙箱进行隔离,从而避免运维运营人员可以看到客户的敏感信息。
Agent在每个任务在行前会分析该任务所需的权限和上下文信息,通过分级沙箱设计,实现普通任务和高风险任务的差异化安全控制。在任务达到后普通任务运行在资源受限的容器环境中,而高风险、涉及客户敏感信息任务则被调度到TEE中运行。TEE 提供了硬件级别的内存加密和远程证明机制,确保即使宿主机被攻破,执行环境内的代码和数据仍能得到保护。

能力说明:
-
高安全沙箱池:提供资源隔离和权限受限的执行沙箱。 -
可信执行环境(TEE):通过硬件安全技术实现敏感任务的强隔离执行。
观测与审计层
观测与审计层实现对Agent行为的完整可观测和可审计能力,为安全事件调查和系统优化提供数据支撑。该层通过多维度的数据采集和分析,构建了全面的安全监控体系。
本层具备结构化日志记录能力、异常行为检测能力以及全任务轨迹追踪能力。OfficeClaw会对Agent的每一次决策、工具调用和状态变更进行结构化记录,形成从任务规划到最终执行的全链路任务轨迹,支持事后精准回溯,同时支持异常检测引擎实时识别异常行为模式。
能力说明:
-
结构化日志系统:对关键操作进行结构化记录和集中存储。 -
异常检测引擎:基于规则和机器学习实时识别安全异常。 -
任务轨迹记录模块:完整记录任务从发起到结束的全链路信息。
自演进层
自演进层使Harness系统具备持续学习和安全能力进化的能力,不断提升整体安全水平。OfficeClaw通过任务反思和自演进来实现这一能力。
-
任务反思模块通过建立深度的任务后评估机制,利用持久化的会话日志对每次任务执行的全轨迹进行安全性与有效性扫描。该模块审计代理是否试图绕过沙箱边界或发起了非预期的权限请求,还通过分析指令注入等潜在威胁来优化后续的模型行为,确保系统能够从过去的失败或异常表现中精准归类风险并实现经验复盘。 -
基于反思结果,自演进模块能够将零散的任务经验自动化地固化为结构化的能力单元,使代理在完成复杂任务后能够自主创建并持续改进其技能库。通过持续学习动态更新安全检测规则。
能力说明:
-
任务反思:对已完成任务进行安全性和效果评估。 -
自演进:通过持续学习更新安全检测规则。
结 语
Harness技术的演进让人们看到了Agent的无限可能,也让开发者深刻认识到Harness安全是Agent的基石。安全防护须作为底层工程能力,深植于Harness的架构设计、权限管控、沙箱隔离乃及整个任务链条中。只有通过系统化的Harness工程治理,才能让Agent真正成为可信、可靠且可控的智能助手。
华为云OfficeClaw在Harness安全的工程探索,本质上是在寻找一种让智能爆发与秩序理性共生的工程范式。安全不是阻碍创新的枷锁,而是让创新可持续的稳定器。未来,我们将持续在实践中优化这套架构,也欢迎更多开发者一起参与讨论与贡献。

华为云官网每天10点限量发放OfficeClaw试用邀请码,先到先得,活动时效以官网页面为准

关注AGENT魔方
获取更多资讯
- 点赞
- 收藏
- 关注作者
评论(0)