- 微信
- 微博
  
  分享文章到微博
- 复制链接
  
  复制链接到剪贴板

业界首个"Auto Harness"工程化落地：JiuwenSwarm 给 Harness 装上「后训练」，人人都能 DIY

AGENT魔方发表于 2026/05/27 10:14:16 2026/05/27

【摘要】 Harness 是将 LLM 转化为自主 Agent 的编排基础设施——system prompt、工具定义与实现、rail（全生命周期功能钩子）、skill 文档、sub-agent 编排、长期记忆、观测。没有 Harness，LLM 只是一个能说话的概率模型；套上 Harness，它才成为能行动的自主 Agent。

Agent = Model + Harness。Harness 是将 LLM 转化为自主 Agent 的编排基础设施——system prompt、工具定义与实现、rail（全生命周期功能钩子）、skill 文档、sub-agent 编排、长期记忆、观测。没有 Harness，LLM 只是一个能说话的概率模型；套上 Harness，它才成为能行动的自主 Agent。

但这里有一个尚未被系统回答的矛盾：Model 已经有了 Post-training——从 RLHF 到 DPO 到 GRPO，后训练让 LLM 从"会说话"变成"好用"。而 Agent 的另一半——Harness——的后训练，至今几乎完全依赖人工。调 prompt、改 tool desc、写 skill 文档、配 rail 钩子……每一次优化都是人在试、在猜、在调。模型以月为单位迭代，场景往长尾分布发展，Harness 的进化却高度依赖人工经验。

Auto Harness 是 openJiuwen 的工程化回答——不是训练模型权重，而是让 Harness 在实战中自动学习、自动优化。评测驱动的、覆盖 Harness 全栈组件的端到端自动优化框架。

1. 为什么需要 Auto Harness

Anthropic 和 OpenAI 的对照实验已经实锤：Agent 失败的原因不在模型，在 Harness。模型能力决定上限，Harness 决定用到上限的几成。同一个模型换一个场景，成功率可能从 90% 骤降到 30%，而手工定制 Harness 成本极高、不可规模化。

Model Post-training 已有成熟的方法、评测基准和自动化流程。但 Harness 的自动优化几乎为零——模型后训练之后，如何让 Agent 在垂域场景（编程、设计、营销、法律审查、医疗诊断）下表现好？至今只能靠人工调 Harness。

学界已有探索验证了"评测驱动+组件解耦"、"用 Agent 优化 Agent"等方向的可行性，但多为学术验证，尚未形成工程化落地。JiuwenSwarm 的 Auto Harness 是对这一方向的首次工程化落地尝试。

Auto Harness 的差异化在于：基于 Meta Harness（基座）+ Expert Harness（扩展） 的双层架构天然解耦设计，两层优化覆盖Harness基座到扩展的完整空间——基座优化提升所有场景共享的底层能力上限，扩展优化让 Agent 在不同角色、垂域场景、个人诉求下精准适配。

2. Auto Harness 架构与方法

▍openJiuwen Harness 框架——Auto Harness 的优化对象

Auto Harness 要优化的对象是 Harness，而 Harness 的结构决定了优化的范围和层级。openJiuwen（JiuwenSwarm）在工程实践中将 Harness 定义为两层：Meta Harness（基座） 和 Expert Harness（扩展）——这一划分是 Auto Harness 双层优化架构的设计基础。

图1 openJiuwen Harness 架构总览

Meta Harness——基座（通用编排引擎）：定义 Agent 运行的基础流程与接口——控制流、路由、权限、上下文管理、生命周期、错误恢复。核心组件包括 Agent 创建工厂、双层任务循环（外层 Task Loop 负责任务调度，内层 ReAct Loop 负责推理-行动循环）、预置工具集、预置 Rails（全生命周期功能钩子）、基础设施组件。关键特征：无状态编排器，不包含任何领域特化内容，所有场景化能力都通过 Expert Harness 扩展注入。

Expert Harness 扩展——扩展（领域特化配置包）：在 Meta Harness 基座上叠加的领域特化配置，关键特征：配置与实现分离，声明"有什么"与定义"怎么做"解耦。包含以下内容：

• 领域提示词：补充指导内容、改进提示效果，为 Agent 提供场景特定的行为指引

• 技能定义：扩展能力范围、优化技能效果，让 Agent 具备特定领域的操作能力

• 工具配置：增强工具能力、调整工具参数，让 Agent 的工具调用适配领域需求

• MCP 插件：接入外部服务、调整服务参数，让 Agent 连通领域相关的数据源和 API

• Rail 扩展：注入场景特定的全生命周期功能钩子，让 Agent 在领域约束下运行

• 上下文资产：渐进式披露的领域知识，让 Agent 按任务阶段逐步获取必要信息

• 任务完成验证条件：定义任务何时算完成，确保 Agent 的输出符合领域质量标准

• 角色画像：定义 Agent 的身份与人格，让 Agent 以领域专家的姿态与用户交互

以一个编程场景的 Expert Harness 扩展为例，其目录结构如下：

coding_expert/
  harness_config.yaml       # 基础信息（名称、描述、优先级）
  config.json               # 配置（工具选择、MCP 接入等）
  prompt_sections/          # 提示词段落
  tools/                    # 工具配置
  skills/                   # 技能定义
  mcps/                     # MCP 服务配置
  rails/                    # Rail 扩展
  context/                  # 上下文资产
  soul.md                   # Agent 人格
  identity.md               # Agent 身份
  stop_eval_conditions/     # 任务完成验证条件

一个 Agent 实例由 Meta Harness + 0 或多个 Expert Harness 扩展组合构成。接口协议支持热加载：即时加载 Expert Harness 扩展到当前 Agent、延迟加载（下次对话时自动激活），多个 Expert Harness 扩展可叠加挂载到同一 Agent（Rails 按序追加、Tools 去重、Skills 合并、提示词按优先级排序拼接）。

Auto Harness 的两个优化层级，正是对应 openJiuwen Harness 框架的基座-扩展两层：

• 基座优化（Meta Harness）——提升所有 Expert Harness 扩展共享的底层能力上限

• 扩展优化（Expert Harness）——让 Agent 在不同角色、垂域场景、个人诉求下精准适配

▍Auto Harness 两层优化架构

Auto Harness 的核心是一个评测驱动的闭环优化流程：评测 → 规划 → 实施 → 再评测，循环迭代直到达到预期或超出最大次数。Expert Harness 优化基本遵循此核心流程；Meta Harness 优化在此基础上增加了定时任务（流程前）、业界调研（流程前）、提交 PR（流程后）。

图2 Auto Harness 两层优化架构

每个环节的关键机制：

• 评测集生成：接收用户的自然语言优化目标，LLM 分析任务维度并生成覆盖不同场景的评测数据集；用户已提供评测集时直接加载

• 评测&结果评估：用当前 Harness 配置创建 Agent 并在评测集上运行，收集成功率、耗时、质量评分等指标，判断是否达到预期

• 设计优化计划：从评测结果中识别问题根因，检索经验库中的历史优化经验，约束本轮可修改范围，输出结构化优化动作清单（含依赖关系）

• 实施优化动作：每个动作在独立 git worktree 中隔离执行，依赖关系按拓扑排序分波并行；所有动作完成后 fix loop 两阶段修复（CI 直接修复 + 评审质量修复）

• 经验沉淀：优化生效时自动提取经验写入经验库——问题类型、归因、修复策略、效果度量，形成飞轮效应

整个优化过程都采用了严格的控制和约束机制——预算控制（超预算自动停止）、编辑安全（限制可修改路径）、安全保护（不可变文件需额外审批）、失败回滚（worktree 自动回滚）。

Expert Harness 优化——扩展层优化（DIY Expert Harness）

优化 Agent 在特定角色、垂域场景下的表现，优化对象是 Expert Harness 的八大配置组件。标准八组优化动作与可优化要素一一对应：

动作组	动作	功能
prompt	新增 / 修改 / 移除提示词	提示词管理
skill	新增 / 修改 / 移除 / 搜索技能	技能管理
tool	新增 / 修改 / 移除工具	工具管理
mcp	新增 / 修改 / 移除 / 搜索 MCP 服务	MCP 服务管理
rail	新增 / 修改 / 移除 Rail 扩展	Rail 管理
context	新增 / 修改 / 移除上下文资产	上下文资产管理
stop_eval	新增 / 修改 / 移除任务完成验证条件	验证条件管理
soul	新增 / 修改 / 移除角色画像	角色画像管理

产物为新版本 Expert Harness 扩展目录，支持版本回滚。

Meta Harness 优化——基座层优化（吸收业界优秀实现）

优化 Agent 的基座能力，优化对象是 Meta Harness 的运行时组件——需新增代码级动作（如新增 Rail 实现、新增子 Agent、修改工具实现）。Meta Harness 优化在核心流程的基础上有三项扩展：

• 定时任务（流程前）：按调度周期自动触发优化 session，持续监控基座能力

• 业界调研（流程前）：竞品差距分析，输出结构化 Gap 列表（按 impact × feasibility 排序），搜索业界较好实现作为优化策略参考

• 提交 PR（流程后）：代码变更提交 PR 到上游仓库供人工审核——基座层修改影响所有场景，需经审核才能合入

关键特性

1. 两层优化覆盖完整空间：现有方案只优化单一层级，Auto Harness 双层架构覆盖基座到扩展的完整空间

2. 评测驱动的闭环验证：评测→优化→再评测闭环确保优化生效再回归

3. 经验库飞轮效应：自动提取并复用优化经验，越优化越精准

4. 依赖关系排序并行执行：拓扑排序分波执行，无依赖并行，失败动作不影响其他

5. 安全兜底：预算控制、编辑安全、不可变文件保护、失败回滚确保优化可控可回退

6. Expert Harness可热加载、可叠加：Expert Harness 优化产出新版本扩展目录，可直接热加载到当前 Agent，且多个Expert Harness可叠加加载。

3. 使用示例

当前可通过 JiuwenSwarm TUI 试用 Auto Harness：

安装：pip install jiuwenswarm-tui

启动：jiuwenswarm-tui

即可在对话中使用 /auto-harness 命令触发优化。

▍示例一：Expert Harness 优化——生成办公能力增强的 Expert Harness

/auto-harness run --pipeline optimize_expert_harness 提升一下你自己的办公能力，要求能够：
 1.擅长生成图文并茂，排版和布局美观，有逻辑性的PPT；
 2.熟练进行word操作；
 3.熟练处理财务相关的excel表格；
 4.对生成的所有文件的文件名做敏感信息检查，这个是硬性约束，在写入文件前做强制检查

演示视频：Expert Harness 优化——从输入命令到产出办公能力增强的 Expert Harness 扩展目录的完整执行过程

编排器自动执行核心架构流程：评测当前 Expert Harness 在办公场景下的表现（PPT 排版质量低、Excel 公式错误率高、敏感信息检查缺失）→ 设计优化计划（新增 PPT、Excel、Word 相关工具和技能，新增敏感信息检查 Rail）→ 实施优化动作（约束类先行，其余并行）→ fix loop 规则验证通过 → 再次评测达到预期 → 产出新版本办公 Expert Harness 扩展目录，产出的Expert Harness可在Web端直接激活使用。

▍示例二：Meta Harness 优化——吸收业界优秀实现合入基座

/auto-harness run --pipeline optimize_meta_harness 调研当前和 Claude Code 在上下文压缩特性上的差异和不足，吸收提升自己能力

演示视频：Meta Harness 优化——业界调研、评测、代码级优化实施、CI 门控验证、提交 PR 的完整基座层优化流程

编排器自动执行基座层优化流程：业界调研 Claude Code 上下文压缩特性，输出 Gap 列表 → 评测当前 Meta Harness → 设计代码级优化动作（新增压缩 Rail + 修改触发逻辑，有依赖关系）→ 在独立 worktree 中按依赖波实施 + fix loop CI 门控验证通过 → 再次评测达到预期 → 提交 PR 供人工审核合并，流程完成。

▍示例三：Meta Harness 定时优化——定期调研吸收业界最新能力

/auto-harness schedule start --pipeline optimize_meta_harness --interval 48 调研 Hermes Agent 近期最新版本的更新信息，对新特性进行调研，选择一个最重要的特性进行补充提升

演示视频：Meta Harness 定时优化——定时触发优化 session、自动调研 Hermes Agent 最新版本、持续监控吸收业界最新能力的完整过程

定时任务（核心流程前）：每 48 小时自动触发优化 session，调研 Hermes Agent 最新版本更新，持续监控和吸收业界最新能力。每次触发时自动执行完整的基座层优化流程（业界调研 → 评测 → 设计 → 实施 → 评测 → 提交 PR）。

4. 展望：Auto Harness + Coordination Engineering

单兵变强是蜂群变强的前提，但不是终点。Auto Harness 解决的是单个 Agent 的 Harness 自动进化——让基座更强、让扩展更精准。下一步的自然延伸是：当每个 Agent 都通过 Auto Harness 拥有了自己的个性化 Harness，如何让这些不同角色、不同能力的 Agent 协同起来？

从"数字分身"到"数字团队"：

• Auto Harness 构建个性化 Harness——专家的数字分身：通过 Expert Harness 优化，同一个基座可以叠加出针对不同角色、不同垂域场景、不同个人诉求的个性化扩展。编程专家、设计师、营销策划师、法律审查员、医疗诊断专家……每个 Expert Harness 都是一个领域专家的数字分身。

• Coordination Engineering 实现不同 Harness 的协同——数字团队的协作：自主分工、动态协商、经验沉淀为 Swarm Skills、技能在 Hub 中流通。而 Auto Coordinating Harness 中每个成员的 Expert Harness 优化，直接复用了 Auto Harness 的能力——Auto Harness 是 Coordination Engineering 的基石。

图3 多Harness协同架构 —— Swarm 包含多个 Agent，每个 Agent 拥有不同的 Model和Harness

范式闭环：

• Auto Harness → 每个 Agent 拥有个性化 Harness（数字分身）

• Coordination Engineering（JiuwenSwarm）→ 多个数字分身组成协同团队（数字团队）

• Auto Coordinating Harness → 团队整体协作能力的自动进化，其中成员的个体进化由 Auto Harness 驆动

5. 结语

回过头看，openJiuwen 社区做了一件非常"直接"的事——

既然 Agent = Model + Harness，Model 的后训练解决了"通用好用"，那 Harness 的自动进化自然就是让 Agent 变强的另一半。不是训练模型权重，而是让 Harness 在实战中自动学习、自动优化。这条逻辑线一旦拉出来，接下来的工程命题就清晰了：评测驱动、闭环验证、经验飞轮、安全兜底——每一步都是上一个的必要延伸。

Auto Harness 不是学术论文的复现，而是一整套可跑、可验证、可共建的工程交付——基于 Meta Harness + Expert Harness 的双层架构天然解耦设计，评测驱动的闭环优化流程覆盖基座到扩展的完整空间，Expert Harness 优化让 Agent 在垂域场景下精准适配，Meta Harness 优化让基座能力持续攀升。

让 Harness 学会自我进化。

📌 关于 openJiuwen

openJiuwen 是华为支持的开源 AI Agent 平台社区，由华为 2012 实验室与华为云 AgentArts 团队联合构建。其标杆智能体 JiuwenSwarm，沉淀了 openJiuwen 平台在 Harness 工程、多智能体协同、自演进等关键方向上的完整能力。

🔖 项目地址

openJiuwen AtomGit：https://atomgit.com/openJiuwen/
openJiuwen GitHub：https://github.com/openJiuwen-ai/
openJiuwen 官网：https://www.openjiuwen.com/

关注魔方公众号，获取更多前沿资讯

添加社区小助手k8s2222，进入技术交流群

【声明】本内容来自华为云开发者社区博主，不代表华为云及华为云开发者社区的观点和立场。转载时必须标注文章的来源（华为云社区）、文章链接、文章作者等基本信息，否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容，欢迎发送邮件进行举报，并提供相关证据，一经查实，本社区将立刻删除涉嫌侵权内容，举报邮箱： cloudbbs@huaweicloud.com

点赞
收藏
关注作者

0/1000

抱歉，系统识别当前为高风险访问，暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称，即可参与社区互动！

*长度不超过10个汉字或20个英文字符，设置后3个月内不可修改。

确认取消

加入云驻计划，成为创作者

华为云周边好礼
免费体验产品
特殊身份标识
线下官方门票
内部专家零距离
与10000+优质创作者共同成长

立即加入