Skill 综述

举报
Uncle_Tom 发表于 2026/05/23 21:18:47 2026/05/23
【摘要】 将经验沉淀为可复用技能,是人类学习亘古不变的模式。人们不会每次都从零着手处理任务,而是不断把反复实操、示范演示、试错经历与专业指导,转化为可复用的流程。这一知识外化过程历经漫长演变:从具象的实操技艺,到成文的工程规范,再到数字化工具与可编程工作流,如今已然迈入智能体原生技能生态阶段。技能如同智能体的肌肉记忆,智能体无需重复分步推理,在反复任务中灵活调取、组合、优化与管控。

以下为论文《A Comprehensive Survey on Agent Skills: Taxonomy, Techniques, and Applications》的读书笔记。

1. 前言

将经验沉淀为可复用技能,是人类学习亘古不变的模式。人们不会每次都从零着手处理任务,而是不断把反复实操、示范演示、试错经历与专业指导,转化为可复用的流程。这一知识外化过程历经漫长演变:从具象的实操技艺,到成文的工程规范,再到数字化工具与可编程工作流,如今已然迈入智能体原生技能生态阶段。

基于大语言模型的智能体,正逐步成为实现复杂任务自动化的主流范式。本质而言,这类智能体是以大语言模型为认知核心的自主系统,能够感知环境、解读任务场景、推导抽象目标,并借助规划调度、工具调用、记忆调取与规范化交互完成行动执行。OpenClaw、Manus、Claude Code 等前沿系统均是该范式的典型代表,也标志着智能系统从被动生成应答,正式转向主动式、行动导向型任务执行

随着大模型智能体落地场景持续拓宽,承接的任务复杂度不断提升,依托应用程序接口、插件及 MCP 等协议层实现的工具增强,已然成为核心设计准则。但实际应用表明,仅具备工具调用权限,无法解决能力触发时机、多工具协同方式、故障处理机制以及结果校验判定等问题。面对长周期、多类型的复杂任务,若每次都依靠智能体从头推演执行流程,会造成系统稳定性差、响应迟缓、可靠性不足等问题,这类流程断层已然成为发展主要瓶颈

瓶颈推动智能体体系转向以技能为核心的研发思路。本文将智能体技能定义为可复用的流程载体,承载特定实操方法知识,可在既定约束条件下统筹调度工具、记忆与运行环境。在此体系中,智能体与技能形成高度协同的层级架构:智能体承担高层认知规划工作,负责理解意图、拆解目标;技能则作为关键执行层,把抽象规划转化为稳定的底层实操动作

技能如同智能体的肌肉记忆,将实操经验固化为可复用模块后,智能体无需重复分步推理,既能大幅降低执行失误,还可将临时动作沉淀为长效能力,在反复任务中灵活调取、组合、优化与管控。

2. 核心定义与动机

  1. Agent技能的定义
    论文将Agent技能定义为可重用的程序性构件,用于协调工具、记忆和运行时上下文,以完成特定任务。形式化为:
    S=(M,R,C)S = (M, \mathcal{R}, \mathcal{C})

    • MM:根指令文档
    • R\mathcal{R}:辅助资源(文本、代码等)
    • C\mathcal{C}:适用条件(元数据、自然语言描述或嵌入)
  2. 从工具到技能的范式转变
    单纯的工具访问(如API、MCP协议)不能解决“何时调用、如何协调、如何处理失败”等程序性问题。技能作为操作层,将“如何做”的知识外化为可存储、检索、修订和重用的构件,弥补了程序性鸿沟

  3. 技能与智能体的互补关系

    • 智能体:高层认知规划、意图解释、目标分解
    • 技能:底层可靠执行、可重用、可组合
      → 形成“认知-操作”双层协同架构。

3. 技能生命周期四阶段

论文围绕表示、获取、检索、进化四个阶段组织文献:

3.1. 技能表示(Skill Representation)

  • 根据辅助资源 ( \mathcal{R} ) 的配置分为三类:
    • 文本型:参考文档、模板等 → 提升理解,无执行依赖
    • 代码型:脚本、函数等 → 高确定性,但需管理版本和依赖
    • 混合型:两者结合 → 可解释且可执行,但协调成本最高

3.2. 技能获取(Skill Acquisition)

四个来源,互为补充:

  • 人类衍生:专家编写或交互式精炼
  • 经验衍生:从执行轨迹中通过选择、抽象、记忆组织、程序化封装生成技能(如Voyager、Reflexion、Trace2Skill)
  • 任务衍生:根据当前任务需求即时生成技能,经执行验证后保留(如CREATOR、ToolMakers)
  • 语料库衍生:从文档、代码库、竞赛方案等外部资源中提取技能(如DS Agent、HuggingGPT)

核心发现:四类方法并非竞争,而是互补。LLM降低了各途径的成本,未来技能库将来自它们的组合。

4. 技能检索与选择(Skill Retrieval & Selection)

  • 检索:从大规模库中召回候选技能
    策略包括:稠密嵌入检索、稀疏/关键词检索、生成式检索、结构感知检索(层次化、依赖过滤)
  • 选择:从候选中决定调用的技能
    维度包括:上下文感知动态选择、技能组合、成本-效用感知、反馈驱动的重排序

关键洞察:技能检索不仅是文档检索,因为技能是可执行的,必须考虑状态前提、依赖约束和副作用。评价需从“召回率”转向“最终执行成功率和净效用”。

4.1. 技能进化(Skill Evolution)

  • 修订:通过反馈修改技能内容(如EvoSkill、AutoSkill)
  • 验证:只有通过检验(单元测试、执行一致、回滚)的更新才保留
  • 策略耦合:技能库与强化学习策略共同适应(如SkillRL、ARISE)
  • 仓库演化:多技能的组织、过滤、连接(如SkillNet、SkillClaw)
  • 运行时治理:路由、信任检查、淘汰不安全技能

核心发现:进化与获取的区别在于持久化、命名化、可验证的构件更新,而不仅是轨迹积累。


5. 开放挑战

阶段 关键挑战
获取 抽象质量(过局部或过抽象)、触发条件弱、资源漂移、大规模下准入质量控制
检索与选择 可扩展库同步、约束感知组合、多目标(成功/成本/延迟/安全)优化、执行中心化评估、个性化与自适应选择
进化 粗粒度评估(任务成功不能证明构件有用)、非对称更新(增易删难)、仓库级治理薄弱、混杂增益与长期信任

6. 未来研究方向

  1. 统一技能模式:标准化技能字段(范围、触发条件、依赖、版本、安全约束),便于跨生态系统共享。
  2. 资源感知联合优化:将检索、规划、执行联合优化,考虑延迟、token成本、调用风险。
  3. 非平稳环境下的库演化:检测API变更、安全在线更新、版本回滚,评估后部署稳定性。
  4. 多模态与领域专用基准:面向具身智能、自动驾驶、无人机等场景,评估技能的安全性、延迟和长期决策质量。
  5. 因果驱动的技能诊断:追溯失败原因(检索错误、选错策略、工具故障、组合不安全),实现针对性修复。

7. 应用场景

论文概括了八大应用场景及其技能形式:

  • 软件工程(代码生成、调试)
  • Web/GUI任务(导航、表单填写)
  • 聊天机器人(记忆更新、工具路由)
  • 机器人(可组合控制例程)
  • 金融(决策启发式)
  • 医疗(诊断与治疗流程)
  • 游戏环境(可组合行为单元)
  • 社会模拟(可重用社交行为例程)

8. 与相关工作的区别

  • 区别于工具使用研究:技能强调程序性知识的外化和重用,而非原子工具调用。
  • 区别于RAG和记忆:记忆主要处理非参数化事实,而技能处理可执行程序,并支持修订、组合和治理。

9. 总体结论

将技能视为一等公民构件,而非偶然的提示或工具包装,是提升LLM智能体系统可扩展性、鲁棒性和可治理性的关键。本文为技能生命周期提供了统一框架,并指出了通往可演化、可信任技能生态系统的研究路径。

论文还提供了持续更新的资源仓库:
🔗 https://github.com/JayLZhou/Awesome-Agent-Skills

【声明】本内容来自华为云开发者社区博主,不代表华为云及华为云开发者社区的观点和立场。转载时必须标注文章的来源(华为云社区)、文章链接、文章作者等基本信息,否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。