Skill 综述
以下为论文《A Comprehensive Survey on Agent Skills: Taxonomy, Techniques, and Applications》的读书笔记。
1. 前言

将经验沉淀为可复用技能,是人类学习亘古不变的模式。人们不会每次都从零着手处理任务,而是不断把反复实操、示范演示、试错经历与专业指导,转化为可复用的流程。这一知识外化过程历经漫长演变:从具象的实操技艺,到成文的工程规范,再到数字化工具与可编程工作流,如今已然迈入智能体原生技能生态阶段。
基于大语言模型的智能体,正逐步成为实现复杂任务自动化的主流范式。本质而言,这类智能体是以大语言模型为认知核心的自主系统,能够感知环境、解读任务场景、推导抽象目标,并借助规划调度、工具调用、记忆调取与规范化交互完成行动执行。OpenClaw、Manus、Claude Code 等前沿系统均是该范式的典型代表,也标志着智能系统从被动生成应答,正式转向主动式、行动导向型任务执行。
随着大模型智能体落地场景持续拓宽,承接的任务复杂度不断提升,依托应用程序接口、插件及 MCP 等协议层实现的工具增强,已然成为核心设计准则。但实际应用表明,仅具备工具调用权限,无法解决能力触发时机、多工具协同方式、故障处理机制以及结果校验判定等问题。面对长周期、多类型的复杂任务,若每次都依靠智能体从头推演执行流程,会造成系统稳定性差、响应迟缓、可靠性不足等问题,这类流程断层已然成为发展主要瓶颈。
该瓶颈推动智能体体系转向以技能为核心的研发思路。本文将智能体技能定义为可复用的流程载体,承载特定实操方法知识,可在既定约束条件下统筹调度工具、记忆与运行环境。在此体系中,智能体与技能形成高度协同的层级架构:智能体承担高层认知规划工作,负责理解意图、拆解目标;技能则作为关键执行层,把抽象规划转化为稳定的底层实操动作。
技能如同智能体的肌肉记忆,将实操经验固化为可复用模块后,智能体无需重复分步推理,既能大幅降低执行失误,还可将临时动作沉淀为长效能力,在反复任务中灵活调取、组合、优化与管控。
2. 核心定义与动机
-
Agent技能的定义
论文将Agent技能定义为可重用的程序性构件,用于协调工具、记忆和运行时上下文,以完成特定任务。形式化为:
- :根指令文档
- :辅助资源(文本、代码等)
- :适用条件(元数据、自然语言描述或嵌入)
-
从工具到技能的范式转变
单纯的工具访问(如API、MCP协议)不能解决“何时调用、如何协调、如何处理失败”等程序性问题。技能作为操作层,将“如何做”的知识外化为可存储、检索、修订和重用的构件,弥补了程序性鸿沟。 -
技能与智能体的互补关系
- 智能体:高层认知规划、意图解释、目标分解
- 技能:底层可靠执行、可重用、可组合
→ 形成“认知-操作”双层协同架构。
3. 技能生命周期四阶段
论文围绕表示、获取、检索、进化四个阶段组织文献:

3.1. 技能表示(Skill Representation)
- 根据辅助资源 ( \mathcal{R} ) 的配置分为三类:
- 文本型:参考文档、模板等 → 提升理解,无执行依赖
- 代码型:脚本、函数等 → 高确定性,但需管理版本和依赖
- 混合型:两者结合 → 可解释且可执行,但协调成本最高
3.2. 技能获取(Skill Acquisition)

四个来源,互为补充:
- 人类衍生:专家编写或交互式精炼
- 经验衍生:从执行轨迹中通过选择、抽象、记忆组织、程序化封装生成技能(如Voyager、Reflexion、Trace2Skill)
- 任务衍生:根据当前任务需求即时生成技能,经执行验证后保留(如CREATOR、ToolMakers)
- 语料库衍生:从文档、代码库、竞赛方案等外部资源中提取技能(如DS Agent、HuggingGPT)
核心发现:四类方法并非竞争,而是互补。LLM降低了各途径的成本,未来技能库将来自它们的组合。
4. 技能检索与选择(Skill Retrieval & Selection)
- 检索:从大规模库中召回候选技能
策略包括:稠密嵌入检索、稀疏/关键词检索、生成式检索、结构感知检索(层次化、依赖过滤) - 选择:从候选中决定调用的技能
维度包括:上下文感知动态选择、技能组合、成本-效用感知、反馈驱动的重排序
关键洞察:技能检索不仅是文档检索,因为技能是可执行的,必须考虑状态前提、依赖约束和副作用。评价需从“召回率”转向“最终执行成功率和净效用”。
4.1. 技能进化(Skill Evolution)
- 修订:通过反馈修改技能内容(如EvoSkill、AutoSkill)
- 验证:只有通过检验(单元测试、执行一致、回滚)的更新才保留
- 策略耦合:技能库与强化学习策略共同适应(如SkillRL、ARISE)
- 仓库演化:多技能的组织、过滤、连接(如SkillNet、SkillClaw)
- 运行时治理:路由、信任检查、淘汰不安全技能
核心发现:进化与获取的区别在于持久化、命名化、可验证的构件更新,而不仅是轨迹积累。
5. 开放挑战
| 阶段 | 关键挑战 |
|---|---|
| 获取 | 抽象质量(过局部或过抽象)、触发条件弱、资源漂移、大规模下准入质量控制 |
| 检索与选择 | 可扩展库同步、约束感知组合、多目标(成功/成本/延迟/安全)优化、执行中心化评估、个性化与自适应选择 |
| 进化 | 粗粒度评估(任务成功不能证明构件有用)、非对称更新(增易删难)、仓库级治理薄弱、混杂增益与长期信任 |
6. 未来研究方向
- 统一技能模式:标准化技能字段(范围、触发条件、依赖、版本、安全约束),便于跨生态系统共享。
- 资源感知联合优化:将检索、规划、执行联合优化,考虑延迟、token成本、调用风险。
- 非平稳环境下的库演化:检测API变更、安全在线更新、版本回滚,评估后部署稳定性。
- 多模态与领域专用基准:面向具身智能、自动驾驶、无人机等场景,评估技能的安全性、延迟和长期决策质量。
- 因果驱动的技能诊断:追溯失败原因(检索错误、选错策略、工具故障、组合不安全),实现针对性修复。
7. 应用场景
论文概括了八大应用场景及其技能形式:
- 软件工程(代码生成、调试)
- Web/GUI任务(导航、表单填写)
- 聊天机器人(记忆更新、工具路由)
- 机器人(可组合控制例程)
- 金融(决策启发式)
- 医疗(诊断与治疗流程)
- 游戏环境(可组合行为单元)
- 社会模拟(可重用社交行为例程)
8. 与相关工作的区别
- 区别于工具使用研究:技能强调程序性知识的外化和重用,而非原子工具调用。
- 区别于RAG和记忆:记忆主要处理非参数化事实,而技能处理可执行程序,并支持修订、组合和治理。
9. 总体结论
将技能视为一等公民构件,而非偶然的提示或工具包装,是提升LLM智能体系统可扩展性、鲁棒性和可治理性的关键。本文为技能生命周期提供了统一框架,并指出了通往可演化、可信任技能生态系统的研究路径。
论文还提供了持续更新的资源仓库:
🔗 https://github.com/JayLZhou/Awesome-Agent-Skills
- 点赞
- 收藏
- 关注作者
评论(0)