NEE's Blog

SkillsBench:如何评估 Agent Skills 在多任务场景下的有效性

February 17, 2026

本文翻译自 SkillsBench: Benchmarking How Well Agent Skills Work Across Diverse Tasks,原载于 Hacker News。

背景:为什么需要 SkillsBench?

大语言模型(LLM)已经从文本生成器演变为能够执行复杂多步骤任务的自主 Agent。Claude Code、Gemini CLI、Codex CLI 等工具让开发者可以在终端环境中利用前沿模型作为智能助手。

然而,这里存在一个根本性的矛盾:基础模型提供广泛的能力,但缺乏特定领域工作流程所需的程序性知识;而微调虽然可以解决这个问题,却代价昂贵且会牺牲通用性。

Agent Skills 因此应运而生。一个 Skill 是一个结构化的包,包含指令、代码模板、资源和验证逻辑,可以在推理时增强 Agent 的行为,而无需修改模型本身。Skills 生态系统发展迅速,社区仓库已经托管了数千个用户贡献的 Skills,涵盖软件工程、数据分析和企业工作流程等领域。

但是,没有任何基准测试系统地评估 Skills 何时以及如何提升 Agent 性能。这就是 SkillsBench 要解决的问题。

SkillsBench 是什么?

SkillsBench 是首个将 Skills 作为一等评估对象的基准测试,包含两个核心贡献:

1. 以 Skills 为中心的评估框架

  • 涵盖 11 个领域的 84 个任务
  • 每个任务在三种条件下执行:无 Skills、有精心策划的 Skills、有自生成 Skills
  • 使用确定性验证器和完整的轨迹日志
  • 按难度分层任务并进行泄露审计

2. 大规模实证评估

  • 评估 7 种 Agent-Model 配置
  • 超过 7,308 条执行轨迹
  • 产生关于 Skills 效力、方差和失败模式的第一个系统性证据

Agent Skills 的定义

一个 Skill 必须满足四个标准:

  1. 程序性内容:包含操作指南(流程、工作流、SOP),而非事实检索
  2. 任务类别适用性:适用于一类问题,而非单个实例
  3. 结构化组件:包含 SKILL.md 文件加上可选资源(脚本、模板、示例)
  4. 可移植性:仅基于文件系统,易于编辑、版本控制、共享和跨不同 Agent 使用

这个定义明确排除了:系统提示词(缺乏结构和资源)、少样本示例(声明性而非程序性)、RAG 检索(事实性而非程序性)、工具文档(描述能力而非流程)。

主要发现

发现 1:Skills 提供显著但可变的收益

精心策划的 Skills 在 7 种模型-配置组合中平均提升 +16.2 个百分点,但方差很大(范围:+13.6pp 到 +23.3pp)。这种可变性表明 Skills 效果强烈依赖于特定的 Agent-Model 组合。

发现 2:不同 Harness 表现差异

  • Claude Code:Skills 利用率最高;改进范围从 +13.9pp(Opus 4.6)到 +23.3pp(Opus 4.5)
  • Gemini CLI:原始性能最高(Gemini 3 Flash 达到 48.7%);改进范围 +13.6pp 到 +17.4pp
  • Codex CLI:竞争力强的原始性能(44.7%),但经常忽略提供的 Skills

发现 3:自生成 Skills 几乎无效

当被提示在解决任务之前生成自己的程序性知识时,模型相比无 Skills 基线平均 下降 1.3pp。只有 Opus 4.6 显示出适度改进(+1.4pp);Codex + GPT-5.2 大幅下降(-5.6pp)。

这与精心策划的 Skills(+16.2pp)形成鲜明对比,表明有效的 Skills 需要人类策划的领域专业知识,模型无法可靠地自我生成。

发现 4:领域间收益差异巨大

领域 有 Skills 无 Skills Δ
医疗健康 86.1% 34.2% +51.9pp
制造业 42.9% 1.0% +41.9pp
网络安全 44.0% 20.8% +23.2pp
自然科学 44.9% 23.1% +21.9pp
软件工程 38.9% 34.4% +4.5pp
数学 47.3% 41.3% +6.0pp

需要模型预训练中代表性不足的专业程序性知识的领域(如临床数据协调、制造工作流程)显示出最大的改进,而预训练覆盖强的领域从外部程序性指导中获益较少。

发现 5:2-3 个 Skills 最优

Skills 数量 有 Skills 无 Skills Δ
1 个 Skill 42.2% 24.4% +17.8pp
2-3 个 Skills 42.0% 23.4% +18.6pp
4+ 个 Skills 32.7% 26.9% +5.9pp

这种非单调关系表明,过多的 Skills 内容会造成认知负担或冲突的指导。

发现 6:适度长度的 Skills 优于全面的文档

复杂度 通过率 Δ
详细型 42.7% +18.8pp
紧凑型 37.6% +17.1pp
标准型 37.1% +10.1pp
全面型 39.9% -2.9pp

专注的程序性指导比详尽的文档更有效——Agent 可能难以从冗长的 Skills 内容中提取相关信息。

发现 7:小模型 + Skills 可以超越无 Skills 的大模型

Claude Haiku 4.5 配合 Skills(27.7%)超过 Haiku 无 Skills(11.0%)+16.7pp。同时,Claude Opus 4.5 无 Skills 只达到 22.0%。这表明 Skills 可以部分补偿模型容量在程序性任务上的限制。

对实践者的启示

Skills 作者

  • 简洁、分步骤的指导配合至少一个可工作示例往往比详尽文档更有效
  • 过长的 Skills 定义会增加上下文负担而不改善决策
  • 模块化 Skills 在多部分任务上组合效果更好
  • Skills 应明确匹配 Harness 约束

Skills 使用者

  • Skills 效果并非通用,而是依赖于上下文
  • 需要评估特定 Agent-Model 组合下的 Skills 效果
  • 不要假设模型可以自我生成有效的程序性知识

局限性与未来工作

  1. 覆盖和泛化:SkillsBench 专注于基于终端的容器化任务,结果可能不能直接转移到 GUI Agent 或非常长期的工作流程

  2. 因果归因:Skills 注入增加了上下文长度,因此观察到的收益可能部分反映”更多上下文”而非程序性结构

  3. 确定性:容器化提供状态隔离但不能保证完美的确定性或免疫训练集泄露

总结

SkillsBench 的研究确立了四个关键发现:

  1. 精心策划的 Skills 提供显著但可变的收益(平均 +16.2pp,在领域和配置间有高方差)
  2. 自生成 Skills 几乎无效(平均 -1.3pp),有效的 Skills 需要人类策划的领域专业知识
  3. 少即是多——2-3 个模块的专注 Skills 优于全面文档
  4. Skills 可以部分替代模型规模,使较小的模型在程序性任务上匹敌较大的模型

这些结果表明 Skills 效果不是通用的而是依赖于上下文的,因此配对评估应该成为 Agent 增强研究的标准实践。


核心要点:如果你正在为 LLM Agent 开发或使用 Skills,记住:质量 > 数量。一个精心设计、专注的 Skill 比冗长的文档更有效;而指望模型自己生成有效的程序性知识是不可靠的。

comments powered by Disqus