SkillsBench 深度解读:7308 条轨迹告诉你,Agent Skills 到底有多大用
SkillsBench 深度解读:7308 条轨迹告诉你,Agent Skills 到底有多大用
论文:SkillsBench: Benchmarking How Well Agent Skills Work Across Diverse Tasks
作者:Wenbo Chen, Yimin Liu 等 38 人
第一篇系统量化 Agent Skills 效果的 Benchmark 论文。核心结论:人工写的 Skills 平均提升 16.2pp,但模型自己写的 Skills 反而降 1.3pp——有效的过程性知识不能靠 AI 自动生成。
一、这篇论文在解决什么问题
1.1 背景
LLM 已经从文本生成器进化成了能执行复杂多步任务的自主 Agent。Claude Code、Codex CLI、Gemini CLI 这些工具让开发者可以直接在终端里把前沿模型当 Agent 用。
但有一个根本矛盾:基础模型提供广泛能力,却缺少特定领域的操作流程知识。微调太贵又损失通用性。
Agent Skills 是一种新兴的解决方案——在推理时注入结构化的过程性知识包,不修改模型参数就能增强领域能力。一个 Skill 包含:
- SKILL.md:操作指南(标准流程、领域约定、经验法则)
- Resources:脚本、代码模板、示例文件
Skills 生态已经爆发式增长,社区仓库有成千上万用户贡献的 Skills。但关键问题是:没人系统量化过 Skills 到底有没有用、什么样的 Skills 最有效。
1.2 核心问题
论文要回答四个问题:
- Skills 能提升多少性能?在不同模型/harness 上是否一致?
- 不同领域的 Skills 效果差异有多大?
- 模型能不能自己生成有效的 Skills?
- Skills 的数量和复杂度怎么影响效果?
1.3 Skills 与其他增强方式的区别
这个定义很重要,因为很容易和其他东西混淆:
| 增强方式 | 内容类型 | 结构化 | 可执行资源 | 跨模型可移植 |
|---|---|---|---|---|
| Agent Skills | 过程性(怎么做) | ✅ SKILL.md + 资源文件 | ✅ 脚本/模板 | ✅ |
| System Prompt | 声明性 | ❌ 纯文本 | ❌ | ✅ |
| Few-shot 示例 | 声明性(输入→输出) | ❌ | ❌ | ✅ |
| RAG 检索 | 事实性(是什么) | ⚠️ 部分 | ❌ | ✅ |
| 工具文档 | 描述性(能做什么) | ⚠️ 部分 | ❌ | ✅ |
| 微调 | 参数修改 | N/A | N/A | ❌ |
Skills 的独特之处:编码过程性知识(procedural knowledge),且以文件系统为基础,易于编辑、版本管理、跨 harness 共享。
二、方法:怎么评估的
2.1 核心 Insight
论文的核心方法论创新是 Paired Evaluation(配对评估)——同一个任务、同一个模型,分别在”无 Skills”、“有人工 Skills”、“有自生成 Skills”三种条件下运行,直接对比效果差异。
graph LR
A[84 个任务] --> B[条件 A: No Skills]
A --> C[条件 B: Curated Skills]
A --> D[条件 C: Self-Gen Skills]
B --> E[确定性验证器]
C --> E
D --> E
E --> F[Pass/Fail × 5 trials]
这避免了”不同 benchmark 用不同任务导致不可比”的经典问题。
2.2 Benchmark 构建流程
整个流程分三阶段:
阶段 1 — 数据收集:
- 从开源仓库(12,847 个)、Claude Code 生态(28,412 个)、企业合作伙伴(5,891 个)收集了 47,150 个 Skills
- 105 位贡献者提交了 322 个候选任务
阶段 2 — 质量过滤(这部分做得非常扎实):
自动化检查:
- 结构验证:必需文件是否齐全、目录结构是否正确
- Oracle 执行:参考解必须 100% 通过测试
- AI 检测:指令必须是人写的(GPTZero 检测 + 人工审核,100% 达到人类标签)
- 泄露审计:CI 自动检测 Skill 是否包含任务特定的答案
人工审核(五项标准):
- 数据有效性(输入必须反映真实复杂度)
- 任务真实性(必须是实际工作流)
- 参考答案质量
- Skills 质量(无错误、内部一致、对同类任务通用有效)
- 反作弊(防止走捷径——改输入数据、从测试文件抽答案、利用验证器实现漏洞)
阶段 3 — 评估:7 种模型-harness 配置 × 3 种条件 × 84 任务 × 5 次重复 = 7,308 条有效轨迹
2.3 评估指标
Pass Rate:每个任务 5 次取平均,再对 84 个任务取平均。
Normalized Gain(归一化增益):借鉴物理教育研究的 Hake 公式:
含义:在”可提升空间”中实际提升了多少比例。90%→95% 和 10%→55% 的 都是 0.5。
论文同时报告绝对提升 和归一化增益 ,避免单一指标的误导。
2.4 测试的模型和 Harness
| Harness | 模型 | 备注 |
|---|---|---|
| Claude Code | Opus 4.5, Opus 4.6, Sonnet 4.5, Haiku 4.5 | 原生 Skills 集成 |
| Gemini CLI | Gemini 3 Pro, Gemini 3 Flash | 不支持 self-gen 条件 |
| Codex CLI | GPT-5.2 | — |
全部使用 temperature=0 确保确定性采样。
三、实验结果
3.1 主要结果:Skills 平均提升 16.2pp
| 配置 | 无 Skills | 有 Skills | 提升 Δ | 归一化增益 g |
|---|---|---|---|---|
| Claude Code + Opus 4.5 | 22.0% | 45.3% | +23.3pp | 0.30 |
| Claude Code + Opus 4.6 | 32.6% | 46.5% | +13.9pp | 0.21 |
| Claude Code + Sonnet 4.5 | 20.2% | 36.4% | +16.2pp | 0.20 |
| Claude Code + Haiku 4.5 | 11.0% | 27.7% | +16.7pp | 0.19 |
| Gemini CLI + Flash | 31.3% | 48.7% | +17.4pp | 0.25 |
| Gemini CLI + Pro | 30.0% | 43.6% | +13.6pp | 0.19 |
| Codex + GPT-5.2 | 29.3% | 44.7% | +15.4pp | 0.22 |
| 平均 | +16.2pp | 0.22 |
关键解读:
- +16.2pp 是非常显著的提升。如果原来 100 个任务做对 25 个,加了 Skills 能做对 41 个——提升超过 60%
- Opus 4.5 提升最大(+23.3pp),因为 Claude Code 对 Skills 规范有原生集成
- Gemini 3 Flash 绝对性能最高(48.7%),但它靠的是消耗更多 token(比 Pro 多 2.3 倍输入 token)来弥补推理深度
3.2 核心发现:自生成 Skills 彻底失败
| 配置 | 自生成 Skills 效果 |
|---|---|
| Opus 4.6 | +1.4pp(唯一正数) |
| Opus 4.5 | -0.1pp |
| Sonnet 4.5 | -1.4pp |
| Haiku 4.5 | -0.7pp |
| Codex + GPT-5.2 | -5.6pp(严重退化) |
| 平均 | -1.3pp |
人工 Skills +16.2pp vs 自生成 Skills -1.3pp——差距接近 18 个百分点。
模型不能可靠地自己写出它们能从中受益的过程性知识。
轨迹分析揭示两种失败模式:
- 知道需要但写不好:模型识别出需要领域知识,但生成的流程不精确(如只写”用 pandas 处理数据”而没有具体 API 模式)
- 根本没意识到需要:对高领域知识任务(制造业、金融),模型试图用通用方法蛮力解决,完全没生成领域特定的 Skills
3.3 领域差异:最高差 12 倍
| 领域 | 提升 Δ | 解读 |
|---|---|---|
| Healthcare(医疗) | +51.9pp | 临床数据协调、医疗流程——预训练覆盖极少 |
| Manufacturing(制造业) | +41.9pp | 制造工艺流程——模型几乎不懂 |
| Data Analysis(数据分析) | +17.8pp | 特定数据处理模式 |
| Finance(金融) | +15.0pp | 合规流程、报表格式 |
| Cybersecurity(网络安全) | +12.9pp | 安全审计流程 |
| Science(科学) | +11.4pp | 专业计算流程 |
| Mathematics(数学) | +6.0pp | 模型本身就有较强数学能力 |
| Software Engineering(软件) | +4.5pp | 模型最强的领域,Skills 帮助有限 |
清晰规律:模型预训练数据覆盖越少的领域,Skills 价值越高。 医疗流程这种”模型完全不会”的领域,Skills 几乎是质变;代码这种”模型本来就擅长”的领域,Skills 只是锦上添花。
3.4 任务级分析:16/84 个任务中 Skills 有害
Skills 最有效的任务(模型从”完全不会”到”基本能做”):
| 任务 | 提升 | 说明 |
|---|---|---|
| mario-coin-counting | +85.7pp(2.9%→88.6%) | 特定游戏分析流程 |
| sales-pivot-analysis | +85.7pp | 销售数据透视分析 |
| flood-risk-analysis | +77.1pp | 洪水风险评估流程 |
| sec-financial-report | +74.3pp | SEC 财务报表处理 |
Skills 有害的任务(模型本来能做,加了 Skills 反而做不好):
| 任务 | 退化 | 可能原因 |
|---|---|---|
| taxonomy-tree-merge | -39.3pp | Skills 引入了冲突的合并策略 |
| energy-ac-optimal-power-flow | -14.3pp | 过于复杂的流程指导干扰了模型的直觉 |
| trend-anomaly-causal-inference | -12.9pp | Skills 与模型已有知识矛盾 |
| exoplanet-detection-period | -11.4pp | 不必要的额外步骤增加了出错概率 |
3.5 Skills 设计因素
数量:2-3 个最优
| Skills 数量 | 无 Skills | 有 Skills | 提升 Δ |
|---|---|---|---|
| 1 个 | 24.3% | 39.1% | +14.8pp |
| 2-3 个 | 22.1% | 40.7% | +18.6pp |
| 4+ 个 | 28.9% | 34.8% | +5.9pp |
少即是多。 4 个以上的 Skills 效果反而下降——可能产生信息过载或指导冲突。
复杂度:精炼 > 全面
| 复杂度 | 无 Skills | 有 Skills | 提升 Δ |
|---|---|---|---|
| Detailed(详细但聚焦) | 23.8% | 42.6% | +18.8pp |
| Compact(紧凑简洁) | 22.4% | 39.5% | +17.1pp |
| Comprehensive(全面冗长) | 28.7% | 25.8% | -2.9pp |
全面的参考文档反而有害! 精炼的步骤指南比面面俱到的手册有效得多。Agent 不擅长从冗长文档中提取关键信息,过长的 Skills 还会挤占上下文预算。
模型规模:小模型 + Skills ≈ 大模型裸跑
Claude Haiku 4.5 + Skills: 27.7%
Claude Opus 4.5 无 Skills: 22.0%
→ 小模型配好 Skills 比大模型裸跑还强 5.7pp!
这对成本优化有直接指导意义——与其升级到更贵的模型,不如先写好 Skills。
3.6 Harness 差异
Claude Code:Skills 利用率最高。+13.9pp 到 +23.3pp。原生 Skills 集成专门优化了发现和应用流程。
Gemini CLI:裸性能最强(Flash 48.7%)。Flash 的策略是用更多 token(比 Pro 多 2.3 倍)弥补推理深度,但由于单价低 4 倍,实际每任务成本反而便宜 44%(0.98)。
Codex CLI:经常确认了 Skills 内容却不使用它——看了但没用。说明 harness 的 Skills 集成质量直接影响效果。
四、复现与落地评估
4.1 复现难度评估
| 维度 | 评级 | 说明 |
|---|---|---|
| 代码开源 | ⚠️ | 论文基于 Harbor 框架,框架开源但 SkillsBench 完整数据集公开程度待确认 |
| 数据可得性 | ⚠️ | 84 个任务的容器化环境需要构建;47K Skills 数据集可能部分公开 |
| 算力需求 | 高 | 7,308 条轨迹 × 商业 API 调用,评估成本不低 |
| 依赖复杂度 | 中 | Docker 容器化,每个任务独立环境 |
| 复现总评 | ⭐⭐⭐ | 方法论可复现,但完整复现需要商业 API 预算和 Harbor 环境 |
4.2 工业落地可行性
- 适用场景:任何使用 Agent Skills 的团队都应参考其结论来指导 Skills 编写策略
- 直接可用的结论:
- 2-3 个聚焦 Skills > 堆一大堆文档
- 先用小模型 + Skills 试水,再决定是否升级模型
- 不要指望 AI 自动生成 Skills
- 集成难度:论文本身不是一个产品/工具,而是评估方法论 + 最佳实践指南
- 风险点:结论基于 2026 年初的模型能力,未来模型的自生成 Skills 能力可能改善
- 落地总评:⭐⭐⭐⭐⭐(结论直接可用,不需要部署任何东西)
五、SOTA 对照矩阵
SkillsBench 是第一个 Skills 评估 Benchmark,没有直接对标的前作。但可以和相关 Benchmark 对比定位:
| Benchmark | 评估对象 | 是否评估增强效果 | 领域覆盖 | 确定性验证 |
|---|---|---|---|---|
| SkillsBench | Skills 增强效果 | ✅ 三条件配对 | 11 个领域 | ✅ pytest |
| Terminal-Bench | 模型/harness 裸能力 | ❌ 只评估基线 | 终端任务 | ✅ |
| SWE-bench | 代码修复能力 | ❌ | 软件工程 | ✅ |
| AgentBench | 通用 agent 能力 | ❌ | 8 个环境 | 部分 |
| MLE-bench | ML 工程能力 | ❌ | ML 竞赛 | ✅ |
SkillsBench 的独特价值:不是问”模型有多强”,而是问”Skills 能帮模型提升多少”——这是一个全新的评估维度。
六、讨论与局限
6.1 论文自身讨论的局限
- 只覆盖终端任务:不包含 GUI agent、多 agent 协作、超长时间跨度工作流
- 上下文长度干扰:Skills 注入增加了上下文长度,部分收益可能来自”更多上下文”而非”过程性结构”(但自生成 Skills 的失败部分回应了这个质疑——结构确实重要)
- 商业 harness 行为可变:harness 的 Skills 集成可能随版本更新而变化
- 没测 Skills 组合效应:多个 Skills 是互补还是冲突,缺乏系统研究
6.2 我的额外观察
实验设计上:
- 自生成 Skills 条件的失败可能部分源于 prompt 设计——论文没有展示具体的 self-gen prompt,不清楚是否做了充分的 prompt engineering
- 84 个任务的样本量在某些领域(如 Healthcare)可能偏小,单个异常任务就会显著影响领域平均值
结论推广上:
- “自生成 Skills 无效”这个结论可能随模型能力提升而改变——当前模型写不好 Skills 不代表未来模型也写不好
- 论文没有测试”人机协作写 Skills”的场景——AI 生成初稿 + 人工修改,可能是更实际的工作流
缺失的分析:
- 没有按任务难度交叉分析 Skills 效果——Skills 是对简单任务帮助大还是对困难任务帮助大?
- 没有分析 Skills 的”保质期”——随着模型迭代,同一套 Skills 的效果是否会衰减?
七、对我们的启示
7.1 谁应该关注
- ✅ 所有使用 Claude Code / Codex / Gemini CLI 的开发者——直接指导你怎么写 Skills
- ✅ Skills 生态的贡献者/维护者——知道什么样的 Skills 有效
- ✅ Agent 框架的开发者——harness 的 Skills 集成质量至关重要
- ⚠️ 纯研究者——方法论可参考,但结论偏应用
7.2 核心 Takeaway
- 人工写的 Skills 值得投入:平均 +16.2pp,医疗等专业领域高达 +51.9pp
- 不要指望 AI 自动生成 Skills:当前模型完全做不到(-1.3pp)
- 少即是多:2-3 个精炼 Skills > 堆一堆文档;详细步骤 > 全面手册
- 优先在专业领域写 Skills:模型越不擅长的领域,Skills 价值越高
- 先写 Skills,再升级模型:Haiku + Skills > Opus 裸跑,省钱又有效
7.3 实践建议
写 Skills 时:
- 聚焦具体步骤,不要写成参考手册
- 每个 Skill 解决一个具体子问题
- 包含至少一个可运行的示例
- 面向一类任务,不是单个实例
- 总量控制在 2-3 个模块
选择模型时:
- 先用便宜模型 + 好 Skills 建立 baseline
- 只有当 Skills 优化到位后仍不满足需求,才考虑升级模型
- 注意 harness 的 Skills 集成质量——同一个模型在不同 harness 下效果可能差很多
什么领域优先写 Skills:
- 🔴 高优先:医疗、制造、金融合规等专业流程
- 🟡 中优先:数据分析、网络安全、科学计算
- 🟢 低优先:通用编程、数学(模型本身已经很强)
论文速查卡
| 项目 | 内容 |
|---|---|
| 标题 | SkillsBench: Benchmarking How Well Agent Skills Work Across Diverse Tasks |
| 作者 | Wenbo Chen, Yimin Liu 等 38 人 |
| 链接 | arXiv:2602.12670 |
| 发表 | 预印本 (2026.02) |
| 一句话总结 | 第一个系统量化 Agent Skills 效果的 Benchmark:人工 Skills +16.2pp,自生成 Skills -1.3pp,2-3 个精炼 Skills 效果最佳 |
| 大白话版 | 给 AI 助手一本”操作手册”能让它做事准确很多,但让 AI 自己写这本手册完全不行——还是得人来写 |
| 核心数字 | 人工 Skills +16.2pp,自生成 -1.3pp,医疗领域 +51.9pp,2-3 个 Skills 最优 +18.6pp |
| 复现评级 | ⭐⭐⭐ |
| 落地评级 | ⭐⭐⭐⭐⭐ |