Agent

SkillNet:给 AI Agent 建一个技能仓库

SkillNet:给 AI Agent 建一个技能仓库

论文:SkillNet: Create, Evaluate, and Connect AI Skills 作者:Ruobin Zhong, Haoming Xu, Chen Jiang 等 40+ 人(浙大、同济、阿里、腾讯、蚂蚁等联合) 一句话总结:构建了一个 20 万+ 技能的开放基础设施,让 AI Agent 能系统地创建、评估和复用模块化技能,平均奖励提升 40%、执行步数减少 30%。

一、这篇论文在解决什么问题

1.1 背景

当前的 AI Agent(智能体)已经能调用工具、执行复杂任务了。但有一个尴尬的问题:它们总在「重新发明轮子」。每次遇到类似的任务,Agent 都是从零开始推理,不会把之前学到的「怎么做」存下来复用。

类比一下:想象一个程序员,每次写代码都不记得自己之前写过的函数,每次都要重新实现排序、解析 JSON、调 API……这就是当前 Agent 面临的困境。人类擅长把零散经验(episodic experience)内化为可复用的知识模式,但 AI Agent 还做不到。

现有的解决方案要么是手动编写 prompt(费人力),要么是 in-context learning(上下文学习,一次性的,不持久)。技能仓库虽然已经有一些(如 ClawHub、SkillsMP),但它们本质上是静态的包管理器——只负责存和下载,不负责自动创建、质量评估和技能间关系分析。

1.2 核心问题

论文聚焦两个关键缺失:

  1. 没有统一的技能获取和积累机制:开源仓库、论文、Agent 执行轨迹中蕴含大量可复用知识,但都是碎片化的、不可直接执行的
  2. 没有系统的技能质量验证框架:现有仓库靠 GitHub stars 或社区投票来判断质量,缺乏对安全性、可执行性、可维护性等维度的内在评估

二、方法:怎么解决的

2.1 核心 Insight

把 Agent 的技能当作「知识工程」来做——不仅仅是存储代码片段,而是构建一个有本体(Ontology)、有关系图、有质量评估的技能网络。技能不再是孤立的文件,而是网络中的节点,通过 similar_tocompose_withdepend_onbelong_to 四种关系互相连接。

这就像从”一堆散落的工具”进化到”一个有索引、有分类、有依赖管理的工具仓库”。

2.2 技术细节

SkillNet 的架构分为三大模块:

graph TD
    A[异构输入源] --> B[技能创建 Skill Creation]
    B --> C[技能评估 Skill Evaluation]
    C --> D[技能分析 Skill Analysis]
    D --> E[结构化技能网络]
    
    A1[执行轨迹] --> B
    A2[GitHub 仓库] --> B
    A3[文档 PDF/PPT] --> B
    A4[自然语言提示] --> B
    
    C --> C1[Safety 安全性]
    C --> C2[Completeness 完整性]
    C --> C3[Executability 可执行性]
    C --> C4[Maintainability 可维护性]
    C --> C5[Cost-awareness 成本感知]
    
    D --> D1[similar_to 相似]
    D --> D2[compose_with 组合]
    D --> D3[depend_on 依赖]
    D --> D4[belong_to 归属]

技能本体(Skill Ontology)三层架构

层级功能示例
Skill Taxonomy(分类层)10 大类 + 细粒度标签Development → frontend, llm, physics
Skill Relation Graph(关系层)四种关系边连接技能实体Matplotlib compose_with Pandas
Skill Package Library(包层)技能打包为可部署的模块data-science-visualization 包

技能创建流程

SkillNet 用 LLM 从四类来源自动生成技能:

  1. 执行轨迹和对话日志 → 提取操作模式
  2. GitHub 仓库 → 抽取可复用的功能模块
  3. PDF/PPT/Word 文档 → 结构化为步骤指令
  4. 自然语言 prompt → 直接生成技能

生成后经过多阶段管线:去重(MD5 哈希 + 目录结构比对)→ 过滤(规则 + 模型联合)→ 分类打标评估入库

五维评估框架

每个维度分 Good / Average / Poor 三级,由 GPT-5o-mini 自动评分:

维度评估内容质量分布
Safety是否有危险操作(如删文件)、是否抗 prompt 注入大部分 Good
Completeness步骤是否完整、依赖是否明确大部分 Good/Average
Executability能否在沙盒中实际运行Average 占比较高(最难的维度)
Maintainability模块化程度、向后兼容性大部分 Good
Cost-awareness执行时间、算力、API 调用成本分布均匀

评估可靠性验证:随机抽取 200 个技能,3 位 CS 博士独立打分。自动评估器与人类评分的 MAE < 0.03,QWK(加权 Kappa)达到 1.000(近乎完美一致),说明 LLM 自动评估是可靠的。

三、实验结果

3.1 实验设置

在三个文本模拟环境上评估:

  • ALFWorld:家庭环境中的物体导航和操作任务
  • WebShop:模拟在线购物(搜索、比较、下单)
  • ScienceWorld:虚拟科学实验室

基线方法:ReAct(推理+行动交替)和 ExpeL(从过去经验中提取自然语言洞察)

骨干模型:DeepSeek V3.2、Gemini 2.5 Pro、o4 Mini

3.2 主要结果

模型方法ALFWorld Seen R↑ALFWorld Unseen R↑WebShop R↑ScienceWorld Seen R↑ScienceWorld Unseen R↑
DeepSeek V3.2ReAct66.4369.4031.5569.8664.67
+ SkillNet80.6083.5746.1884.8781.31
Gemini 2.5 ProReAct60.0061.9431.6658.2456.13
+ SkillNet91.4391.0453.0288.8486.26
o4 MiniReAct45.7149.2524.1964.8959.93
+ SkillNet68.5773.2836.2173.2471.06

关键解读

  • Gemini 2.5 Pro + SkillNet 提升最大:ALFWorld 上从 60.00 → 91.43(+31.4),相当于从”及格线”跳到”优秀”
  • WebShop 提升最显著:所有模型在 WebShop 上的提升比例最大(DeepSeek: 31.55 → 46.18, +46% 相对提升),说明购物这种多步骤、需要策略积累的场景最受益
  • Unseen 任务也大幅提升:说明技能不只是记住了见过的答案,而是学到了可迁移的模式。如 DeepSeek 在 ScienceWorld Unseen 上从 64.67 → 81.31
  • 执行步数平均减少 30%:Agent 不再盲目探索,而是”知道该怎么做”

3.3 消融实验

论文没有设置传统意义上的消融实验(ablation),但通过对比 ReAct、ExpeL、Few-Shot 和 +SkillNet 四种方法,可以间接观察各组件贡献:

  • ExpeL vs ReAct:加入经验总结后有稳定提升(如 DeepSeek ALFWorld: 66.43 → 67.86),但幅度有限
  • SkillNet vs ExpeL:结构化技能 vs 松散经验,差距显著(如 Gemini ALFWorld: 68.57 → 91.43),说明技能的结构化组织远比简单的经验积累更有效
  • 跨模型一致性:o4 Mini(较弱模型)获得 +15.7 奖励提升,Gemini 2.5 Pro(强模型)获得 +28.5 提升,说明强模型更能利用好结构化技能

四、复现与落地评估

维度评级说明
代码开源GitHub 开源,提供 skillnet-ai Python 包和 CLI 工具
数据可得性15 万+ 经过筛选的高质量技能已公开,API 可查询
算力需求技能创建和评估依赖 LLM API 调用(GPT-5o-mini 等),实验使用 DeepSeek/Gemini/o4 Mini

实际落地路径:论文专门展示了与 OpenClaw(开源个人 AI Agent 框架)的集成方案——Agent 在对话中自动搜索、下载、执行技能,并能将成功经验打包为新技能,形成闭环。

五、批判性分析

优势

  1. 工程完整度极高:不是一篇只有想法的论文,而是交付了完整基础设施(20 万+技能库、Python SDK、Web 平台、API)
  2. 评估可靠性有保障:LLM 评估器与人类评分 QWK=1.000 这个数字非常有说服力
  3. 跨模型通用性:在 3 个不同能力级别的模型上都有一致提升,不是为特定模型定制的
  4. 开放生态理念:支持社区贡献、自动质量检查、持续扩展

局限与疑问

  1. 评估环境单一:三个 benchmark(ALFWorld、WebShop、ScienceWorld)都是文本模拟环境,真实世界的 Agent 任务(如操作真实网页、调用真实 API)效果如何?论文缺乏验证
  2. 技能创建质量存疑:论文承认 Executability 评级中 Average 占比较高,说明自动生成的技能质量参差不齐。SkillsBench 研究也发现模型自生成的技能无法带来增益(+0 pp),只有人工策划的技能有效(+16.2 pp)——SkillNet 声称用 LLM 自动创建技能,但实验中用的是从专家轨迹合成的技能,两者有差异
  3. 关系图的实际价值未量化:四种关系(similar_to 等)在实验中是否被实际用到?对性能贡献多大?论文没有消融
  4. 规模 ≠ 质量:25 万候选 → 15 万筛选后入库,淘汰率 40%,但 15 万技能中有多少真正被 Agent 用到?存在长尾问题
  5. 作者人数过多(40+人):来自 19 个机构,工程贡献和学术贡献的边界不够清晰

与相关工作对比

方案定位自动创建质量评估关系分析技能数量
SkillNet全生命周期基础设施✅ LLM 管线✅ 五维评估✅ 关系图15 万+
ClawHubnpm 式包管理~9k
SkillsMP开源生态目录⚠️ GitHub stars~261k
SkillHub付费市场⚠️ LLM 评级⚠️ 手动~21k
ExpeL经验提取框架⚠️ 自然语言洞察N/A

SkillNet 的核心差异化在于全生命周期管理——从创建、评估到关系建模的一条龙。但 SkillsMP 在绝对数量上更多(261k vs 150k),且 SkillNet 的质量优势需要更多真实场景验证。

六、论文速查卡

项目内容
核心贡献开放的 AI 技能基础设施,支持自动创建、五维评估、关系图构建,含 15 万+ 高质量技能
关键数字平均奖励 +40%,执行步数 -30%,评估 QWK=1.000,25 万候选技能筛选至 15 万
适用场景Agent 系统的技能管理、任务规划加速、企业级知识工程、个人 AI Agent 增强
一句话评价一个工程完整度远超学术论文平均水平的 Agent 技能基础设施,实验有说服力但真实场景验证不足