KARL:用多任务 RL 训练企业搜索 Agent,成本优于 Claude 4.6
KARL:用多任务 RL 训练企业搜索 Agent,成本优于 Claude 4.6
论文:Knowledge Agents via Reinforcement Learning
作者:Jonathan D. Chang, Andrew Drozdov, Shubham Toshniwal 等 26 人(Databricks)
通过合成数据 + 多任务 off-policy RL 训练的企业搜索 Agent,在成本-质量和延迟-质量 trade-off 上 Pareto 优于 Claude 4.6 和 GPT 5.2——包括训练时没见过的任务。
一、这篇论文在解决什么问题
1.1 背景
知识 Agent(能迭代查询、检索、推理的系统)是当前最有经济价值的 AI 应用之一——金融、法律、医疗、制造等行业都依赖大量私有数据做”基于证据的推理”(grounded reasoning)。
但现有方案有两个根本问题:
- 评估碎片化:HotpotQA 只测多跳 QA、BrowseComp 只测约束搜索、FinanceBench 只测数字推理——没有统一基准衡量”综合搜索能力”
- 单任务训练不泛化:在约束搜索上训练的 Agent 不会做报告综合,在数字推理上训练的不会做穷尽检索
1.2 核心问题
能否通过异构任务的多任务 RL 训练,让搜索 Agent 在未见过的任务类型上也表现出色?
二、方法:怎么解决的
2.1 核心 Insight
搜索行为的泛化来自异构性训练。 在多种结构性不同的搜索任务上联合训练,比在任何单一任务上深度训练都能产生更好的 OOD 泛化。
2.2 技术细节
KARL 系统包含三个核心组件:
1. KARLBench:6 种搜索能力评估套件
| 任务 | 能力 | 特点 |
|---|---|---|
| BrowseComp-Plus | 约束实体搜索 | 渐进过滤,找唯一满足所有属性的实体 |
| TREC-Biogen | 跨文档报告综合 | 从多篇生物医学文献整合结构化报告 |
| FinanceBench | 表格数字推理 | 在 100+ 页财报中定位并计算 |
| QAMPARI | 穷尽实体检索 | 找出满足条件的所有实体 |
| FreshStack | 技术文档程序推理 | 从代码和文档合成分步解决方案 |
| PMBench | 企业笔记事实聚合 | 从嘈杂内部文档中提取分散事实 |
统一评估标准:nugget-based completion——将答案分解为独立的信息原子(nugget),逐个验证覆盖率。
2. Agentic 合成数据管线
graph TD
A[语料库] -->|Vector Search 探索| B[Agent 生成 QA 对]
B -->|质量过滤| C[训练数据 v1]
C -->|训练| D[更强的 Agent v1]
D -->|用 v1 生成更难的 QA| E[训练数据 v2]
E -->|训练| F[更强的 Agent v2]
F -->|...| G[迭代自举]
关键创新:Agent 自己用 vector search 探索语料库来生成问答对——不是靠人工或 LLM prompt 凭空编造,而是 grounded in retrieved evidence。训练出更强模型后,再用更强模型生成更难的数据,形成自举循环。
3. OAPL:大批次 Off-Policy RL
传统 GRPO 训练需要 on-policy rollout 与 trainer 严格同步,对大规模 MoE 模型很脆弱。OAPL 的核心思路是拥抱 off-policyness:
- 不再要求 rollout 和训练严格同步
- 不需要 clipped importance weighting、数据删除等稳定化 hack
- 直接在异构任务的混合 loss 上训练
- 多任务训练只需简单组合 BrowseComp-Plus 和 TREC-Biogen 的 loss
Agent 只有一个工具:vector search。通过自动上下文压缩管理长交互历史。
2.3 方法对比
| 系统 | 训练方式 | 搜索工具 | 多任务 | OOD 泛化 |
|---|---|---|---|---|
| Deep Research (OpenAI) | 未公开 | Web search | 未知 | 有限 |
| BrowseComp Agent | 单任务 RL | Web search | ✗ | ✗ |
| KARL | 多任务 RL | Vector search | ✓ | ✓ |
三、实验结果
3.1 实验设置
- 基础模型:GLM 4.5 Air
- 训练任务:BrowseComp-Plus + TREC-Biogen(2 个 in-distribution)
- 评测任务:以上 2 个 + FinanceBench, QAMPARI, FreshStack, PMBench(4 个 OOD)
- 基线:Claude 4.6(Sonnet + Opus), GPT 5.2
- 评估:nugget-based completion,统一 grading
3.2 主要结果
Pareto 最优:在成本-质量和延迟-质量平面上,KARL 始终优于 Claude 4.6 和 GPT 5.2:
- 同等质量 → 更低成本和延迟
- 3 个并行 rollout → 超越 Sonnet 4.6
- 10 个并行 rollout → 匹配 Opus 4.6(最强闭源模型)
多任务 vs 单任务训练的关键发现:
- 在 BrowseComp-Plus + TREC-Biogen 上联合训练,两个任务同时提升
- 4 个 OOD 任务(从未训练过的任务类型)也获得一致性改善
- 这证明了”搜索行为的异构性训练产生泛化”的核心论点
3.3 消融实验
合成数据质量 > 数量:Agent 自己生成的 grounded 数据比 prompt-only 生成的数据质量高很多,因为每个 QA 对都有 vector search 检索到的证据支撑。
迭代自举有效:用 v1 模型生成的数据训练 v2,v2 在所有任务上都优于 v1。
上下文压缩是关键:长 rollout 中的自动压缩机制通过 RL 端到端训练(而非独立预训练),效果显著优于独立压缩模型。
四、复现与落地评估
4.1 复现难度评估
| 维度 | 评级 | 说明 |
|---|---|---|
| 代码开源 | ❌ | 论文 77 页但代码未开源 |
| 数据可得性 | ⚠️ | KARLBench 中 BrowseComp-Plus 等公开,PMBench 私有 |
| 算力需求 | 极高 | 大规模 MoE 模型 RL 训练,需要大量 GPU |
| 依赖复杂度 | 高 | 需要 vLLM、RL 训练框架、vector search 基础设施 |
| 复现总评 | ⭐⭐ | 工业级系统,短期内难以复现 |
4.2 工业落地可行性
- 适用场景:企业内部文档搜索、合规审查、研究助手
- 性能开销:test-time compute scaling(多 rollout)可控
- 集成难度:需要 vector search 基础设施 + 自定义 RL 训练管线
- 风险点:vector search 作为唯一工具是简化假设,真实企业需要 SQL、API 等
- 落地总评:⭐⭐⭐(思路好,但执行门槛高)
五、SOTA 对照矩阵
| 系统 | 核心思路 | KARLBench 综合 | 成本 | 延迟 | OOD 泛化 |
|---|---|---|---|---|---|
| KARL | 多任务 RL + 合成数据 | Pareto 最优 | 低 | 低 | ✓ |
| Claude Opus 4.6 | 通用大模型 + 工具 | 最高质量 | 极高 | 高 | — |
| Claude Sonnet 4.6 | 通用大模型 + 工具 | 中上 | 高 | 中 | — |
| GPT 5.2 | 通用大模型 + 工具 | 中 | 高 | 中 | — |
KARL 的定位:不是”更强的通用模型”,而是”搜索场景下的专精 Agent”。在特定领域用更少成本达到或超过通用大模型的效果——这才是 Agent 的商业价值所在。
六、讨论与局限
6.1 论文自身讨论的局限
- 只用 vector search 作为工具,不覆盖多工具场景
- PMBench 为内部基准,外部无法独立验证
- 基于 GLM 4.5 Air,不是最强的基础模型
6.2 我的额外观察
- “在自己的基准上 Pareto 最优”有多可信? KARLBench 是 KARL 团队自己设计的,基准和方法同源会引入偏差。需要等待独立团队在相同基准上复现
- vector search only 的局限性被低估了:企业搜索中,很多关键信息在结构化数据(SQL)、API、或需要多跳网页浏览才能获取——纯 vector search 是理想化假设
- 合成数据的自举循环是否会收敛? 论文展示了 v1→v2 的提升,但长期迭代是否会饱和或引入偏差未讨论
- OAPL 的通用性:off-policy RL 训练范式的简化非常有工程价值,但论文对其理论性质(收敛性、样本效率 bound)讨论不足
七、对我们的启示
- 谁应该关注? 在做企业 RAG/搜索 Agent 的工程师和研究者
- 核心 takeaway:
- 多任务 RL 训练产生的 OOD 泛化比单任务深度训练更有价值
- Agent 自己生成 grounded 训练数据(agentic synthesis)比纯 LLM 合成更可靠
- Nugget-based 评估是统一不同搜索任务评价的好方法
- 专精 Agent 可以在成本上碾压通用大模型
- 实践建议:
- 用 nugget-based 评估框架统一你的 RAG 评测(不同任务类型可比较)
- 如果你的 Agent 有搜索能力,尝试让它自己生成训练数据
- 不要在单一任务上过度训练——混合不同类型的搜索任务
论文速查卡
| 项目 | 内容 |
|---|---|
| 标题 | Knowledge Agents via Reinforcement Learning |
| 作者 | Jonathan D. Chang 等 26 人, Databricks |
| 链接 | arXiv:2603.05218 |
| 发表 | 预印本 (2026.03.05), 77 页 |
| 一句话总结 | 通过异构搜索任务的多任务 off-policy RL + agentic 合成数据,训练出在成本-质量 trade-off 上 Pareto 优于 Claude 4.6 和 GPT 5.2 的企业搜索 Agent |
| 大白话版 | 就像一个学生同时练习了找人、写报告、算数学题等各种作业,结果连没练过的新题型也做得比单科尖子生更好——因为他学会了”怎么学习”而不只是”怎么做某道题” |
| 核心数字 | Pareto 优于 Claude 4.6(同等质量更低成本),10 rollout 匹配 Opus 4.6 |
| 复现评级 | ⭐⭐ |
| 落地评级 | ⭐⭐⭐ |
Part B:核心逻辑链与根本价值提炼
核心四要素
| 要素 | 内容 |
|---|---|
| 根本问题 | 知识搜索 Agent 的训练通常针对单一任务类型,无法泛化到结构不同的搜索场景(约束搜索 vs 综合报告 vs 数字推理),且缺乏统一评估基准 |
| 切入视角 | 搜索行为的底层能力(信息获取 + 证据推理)是跨任务共享的——异构任务联合训练应能产生比单任务更强的泛化 |
| 关键方法 | KARLBench(6 种搜索能力评估)+ Agentic 合成数据(Agent 用 vector search 探索语料库自动生成 QA)+ OAPL(大批次 off-policy RL 多任务训练) |
| 核心发现 | 在 2 种任务上训练的 KARL 在 6 种任务(含 4 种 OOD)上 Pareto 优于 Claude 4.6 和 GPT 5.2,证明异构训练产生通用搜索能力 |
方法公式化
通用搜索 Agent = Agentic 合成数据(Agent 自己探索生成 grounded QA) × 多任务 RL(异构搜索行为联合训练) × Test-time Scaling(多 rollout 并行)
最终双重总结
一句话总结(核心价值):KARL 通过在结构性不同的搜索任务上进行多任务 off-policy RL 训练(配合 Agent 自主生成的 grounded 合成数据),证明了异构搜索训练能产生 OOD 泛化,使中等大小的开放模型在成本-质量 trade-off 上超越 Claude 4.6 和 GPT 5.2。
一句话总结(大白话版):教一个学生同时做各种不同类型的调研作业(找人、写报告、算账),比只教他做一种要有效得多——因为他学会了”怎么查资料和思考”这个通用技能,连没见过的新题型都能做好。