AI Research

04. KARL 逐段导读:带着知识读原文

04. KARL 逐段导读:带着知识读原文

学完前三章,你已经有足够的背景知识。这篇带你按原文结构过一遍 KARL,每一节标出:核心论点、关键证据、你该重点看的图/表


Section 1 Introduction

核心论点

现有的 deep research 方案依赖公开网页搜索引擎,无法证明它们的能力能泛化到企业内部数据上的 grounded reasoning。KARL 要回答:能否用 RL 训练一个在闭合语料库上泛化的知识 Agent?

你该看

  • 四个贡献列表(文末):KARLBench / Agentic Synthesis / OAPL / TTC
  • Figure 1:成本-质量 Pareto 图,一眼看出 KARL 的位置

Section 2 KARLBench

核心论点

6 个任务覆盖两种结构性不同的搜索能力:

  • 深搜(Deep Search):BrowseComp-Plus——反复缩小范围,找唯一实体
  • 广搜(Wide Search):TREC-Biogen——大范围收集,综合报告

加上 4 个分布外任务测泛化。

你该看

  • Table 1:任务类型一览
  • Table 2:数据规模(注意 TREC-Biogen 的 2680 万文档)
  • 任务设计哲学:闭合语料库 + 单工具约束 + Nugget 评估

Section 3 Agent Harness

核心论点

Agent 只有一个工具(vector search),刻意隔离检索+推理能力。上下文压缩端到端纳入 RL 训练。

你该看

  • “compression is trained end-to-end with RL”——这句话是理解 KARL 压缩设计的钥匙
  • Table 6:压缩交叉实验,证明 RL 训练的压缩能力本身有独立价值

Section 4 Training KARL

4.1 Agentic Data Synthesis

核心流程:

种子示例 → 合成 Agent 探索语料库 → 生成 QA → Solver 尝试 → pass-rate 过滤 → 质量过滤

关键设计:保留”半对半错”的样本(有学习信号),删除全对(太简单)和全错(噪声)。

4.2 OAPL

你已经在第二章学过了。重点关注:

  • 两个独立 β 参数(β₁ 控制 V̂* 估计,β₂ 控制 KL)
  • Token 掩码(只训模型生成的部分)
  • 轨迹在压缩步骤处切分

4.3 Multi-task RL

简单到令人意外:直接合并两个任务的损失,按 token 量平衡比例。没有任务权重调节、没有 curriculum。

你该看

  • Eq.(1):KL 正则化目标(你现在应该能读懂了)
  • 4.2 节的分段描述:怎么处理长轨迹

Section 5 Test-time Compute

核心论点

两种互补策略:

  • Parallel Thinking:通用,N 条并行 rollout + generative aggregator
  • VGS:任务特化,每步用 value model 选最优候选

关键证据

  • PMBench 上 23.7% 的时候 aggregator 优于所有单条轨迹
  • N=15 后收益递减
  • VGS 的 WMV 聚合优于 MV 和 BoN

你该看

  • Table 7:Parallel Thinking 详细结果
  • Figure 14:VGS 在 BrowseComp-Plus 上的扩展曲线

Section 6 Infrastructure

核心论点

aroll 框架的三层抽象(Exploration Strategy / Environment / Agent)实现了训练-推理同构。

你该看

  • 500+ QPS/host 的嵌入式向量检索
  • Lifecycle Plugin 的设计模式
  • 同构的工程意义:消除分布偏移

Section 7 Experiments(最重要的一节)

7.1 主结果(Table 4)

关键数据点:

  • 无 TTC 的 KARL(58.9)已接近 Claude 4.5 Sonnet(58.6)
  • KARL par. N=10(67.5)= Claude 4.6 Opus(67.5)
  • KARL par. N=20(68.1)超过所有模型

7.2 成本和延迟

  • 单次 KARL 不到 $0.10/query
  • 比基座 GLM 4.5 Air 还便宜(因为 RL 让搜索更高效,步数更少)
  • KARL N=10 匹配 Opus 质量,成本低 33%,延迟低 47%

7.3.3 蒸馏 vs RL(Figure 8)

蒸馏 + TTC 在分布外几乎不涨(+0.2),KARL + TTC 在分布外大涨(+9.0)。

这是论文最有说服力的论证之一:RL 学的是通用策略,蒸馏学的是任务特定行为。

7.3.4 多轮迭代

3 轮都有提升,没到平台期。分布外任务也同步改善。

7.3.5 RL beyond sharpening(Figure 10-11)

max@k 在所有 k 值提升 → 能力边界真正扩展了,不只是 sharpening。

训练后 max@2 > 基座 max@16。

7.3.6 消融实验(Table 5-6)

  • 移除压缩工具:0.570 → 0.389(大幅下降)
  • 换 Embedding 模型:几乎不变(没有过拟合特定 retriever)
  • 搜索步数 200-400 趋于平稳
  • k=40 检索急剧下降(文档填满窗口没空间推理)

你该看

  • Table 4Figure 1Figure 8Figure 10-11Table 5-6

Section 8 Understanding RL Impact

核心论点

RL 改变了三种行为:

  1. 搜索效率:91 步 → 32 步(在文档召回相同的情况下)
  2. 搜索多样性:独特文档检索量增加 37%(BCP)/ 8%(TREC)
  3. 减少无效搜索:找到所有证据后不再继续搜

定性案例

  • Claude 4.5 Sonnet 25 步后放弃,KARL 在第 155 步找到答案(坚持性)
  • 基座模型 69 步最终选错,KARL 7 步就选对(效率)

你该看

  • Figure 19:搜索步数对比
  • Table 14(附录):重复搜索模式案例

读完之后

你现在可以回答关于 KARL 的三个核心问题:

  1. 解决了什么问题? → 在企业闭合语料库上的多步 grounded reasoning,用 RL 训练通用搜索 Agent

  2. 方法为什么可能有效? → 多任务 RL 学到通用搜索策略(不是任务特定行为),OAPL 对 MoE 稳定且高效,端到端压缩让 Agent 自主管理上下文

  3. 证据是否充分? → 6 个任务(2 分布内 + 4 分布外)、多基线对比、蒸馏 vs RL、迭代增益、max@k 边界扩展、行为分析——论证非常完整

现在去读 KARL 深度解读全文