AI Research

04. KARL 逐段导读：带着知识读原文

学完前三章，你已经有足够的背景知识。这篇带你按原文结构过一遍 KARL，每一节标出：核心论点、关键证据、你该重点看的图/表。

Section 1 Introduction

核心论点

现有的 deep research 方案依赖公开网页搜索引擎，无法证明它们的能力能泛化到企业内部数据上的 grounded reasoning。KARL 要回答：能否用 RL 训练一个在闭合语料库上泛化的知识 Agent？

你该看

四个贡献列表（文末）：KARLBench / Agentic Synthesis / OAPL / TTC
Figure 1：成本-质量 Pareto 图，一眼看出 KARL 的位置

Section 2 KARLBench

核心论点

6 个任务覆盖两种结构性不同的搜索能力：

深搜（Deep Search）：BrowseComp-Plus——反复缩小范围，找唯一实体
广搜（Wide Search）：TREC-Biogen——大范围收集，综合报告

加上 4 个分布外任务测泛化。

你该看

Table 1：任务类型一览
Table 2：数据规模（注意 TREC-Biogen 的 2680 万文档）
任务设计哲学：闭合语料库 + 单工具约束 + Nugget 评估

Section 3 Agent Harness

核心论点

Agent 只有一个工具（vector search），刻意隔离检索+推理能力。上下文压缩端到端纳入 RL 训练。

你该看

“compression is trained end-to-end with RL”——这句话是理解 KARL 压缩设计的钥匙
Table 6：压缩交叉实验，证明 RL 训练的压缩能力本身有独立价值

Section 4 Training KARL

4.1 Agentic Data Synthesis

核心流程：

种子示例 → 合成 Agent 探索语料库 → 生成 QA → Solver 尝试 → pass-rate 过滤 → 质量过滤

关键设计：保留”半对半错”的样本（有学习信号），删除全对（太简单）和全错（噪声）。

4.2 OAPL

你已经在第二章学过了。重点关注：

两个独立 β 参数（β₁ 控制 V̂* 估计，β₂ 控制 KL）
Token 掩码（只训模型生成的部分）
轨迹在压缩步骤处切分

4.3 Multi-task RL

简单到令人意外：直接合并两个任务的损失，按 token 量平衡比例。没有任务权重调节、没有 curriculum。

你该看

Eq.(1)：KL 正则化目标（你现在应该能读懂了）
4.2 节的分段描述：怎么处理长轨迹

Section 5 Test-time Compute

核心论点

两种互补策略：

Parallel Thinking：通用，N 条并行 rollout + generative aggregator
VGS：任务特化，每步用 value model 选最优候选

关键证据

PMBench 上 23.7% 的时候 aggregator 优于所有单条轨迹
N=15 后收益递减
VGS 的 WMV 聚合优于 MV 和 BoN

你该看

Table 7：Parallel Thinking 详细结果
Figure 14：VGS 在 BrowseComp-Plus 上的扩展曲线

Section 6 Infrastructure

核心论点

aroll 框架的三层抽象（Exploration Strategy / Environment / Agent）实现了训练-推理同构。

你该看

500+ QPS/host 的嵌入式向量检索
Lifecycle Plugin 的设计模式
同构的工程意义：消除分布偏移

Section 7 Experiments（最重要的一节）

7.1 主结果（Table 4）

关键数据点：

无 TTC 的 KARL（58.9）已接近 Claude 4.5 Sonnet（58.6）
KARL par. N=10（67.5）= Claude 4.6 Opus（67.5）
KARL par. N=20（68.1）超过所有模型

7.2 成本和延迟

单次 KARL 不到 $0.10/query
比基座 GLM 4.5 Air 还便宜（因为 RL 让搜索更高效，步数更少）
KARL N=10 匹配 Opus 质量，成本低 33%，延迟低 47%

7.3.3 蒸馏 vs RL（Figure 8）

蒸馏 + TTC 在分布外几乎不涨（+0.2），KARL + TTC 在分布外大涨（+9.0）。

这是论文最有说服力的论证之一：RL 学的是通用策略，蒸馏学的是任务特定行为。

7.3.4 多轮迭代

3 轮都有提升，没到平台期。分布外任务也同步改善。

7.3.5 RL beyond sharpening（Figure 10-11）

max@k 在所有 k 值提升 → 能力边界真正扩展了，不只是 sharpening。

训练后 max@2 > 基座 max@16。

7.3.6 消融实验（Table 5-6）

移除压缩工具：0.570 → 0.389（大幅下降）
换 Embedding 模型：几乎不变（没有过拟合特定 retriever）
搜索步数 200-400 趋于平稳
k=40 检索急剧下降（文档填满窗口没空间推理）

你该看

Table 4、Figure 1、Figure 8、Figure 10-11、Table 5-6

Section 8 Understanding RL Impact

核心论点

RL 改变了三种行为：

搜索效率：91 步 → 32 步（在文档召回相同的情况下）
搜索多样性：独特文档检索量增加 37%（BCP）/ 8%（TREC）
减少无效搜索：找到所有证据后不再继续搜

定性案例

Claude 4.5 Sonnet 25 步后放弃，KARL 在第 155 步找到答案（坚持性）
基座模型 69 步最终选错，KARL 7 步就选对（效率）

你该看

Figure 19：搜索步数对比
Table 14（附录）：重复搜索模式案例

读完之后

你现在可以回答关于 KARL 的三个核心问题：

解决了什么问题？ → 在企业闭合语料库上的多步 grounded reasoning，用 RL 训练通用搜索 Agent
方法为什么可能有效？ → 多任务 RL 学到通用搜索策略（不是任务特定行为），OAPL 对 MoE 稳定且高效，端到端压缩让 Agent 自主管理上下文
证据是否充分？ → 6 个任务（2 分布内 + 4 分布外）、多基线对比、蒸馏 vs RL、迭代增益、max@k 边界扩展、行为分析——论证非常完整

现在去读 KARL 深度解读全文。