04. KARL 逐段导读:带着知识读原文
04. KARL 逐段导读:带着知识读原文
学完前三章,你已经有足够的背景知识。这篇带你按原文结构过一遍 KARL,每一节标出:核心论点、关键证据、你该重点看的图/表。
Section 1 Introduction
核心论点
现有的 deep research 方案依赖公开网页搜索引擎,无法证明它们的能力能泛化到企业内部数据上的 grounded reasoning。KARL 要回答:能否用 RL 训练一个在闭合语料库上泛化的知识 Agent?
你该看
- 四个贡献列表(文末):KARLBench / Agentic Synthesis / OAPL / TTC
- Figure 1:成本-质量 Pareto 图,一眼看出 KARL 的位置
Section 2 KARLBench
核心论点
6 个任务覆盖两种结构性不同的搜索能力:
- 深搜(Deep Search):BrowseComp-Plus——反复缩小范围,找唯一实体
- 广搜(Wide Search):TREC-Biogen——大范围收集,综合报告
加上 4 个分布外任务测泛化。
你该看
- Table 1:任务类型一览
- Table 2:数据规模(注意 TREC-Biogen 的 2680 万文档)
- 任务设计哲学:闭合语料库 + 单工具约束 + Nugget 评估
Section 3 Agent Harness
核心论点
Agent 只有一个工具(vector search),刻意隔离检索+推理能力。上下文压缩端到端纳入 RL 训练。
你该看
- “compression is trained end-to-end with RL”——这句话是理解 KARL 压缩设计的钥匙
- Table 6:压缩交叉实验,证明 RL 训练的压缩能力本身有独立价值
Section 4 Training KARL
4.1 Agentic Data Synthesis
核心流程:
种子示例 → 合成 Agent 探索语料库 → 生成 QA → Solver 尝试 → pass-rate 过滤 → 质量过滤
关键设计:保留”半对半错”的样本(有学习信号),删除全对(太简单)和全错(噪声)。
4.2 OAPL
你已经在第二章学过了。重点关注:
- 两个独立 β 参数(β₁ 控制 V̂* 估计,β₂ 控制 KL)
- Token 掩码(只训模型生成的部分)
- 轨迹在压缩步骤处切分
4.3 Multi-task RL
简单到令人意外:直接合并两个任务的损失,按 token 量平衡比例。没有任务权重调节、没有 curriculum。
你该看
- Eq.(1):KL 正则化目标(你现在应该能读懂了)
- 4.2 节的分段描述:怎么处理长轨迹
Section 5 Test-time Compute
核心论点
两种互补策略:
- Parallel Thinking:通用,N 条并行 rollout + generative aggregator
- VGS:任务特化,每步用 value model 选最优候选
关键证据
- PMBench 上 23.7% 的时候 aggregator 优于所有单条轨迹
- N=15 后收益递减
- VGS 的 WMV 聚合优于 MV 和 BoN
你该看
- Table 7:Parallel Thinking 详细结果
- Figure 14:VGS 在 BrowseComp-Plus 上的扩展曲线
Section 6 Infrastructure
核心论点
aroll 框架的三层抽象(Exploration Strategy / Environment / Agent)实现了训练-推理同构。
你该看
- 500+ QPS/host 的嵌入式向量检索
- Lifecycle Plugin 的设计模式
- 同构的工程意义:消除分布偏移
Section 7 Experiments(最重要的一节)
7.1 主结果(Table 4)
关键数据点:
- 无 TTC 的 KARL(58.9)已接近 Claude 4.5 Sonnet(58.6)
- KARL par. N=10(67.5)= Claude 4.6 Opus(67.5)
- KARL par. N=20(68.1)超过所有模型
7.2 成本和延迟
- 单次 KARL 不到 $0.10/query
- 比基座 GLM 4.5 Air 还便宜(因为 RL 让搜索更高效,步数更少)
- KARL N=10 匹配 Opus 质量,成本低 33%,延迟低 47%
7.3.3 蒸馏 vs RL(Figure 8)
蒸馏 + TTC 在分布外几乎不涨(+0.2),KARL + TTC 在分布外大涨(+9.0)。
这是论文最有说服力的论证之一:RL 学的是通用策略,蒸馏学的是任务特定行为。
7.3.4 多轮迭代
3 轮都有提升,没到平台期。分布外任务也同步改善。
7.3.5 RL beyond sharpening(Figure 10-11)
max@k 在所有 k 值提升 → 能力边界真正扩展了,不只是 sharpening。
训练后 max@2 > 基座 max@16。
7.3.6 消融实验(Table 5-6)
- 移除压缩工具:0.570 → 0.389(大幅下降)
- 换 Embedding 模型:几乎不变(没有过拟合特定 retriever)
- 搜索步数 200-400 趋于平稳
- k=40 检索急剧下降(文档填满窗口没空间推理)
你该看
- Table 4、Figure 1、Figure 8、Figure 10-11、Table 5-6
Section 8 Understanding RL Impact
核心论点
RL 改变了三种行为:
- 搜索效率:91 步 → 32 步(在文档召回相同的情况下)
- 搜索多样性:独特文档检索量增加 37%(BCP)/ 8%(TREC)
- 减少无效搜索:找到所有证据后不再继续搜
定性案例
- Claude 4.5 Sonnet 25 步后放弃,KARL 在第 155 步找到答案(坚持性)
- 基座模型 69 步最终选错,KARL 7 步就选对(效率)
你该看
- Figure 19:搜索步数对比
- Table 14(附录):重复搜索模式案例
读完之后
你现在可以回答关于 KARL 的三个核心问题:
-
解决了什么问题? → 在企业闭合语料库上的多步 grounded reasoning,用 RL 训练通用搜索 Agent
-
方法为什么可能有效? → 多任务 RL 学到通用搜索策略(不是任务特定行为),OAPL 对 MoE 稳定且高效,端到端压缩让 Agent 自主管理上下文
-
证据是否充分? → 6 个任务(2 分布内 + 4 分布外)、多基线对比、蒸馏 vs RL、迭代增益、max@k 边界扩展、行为分析——论证非常完整
现在去读 KARL 深度解读全文。