OpenClaw-RL:让 Agent 边用边学——用 Next-State Signal 统一所有交互类型的在线 RL 训练
OpenClaw-RL:让 Agent 边用边学——用 Next-State Signal 统一所有交互类型的在线 RL 训练
论文:OpenClaw-RL: Train Any Agent Simply by Talking
作者:Ling Yang 等(Gen-Verse)
Agent 每次交互都在产生训练信号——用户回复、工具输出、终端状态变化——但现有系统全部丢弃了这些信号。OpenClaw-RL 是第一个将这些”免费”信号统一回收、实现 Agent 在线持续学习的 RL 框架。
一、这篇论文在解决什么问题
1.1 背景
当前 Agent RL 训练面临一个核心矛盾:训练和部署是割裂的。无论是 RLHF、DPO 还是 GRPO/DAPO,它们都在”先收集数据、再离线训练”的范式下运行。Agent 被部署后,每天处理大量用户请求、执行工具调用、与终端交互——这些交互天然产生了海量的反馈信号:用户说”不对”、工具返回错误、测试没通过——但这些信号被当作”上下文”传给下一轮,从未被回收为训练数据。
更糟糕的是,不同类型的 Agent 交互(对话、终端、GUI、SWE、工具调用)被视为完全不同的训练问题,各自需要专门的训练管线和数据管道。这导致了巨大的工程冗余和数据浪费。
1.2 核心问题
论文要回答两个问题:
-
能否将所有 Agent 交互产生的 next-state signal 统一为在线学习源? 即:对话中的用户回复、终端的 stdout/stderr、GUI 的状态变化、SWE 的测试结果——能否在同一个训练循环中使用?
-
next-state signal 中除了”好/坏”的评价信息,还包含了”应该怎么做”的方向信息——能否将这种方向信息也转化为训练信号?
二、方法:怎么解决的
2.1 核心 Insight
Next-state signal 编码了两种可恢复的信息,而现有系统两种都在浪费:
- Evaluative signal(评价信号):用户重新提问 = 不满意,测试通过 = 做对了,报错 = 做错了。这本质是一个 process reward,可以直接转化为标量奖励。
- Directive signal(指令信号):用户说”你应该先检查文件再编辑”,编译器给出详细错误信息——这不仅告诉你做错了,还告诉你哪些 token 应该不同以及怎么改。标量奖励完全无法捕捉这种信息。
OpenClaw-RL 同时恢复两种信号,通过两个互补的方法:Binary RL 和 Hindsight-Guided On-Policy Distillation (OPD)。
2.2 技术细节
Binary RL:从评价信号到标量奖励
给定 Agent 的响应 和下一状态 ,PRM Judge 评分:
用 次独立评估 + 多数投票确定最终奖励。训练使用标准的 PPO 裁剪替代目标,直接用 作为 advantage。
关键细节:使用了非对称裁剪——上界 大于下界 ,这意味着对正奖励的响应允许更大的策略更新幅度,鼓励模型更大胆地学习成功行为。
OPD:从指令信号到 token 级方向监督
这是论文最精彩的部分。OPD 的四步流程:
Step 1 — Hindsight hint 提取:Judge 从 中提炼出 1-3 句简洁的”应该怎么做”的提示。注意:不直接使用原始 ,因为用户回复可能夹杂无关内容,Judge 的作用是提纯指令信号。
Step 2 — 质量过滤:只保留有效 hint(>10 字符),选最长(最具信息量)的。没有有效 hint?直接丢弃这个样本。OPD 用样本数量换信号质量。
Step 3 — 增强教师构建:把 hint 追加到原始 prompt 中,构造 。直觉上,这相当于”如果用户一开始就告诉你应该怎么做,你会怎么回答”。
Step 4 — Token 级 advantage:用同一个模型在增强 prompt 下对原始响应 计算 log 概率,然后取差:
- :知道 hint 的”老师”认为这个 token 应该加强
- :这个 token 应该抑制
这与标量奖励的本质区别在于:同一个响应中,某些 token 被加强,某些被抑制——这是 per-token 级别的方向引导,信息密度远超 。
Binary + OPD 联合训练
两个方法共享 PPO 损失框架,差异仅在 advantage 计算。联合 advantage:
。Binary RL 提供全覆盖粗粒度信号(每个 scored turn 都有梯度),OPD 提供局部高精度信号(只在有 directive 信号的 turn 才有梯度,但精度极高)。
异步四组件架构
graph LR
A[SGLang Policy Serving] -->|live requests| B[Environment Server]
B -->|next-state signal| C[PRM Judge]
C -->|rewards| D[Megatron Trainer]
D -->|weight update| A
四个组件完全解耦,异步运行,零协调开销。模型在服务用户的同时被训练——这是实现”边用边学”的系统基础。
2.3 方法对比
| 方法 | 信号类型 | 训练模式 | 是否需要外部 teacher | 信号粒度 | 数据需求 |
|---|---|---|---|---|---|
| RLHF | 人类偏好 | 离线 | 是(reward model) | 序列级 | 大量标注 |
| DPO | 配对偏好 | 离线 | 否 | 序列级 | 配对数据 |
| GRPO/DAPO | 可验证奖励 | 批次 | 否 | 序列级 | 无标注但需批量 |
| OpenClaw-RL Binary | 交互信号 | 在线 | PRM judge | 序列级 | 零额外数据 |
| OpenClaw-RL OPD | 交互信号 | 在线 | 自身(增强上下文) | Token 级 | 零额外数据 |
三、实验结果
3.1 实验设置
Personal Agent 实验(模拟):
- 模型:Qwen3-4B
- 场景 1(Student):学生用 Agent 做作业,不想被发现在用 AI → Agent 需要学习自然写作风格
- 场景 2(Teacher):老师用 Agent 批改作业,希望评语友好且具体 → Agent 需要学习评语风格
General Agent 实验:
- Terminal:Qwen3-8B,SETA 数据,128 并行环境
- GUI:Qwen3VL-8B-Thinking,OSWorld-Verified,64 并行环境
- SWE:Qwen3-32B,SWE-Bench-Verified,64 并行环境
- Tool-call:Qwen3-4B-SFT,DAPO 数据,32 并行环境
3.2 主要结果
Personal Agent(核心发现):
| 方法 | 8 步更新 | 16 步更新 |
|---|---|---|
| Binary RL | 0.25 | 0.23 |
| OPD | 0.25 | 0.72 |
| Combined | 0.76 | 0.81 |
基线分数 0.17。几个关键解读:
- Binary RL 单独效果有限(0.25 → 0.23,甚至略降),因为标量奖励在风格个性化任务中信息密度太低
- OPD 需要时间生效:8 步时和 Binary RL 持平,但到 16 步时飙升到 0.72——因为 OPD 的训练样本稀疏(严格过滤),需要更多交互才能积累足够的高质量样本
- Combined 方法最强:0.81,比单独 Binary RL 提升 3.5x,比单独 OPD 提升 12.7%
General Agent:
| 设置 | 集成奖励 | 仅结果奖励 |
|---|---|---|
| Tool-call | 0.30 | 0.17 |
| GUI | 0.33 | 0.31 |
Tool-call 设置中,集成 process reward 带来 76% 的相对提升(0.17→0.30),验证了 next-state signal 作为过程奖励在长程 Agent 任务中的价值。
3.3 消融实验
论文最有说服力的消融是 Binary vs OPD vs Combined 的对比(Table 3)。它揭示了一个重要的动态:
- 早期(8 步):Binary RL 和 OPD 效果相当,但 Combined 已经显著领先(0.76 vs 0.25)——这说明两种信号的互补性在训练早期就发挥了作用
- 后期(16 步):OPD 独立表现爆发式增长(0.25→0.72),但 Combined 仍优于 OPD(0.81 vs 0.72)——Binary RL 的”全覆盖粗粒度”梯度为 OPD 提供了更稳定的训练基底
四、复现与落地评估
4.1 复现难度评估
| 维度 | 评级 | 说明 |
|---|---|---|
| 代码开源 | ✅ | GitHub 已开源,基于 slime 框架 |
| 数据可得性 | ✅ | Personal Agent 用 GSM8K(公开),General Agent 用公开 benchmark |
| 算力需求 | 高 | 需要同时运行 SGLang 推理 + Megatron 训练 + PRM Judge,最小配置估计 4×A100 |
| 依赖复杂度 | 高 | 依赖 slime、SGLang、Megatron 三个框架的协同,环境配置复杂 |
| 复现总评 | ⭐⭐⭐ | 代码开源是加分项,但系统复杂度高,需要较强工程能力 |
4.2 工业落地可行性
- 适用场景:Personal Agent 持续优化(最直接的落地点)、大规模 Agent RL 训练平台
- 性能开销:异步设计对推理延迟几乎零影响(graceful weight update),但需要额外的 PRM Judge 算力
- 集成难度:需要在现有 Agent 框架中插入训练管线,对系统架构有侵入性
- 风险点:在线训练的稳定性——策略可能因噪声信号(用户自身的错误被误判为 Agent 的失败)而退化
- 落地总评:⭐⭐⭐ — 概念极其强大,但完整部署需要显著的基础设施投入
五、SOTA 对照矩阵
| 方法 | 核心思路 | 训练模式 | 信号粒度 | 是否在线 | 多场景统一 |
|---|---|---|---|---|---|
| OpenClaw-RL | Next-state signal → Binary RL + OPD | 在线异步 | Token 级 | ✅ | ✅ 5 种场景 |
| GRPO/DAPO | 组内标准化可验证奖励 | 批次离线 | 序列级 | ❌ | ❌ 单场景 |
| RLAnything | Process + Outcome reward 集成 | 批次离线 | Step 级 | ❌ | ✅ 3 种场景 |
| DemyAgent | 数据质量 + reward model 优化 | 批次离线 | 序列级 | ❌ | ❌ 单场景 |
| Self-Rewarding | 自身作为 judge 迭代改进 | 离线迭代 | 序列级 | ❌ | ❌ |
版图定位:OpenClaw-RL 是范式突破而非增量改进——它第一次实现了从离线批量训练到在线持续学习的跨越,且统一了 5 种不同的 Agent 交互类型。OPD 的 token 级方向监督是方法论上的核心创新。
六、讨论与局限
6.1 论文自身讨论的局限
- Personal Agent 实验基于 LLM 模拟用户,不是真实用户交互
- General Agent 实验中 PRM Judge 需要额外算力资源
- 尚未在超大规模模型(>32B)上验证
6.2 我的额外观察
1. PRM Judge 的准确性是整个系统的天花板。如果 Judge 把用户的”追问”(其实是好奇,不是不满)判为负奖励,模型会学到错误信号。论文使用多数投票缓解,但根本问题未解决——尤其在 Personal Agent 场景,用户行为的噪声比 SWE 测试结果大得多。
2. OPD 的”自蒸馏”假设需要质疑。OPD 用同一个模型在增强上下文下作为”老师”——但如果模型本身能力不足,即使给了 hint,它也不能产生高质量的 token 分布。这意味着 OPD 的有效性可能与模型基础能力高度相关,较弱的模型可能无法从 OPD 中受益。
3. 在线训练的稳定性风险。论文的实验是在模拟环境中进行的短程训练(16-250 步)。在真实部署中,长期在线训练可能面临分布漂移、灾难性遗忘等问题。论文的 KL 惩罚()可能不足以防止长期退化。
4. 隐私与安全。Personal Agent 场景中,用户的对话内容被发送到 RL 服务器用于训练。虽然论文提到了 confidential API,但具体的隐私保护机制(差分隐私、联邦学习等)未详细讨论。
七、对我们的启示
谁应该关注:Agent 框架开发者、RL 研究者、Personal AI 产品团队
核心 Takeaway:
- Next-state signal 是被严重浪费的金矿。如果你运行任何 Agent 服务,立即开始系统化地记录所有 next-state signal——这些是未来在线学习的训练数据
- OPD 的”同模型增强上下文 = 老师”是一个强大的范式。不需要更强的外部 teacher,只需给模型”后见之明”的提示,就能产生比原始响应更好的 token 分布
- Binary RL 和 OPD 的互补性不是可选的优化,而是系统设计的必需。前者提供覆盖面,后者提供精度——缺一不可
- 统一训练循环的工程价值巨大。5 种不同的 Agent 场景共用一个训练管线,极大降低了 RL 训练的系统复杂度
实践建议:
- 在你的 Agent 系统中添加 next-state signal 的结构化日志——即使暂时不训练,这些数据的价值会随时间增长
- 评估 OPD 的核心组件是否可以独立使用——hint 提取 + 增强上下文 + token 级 advantage 计算,不一定需要完整的在线 RL 管线
- 关注 OpenClaw-RL 的开源代码进展,尤其是 Personal Agent 的真实用户实验结果
论文速查卡
| 项目 | 内容 |
|---|---|
| 标题 | OpenClaw-RL: Train Any Agent Simply by Talking |
| 作者 | Ling Yang 等, Gen-Verse |
| 链接 | arXiv:2603.10165 |
| 发表 | 预印本, 2026-03-10 |
| 一句话总结 | 将所有 Agent 交互产生的 next-state signal(用户回复、工具输出、环境状态变化)统一回收为在线 RL 训练信号,通过 Binary RL(评价信号→标量奖励)和 OPD(指令信号→token 级方向监督)两种互补方法,实现 Agent 边用边学 |
| 大白话版 | 想象你有个助手,每次你跟他说”不对,应该先查文件”,他不但记住了”做错了”,还记住了”下次先查文件”这个具体建议——而且他在帮你干活的同时就在学,不用下班后专门补课 |
| 核心数字 | Combined 方法个性化得分 0.81(vs Binary RL 0.23 / OPD 0.72);Tool-call 集成奖励 76% 相对提升 |
| 复现评级 | ⭐⭐⭐ |
| 落地评级 | ⭐⭐⭐ |