ExeVRM:用执行视频给 Computer-Use Agent 打分
ExeVRM:用执行视频给 Computer-Use Agent 打分
论文:Video-Based Reward Modeling for Computer-Use Agents
作者:Jieyu Zhang, Huanxin Sheng, Taiwei Shi 等 8 人(USC, UW, MBZUAI, Amazon AGI)
一句话:训练一个视频理解模型来判断 CUA 轨迹是否完成任务,不需要手写规则、不依赖 Agent 内部推理,8B 模型准确率 84.7% 超过 GPT-5.2 的 75.0%。
一、这篇论文在解决什么问题
1.1 背景
Computer-Use Agent(CUA)正在从实验走向生产——Claude 4.5、GPT-5.2、Gemini-3 Pro 都已具备操控桌面和手机界面的能力。但评估这些 Agent 是否真正完成了用户指令,仍然是一个未解决的核心瓶颈。
当前的评估方法有三类,各有致命缺陷:
| 方法 | 原理 | 问题 |
|---|---|---|
| 手写脚本(OSWorld 式) | 针对每个任务编写验证规则 | 无法扩展到新任务/新环境 |
| 最终截图判断(AER) | 只看最后一帧截图 | 忽略过程,无法判断”结果对但路径错” |
| 全截图序列(SE-WSM) | 每帧都喂给 VLM | 单卡 A100 80G 直接 OOM |
1.2 核心问题
能否训练一个通用的奖励模型,仅通过观看 Agent 的”操作录屏”来判断任务完成度? 这要求模型:(1) 处理长时序、高分辨率的 GUI 视频序列,(2) 不依赖 Agent 的内部推理链或动作格式,(3) 对跨平台(Ubuntu/macOS/Windows/Android)的 UI 都有效。
二、方法:怎么解决的
2.1 核心 Insight
执行视频是天然的 Agent 评估信号——它是”方法无关”的。 不管 Agent 用什么推理框架(端到端/工具调用/代码生成),用户看到的界面变化序列是一样的。将评估建立在这个共同表示上,就能绕过”每种 Agent 需要不同评估脚本”的困境。
但 GUI 视频有两个特殊难题:(1) 极度冗余——工具栏、背景、布局在帧间几乎不变,而决定成功的线索可能只是一个小文本框的变化;(2) 负样本稀缺——公开数据集以成功演示为主。
2.2 技术细节
ExeVRM 包含三个关键组件:
组件一:ExeVR-53k 数据集
统一了三个来源的 CUA 轨迹数据:
| 数据源 | 规模 | 特点 |
|---|---|---|
| AgentNet | 22,625 任务 | 人类演示,覆盖 Win/Mac/Ubuntu |
| ScaleCUA | 多平台 | 人机混合标注,覆盖 Linux/Mac/Win/Android/Web |
| OSWorld | 361 任务 × 30 Agent | Agent rollout,同一任务不同 Agent 的解法 |
关键操作:将所有轨迹转为统一的”步级视频”——每个交互步提取一帧截屏,按时间顺序拼成 1 FPS 视频。
组件二:对抗指令翻译(Adversarial Instruction Translation)
解决负样本问题的巧妙方法。取一段成功轨迹的视频片段,用 GPT-5.2 生成一条看起来合理但与该轨迹不匹配的假指令。模型还需输出:(1) 为什么不匹配的理由,(2) 不匹配在第几步变得明显。人工验证通过率 100%。
这比随机配对高明得多——生成的是”在同一界面上下文中可能成立的指令”,迫使模型学习细粒度区分。
组件三:时空 Token 裁剪(Spatiotemporal Token Pruning)
这是让高分辨率视频训练成为可能的关键。
空间裁剪(STP):对每帧的 patch 特征建图,相邻 patch 特征距离 则连边,Union-Find 找连通分量,删除面积 的大型同质区域(如纯色背景、工具栏空白区)。
时间裁剪(TTP):对每个空间位置维护参考 token,后续帧的 token 与参考 token 做余弦相似度比较,超过阈值 则删除,否则更新参考:
最终 mask = STP ∧ TTP——只有两者都保留的 token 才进入 LLM。
超参数设置:,,。基于 Qwen3-VL 微调,学习率 ,8×A100 80G。
2.3 方法对比
| 方法 | 评估输入 | 训练 | 时间分辨率 | 跨 Agent |
|---|---|---|---|---|
| AER | 最终截图 | ❌ | 无 | ✅ |
| Simplified Judge | 首尾截图 | ❌ | 最低 | ✅ |
| SE-WSM / ZeroGUI | 全截图序列 | ❌ | 高但 OOM | ✅ |
| GUI-Critic-R1 | 推理链 + 截图 | ✅ | 中 | ❌(需要推理链) |
| ExeVRM | 执行视频 | ✅ | 高(带裁剪) | ✅ |
三、实验结果
3.1 实验设置
评估基准 ExeVR-Bench:789 个实例,跨 Ubuntu(Agent)、Ubuntu(Human)、Mac/Win、Android 四个分组。正负样本近 50/50 平衡。200 个实例附带时序归因标注。视频统一 720p,最多 100 帧。
基线:GPT-5.2、Gemini-3 Pro、Seed-2.0 Pro、Qwen3-VL 8B、InternVL-3.5 8B 等。
3.2 主要结果
| 模型 | 准确率 | 精确率 | 召回率 |
|---|---|---|---|
| GPT-5.2 | 75.0 | 82.7 | 66.5 |
| Seed-2.0 Pro | 80.3 | 83.9 | 74.7 |
| Qwen3-VL 8B(基座) | 67.6 | — | — |
| InternVL-3.5 8B | 56.5 | — | 55.9 |
| ExeVRM 4B | 80.1 | 79.2 | 82.5 |
| ExeVRM 8B | 84.7 | 82.9 | 87.7 |
关键解读:
- ExeVRM 8B 在每个平台上都领先:Mac/Win 89.0% 准确率、Android 83.5%、Ubuntu(Human)84.0%
- 召回率才是关键指标——在 CUA 评估中,漏判失败轨迹(假阴性)比误判成功轨迹更危险。ExeVRM 的 87.7% recall 远超 GPT-5.2 的 66.5%
- 4B→8B 提升显著:准确率 +4.6,召回率 +5.2,说明模型容量对细粒度 GUI 理解有明确收益
3.3 消融实验
密集视频 vs 稀疏截图:仅用最终截图(AER)的性能远不如全视频评估,证明过程信息对奖励建模不可或缺。全截图序列不做裁剪在 360p 下甚至不如 AER——分辨率太低反而丢信息。
分辨率效应(720p vs 360p):
| 配置 | 准确率 | 召回率 |
|---|---|---|
| Qwen3-VL 4B, 360p | 79.3 | 77.8 |
| Qwen3-VL 4B, 720p + STP+TTP | 80.1 | 82.5 (+4.7) |
| Qwen3-VL 8B, 360p | 81.5 | 80.5 |
| Qwen3-VL 8B, 720p + STP+TTP | 84.7 | 87.7 (+7.2) |
高分辨率保留了决定性的细粒度 GUI 线索,STP+TTP 让它在内存上可行。
STP vs TTP 的不对称效应:
- TTP 单独使用:准确率 80.3、召回率 79.3(最强单模块)
- STP 单独使用:准确率 77.9、召回率 72.6(反而下降)
- STP + TTP 联合:准确率 80.1、召回率 82.5(最高召回)
解释:STP 可能误删”视觉不显眼但决策关键”的 UI 元素(如小图标、状态文本),而 TTP 直接瞄准帧间变化——奖励预测本质上是检测状态转换。
四、复现与落地评估
4.1 复现难度评估
| 维度 | 评级 | 说明 |
|---|---|---|
| 代码开源 | ⚠️ | 尚未开源,论文提到基于修改版 LLaMA-Factory |
| 数据可得性 | ⚠️ | ExeVR-53k 部分数据(AgentNet、ScaleCUA、OSWorld rollouts)可分别获取,统一处理管线未公开 |
| 算力需求 | 中 | 8×A100 80G 训练,实际推理单卡可跑 |
| 依赖复杂度 | 中 | 需要 Qwen3-VL + LLaMA-Factory + ffmpeg 视频处理 |
| 复现总评 | ⭐⭐⭐ | 方法清晰可实现,但官方代码/数据/权重缺失是主要障碍 |
4.2 工业落地可行性
- 适用场景:CUA 的自动化质量评估、RL 训练中的奖励信号、Agent 竞赛/基准的自动评判
- 性能开销:8B 模型处理 100 帧 720p 视频,推理时间可控;STP+TTP 在 50 帧时内存 ~40 GiB
- 集成难度:中。需要先将 Agent 轨迹转为步级视频——但这只需截屏+拼接,工程简单
- 风险点:Android 上精确率偏低(75.4%)可能导致误判;1 FPS 采样在快速交互中丢信息
- 落地总评:⭐⭐⭐⭐(高潜力,等代码开源后价值翻倍)
五、SOTA 对照矩阵
| 方法 | 核心思路 | Acc / Recall | 优势 | 劣势 |
|---|---|---|---|---|
| ExeVRM 8B | 视频奖励模型 + 时空裁剪 | 84.7 / 87.7 | 方法无关、高召回、时序归因 | 未开源、负样本依赖合成 |
| Seed-2.0 Pro | 闭源 VLM 直接提示 | 80.3 / 74.7 | 无需训练 | 召回低,无时序定位 |
| GPT-5.2 | 闭源 VLM 直接提示 | 75.0 / 66.5 | 通用能力强 | CUA 场景适应差 |
| GUI-Critic-R1 | Agent 推理链+截图 | — | 利用内部推理 | 非方法无关,依赖推理链格式 |
| WebArbiter (PRM) | 步级过程奖励 | — | 细粒度步骤评估 | O(n) 推理,误差累积 |
ExeVRM 在 SOTA 版图中的位置:第一个将 CUA 评估建立在”执行视频”这个方法无关表示上的奖励模型,是评估范式的转变而非增量改进。
六、讨论与局限
6.1 论文自身讨论的局限
- 对抗指令翻译仅覆盖”指令-轨迹不匹配”的失败模式,未覆盖”部分完成”和”步骤冗余但结果正确”
- 1 FPS 固定采样可能在快节奏交互中不足
- STP 在视觉内容密集页面(如图片网站)上可能保留过多无关 token
6.2 我的额外观察
- ExeVR-53k 的数据偏斜值得警惕:OSWorld 部分是 30 个 Agent 在 361 任务上的 rollout,某些 Agent(如 Claude 4.5、GPT-5.2)可能贡献了不成比例的高质量轨迹,导致模型偏向特定操作风格
- 与 RL 训练的衔接未讨论:ExeVRM 作为奖励模型的最终目标应是驱动 Agent 的 RL 训练,但论文只验证了分类准确率,未展示在 RLHF/RLVR 流程中的实际效果
- 视频生成成本被低估:在生产环境中持续录制 Agent 操作并转为训练视频,存储和处理成本不小
- tIoU 指标很有价值但评估集太小(仅 200 实例),统计置信度有限
七、对我们的启示
- 谁应该关注? CUA 开发者、Agent benchmark 维护者、RL for Agent 研究者
- 核心 takeaway:
- 视频是比截图更好的 CUA 评估信号,帧间状态转换才是判断任务完成的关键
- 时空 token 裁剪(特别是 TTP)是处理 GUI 序列的通用技术,不限于奖励模型
- 对抗指令翻译是一种廉价获取硬负样本的范式
- 实践建议:
- 从今天起就为你的 Agent 录制执行视频(步级截屏拼接即可),这是未来自动评估和 RL 训练的数据基础
- 如果你在做 GUI token 压缩,TTP 比 STP 更值得实现——参考帧 + 余弦相似度,几十行代码搞定
论文速查卡
| 项目 | 内容 |
|---|---|
| 标题 | Video-Based Reward Modeling for Computer-Use Agents |
| 作者 | Jieyu Zhang 等, USC / UW / MBZUAI / Amazon AGI |
| 链接 | arXiv:2603.10178 |
| 发表 | arXiv 预印本, 2026.03 |
| 一句话总结 | 将 CUA 操作轨迹转为”执行视频”,训练 8B 视频奖励模型在跨平台评估中超越 GPT-5.2 |
| 大白话版 | 以前要判断机器人有没有完成任务,得一项一项写检查清单;现在让另一个 AI”看录像回放”就行了 |
| 核心数字 | 84.7% 准确率、87.7% 召回率(ExeVRM 8B vs GPT-5.2 的 75.0/66.5) |
| 复现评级 | ⭐⭐⭐ |
| 落地评级 | ⭐⭐⭐⭐ |