Agent

ExeVRM:用执行视频给 Computer-Use Agent 打分

ExeVRM:用执行视频给 Computer-Use Agent 打分

论文:Video-Based Reward Modeling for Computer-Use Agents

作者:Jieyu Zhang, Huanxin Sheng, Taiwei Shi 等 8 人(USC, UW, MBZUAI, Amazon AGI)

一句话:训练一个视频理解模型来判断 CUA 轨迹是否完成任务,不需要手写规则、不依赖 Agent 内部推理,8B 模型准确率 84.7% 超过 GPT-5.2 的 75.0%。


一、这篇论文在解决什么问题

1.1 背景

Computer-Use Agent(CUA)正在从实验走向生产——Claude 4.5、GPT-5.2、Gemini-3 Pro 都已具备操控桌面和手机界面的能力。但评估这些 Agent 是否真正完成了用户指令,仍然是一个未解决的核心瓶颈。

当前的评估方法有三类,各有致命缺陷:

方法原理问题
手写脚本(OSWorld 式)针对每个任务编写验证规则无法扩展到新任务/新环境
最终截图判断(AER)只看最后一帧截图忽略过程,无法判断”结果对但路径错”
全截图序列(SE-WSM)每帧都喂给 VLM单卡 A100 80G 直接 OOM

1.2 核心问题

能否训练一个通用的奖励模型,仅通过观看 Agent 的”操作录屏”来判断任务完成度? 这要求模型:(1) 处理长时序、高分辨率的 GUI 视频序列,(2) 不依赖 Agent 的内部推理链或动作格式,(3) 对跨平台(Ubuntu/macOS/Windows/Android)的 UI 都有效。


二、方法:怎么解决的

2.1 核心 Insight

执行视频是天然的 Agent 评估信号——它是”方法无关”的。 不管 Agent 用什么推理框架(端到端/工具调用/代码生成),用户看到的界面变化序列是一样的。将评估建立在这个共同表示上,就能绕过”每种 Agent 需要不同评估脚本”的困境。

但 GUI 视频有两个特殊难题:(1) 极度冗余——工具栏、背景、布局在帧间几乎不变,而决定成功的线索可能只是一个小文本框的变化;(2) 负样本稀缺——公开数据集以成功演示为主。

2.2 技术细节

ExeVRM 包含三个关键组件:

组件一:ExeVR-53k 数据集

统一了三个来源的 CUA 轨迹数据:

数据源规模特点
AgentNet22,625 任务人类演示,覆盖 Win/Mac/Ubuntu
ScaleCUA多平台人机混合标注,覆盖 Linux/Mac/Win/Android/Web
OSWorld361 任务 × 30 AgentAgent rollout,同一任务不同 Agent 的解法

关键操作:将所有轨迹转为统一的”步级视频”——每个交互步提取一帧截屏,按时间顺序拼成 1 FPS 视频。

组件二:对抗指令翻译(Adversarial Instruction Translation)

解决负样本问题的巧妙方法。取一段成功轨迹的视频片段,用 GPT-5.2 生成一条看起来合理但与该轨迹不匹配的假指令。模型还需输出:(1) 为什么不匹配的理由,(2) 不匹配在第几步变得明显。人工验证通过率 100%。

这比随机配对高明得多——生成的是”在同一界面上下文中可能成立的指令”,迫使模型学习细粒度区分。

组件三:时空 Token 裁剪(Spatiotemporal Token Pruning)

这是让高分辨率视频训练成为可能的关键。

空间裁剪(STP):对每帧的 patch 特征建图,相邻 patch 特征距离 <τs< \tau_s 则连边,Union-Find 找连通分量,删除面积 >τlarge> \tau_{large} 的大型同质区域(如纯色背景、工具栏空白区)。

Ms(t)(i,j)={0if C(t)(i,j)R(t)1otherwise\mathbf{M}^{(t)}_s(i,j) = \begin{cases} 0 & \text{if } C^{(t)}(i,j) \in \mathcal{R}^{(t)} \\ 1 & \text{otherwise} \end{cases}

时间裁剪(TTP):对每个空间位置维护参考 token,后续帧的 token 与参考 token 做余弦相似度比较,超过阈值 τt=0.9999\tau_t = 0.9999 则删除,否则更新参考:

Mt(t,i)=1[simcos(vi(ref),vi(t))τt]\mathbf{M}_t(t,i) = \mathbb{1}\left[\text{sim}_{\cos}(\mathbf{v}^{(\text{ref})}_i, \mathbf{v}^{(t)}_i) \leq \tau_t\right]

最终 mask = STP ∧ TTP——只有两者都保留的 token 才进入 LLM。

超参数设置:τs=0.3\tau_s = 0.3τt=0.9999\tau_t = 0.9999τlarge=40\tau_{large} = 40。基于 Qwen3-VL 微调,学习率 5×1065 \times 10^{-6},8×A100 80G。

2.3 方法对比

方法评估输入训练时间分辨率跨 Agent
AER最终截图
Simplified Judge首尾截图最低
SE-WSM / ZeroGUI全截图序列高但 OOM
GUI-Critic-R1推理链 + 截图❌(需要推理链)
ExeVRM执行视频高(带裁剪)

三、实验结果

3.1 实验设置

评估基准 ExeVR-Bench:789 个实例,跨 Ubuntu(Agent)、Ubuntu(Human)、Mac/Win、Android 四个分组。正负样本近 50/50 平衡。200 个实例附带时序归因标注。视频统一 720p,最多 100 帧。

基线:GPT-5.2、Gemini-3 Pro、Seed-2.0 Pro、Qwen3-VL 8B、InternVL-3.5 8B 等。

3.2 主要结果

模型准确率精确率召回率
GPT-5.275.082.766.5
Seed-2.0 Pro80.383.974.7
Qwen3-VL 8B(基座)67.6
InternVL-3.5 8B56.555.9
ExeVRM 4B80.179.282.5
ExeVRM 8B84.782.987.7

关键解读:

  • ExeVRM 8B 在每个平台上都领先:Mac/Win 89.0% 准确率、Android 83.5%、Ubuntu(Human)84.0%
  • 召回率才是关键指标——在 CUA 评估中,漏判失败轨迹(假阴性)比误判成功轨迹更危险。ExeVRM 的 87.7% recall 远超 GPT-5.2 的 66.5%
  • 4B→8B 提升显著:准确率 +4.6,召回率 +5.2,说明模型容量对细粒度 GUI 理解有明确收益

3.3 消融实验

密集视频 vs 稀疏截图:仅用最终截图(AER)的性能远不如全视频评估,证明过程信息对奖励建模不可或缺。全截图序列不做裁剪在 360p 下甚至不如 AER——分辨率太低反而丢信息。

分辨率效应(720p vs 360p)

配置准确率召回率
Qwen3-VL 4B, 360p79.377.8
Qwen3-VL 4B, 720p + STP+TTP80.182.5 (+4.7)
Qwen3-VL 8B, 360p81.580.5
Qwen3-VL 8B, 720p + STP+TTP84.787.7 (+7.2)

高分辨率保留了决定性的细粒度 GUI 线索,STP+TTP 让它在内存上可行。

STP vs TTP 的不对称效应

  • TTP 单独使用:准确率 80.3、召回率 79.3(最强单模块)
  • STP 单独使用:准确率 77.9、召回率 72.6(反而下降)
  • STP + TTP 联合:准确率 80.1、召回率 82.5(最高召回)

解释:STP 可能误删”视觉不显眼但决策关键”的 UI 元素(如小图标、状态文本),而 TTP 直接瞄准帧间变化——奖励预测本质上是检测状态转换。


四、复现与落地评估

4.1 复现难度评估

维度评级说明
代码开源⚠️尚未开源,论文提到基于修改版 LLaMA-Factory
数据可得性⚠️ExeVR-53k 部分数据(AgentNet、ScaleCUA、OSWorld rollouts)可分别获取,统一处理管线未公开
算力需求8×A100 80G 训练,实际推理单卡可跑
依赖复杂度需要 Qwen3-VL + LLaMA-Factory + ffmpeg 视频处理
复现总评⭐⭐⭐方法清晰可实现,但官方代码/数据/权重缺失是主要障碍

4.2 工业落地可行性

  • 适用场景:CUA 的自动化质量评估、RL 训练中的奖励信号、Agent 竞赛/基准的自动评判
  • 性能开销:8B 模型处理 100 帧 720p 视频,推理时间可控;STP+TTP 在 50 帧时内存 ~40 GiB
  • 集成难度:中。需要先将 Agent 轨迹转为步级视频——但这只需截屏+拼接,工程简单
  • 风险点:Android 上精确率偏低(75.4%)可能导致误判;1 FPS 采样在快速交互中丢信息
  • 落地总评:⭐⭐⭐⭐(高潜力,等代码开源后价值翻倍)

五、SOTA 对照矩阵

方法核心思路Acc / Recall优势劣势
ExeVRM 8B视频奖励模型 + 时空裁剪84.7 / 87.7方法无关、高召回、时序归因未开源、负样本依赖合成
Seed-2.0 Pro闭源 VLM 直接提示80.3 / 74.7无需训练召回低,无时序定位
GPT-5.2闭源 VLM 直接提示75.0 / 66.5通用能力强CUA 场景适应差
GUI-Critic-R1Agent 推理链+截图利用内部推理非方法无关,依赖推理链格式
WebArbiter (PRM)步级过程奖励细粒度步骤评估O(n) 推理,误差累积

ExeVRM 在 SOTA 版图中的位置:第一个将 CUA 评估建立在”执行视频”这个方法无关表示上的奖励模型,是评估范式的转变而非增量改进。


六、讨论与局限

6.1 论文自身讨论的局限

  • 对抗指令翻译仅覆盖”指令-轨迹不匹配”的失败模式,未覆盖”部分完成”和”步骤冗余但结果正确”
  • 1 FPS 固定采样可能在快节奏交互中不足
  • STP 在视觉内容密集页面(如图片网站)上可能保留过多无关 token

6.2 我的额外观察

  • ExeVR-53k 的数据偏斜值得警惕:OSWorld 部分是 30 个 Agent 在 361 任务上的 rollout,某些 Agent(如 Claude 4.5、GPT-5.2)可能贡献了不成比例的高质量轨迹,导致模型偏向特定操作风格
  • 与 RL 训练的衔接未讨论:ExeVRM 作为奖励模型的最终目标应是驱动 Agent 的 RL 训练,但论文只验证了分类准确率,未展示在 RLHF/RLVR 流程中的实际效果
  • 视频生成成本被低估:在生产环境中持续录制 Agent 操作并转为训练视频,存储和处理成本不小
  • tIoU 指标很有价值但评估集太小(仅 200 实例),统计置信度有限

七、对我们的启示

  1. 谁应该关注? CUA 开发者、Agent benchmark 维护者、RL for Agent 研究者
  2. 核心 takeaway
    • 视频是比截图更好的 CUA 评估信号,帧间状态转换才是判断任务完成的关键
    • 时空 token 裁剪(特别是 TTP)是处理 GUI 序列的通用技术,不限于奖励模型
    • 对抗指令翻译是一种廉价获取硬负样本的范式
  3. 实践建议
    • 从今天起就为你的 Agent 录制执行视频(步级截屏拼接即可),这是未来自动评估和 RL 训练的数据基础
    • 如果你在做 GUI token 压缩,TTP 比 STP 更值得实现——参考帧 + 余弦相似度,几十行代码搞定

论文速查卡

项目内容
标题Video-Based Reward Modeling for Computer-Use Agents
作者Jieyu Zhang 等, USC / UW / MBZUAI / Amazon AGI
链接arXiv:2603.10178
发表arXiv 预印本, 2026.03
一句话总结将 CUA 操作轨迹转为”执行视频”,训练 8B 视频奖励模型在跨平台评估中超越 GPT-5.2
大白话版以前要判断机器人有没有完成任务,得一项一项写检查清单;现在让另一个 AI”看录像回放”就行了
核心数字84.7% 准确率、87.7% 召回率(ExeVRM 8B vs GPT-5.2 的 75.0/66.5)
复现评级⭐⭐⭐
落地评级⭐⭐⭐⭐