Agent

ExeVRM：用执行视频给 Computer-Use Agent 打分

论文：Video-Based Reward Modeling for Computer-Use Agents

作者：Jieyu Zhang, Huanxin Sheng, Taiwei Shi 等 8 人（USC, UW, MBZUAI, Amazon AGI）

一句话：训练一个视频理解模型来判断 CUA 轨迹是否完成任务，不需要手写规则、不依赖 Agent 内部推理，8B 模型准确率 84.7% 超过 GPT-5.2 的 75.0%。

一、这篇论文在解决什么问题

1.1 背景

Computer-Use Agent（CUA）正在从实验走向生产——Claude 4.5、GPT-5.2、Gemini-3 Pro 都已具备操控桌面和手机界面的能力。但评估这些 Agent 是否真正完成了用户指令，仍然是一个未解决的核心瓶颈。

当前的评估方法有三类，各有致命缺陷：

方法	原理	问题
手写脚本（OSWorld 式）	针对每个任务编写验证规则	无法扩展到新任务/新环境
最终截图判断（AER）	只看最后一帧截图	忽略过程，无法判断”结果对但路径错”
全截图序列（SE-WSM）	每帧都喂给 VLM	单卡 A100 80G 直接 OOM

1.2 核心问题

能否训练一个通用的奖励模型，仅通过观看 Agent 的”操作录屏”来判断任务完成度？ 这要求模型：(1) 处理长时序、高分辨率的 GUI 视频序列，(2) 不依赖 Agent 的内部推理链或动作格式，(3) 对跨平台（Ubuntu/macOS/Windows/Android）的 UI 都有效。

二、方法：怎么解决的

2.1 核心 Insight

执行视频是天然的 Agent 评估信号——它是”方法无关”的。 不管 Agent 用什么推理框架（端到端/工具调用/代码生成），用户看到的界面变化序列是一样的。将评估建立在这个共同表示上，就能绕过”每种 Agent 需要不同评估脚本”的困境。

但 GUI 视频有两个特殊难题：(1) 极度冗余——工具栏、背景、布局在帧间几乎不变，而决定成功的线索可能只是一个小文本框的变化；(2) 负样本稀缺——公开数据集以成功演示为主。

2.2 技术细节

ExeVRM 包含三个关键组件：

组件一：ExeVR-53k 数据集

统一了三个来源的 CUA 轨迹数据：

数据源	规模	特点
AgentNet	22,625 任务	人类演示，覆盖 Win/Mac/Ubuntu
ScaleCUA	多平台	人机混合标注，覆盖 Linux/Mac/Win/Android/Web
OSWorld	361 任务 × 30 Agent	Agent rollout，同一任务不同 Agent 的解法

关键操作：将所有轨迹转为统一的”步级视频”——每个交互步提取一帧截屏，按时间顺序拼成 1 FPS 视频。

组件二：对抗指令翻译（Adversarial Instruction Translation）

解决负样本问题的巧妙方法。取一段成功轨迹的视频片段，用 GPT-5.2 生成一条看起来合理但与该轨迹不匹配的假指令。模型还需输出：(1) 为什么不匹配的理由，(2) 不匹配在第几步变得明显。人工验证通过率 100%。

这比随机配对高明得多——生成的是”在同一界面上下文中可能成立的指令”，迫使模型学习细粒度区分。

组件三：时空 Token 裁剪（Spatiotemporal Token Pruning）

这是让高分辨率视频训练成为可能的关键。

空间裁剪（STP）：对每帧的 patch 特征建图，相邻 patch 特征距离 $< \tau_s$ 则连边，Union-Find 找连通分量，删除面积 $> \tau_{large}$ 的大型同质区域（如纯色背景、工具栏空白区）。

$\mathbf{M}^{(t)}_s(i,j) = \begin{cases} 0 & \text{if } C^{(t)}(i,j) \in \mathcal{R}^{(t)} \\ 1 & \text{otherwise} \end{cases}$

时间裁剪（TTP）：对每个空间位置维护参考 token，后续帧的 token 与参考 token 做余弦相似度比较，超过阈值 $\tau_t = 0.9999$ 则删除，否则更新参考：

$\mathbf{M}_t(t,i) = \mathbb{1}\left[\text{sim}_{\cos}(\mathbf{v}^{(\text{ref})}_i, \mathbf{v}^{(t)}_i) \leq \tau_t\right]$

最终 mask = STP ∧ TTP——只有两者都保留的 token 才进入 LLM。

超参数设置： $\tau_s = 0.3$ ， $\tau_t = 0.9999$ ， $\tau_{large} = 40$ 。基于 Qwen3-VL 微调，学习率 $5 \times 10^{-6}$ ，8×A100 80G。

2.3 方法对比

方法	评估输入	训练	时间分辨率	跨 Agent
AER	最终截图	❌	无	✅
Simplified Judge	首尾截图	❌	最低	✅
SE-WSM / ZeroGUI	全截图序列	❌	高但 OOM	✅
GUI-Critic-R1	推理链 + 截图	✅	中	❌（需要推理链）
ExeVRM	执行视频	✅	高（带裁剪）	✅

三、实验结果

3.1 实验设置

评估基准 ExeVR-Bench：789 个实例，跨 Ubuntu（Agent）、Ubuntu（Human）、Mac/Win、Android 四个分组。正负样本近 50/50 平衡。200 个实例附带时序归因标注。视频统一 720p，最多 100 帧。

基线：GPT-5.2、Gemini-3 Pro、Seed-2.0 Pro、Qwen3-VL 8B、InternVL-3.5 8B 等。

3.2 主要结果

模型	准确率	精确率	召回率
GPT-5.2	75.0	82.7	66.5
Seed-2.0 Pro	80.3	83.9	74.7
Qwen3-VL 8B（基座）	67.6	—	—
InternVL-3.5 8B	56.5	—	55.9
ExeVRM 4B	80.1	79.2	82.5
ExeVRM 8B	84.7	82.9	87.7

关键解读：

ExeVRM 8B 在每个平台上都领先：Mac/Win 89.0% 准确率、Android 83.5%、Ubuntu（Human）84.0%
召回率才是关键指标——在 CUA 评估中，漏判失败轨迹（假阴性）比误判成功轨迹更危险。ExeVRM 的 87.7% recall 远超 GPT-5.2 的 66.5%
4B→8B 提升显著：准确率 +4.6，召回率 +5.2，说明模型容量对细粒度 GUI 理解有明确收益

3.3 消融实验

密集视频 vs 稀疏截图：仅用最终截图（AER）的性能远不如全视频评估，证明过程信息对奖励建模不可或缺。全截图序列不做裁剪在 360p 下甚至不如 AER——分辨率太低反而丢信息。

分辨率效应（720p vs 360p）：

配置	准确率	召回率
Qwen3-VL 4B, 360p	79.3	77.8
Qwen3-VL 4B, 720p + STP+TTP	80.1	82.5 (+4.7)
Qwen3-VL 8B, 360p	81.5	80.5
Qwen3-VL 8B, 720p + STP+TTP	84.7	87.7 (+7.2)

高分辨率保留了决定性的细粒度 GUI 线索，STP+TTP 让它在内存上可行。

STP vs TTP 的不对称效应：

TTP 单独使用：准确率 80.3、召回率 79.3（最强单模块）
STP 单独使用：准确率 77.9、召回率 72.6（反而下降）
STP + TTP 联合：准确率 80.1、召回率 82.5（最高召回）

解释：STP 可能误删”视觉不显眼但决策关键”的 UI 元素（如小图标、状态文本），而 TTP 直接瞄准帧间变化——奖励预测本质上是检测状态转换。

四、复现与落地评估

4.1 复现难度评估

维度	评级	说明
代码开源	⚠️	尚未开源，论文提到基于修改版 LLaMA-Factory
数据可得性	⚠️	ExeVR-53k 部分数据（AgentNet、ScaleCUA、OSWorld rollouts）可分别获取，统一处理管线未公开
算力需求	中	8×A100 80G 训练，实际推理单卡可跑
依赖复杂度	中	需要 Qwen3-VL + LLaMA-Factory + ffmpeg 视频处理
复现总评	⭐⭐⭐	方法清晰可实现，但官方代码/数据/权重缺失是主要障碍

4.2 工业落地可行性

适用场景：CUA 的自动化质量评估、RL 训练中的奖励信号、Agent 竞赛/基准的自动评判
性能开销：8B 模型处理 100 帧 720p 视频，推理时间可控；STP+TTP 在 50 帧时内存 ~40 GiB
集成难度：中。需要先将 Agent 轨迹转为步级视频——但这只需截屏+拼接，工程简单
风险点：Android 上精确率偏低（75.4%）可能导致误判；1 FPS 采样在快速交互中丢信息
落地总评：⭐⭐⭐⭐（高潜力，等代码开源后价值翻倍）

五、SOTA 对照矩阵

方法	核心思路	Acc / Recall	优势	劣势
ExeVRM 8B	视频奖励模型 + 时空裁剪	84.7 / 87.7	方法无关、高召回、时序归因	未开源、负样本依赖合成
Seed-2.0 Pro	闭源 VLM 直接提示	80.3 / 74.7	无需训练	召回低，无时序定位
GPT-5.2	闭源 VLM 直接提示	75.0 / 66.5	通用能力强	CUA 场景适应差
GUI-Critic-R1	Agent 推理链+截图	—	利用内部推理	非方法无关，依赖推理链格式
WebArbiter (PRM)	步级过程奖励	—	细粒度步骤评估	O(n) 推理，误差累积

ExeVRM 在 SOTA 版图中的位置：第一个将 CUA 评估建立在”执行视频”这个方法无关表示上的奖励模型，是评估范式的转变而非增量改进。

六、讨论与局限

6.1 论文自身讨论的局限

对抗指令翻译仅覆盖”指令-轨迹不匹配”的失败模式，未覆盖”部分完成”和”步骤冗余但结果正确”
1 FPS 固定采样可能在快节奏交互中不足
STP 在视觉内容密集页面（如图片网站）上可能保留过多无关 token

6.2 我的额外观察

ExeVR-53k 的数据偏斜值得警惕：OSWorld 部分是 30 个 Agent 在 361 任务上的 rollout，某些 Agent（如 Claude 4.5、GPT-5.2）可能贡献了不成比例的高质量轨迹，导致模型偏向特定操作风格
与 RL 训练的衔接未讨论：ExeVRM 作为奖励模型的最终目标应是驱动 Agent 的 RL 训练，但论文只验证了分类准确率，未展示在 RLHF/RLVR 流程中的实际效果
视频生成成本被低估：在生产环境中持续录制 Agent 操作并转为训练视频，存储和处理成本不小
tIoU 指标很有价值但评估集太小（仅 200 实例），统计置信度有限

七、对我们的启示

谁应该关注？ CUA 开发者、Agent benchmark 维护者、RL for Agent 研究者
核心 takeaway：
- 视频是比截图更好的 CUA 评估信号，帧间状态转换才是判断任务完成的关键
- 时空 token 裁剪（特别是 TTP）是处理 GUI 序列的通用技术，不限于奖励模型
- 对抗指令翻译是一种廉价获取硬负样本的范式
实践建议：
- 从今天起就为你的 Agent 录制执行视频（步级截屏拼接即可），这是未来自动评估和 RL 训练的数据基础
- 如果你在做 GUI token 压缩，TTP 比 STP 更值得实现——参考帧 + 余弦相似度，几十行代码搞定

论文速查卡

项目	内容
标题	Video-Based Reward Modeling for Computer-Use Agents
作者	Jieyu Zhang 等, USC / UW / MBZUAI / Amazon AGI
链接	arXiv:2603.10178
发表	arXiv 预印本, 2026.03
一句话总结	将 CUA 操作轨迹转为”执行视频”，训练 8B 视频奖励模型在跨平台评估中超越 GPT-5.2
大白话版	以前要判断机器人有没有完成任务，得一项一项写检查清单；现在让另一个 AI”看录像回放”就行了
核心数字	84.7% 准确率、87.7% 召回率（ExeVRM 8B vs GPT-5.2 的 75.0/66.5）
复现评级	⭐⭐⭐
落地评级	⭐⭐⭐⭐