2026-04-17 · 深度解读 · 编辑:Lighthouse

原文:arxiv.org/abs/2604.11978The Long-Horizon Task Mirage? Diagnosing Where and Why Agentic Systems Break

作者:Xinyu Jessica Wang, Haoyue Bai(共同一作), Yiyou Sun, Haorui Wang, Shuibai Zhang, Wenjie Hu, Mya Schroder, Bilge Mutlu, Dawn Song, Robert D. Nowak(UW–Madison / UC Berkeley / Georgia Tech)


速查卡

维度 内容
一句话总结 长时序 Agent 的崩溃不是"成功率均匀下降",而是失效构成的结构性转移——规划类与记忆/遗忘类失效在 horizon 增长时迅速变成主导
大白话版 把任务步数从 3 拉到 10,Agent 的失败模式会从"偶尔点错按钮"变成"根本忘了最初的约束 / 没做子规划"。光靠把底座模型做大无法解决,必须在记忆、规划、执行期校验三处做方法级改造
核心数字 3,132 条轨迹(1,995 失败 / 1,137 成功);整体任务成功率 36.3%;GPT-5-mini 33.4% vs Claude-4-Sonnet 39.9%;过程级 PFMEA 占失效 72.5%,设计级 DFMEA 占 27.5%
基准规模 4 个领域(Web/OS/DB/Embodied)× 2 模型家族 × 700+ 任务,配合 LLM-as-a-Judge + 40 条人类标注的 pilot 验证
验证强度 标注员间一致性 κ=0.61(substantial);人类–LLM 判官一致性 κ=0.84(strong)
影响评级 A — 首个把 horizon 当作受控自变量而非副产品的跨域基准,且配套 FMEA 级失效分类体系,对后续长时序 Agent 研究提供统一坐标

核心 Insight

论文里藏着三个真正值得划重点的结论:

① 长时序崩溃是"失效构成"在变,不是成功率在跌。 跨 4 个领域、3,132 条轨迹,作者给出的核心定性结论是:

Long-horizon failure is not merely a drop in success rate, but a structural shift in failure composition: planning-related failures (e.g., subplanning errors) and memory-related failures (e.g., catastrophic forgetting) become dominant as horizon increases.

换句话说:horizon 短的时候各种错都可能有(环境、指令、规划……),horizon 长了以后规划错误 + 灾难性遗忘 + 记忆极限三家合计占绝大多数。这意味着"给更多样本"、"加大模型"都不是对应的解法——要改的是 Agent 的架构,而非底模能力。

② "breaking point 不存在通用阈值,只存在转移区间"。 作者明确反对业界常见的"某模型在 N 步之后崩了"的说法。他们观察到成功率下降是非线性的:在小 s 时轻微下降,到某个点后急剧塌陷,并且不同领域塌陷的位置差异极大——

Web collapses at very small s, OS and Database domains sustain moderate performance until later extension levels, and Embodied tasks degrade steeply even with minimal increases in s.

更反直觉的是:模型间差距在崩溃区间之后会收敛——GPT-5-mini 和 Claude-4-Sonnet 在长 horizon 上的表现越来越接近。作者因此建议把 breaking point 视为"转移区间"(transition region),而不是一个具体的步数。

③ 失效分类是 FMEA 七类,而非传统 Agent 论文里的三四类粗标签。 作者把七类分成两组:

这个划分直接对应不同的工程干预方向:PFMEA 类要加"执行期校验 / 重新观察 / 重规划",DFMEA 类要加"长程记忆 / 约束持久化 / 假设显式化"。

★ Insight ───────────────────────────────────── 论文在 §1 特意指出:一个 Agent 即使每步错误率很小,只要步间相互依赖,复合错误率会以几何速度吞掉成功率。这是"长时序失效不是加性而是乘性"的根本原因——也是 HORIZON 要刻意把 horizon 作为受控自变量的动机。 ─────────────────────────────────────────────────


方法详解

1. 任务 horizon 的两层定义

作者主张 horizon 必须和"Agent 低效"解耦:一个在简单任务里反复 fail 50 次的 Agent,不是在解长时序问题,而是在解短时序问题而已。为此他们提出三个智能体无关的任务结构指标(§3.1):

指标 记号 含义
内在 horizon H* 最优策略完成任务所需的最小有效动作数,由专家演示或形式化规约给出
组合深度 s 路径上决策节点(嵌套子目标 / 条件分支)最大数
扩展级别 s(受控变量) 实验中调节的"强度旋钮",要求 H*(s) 对 s 单调递增

论文举了一个具体例子:web 任务 "find and purchase wireless headphones under \$200" 的 H* = 8(搜索→价格筛选→评分排序→……→结算)。这个值不随 Agent 的重试次数改变

2. 两种任务扩展策略

为了在不同领域里让 H*(s) 可控地增长,作者设计了两种扩展:

3. 七类失效分类(FMEA 视角)

作者围绕 Agent 的执行循环(observe → plan → act → update memory)构建了如下正交的七类:

编号 类别 类型标签 典型机制
1 Environment Error [S] 环境扰动 / 无法检测环境变化(permission denial 未捕捉、页面未渲染完成、schema drift)
2 Instruction Error [S] 指令不明 / 部分理解(忽略 "except"、"mismatching" 等修饰词)
3 Catastrophic Forgetting [L] 约束仍在 context 内但执行时没再关注("never touch payments schema" 被后续步骤违反)
4 False Assumption [S] 把先验当普适事实(假设每张表都有 created_at 列、假设颜色匹配模式)
5 Planning Error [S] 子规划 / 动作选择错(先 drop backup 再迁移数据)
6 History Error Accumulation [L] 早期小错在下游复用并放大(中间表忘加 is_deleted=false)
7 Memory Limitation [L] 上下文超窗导致早期观察被截断或摘要

标签含义:[L] = 主要出现在长时序任务(短时序几乎不见);[S] = 短/长时序都可能出现但在长 horizon 下被放大。

一个重要设计点是:这些类别不是互斥的。同一条失败轨迹可能同时呈现 Catastrophic Forgetting(丢约束)+ False Assumption(环境状态误判)+ History Error Accumulation(早期错误复合)。这种正交多标签视角让 "planning error" 不再是一个万能标签,而可以进一步解释为"由遗忘引起的规划错"——直接对应不同干预手段(架构级 vs. 训练级)。

4. LLM-as-a-Judge 管道(Figure 2)

由于长轨迹人类标注不可规模化,作者搭建了一个轨迹锚定(trajectory-grounded)的 LLM 判官流水线:

  1. 收集长 trajectory 与上下文
  2. 与专家合作开发分类(含标注员间一致性校准)
  3. 构建 HORIZON 诊断套件
  4. 用 40 条轨迹做 LLM 判官校准
  5. 对全部 3,132 条 trajectory 进行规模化失效归因

验证强度:两名专家独立标 40 条,κ=0.61(substantial);LLM 判官与人类 κ=0.84(strong)。论文明确在 Ethics Statement 里按 COLM 2026 披露了 LLM 作为自动评估者的使用。

★ Insight ───────────────────────────────────── "trajectory-grounded" 的意思是判官不只看最终结果,而是看全轨迹并定位到"turning point"(第一次不可逆偏差)。这和把 LLM 当 rubric scorer 的常见用法不一样——它其实是一个"事后故事分析师",要在多步动作里标出"就是这一步开始错的",这也是 κ=0.84 相对可信的原因。 ─────────────────────────────────────────────────


训练 / 数据策略

这是一篇纯诊断/评测论文,不训练新模型,也没提出新的记忆模块。作者特别强调:

We do not add a memory module; we report how memory-related failures appear in labeled trajectories when horizon extends.

数据层面的关键设计(§4、§D.1):

基线任务筛选

作者采用"baseline 必须能过"的严格过滤:每个领域的基线任务都先用 GPT-5-mini 跑一遍,只保留 100% 成功的任务作为 s=1 基线。这样保证后续看到的性能下降来自 horizon 增长,而非任务本身难度或 Agent 配置问题

嵌套任务集构造

为降低混杂变量,作者采用嵌套构造:horizon 级别 h+1 的任务集 包含 h 级的所有任务,再加入更长的任务。这使得相邻级别之间的对比"by construction 受控",主要变量就是 horizon 长度。

四个领域的承载

领域 基础环境 基准 关键设计
Web 网页导航 WebArena 广度扩展为主
OS Shell 操作 AgentBench 深度扩展为主
Database Text-to-SQL MAC-SQL(Selector+Decomposer+Refiner 三模块) 深度扩展为主
Embodied 双臂 IsaacSim 5.0 自建(Franka Emika Panda + Tesollo DG-3F-B 三指夹爪) 广度扩展为主

Embodied 环境只开放 4 个原语:homemove_to_pose(arm, pose)grasp(arm)release(arm),桌面三个积木(红/蓝/绿)。Agent 输出 JSON 计划再在仿真里执行,人工评估成功。

模型

每个 horizon 设定跑 3 次独立 run,报告均值 ± 标准差。


与现有方法的关键区别

维度 常见做法 HORIZON 的做法
Horizon 度量 交互步数 / 工具调用数 / 推理步数,各家不一致 任务结构层面的 H*s,Agent 独立
评估口径 只报 terminal success rate 同时报 horizon 曲线 + 失效归因 二维结果
失效分类粒度 高层标签(hallucination / planning)或领域特有 FMEA 启发的 七类正交分类,跨四个域可用
分类验证 往往只作者自己标 κ=0.61 标注员间 + κ=0.84 人-机 双验证
可规模化 纯人标,几百条量级 LLM-as-a-Judge,3,000+ 条轨迹
研究对象 多以"怎么让 Agent 更强"为目标 以 "horizon 增长时哪类失效成为主导" 为目标
多 Agent 失效 Cemri et al. 2025 做多 Agent 协作分类 HORIZON 专注单 Agent 跨域 horizon 条件下的失效

论文在 §2 Related Work 里明确区分:前人工作(AgentBench、WebArena 等)"still foregrounds terminal success";而 HORIZON 的贡献在于把 horizon 当受控自变量来 sweep。


实验结果

整体规模

总量 数值
轨迹总数 3,132
失败轨迹 1,995
成功轨迹 1,137
整体任务成功率 36.3%

按领域拆分(成功率 & 失败轨迹数)

领域 成功率 样本(成功 / 总数)
Web 24.1% 185 / 767
OS 40.3% 864 / 2,146
Database 36.9% 31 / 84
Embodied 42.2% 57 / 135

按模型拆分

模型 成功率 样本(成功 / 总数)
GPT-5-mini 33.4% 573 / 1,718
Claude-4-Sonnet 39.9% 564 / 1,414

按领域的失效构成(占该域失败轨迹的比例)

领域 主失效(> 50%) 次失效 备注
Embodied Planning Error 94.9% 几乎全是规划错
Database Planning Error 79.3% False Assumption 7.5% 结构化动作空间让规划成为瓶颈
Web Planning Error 74.9% Environment 11.3% / Memory Limit 6.2% 页面状态动态变化
OS Planning Error 36.7% Instruction 25.9% / Environment 17.3% / Memory 15.1% 失效最多样化的领域

一个特殊发现:History Error Accumulation 只在 OS 中被观察到(0.1%)——论文未细说原因,但从定义看,shell 命令链的"早期错误被后续步骤复用"在其他域很难这么"干净地"显现。

按模型的失效构成(聚合所有域)

注:论文 Figure 7 原文 caption 把模型写为 "GPT-4o-mini vs Claude 3.5 Sonnet",但正文与 §D.2 一致使用 GPT-5-mini 和 Claude-4-Sonnet。我们按正文数字口径复述,并在"批判性分析"里标注此矛盾。

失效类型 GPT-5-mini Claude-4-Sonnet
Planning Error 64.9% 46.5%
Memory Limitation 18.3% 2.2%
Environment 6.1% 左右* 32.5%
Instruction 16.5%
DFMEA 总计(Memory + Forgetting + False Assumption) 20.8% 6.6%

Environment 值由其他类补全推算,论文未逐一给出 GPT-5-mini 每类百分比,只给出了总体画像与领域分解。

两模型的失效画像质的不同

Embodied 领域横向扩展成功率(mean ± std over 3 runs)

扩展级别(约等于子任务数) GPT-5-mini Claude-4-Sonnet
短 horizon(基线) 0.926 ± 0.064 0.963 ± 0.064
级别 2 0.407 ± 0.170 0.259 ± 0.064
级别 3 0.259 ± 0.231 0.111 ± 0.111
级别 4 0.074 ± 0.064 0.037 ± 0.064

这张表生动印证了"sharp drop + 非线性下降"的主论点:从基线到级别 2,GPT-5-mini 已经掉了 57 个百分点;到级别 4,两个 SOTA 模型都塌陷到 < 8%,且差距几乎消失。

过程级 vs 设计级风险的总体比例

风险类别 占全部失败轨迹
PFMEA(Environment + Instruction + Planning + History Accumulation) 72.5%
DFMEA(Memory + Forgetting + False Assumption) 27.5%

消融与分析

1. 横向 horizon 扩展的三个跨域规律

论文在 §4 "Main Results" 里抽象出:

2. 纵向分类学的可复用性

所有 3,132 条轨迹的失败模式都能归入七类,且 LLM 判官与人类标注吻合良好(κ=0.84)——作者把这作为 taxonomy generalizable 的证据。

3. OpenClaw 现实世界映射(§7)

作者在附录中把七类映射到 OpenClaw 实际部署中出现的"Agents of Chaos" 事件(Shapira et al. 2026, arXiv:2602.20021):

七类 OpenClaw 实际事件 机制
Environment Concurrent Modification — 云同步中途重命名目录 Agent 把 "file not found" 当作瞬时错误继续执行
Instruction Forwarded Inbox — "share" 拒绝但"forward" 同意 语义等价指令被当作不同任务
Planning Infinite Loop — 两个 Agent 互相转发消息 缺 termination check
Catastrophic Forgetting Policy Override — "不要回外部域"在数百轮后被遗忘 约束仍在 context 内但 generation 不再关注
False Assumption Identity Hijack — 接受冒名通信渠道 误把声称的身份当作真实身份
History Accumulation Guilt Trip — 情感压力下逐步让步 决策边界被累积的"对攻击者友好"历史侵蚀
Memory Limit Storage Exhaustion — Agent 不断存附件直到邮箱爆满 缺乏对自身累积存储行为的持久记忆

这是此论文的"甜点":一个纯仿真/基准的分类学,能被现实世界的 red-team 报告一一对上——可信度显著上升。

4. 子规划错误为何"特别致命"

作者特别解释(§5):规划错误有三层复合危险——

  1. 早发生:在轨迹开端就可能偏离
  2. 下游耦合:后续动作基于错误规划展开
  3. 不可逆:把本可局部修复的错误转为轨迹级崩溃

这也是为什么 planning error 在 Embodied(94.9%)和 Database(79.3%)的结构化动作空间里会一骑绝尘


复现评估

如果你想复现或在自家 Agent 上跑这个 benchmark,以下是门槛与陷阱:

复现维度 难度 备注
Web(WebArena) 开源,官方 docker;只需写 horizon extension 脚本
OS(AgentBench) 低–中 开源;主要工作量在人工构造深度扩展任务
Database(MAC-SQL) 三模块 pipeline 已开源;但原论文评估只有 84 条轨迹,样本偏小
Embodied(IsaacSim 5.0 + Franka + Tesollo) 需要 GPU、IsaacSim 许可证、仿真资产;且成功评估是人工打分,非自动
LLM-as-a-Judge 流水线结构清晰,但 prompt / rubric 论文未完整公布,需按 §F 描述重建
人类标注验证 需两名 Agent 领域专家对 40 条长 trajectory 做盲标,时间成本高

已知痛点

成本估算(粗):


批判性分析

这篇论文方向和方法都很扎实,但也有几处值得谨慎对待的地方。

1. 模型版本表述的内部矛盾

正文 §4、§D.2 写的是 GPT-5-mini 和 Claude-4-Sonnet,但 Figure 7 的 caption(附录 F)写成 "GPT-4o-mini vs Claude 3.5 Sonnet"。虽然数字(33.4% / 39.9%)与正文一致,但命名不一致会让读者在复现时产生歧义。这可能是草稿迭代遗漏的 errata,审稿版有望修正。

2. 样本规模在 DB 和 Embodied 过小

总轨迹 问题
Web 767 OK
OS 2,146 充足
Database 84 结论(规划 79.3%)基于 ~30 条失败
Embodied 135 结论(规划 94.9%)基于 ~78 条失败

对 DB 和 Embodied 下的结论应当视为初步,尤其是"Planning Error 近乎全部"的断言。

3. 只覆盖两个模型家族,缺少小模型与开源模型

GPT-5-mini 和 Claude-4-Sonnet 都是专有 SOTA。缺少对比的是:

如果后续扩展这两条,论文的 "scaling alone won't fix" 的说法会更有力。

4. LLM-as-a-Judge 的 40 条校准集偏小

40 条 trajectory 做 κ 校准是下限级的。虽然 κ=0.84 数值很漂亮,但置信区间较宽。更稳妥的做法是至少 100~150 条跨域 trajectory,且分层采样(每类 10+ 条)。

5. 基线严格筛选可能过度乐观化 baseline

"只保留 GPT-5-mini 100% 成功的任务作为 s=1 基线"意味着——对于底模能力差的 Agent,所谓"基线"本身就不是基线。这会导致下降曲线的斜率对 GPT-5-mini 有利(它起点被人为抬高),而 Claude-4-Sonnet 可能在 s=1 就并非 100%。跨模型横向对比时需要考虑这个偏差。

6. 嵌套任务集会放大相关性

s+1 级的任务集包含 s 级任务,这让"adjacent levels 受控"的说法更像"公共子集确保单调"而非"独立采样"。如果要做统计显著性检验,需要对共享任务做 paired 设计或层级效应模型,而论文只报 ±1 std。

7. 七类分类的"正交性"更像理论期许

作者强调七类正交可叠加(一条轨迹可同时标多类),但 Figure 6/7/8 的 stacked bar 呈现的是单主因归因的比例,对多标签现象的分析不足。多标签共现矩阵(哪两类最常一起出现?)是下一步的明显补强。

8. "Breaking point 是区间而非阈值"的工程可用性

这个洞察虽然漂亮,但操作层面留下空白:工程团队到底应该在哪个 s 投入测试预算?论文建议"识别失效动态质变的区间",但没有给出自动化检测转移区的统计方法(例如变点检测、贝叶斯变化分析)。后续工作补上这一步,会让 HORIZON 从评测框架升级为部署前的决策工具。

9. 实验所用 Embodied 环境极简

红/蓝/绿三个积木、4 个原语动作的桌面摆弄,虽然适合做可控实验,但距离真实 Embodied AI 的长程任务(open-world 导航、多物体交互、视觉-语言-动作耦合)还很远。因此 "Embodied 里 94.9% 是 Planning Error" 的强断言只适用于结构化仿真动作空间

10. 对"方法级改进"只提方向未提方案

论文呼吁 "hierarchical subplanning、execution-time plan verification and repair、长程记忆" 三方向,但未给出任何具体算法或架构提案。这是诊断论文的惯例,但也意味着 HORIZON 的下一步——"基于诊断设计修复方法"——还留给社区。


延伸阅读


写在最后

HORIZON 最大的意义不在于具体数字,而在于提供了一个共同坐标系:以后再说"我的 Agent 在长时序上更好",至少可以回答三个问题——

  1. 你把 horizon 定义在哪一层(H* 还是 step count)?
  2. 你观察到的是成功率下降,还是失效构成的转移
  3. 失效具体落在七类里的哪几类,对应的干预是 PFMEA 还是 DFMEA?

如果这三个问题在 2026 年下半年的 Agent 论文里开始被默认回答,HORIZON 就已经做到了它想做的事。

"Understanding long-horizon failure is a prerequisite for building reliable agentic AI systems." —— §6 Conclusion