2026-04-17 · 深度解读 · 编辑:Lighthouse
原文:arxiv.org/abs/2604.11978 — The Long-Horizon Task Mirage? Diagnosing Where and Why Agentic Systems Break
作者:Xinyu Jessica Wang, Haoyue Bai(共同一作), Yiyou Sun, Haorui Wang, Shuibai Zhang, Wenjie Hu, Mya Schroder, Bilge Mutlu, Dawn Song, Robert D. Nowak(UW–Madison / UC Berkeley / Georgia Tech)
| 维度 | 内容 |
|---|---|
| 一句话总结 | 长时序 Agent 的崩溃不是"成功率均匀下降",而是失效构成的结构性转移——规划类与记忆/遗忘类失效在 horizon 增长时迅速变成主导 |
| 大白话版 | 把任务步数从 3 拉到 10,Agent 的失败模式会从"偶尔点错按钮"变成"根本忘了最初的约束 / 没做子规划"。光靠把底座模型做大无法解决,必须在记忆、规划、执行期校验三处做方法级改造 |
| 核心数字 | 3,132 条轨迹(1,995 失败 / 1,137 成功);整体任务成功率 36.3%;GPT-5-mini 33.4% vs Claude-4-Sonnet 39.9%;过程级 PFMEA 占失效 72.5%,设计级 DFMEA 占 27.5% |
| 基准规模 | 4 个领域(Web/OS/DB/Embodied)× 2 模型家族 × 700+ 任务,配合 LLM-as-a-Judge + 40 条人类标注的 pilot 验证 |
| 验证强度 | 标注员间一致性 κ=0.61(substantial);人类–LLM 判官一致性 κ=0.84(strong) |
| 影响评级 | A — 首个把 horizon 当作受控自变量而非副产品的跨域基准,且配套 FMEA 级失效分类体系,对后续长时序 Agent 研究提供统一坐标 |
论文里藏着三个真正值得划重点的结论:
① 长时序崩溃是"失效构成"在变,不是成功率在跌。 跨 4 个领域、3,132 条轨迹,作者给出的核心定性结论是:
Long-horizon failure is not merely a drop in success rate, but a structural shift in failure composition: planning-related failures (e.g., subplanning errors) and memory-related failures (e.g., catastrophic forgetting) become dominant as horizon increases.
换句话说:horizon 短的时候各种错都可能有(环境、指令、规划……),horizon 长了以后规划错误 + 灾难性遗忘 + 记忆极限三家合计占绝大多数。这意味着"给更多样本"、"加大模型"都不是对应的解法——要改的是 Agent 的架构,而非底模能力。
② "breaking point 不存在通用阈值,只存在转移区间"。 作者明确反对业界常见的"某模型在 N 步之后崩了"的说法。他们观察到成功率下降是非线性的:在小 s 时轻微下降,到某个点后急剧塌陷,并且不同领域塌陷的位置差异极大——
Web collapses at very small s, OS and Database domains sustain moderate performance until later extension levels, and Embodied tasks degrade steeply even with minimal increases in s.
更反直觉的是:模型间差距在崩溃区间之后会收敛——GPT-5-mini 和 Claude-4-Sonnet 在长 horizon 上的表现越来越接近。作者因此建议把 breaking point 视为"转移区间"(transition region),而不是一个具体的步数。
③ 失效分类是 FMEA 七类,而非传统 Agent 论文里的三四类粗标签。 作者把七类分成两组:
这个划分直接对应不同的工程干预方向:PFMEA 类要加"执行期校验 / 重新观察 / 重规划",DFMEA 类要加"长程记忆 / 约束持久化 / 假设显式化"。
★ Insight ─────────────────────────────────────
论文在 §1 特意指出:一个 Agent 即使每步错误率很小,只要步间相互依赖,复合错误率会以几何速度吞掉成功率。这是"长时序失效不是加性而是乘性"的根本原因——也是 HORIZON 要刻意把 horizon 作为受控自变量的动机。
─────────────────────────────────────────────────
作者主张 horizon 必须和"Agent 低效"解耦:一个在简单任务里反复 fail 50 次的 Agent,不是在解长时序问题,而是在解短时序问题而已。为此他们提出三个智能体无关的任务结构指标(§3.1):
| 指标 | 记号 | 含义 |
|---|---|---|
| 内在 horizon | H* | 最优策略完成任务所需的最小有效动作数,由专家演示或形式化规约给出 |
| 组合深度 | s | 路径上决策节点(嵌套子目标 / 条件分支)最大数 |
| 扩展级别 | s(受控变量) | 实验中调节的"强度旋钮",要求 H*(s) 对 s 单调递增 |
论文举了一个具体例子:web 任务 "find and purchase wireless headphones under \$200" 的 H* = 8(搜索→价格筛选→评分排序→……→结算)。这个值不随 Agent 的重试次数改变。
为了在不同领域里让 H*(s) 可控地增长,作者设计了两种扩展:
作者围绕 Agent 的执行循环(observe → plan → act → update memory)构建了如下正交的七类:
| 编号 | 类别 | 类型标签 | 典型机制 |
|---|---|---|---|
| 1 | Environment Error | [S] | 环境扰动 / 无法检测环境变化(permission denial 未捕捉、页面未渲染完成、schema drift) |
| 2 | Instruction Error | [S] | 指令不明 / 部分理解(忽略 "except"、"mismatching" 等修饰词) |
| 3 | Catastrophic Forgetting | [L] | 约束仍在 context 内但执行时没再关注("never touch payments schema" 被后续步骤违反) |
| 4 | False Assumption | [S] | 把先验当普适事实(假设每张表都有 created_at 列、假设颜色匹配模式) |
| 5 | Planning Error | [S] | 子规划 / 动作选择错(先 drop backup 再迁移数据) |
| 6 | History Error Accumulation | [L] | 早期小错在下游复用并放大(中间表忘加 is_deleted=false) |
| 7 | Memory Limitation | [L] | 上下文超窗导致早期观察被截断或摘要 |
标签含义:[L] = 主要出现在长时序任务(短时序几乎不见);[S] = 短/长时序都可能出现但在长 horizon 下被放大。
一个重要设计点是:这些类别不是互斥的。同一条失败轨迹可能同时呈现 Catastrophic Forgetting(丢约束)+ False Assumption(环境状态误判)+ History Error Accumulation(早期错误复合)。这种正交多标签视角让 "planning error" 不再是一个万能标签,而可以进一步解释为"由遗忘引起的规划错"——直接对应不同干预手段(架构级 vs. 训练级)。
由于长轨迹人类标注不可规模化,作者搭建了一个轨迹锚定(trajectory-grounded)的 LLM 判官流水线:
验证强度:两名专家独立标 40 条,κ=0.61(substantial);LLM 判官与人类 κ=0.84(strong)。论文明确在 Ethics Statement 里按 COLM 2026 披露了 LLM 作为自动评估者的使用。
★ Insight ─────────────────────────────────────
"trajectory-grounded" 的意思是判官不只看最终结果,而是看全轨迹并定位到"turning point"(第一次不可逆偏差)。这和把 LLM 当 rubric scorer 的常见用法不一样——它其实是一个"事后故事分析师",要在多步动作里标出"就是这一步开始错的",这也是 κ=0.84 相对可信的原因。
─────────────────────────────────────────────────
这是一篇纯诊断/评测论文,不训练新模型,也没提出新的记忆模块。作者特别强调:
We do not add a memory module; we report how memory-related failures appear in labeled trajectories when horizon extends.
数据层面的关键设计(§4、§D.1):
作者采用"baseline 必须能过"的严格过滤:每个领域的基线任务都先用 GPT-5-mini 跑一遍,只保留 100% 成功的任务作为 s=1 基线。这样保证后续看到的性能下降来自 horizon 增长,而非任务本身难度或 Agent 配置问题。
为降低混杂变量,作者采用嵌套构造:horizon 级别 h+1 的任务集 包含 h 级的所有任务,再加入更长的任务。这使得相邻级别之间的对比"by construction 受控",主要变量就是 horizon 长度。
| 领域 | 基础环境 | 基准 | 关键设计 |
|---|---|---|---|
| Web | 网页导航 | WebArena | 广度扩展为主 |
| OS | Shell 操作 | AgentBench | 深度扩展为主 |
| Database | Text-to-SQL | MAC-SQL(Selector+Decomposer+Refiner 三模块) | 深度扩展为主 |
| Embodied | 双臂 IsaacSim 5.0 | 自建(Franka Emika Panda + Tesollo DG-3F-B 三指夹爪) | 广度扩展为主 |
Embodied 环境只开放 4 个原语:home、move_to_pose(arm, pose)、grasp(arm)、release(arm),桌面三个积木(红/蓝/绿)。Agent 输出 JSON 计划再在仿真里执行,人工评估成功。
每个 horizon 设定跑 3 次独立 run,报告均值 ± 标准差。
| 维度 | 常见做法 | HORIZON 的做法 |
|---|---|---|
| Horizon 度量 | 交互步数 / 工具调用数 / 推理步数,各家不一致 | 任务结构层面的 H* 与 s,Agent 独立 |
| 评估口径 | 只报 terminal success rate | 同时报 horizon 曲线 + 失效归因 二维结果 |
| 失效分类粒度 | 高层标签(hallucination / planning)或领域特有 | FMEA 启发的 七类正交分类,跨四个域可用 |
| 分类验证 | 往往只作者自己标 | κ=0.61 标注员间 + κ=0.84 人-机 双验证 |
| 可规模化 | 纯人标,几百条量级 | LLM-as-a-Judge,3,000+ 条轨迹 |
| 研究对象 | 多以"怎么让 Agent 更强"为目标 | 以 "horizon 增长时哪类失效成为主导" 为目标 |
| 多 Agent 失效 | Cemri et al. 2025 做多 Agent 协作分类 | HORIZON 专注单 Agent 跨域 horizon 条件下的失效 |
论文在 §2 Related Work 里明确区分:前人工作(AgentBench、WebArena 等)"still foregrounds terminal success";而 HORIZON 的贡献在于把 horizon 当受控自变量来 sweep。
| 总量 | 数值 |
|---|---|
| 轨迹总数 | 3,132 |
| 失败轨迹 | 1,995 |
| 成功轨迹 | 1,137 |
| 整体任务成功率 | 36.3% |
| 领域 | 成功率 | 样本(成功 / 总数) |
|---|---|---|
| Web | 24.1% | 185 / 767 |
| OS | 40.3% | 864 / 2,146 |
| Database | 36.9% | 31 / 84 |
| Embodied | 42.2% | 57 / 135 |
| 模型 | 成功率 | 样本(成功 / 总数) |
|---|---|---|
| GPT-5-mini | 33.4% | 573 / 1,718 |
| Claude-4-Sonnet | 39.9% | 564 / 1,414 |
| 领域 | 主失效(> 50%) | 次失效 | 备注 |
|---|---|---|---|
| Embodied | Planning Error 94.9% | — | 几乎全是规划错 |
| Database | Planning Error 79.3% | False Assumption 7.5% | 结构化动作空间让规划成为瓶颈 |
| Web | Planning Error 74.9% | Environment 11.3% / Memory Limit 6.2% | 页面状态动态变化 |
| OS | Planning Error 36.7% | Instruction 25.9% / Environment 17.3% / Memory 15.1% | 失效最多样化的领域 |
一个特殊发现:History Error Accumulation 只在 OS 中被观察到(0.1%)——论文未细说原因,但从定义看,shell 命令链的"早期错误被后续步骤复用"在其他域很难这么"干净地"显现。
注:论文 Figure 7 原文 caption 把模型写为 "GPT-4o-mini vs Claude 3.5 Sonnet",但正文与 §D.2 一致使用 GPT-5-mini 和 Claude-4-Sonnet。我们按正文数字口径复述,并在"批判性分析"里标注此矛盾。
| 失效类型 | GPT-5-mini | Claude-4-Sonnet |
|---|---|---|
| Planning Error | 64.9% | 46.5% |
| Memory Limitation | 18.3% | 2.2% |
| Environment | 6.1% 左右* | 32.5% |
| Instruction | — | 16.5% |
| DFMEA 总计(Memory + Forgetting + False Assumption) | 20.8% | 6.6% |
Environment 值由其他类补全推算,论文未逐一给出 GPT-5-mini 每类百分比,只给出了总体画像与领域分解。
两模型的失效画像质的不同:
| 扩展级别(约等于子任务数) | GPT-5-mini | Claude-4-Sonnet |
|---|---|---|
| 短 horizon(基线) | 0.926 ± 0.064 | 0.963 ± 0.064 |
| 级别 2 | 0.407 ± 0.170 | 0.259 ± 0.064 |
| 级别 3 | 0.259 ± 0.231 | 0.111 ± 0.111 |
| 级别 4 | 0.074 ± 0.064 | 0.037 ± 0.064 |
这张表生动印证了"sharp drop + 非线性下降"的主论点:从基线到级别 2,GPT-5-mini 已经掉了 57 个百分点;到级别 4,两个 SOTA 模型都塌陷到 < 8%,且差距几乎消失。
| 风险类别 | 占全部失败轨迹 |
|---|---|
| PFMEA(Environment + Instruction + Planning + History Accumulation) | 72.5% |
| DFMEA(Memory + Forgetting + False Assumption) | 27.5% |
论文在 §4 "Main Results" 里抽象出:
所有 3,132 条轨迹的失败模式都能归入七类,且 LLM 判官与人类标注吻合良好(κ=0.84)——作者把这作为 taxonomy generalizable 的证据。
作者在附录中把七类映射到 OpenClaw 实际部署中出现的"Agents of Chaos" 事件(Shapira et al. 2026, arXiv:2602.20021):
| 七类 | OpenClaw 实际事件 | 机制 |
|---|---|---|
| Environment | Concurrent Modification — 云同步中途重命名目录 | Agent 把 "file not found" 当作瞬时错误继续执行 |
| Instruction | Forwarded Inbox — "share" 拒绝但"forward" 同意 | 语义等价指令被当作不同任务 |
| Planning | Infinite Loop — 两个 Agent 互相转发消息 | 缺 termination check |
| Catastrophic Forgetting | Policy Override — "不要回外部域"在数百轮后被遗忘 | 约束仍在 context 内但 generation 不再关注 |
| False Assumption | Identity Hijack — 接受冒名通信渠道 | 误把声称的身份当作真实身份 |
| History Accumulation | Guilt Trip — 情感压力下逐步让步 | 决策边界被累积的"对攻击者友好"历史侵蚀 |
| Memory Limit | Storage Exhaustion — Agent 不断存附件直到邮箱爆满 | 缺乏对自身累积存储行为的持久记忆 |
这是此论文的"甜点":一个纯仿真/基准的分类学,能被现实世界的 red-team 报告一一对上——可信度显著上升。
作者特别解释(§5):规划错误有三层复合危险——
这也是为什么 planning error 在 Embodied(94.9%)和 Database(79.3%)的结构化动作空间里会一骑绝尘。
如果你想复现或在自家 Agent 上跑这个 benchmark,以下是门槛与陷阱:
| 复现维度 | 难度 | 备注 |
|---|---|---|
| Web(WebArena) | 低 | 开源,官方 docker;只需写 horizon extension 脚本 |
| OS(AgentBench) | 低–中 | 开源;主要工作量在人工构造深度扩展任务 |
| Database(MAC-SQL) | 中 | 三模块 pipeline 已开源;但原论文评估只有 84 条轨迹,样本偏小 |
| Embodied(IsaacSim 5.0 + Franka + Tesollo) | 高 | 需要 GPU、IsaacSim 许可证、仿真资产;且成功评估是人工打分,非自动 |
| LLM-as-a-Judge | 中 | 流水线结构清晰,但 prompt / rubric 论文未完整公布,需按 §F 描述重建 |
| 人类标注验证 | 高 | 需两名 Agent 领域专家对 40 条长 trajectory 做盲标,时间成本高 |
已知痛点:
成本估算(粗):
这篇论文方向和方法都很扎实,但也有几处值得谨慎对待的地方。
正文 §4、§D.2 写的是 GPT-5-mini 和 Claude-4-Sonnet,但 Figure 7 的 caption(附录 F)写成 "GPT-4o-mini vs Claude 3.5 Sonnet"。虽然数字(33.4% / 39.9%)与正文一致,但命名不一致会让读者在复现时产生歧义。这可能是草稿迭代遗漏的 errata,审稿版有望修正。
| 域 | 总轨迹 | 问题 |
|---|---|---|
| Web | 767 | OK |
| OS | 2,146 | 充足 |
| Database | 84 | 结论(规划 79.3%)基于 ~30 条失败 |
| Embodied | 135 | 结论(规划 94.9%)基于 ~78 条失败 |
对 DB 和 Embodied 下的结论应当视为初步,尤其是"Planning Error 近乎全部"的断言。
GPT-5-mini 和 Claude-4-Sonnet 都是专有 SOTA。缺少对比的是:
如果后续扩展这两条,论文的 "scaling alone won't fix" 的说法会更有力。
40 条 trajectory 做 κ 校准是下限级的。虽然 κ=0.84 数值很漂亮,但置信区间较宽。更稳妥的做法是至少 100~150 条跨域 trajectory,且分层采样(每类 10+ 条)。
"只保留 GPT-5-mini 100% 成功的任务作为 s=1 基线"意味着——对于底模能力差的 Agent,所谓"基线"本身就不是基线。这会导致下降曲线的斜率对 GPT-5-mini 有利(它起点被人为抬高),而 Claude-4-Sonnet 可能在 s=1 就并非 100%。跨模型横向对比时需要考虑这个偏差。
s+1 级的任务集包含 s 级任务,这让"adjacent levels 受控"的说法更像"公共子集确保单调"而非"独立采样"。如果要做统计显著性检验,需要对共享任务做 paired 设计或层级效应模型,而论文只报 ±1 std。
作者强调七类正交可叠加(一条轨迹可同时标多类),但 Figure 6/7/8 的 stacked bar 呈现的是单主因归因的比例,对多标签现象的分析不足。多标签共现矩阵(哪两类最常一起出现?)是下一步的明显补强。
这个洞察虽然漂亮,但操作层面留下空白:工程团队到底应该在哪个 s 投入测试预算?论文建议"识别失效动态质变的区间",但没有给出自动化检测转移区的统计方法(例如变点检测、贝叶斯变化分析)。后续工作补上这一步,会让 HORIZON 从评测框架升级为部署前的决策工具。
红/蓝/绿三个积木、4 个原语动作的桌面摆弄,虽然适合做可控实验,但距离真实 Embodied AI 的长程任务(open-world 导航、多物体交互、视觉-语言-动作耦合)还很远。因此 "Embodied 里 94.9% 是 Planning Error" 的强断言只适用于结构化仿真动作空间。
论文呼吁 "hierarchical subplanning、execution-time plan verification and repair、长程记忆" 三方向,但未给出任何具体算法或架构提案。这是诊断论文的惯例,但也意味着 HORIZON 的下一步——"基于诊断设计修复方法"——还留给社区。
HORIZON 最大的意义不在于具体数字,而在于提供了一个共同坐标系:以后再说"我的 Agent 在长时序上更好",至少可以回答三个问题——
如果这三个问题在 2026 年下半年的 Agent 论文里开始被默认回答,HORIZON 就已经做到了它想做的事。
"Understanding long-horizon failure is a prerequisite for building reliable agentic AI systems." —— §6 Conclusion