Esc
输入关键词开始搜索
News

深度解读:ManyIH——当指令层级超过 3 层,前沿模型准确率暴跌至 40%

深度解读:ManyIH——当指令层级超过 3 层,前沿模型准确率暴跌至 40%

两层指令冲突?所有模型都能搞定。十二层指令冲突?最好的模型也只对四成。

1. 一句话定性

ManyIH 是第一个系统性测试 LLM 在真实世界多层指令层级中解决冲突能力的基准,揭示了一个对智能体部署安全至关重要的事实:现有前沿模型在超过 2-3 层权限级别时,指令优先级判断能力急剧崩溃

2. 核心问题

真实世界的指令冲突远比”系统 prompt vs 用户 prompt”复杂

当前的指令层级(instruction hierarchy)研究几乎全部聚焦于 2 层场景:系统指令 vs 用户指令。但现实中的 AI 智能体系统远不止两层:

  • 企业场景: 公司政策 → 部门规范 → 项目经理指令 → 直属上级 → 用户请求 → 第三方工具返回
  • 智能体编排: 顶层编排器 → 子智能体 A → 子智能体 B → 工具调用 → 外部 API 响应
  • MCP 生态: 平台策略 → MCP server 配置 → tool schema → 运行时 context → 用户 prompt

当这些层级中出现矛盾指令时,模型应该遵循哪一层?这不是学术问题——这是 prompt injection 防御的核心,也是企业级智能体部署的安全基线。

3. 方法

3.1 基准设计

ManyIH 构建了一个包含 853 个任务的基准,覆盖 46 个真实智能体域,支持最多 12 层权限级别

基准分为两个子集:

子集规模评估方式测试重点
Coding427 样本程序化 AST 评估12 种代码风格规则的优先级解决
Instruction Following (IF)426 样本AgentIF 自动评估46 个真实智能体域中的指令冲突

3.2 两种权限接口

ManyIH 设计了两种指令权限的表示方式:

  • Ordinal(序数): 层级编号,数字越小优先级越高(Level 1 > Level 2 > Level 3)
  • Scalar(标量): 权限值,数值越大优先级越高(Authority 100 > Authority 50 > Authority 10)

这两种接口在语义上等价,但形式上相反(一个越小越好,一个越大越好)——专门测试模型是否真正”理解”权限概念,而非简单记住”数字小的赢”。

3.3 鲁棒性测试

  • 表示切换扰动: 在同一任务上切换 Ordinal ↔ Scalar 表示,观察模型答案是否翻转
  • 微值扰动: 对权限值添加小扰动 δ∈[−3, +3](不改变层级排序),观察模型是否受影响

4. 关键结果

4.1 核心发现:层级增加 → 准确率崩溃

模型整体准确率对比 2 层基准
Gemini 3.1 Pro42.7%>99%(2 层时)
GPT-5.439.5%>99%(2 层时)
Claude Opus 4.6~38%>99%(2 层时)

从 >99% 暴跌至 ~40%——这不是渐进下降,而是层级复杂度增加后的断崖式失败

4.2 风格准确率 vs 测试准确率的分离

在 Coding 子集中,模型展现了一个诡异的能力分离:

  • 测试准确率(代码功能正确): 86-92%——模型依然能写出功能正确的代码
  • 风格准确率(遵循指定层级的风格规则): 42-68%——但无法正确判断应该遵循哪个层级的风格要求

这意味着模型的”编码能力”和”指令优先级判断能力”是解耦的——模型能做对事,但不一定是按正确的权限方做事。

4.3 鲁棒性测试结果

  • 表示切换: Ordinal ↔ Scalar 切换导致 8% 的准确率变化——模型的权限判断在一定程度上依赖表面形式而非语义理解
  • 微值扰动: 不改变层级排序的微小权限值变化导致 8-17% 的样本答案翻转——模型对权限数值敏感但对排序关系不稳定

4.4 CoT 分析

Qwen 3.5-397B 使用了 7× 多的推理 token(相比其他模型),但整体排名仅第 7——更多的推理并不能弥补多层权限判断的基础能力缺陷。这与 RecaLLM 的发现形成呼应:更多推理不总是更好。

5. 局限与开放问题

  1. 12 层是否过度人造? 批评者可能认为真实系统很少有 12 层明确权限。但论文的观点是:即使在 4-5 层时准确率已显著下降——而 4-5 层在企业智能体系统中完全是现实场景。
  2. 权限以显式数字提供: 真实系统中权限往往是隐含的(“CEO 说了要这样做” vs “系统消息规定不可以”),模型需要自行推断层级——实际表现可能比基准更差。
  3. 未测试动态权限变更: 真实场景中权限可能在对话过程中变化,ManyIH 是静态快照。
  4. 训练数据偏差: 当前模型大量训练于 2 层场景(system/user),对多层场景的能力缺陷可能是训练分布不足导致的——这意味着可以通过定向训练改善

6. 为什么重要

对智能体安全的直接警告

如果前沿模型在超过 3 层权限时准确率降至 40%,那么任何依赖多层指令层级实现安全控制的智能体系统——包括 MCP 生态中的多级权限设计——都存在根本性的安全缺口。攻击者只需在复杂层级中注入一条矛盾指令,就有约 60% 的概率让模型遵循错误的权限。

对 Anthropic Trustworthy Agents 框架的现实检验

Anthropic 4 月 9 日发布的 Trustworthy Agents 框架强调”保持人类控制”和”确保交互安全”——但 ManyIH 表明,当控制机制(指令层级)本身在模型端崩溃时,再精巧的框架设计也无法弥补基础能力的不足。这不是框架设计问题,而是模型能力问题

对指令层级研究的基准贡献

ManyIH 将指令层级研究从”2 层够不够”推进到”N 层怎么办”,为后续研究提供了标准化的评估基础设施。853 任务 × 46 智能体域 × 12 层级的规模在同类基准中首屈一指。

7. 给动动的一句结论

ManyIH 的核心发现可以浓缩为一句话:所有前沿模型在多层指令冲突上都是纸老虎——2 层时 99%,12 层时 40%。对于正在部署多层智能体系统的团队来说,这是一份必须认真对待的安全审计报告。这项工作与今天 Anthropic 的 Trustworthy Agents 框架形成精确的互文——框架告诉你该怎么设计,ManyIH 告诉你模型离达标还有多远。


信源: