Localizing, Scaling, and Controlling Policy Circuits in Language Models
Localizing, Scaling, and Controlling Policy Circuits in Language Models
原文链接:https://arxiv.org/abs/2604.04385 作者:Greg Frank 机构:独立研究者 / 论文正文覆盖 6 家实验室模型 发布日期:2026-04-13(v3 更新)
速查卡
| 项目 | 内容 |
|---|---|
| 一句话总结 | 论文认为对齐后的拒答并不是“危险能力被删掉”,而是内容检测后被一条 gate-amplifier 路由电路导向了拒答输出。 |
| 大白话版 | 模型其实先看懂了你在问什么,然后某个中层“闸门头”把信号交给后面的“放大头”,最后把回答路由成拒答。把这个闸门绕开,模型就可能直接回答。 |
| 核心数字 | 覆盖 12 个模型、6 家实验室、2B-72B;gate 对输出 DLA 贡献 <1%,但在互换测试中因果必要;72B 上单头 ablation 最多衰减 58×,interchange 仍有效;cipher 让 gate necessity 崩掉 70%-99%。 |
| 评级 | A — 这是近期 alignment mechanistic interpretability 里最扎实也最不舒服的一篇。 |
| 代码 | 论文附 GitHub 仓库链接 |
| 关键词 | policy circuit, refusal, gate head, amplifier heads, interchange, DLA, cipher bypass, mechanistic interpretability |
核心 Insight
这篇论文最关键的洞察是,**“检测到敏感内容”和“输出拒答”**不是同一件事,中间隔着一层可定位、可操控、还会迁移的 routing 机制。
过去很多安全讨论默认,对齐训练把危险能力压掉了,或者至少显著削弱了。但作者的实验指向另一种更尖锐的解释:模型在中层依然能识别敏感主题,真正决定最后是拒答、规避、还是正常回答的,是一套 policy routing circuit。换句话说,能力还在,只是被导向了不同输出口。
这个 framing 很重要,因为它把“alignment 是否稳固”从行为学问题,推进成了电路问题。如果这条路由能被编码绕过、能被激活替换、能被局部调制,那很多“模型很安全”的表面现象就要重估。
为什么这个想法 work?
因为 transformer 里并不是所有因果关键节点都要在 output attribution 上显眼。
论文最有意思的点之一是,gate head 对最终 output DLA 的直接贡献不到 1%,看起来像个小角色。但它像恒温器或者继电器,不负责大功率输出,却负责决定后面的放大器要不要启动。所以如果你只看“谁对最后 logits 贡献最大”,会错过真正的控制点。
作者因此把工具链分成三种角色:
- DLA 看谁在“搬运信号”
- Ablation 看谁“不可少”
- Interchange 看谁“携带内容特异信息并触发路由”
这三者叠起来,才能把 gate 找出来。
方法详解
整体架构
论文提出的 routing 机制可以简化成:
输入提示
→ 检测层(约 L15-L16)形成敏感内容表征
→ gate head 读取表征并写入路由向量
→ amplifier heads 在更深层放大该向量
→ 分布式 carriers / MLP 将其推到最终拒答方向
→ 输出 REFUSAL / EVASION / FACTUAL / HARMFUL_GUIDANCE
作者强调,这不是简单 keyword filter,而是 contextual / compositional detection。相同关键词在不同 framing 下,layer-16 probe score 可以不同。
关键技术组件
组件 1:Direct Logit Attribution(DLA)
**做什么:**衡量每个组件对“拒答 vs 回答”方向的输出贡献。
关键公式:
其中:
- 是词表输出矩阵
- 是目标 token
- 是 baseline refusal token 集合的均值嵌入
- 是组件输出
**直觉解释:**看某个头、某个 MLP,到底把 residual stream 往“拒答方向”推了多少。
但 DLA 有一个坑,它更容易找到“最终搬运工”,不一定找得到“总闸门”。论文在 Qwen3-8B 上的结果就是典型例子,深层头最显眼,但真正 gate L17.H17 一开始排到 150 名以后。
组件 2:Head-level ablation
**做什么:**看删掉某个头后,整体 routing signal 会掉多少。
在 Qwen3-8B 上,单头 ablation 后最显著的是 22-23 层一组头,尤其 L22.H7。它们更像 amplifier,而不是 gate。
这一步比 DLA 稳定。论文给出 bootstrap top-10 Jaccard:
- DLA:0.66
- Ablation:0.92
说明 ablation 更适合找“必要节点”,但还是不够精准区分谁在读内容、谁在放大内容。
组件 3:Interchange testing
**做什么:**这是整篇论文最核心的技术手段。
作者把 sensitive prompt 和 matched control prompt 的某个头激活互换,分别测:
- necessity:在敏感 prompt 上,把该头换成控制样本激活,routing 有没有减弱
- sufficiency:在控制 prompt 上,把该头换成敏感样本激活,routing 有没有增强
如果一个头 necessity 和 sufficiency 都高,说明它不只是放大,而是确实在读内容并触发路由。
在 Qwen3-8B 上的关键发现:
- L17.H17:necessity 1.1%,sufficiency 0.3%,综合第一
- 它比 L22.H7 高 64%
- permutation null 检验显著,
这就是 gate 的定位依据。
组件 4:Knockout cascade
**做什么:**验证 gate 被拿掉后,下游 amplifier 会不会一起塌。
在 Qwen3-8B 上:
- 零掉 L17.H17 后,6 个 amplifier 里 5 个被压低
- 抑制幅度 5%-26%
- 最强一个是 L22.H5,下降 25.8%
- 还暴露出 counter-routing head:L22.H6,反而上升 10.1%
这一步非常关键,因为它说明 gate 不是一个相关性节点,而是因果入口。
训练/实验设置
论文不是只盯一个模型,而是分三层证据:
- 深入分解:Qwen3-8B、Phi-4-mini、Gemma-2-2B
- 广泛 interchange screening:总共 12 个模型
- 覆盖范围:6 家实验室,2B 到 72B
- 常用样本量:n=120 prompt pairs
这让它比很多 mechanistic interpretability 论文更像“模型家族级结论”,而不只是某个 checkpoint 的奇观。
与现有方法的关键区别
| 维度 | 常见做法 | 本文方法 | 为什么更好 |
|---|---|---|---|
| 看拒答 | 行为 benchmark | 电路级局部化 | 能解释为什么 benchmark 可能漏报 |
| 找关键头 | 单看 attribution / 单头 ablation | DLA + ablation + interchange 三联法 | 能区分 trigger 和 carrier |
| 研究 bypass | prompt engineering 观察 | cipher + rescue + contrast analysis | 能把 bypass 定位到具体层级接口 |
| 跨模型结论 | 常只看 1-2 个模型 | 12 模型、6 实验室 | 更能说服人这是共性模式 |
实验结果
主实验
| 发现 | 结果 |
|---|---|
| gate 直接输出贡献 | < 1% output DLA |
| Qwen gate 位置 | L17.H17 |
| Qwen 主要 amplifier | L22.H7、L23.H2、L22.H4 |
| 规模覆盖 | 12 models, 2B-72B |
| 大模型上 ablation 退化 | 最多 58× 变弱 |
| cipher 下 gate necessity 衰减 | 70%-99% |
| Phi-4 单头 rescue | 48% refusal 恢复 |
解读:
- gate 的“输出贡献小但因果地位大”是全文最关键的机制发现。
- 越大模型,单头 ablation 越不好用,因为 routing 更分布式,但 interchange 仍能抓住 gate。
- 这意味着未来 frontier safety audit 如果还只做 ablation,很可能漏掉真正的控制点。
机制发现一:route 不是简单阈值
作者先证明 detection 是 prompt-time 的,最后一个 prompt token 和第一个生成 token 的 per-layer DLA 高度重合,说明拒答方向在生成前就定了。
同时,相同关键词在不同语境下 layer-16 probe score 不同,所以安全路由不是“见词就拒”。这点很重要,它说明模型确实在做更高阶语义判断,而不是浅层黑名单匹配。
机制发现二:gate 是 trigger,不是 carrier
论文专门解释了为什么 gate output attribution 很小。
在 Qwen3-8B 里:
- gate 写入后,在 L18 的中间层 DLA 排名冲到 #2
- 到最终输出时,深层 carrier heads 把它的信号接过去继续放大
- 所以 output 端看起来 gate 不重要,实际上它只是把控制权交给后面的分布式网络
这个结论对 interpretability 社区是个提醒,别把 output attribution 排名当因果排名。
机制发现三:规模变大后,routing 从单头变成带状分布
论文比较四组同代 scaling pairs,发现:
- 小模型更集中在少数头上
- 大模型更分布式
- 在 72B 上,单头 ablation 的顶级效应只剩 0.016,几乎不可见
- 但 interchange necessity 仍 >1%
这说明大模型不是没有 routing circuit,而是更“铺开了”。对审计来说,这意味着工具必须升级,不然会错把“测不出来”当“问题不存在”。
机制发现四:拒答是连续可控的,不是二元开关
作者在 detection 层加减一个 steering direction ,得到明显的 dose-response 曲线。
在 Tiananmen prompts 上:
- baseline 是 100% refusal
- attenuation 到 后,refusal 下降到 0%
- 输出路径变成 REFUSAL → EVASION → FACTUAL
在 Phi-4-mini 的 safety prompts 上,更刺激:
- attenuation 会把 REFUSAL 变成 HARMFUL_GUIDANCE
这说明所谓安全能力没有被删掉,而是被路由屏蔽。
机制发现五:cipher bypass 指向 early-commitment vulnerability
论文最不舒服的结果是 substitution cipher 绕过实验。
当作者先教模型一个拉丁替换密码,再用编码后的 harmful prompt 提问时:
- Qwen3-8B detection signal 下降 66%
- Phi-4-mini 下降 88%
- Gemma-2-2B 下降 70%
- 模型不再拒答,而是把任务当成“解谜题”去解码
更狠的是,gate 的 interchange necessity 在 cipher 下几乎消失:
- Gemma / Phi-4 约 99% 崩塌
- Qwen 也掉 70%
这说明问题不在后面 refusal generation 坏了,而是在检测层根本没形成 gate 可读的表示。
机制发现六:rescue experiment 证明故障位置就在 gate 接口
为了证明不是整个 forward pass 都乱掉了,作者做了 rescue:
- 在 Phi-4-mini 上,把 plaintext gate activation 注入 cipher forward pass
- refusal 恢复到 48%
这一步非常关键。它说明 amplifier cascade 其实还活着,只是 gate trigger 丢了。
复现评估
| 维度 | 评分(1-5) | 详细说明 |
|---|---|---|
| 数据可得性 | ⭐⭐⭐⭐ | prompt corpus 和方法描述较完整 |
| 代码可得性 | ⭐⭐⭐⭐ | 有仓库,但需要较熟 mechanistic tooling |
| 算力需求 | ⭐⭐ | 2B-8B 还能玩,12 模型全覆盖就重了 |
| 工程复杂度 | ⭐⭐⭐⭐⭐ | hook、activation cache、interchange、DLA 都不轻松 |
| 预期收益 | ⭐⭐⭐⭐⭐ | 对 safety eval、red teaming、mechanistic interpretability 都很高 |
**复现建议:**别一上来全做。最现实的是先选 1 个开源 7B-8B 模型,复现 detection layer probe、single-head interchange 和 cipher bypass 三件套。
批判性分析
局限性
论文自己也承认了不少边界:
- 只覆盖 2B-72B,没有 frontier 闭源超大模型。
- 研究对象主要是政治拒答和 safety refusal,不能外推到所有 alignment behavior。
- MLP 约占 23% routing signal,但还没做 feature-level 拆解。
- cipher 只验证了一类编码,不代表所有变换都一样。
我认为还要再补三点:
- “模型理解了 harmful intent 但 gate 读不到” 与 “模型只是做形式解码没真正绑定语义” 之间,论文没有彻底区分。
- 行为分类大量使用 LLM judges,虽然一致性不差,但在 STEERED / EVASION 边界上仍有噪声。
- 这篇论文非常强地依赖作者定义的 refusal-vs-answer direction,虽然做了 robustness,但不同 token 方向仍可能影响某些细节量化。
改进方向
- 扩展到 reasoning models / thinking tokens。 论文已点名现有 DLA pipeline 对这类架构兼容性不好。
- 把 MLP feature decomposition 补完。 如果 23% 甚至单主题下 61% 的信号在 MLP 路径上,当前画面还没完整。
- 把 circuit audit 接到现实安全评估。 比如用 mechanistic signature 去补 benchmark 漏洞。
独立观察
- 这篇论文对“安全训练是否真正删除能力”给出的答案非常接近“不”。这对行业营销叙事是坏消息,但对真实防御是好消息,因为至少我们知道该往哪打。
- 它也解释了为什么很多模型在 benchmark 上看似稳定,但换个 phrasing、语言或编码形式就露馅。因为 benchmark 测的是表层行为,电路漂移可能完全看不见。
- 对闭源模型公司来说,最麻烦的不是这篇论文证明了某个具体 bypass,而是它提示了一类更通用的失效模式:只要检测层没形成 gate 可读表示,后面所有“安全拒答”都来不及。
对领域的影响
短期内,这篇论文会迫使安全研究从“多做几个 prompt benchmark”转向“行为评测 + 机制审计”的双轨制。
中期内,interchange testing 这类方法可能会变成 alignment audit 的标配,因为大模型规模上去之后,ablation 已经越来越不灵了。
长期看,如果 gate-amplifier routing 这一范式被更多模型家族复现,那安全训练范式本身都可能要改。真正稳的防御,不能只在输出口拦截,而要让检测、绑定、路由三个阶段都更鲁棒。否则,拒答只是看起来在,能力其实一直躺在后面等着被绕过去。