News

深度解读：Anthropic《Trustworthy Agents in Practice》

在 Mythos 证明 AI 能发现 27 年漏洞的同一周，Anthropic 发布了一份关于”如何让 AI 值得信任”的框架。这不是巧合。

1. 一句话定性

《Trustworthy Agents in Practice》不是一篇学术论文，而是 Anthropic 安全叙事的”建设性输出”——在 Mythos 能力引发全球央行紧急响应、五角大楼供应链风险标签上诉失败的双重压力下，这份框架是 Anthropic 给出的回答：我们知道能力危险在哪里，我们正在构建约束它的方式。

2. 发生了什么

发布时间： 2026 年 4 月 9 日
形式： Anthropic Research Blog 技术文章
核心内容： 提出构建可信智能体的五项原则，配以具体产品实现案例
背景事件：
- 同周：Project Glasswing 联盟成立，Mythos Preview 能力公开
- 同周：BoE CMORG 紧急会议排期、Fed/Treasury 闭门银行 CEO 会议
- 前一周：DC 联邦上诉法院拒绝 Anthropic 暂停五角大楼黑名单的动议
- 企业端：Anthropic 企业采购率 ~30%，逼近 OpenAI 的 35%

3. 五原则框架与产品落地

原则 1：保持人类控制（Keeping Humans in Control）

核心主张： 有用的自主性和有意义的人类控制不是零和关系。

产品实现：

Claude.ai / Claude Desktop 的 三级权限系统：对每个工具设置”始终允许”/“需要批准”/“阻止”
示例：允许 Claude 读取日历（自动），但发送会议邀请需要用户批准
Claude Code 的 Plan Mode：不再逐步请求授权，而是一次性展示完整行动计划，用户审批后执行，过程中随时可干预
子智能体协调（实验中）：当多个 agent 实例并行工作时，如何维持可见性——单线性审批流程在并行场景中失效

原则 2：与人类价值观对齐（Aligning with Human Values）

核心主张： 训练模型识别何时该暂停而非假设。

产品实现：

Constitution 训练中直接嵌入”提出疑虑、寻求澄清或拒绝执行”的偏好
训练场景包括将 Claude 置于歧义情境中，强化”主动确认”而非”自行决定”
实证数据： 在复杂任务上，Claude 的”主动确认率”约为简单任务的 2 倍；用户的干预率也随任务复杂度轻微上升——说明双向校准机制在工作

原则 3：确保交互安全（Securing Agents’ Interactions）

核心主张： 没有单一防御能保证安全，分层防御 + 用户端配置是务实方案。

技术措施：

训练模型识别 prompt injection 模式
监控生产流量以阻断真实攻击
部署外部红队测试
用户端责任强调： 客户应评估提供哪些工具、授予什么权限、在什么环境中运行智能体

与 ManyIH 的对照： 同日发布的 ManyIH 基准（JHU）显示前沿模型在多层指令层级中准确率暴跌至 ~40%——prompt injection 防御的底层能力仍不足以支撑框架描述的安全承诺。

原则 4：维护透明度（Maintaining Transparency）

核心主张： 智能体的操作过程需要对用户可见。

产品实现： Plan Mode 本身是透明度的体现——用户在执行前看到完整计划。子智能体场景下的透明度挑战（并行工作流的可见性）被标记为开放问题。

原则 5：保护隐私（Protecting Privacy）

框架明确将隐私保护列为核心原则，但具体技术措施的公开细节相对有限——与前四条原则相比，这一条更接近原则声明而非产品方案。

4. 四层智能体架构模型

文章提出了一个值得注意的智能体架构分析框架：

层	描述	安全关注点
模型	通过训练获得的推理能力	对齐、能力边界
Harness	指令和护栏（如”超过阈值需报告”）	配置正确性、绕过可能
工具	外部服务接口（邮件、日历、API）	权限粒度、数据暴露
环境	部署上下文（Claude Code / Cowork 等）	数据访问范围、沙箱隔离

关键论断： 一个训练良好的模型仍可能因 harness 配置不当或工具权限过宽而被利用——安全是四层的乘积，不是模型层的独角戏。

5. 行业生态呼吁

标准化基准

呼吁 NIST 等标准机构建立共享基准，用于比较智能体系统在 prompt injection 防御和不确定性处理上的表现。当前各家使用私有方法评估，缺乏独立验证。

证据共享

Anthropic 已公开 Claude 的智能体使用模式和局限性数据，鼓励行业层面的数据共享，为政策制定者提供完整的使用画像。

开放标准：MCP → Linux Foundation

Model Context Protocol（MCP） 已捐赠给 Linux Foundation 的 Agentic AI Foundation。文章的论点是：安全属性应被设计进基础设施（一次性），而非在每个部署中单独修补。MCP 的开放使得安全审计可以在协议层面而非应用层面进行。

6. 必须保留的质疑

时机太巧了。 在 Mythos 展示超人类攻击能力的同一周发布”如何让智能体值得信任”，叙事管理的意图过于明显。框架的技术价值需要与叙事功能分开评估。
ManyIH 的打脸。 框架描述的多层控制机制（harness → 工具 → 环境）本质上依赖模型正确解析多层指令——但 ManyIH 刚刚证明前沿模型在这方面的表现只有 40% 准确率。五原则是”应该做的事”，不是”已经做到的事”。
隐私原则的空洞。 五条原则中，隐私保护的产品落地细节最少——考虑到智能体天然需要访问用户邮件、日历、文件等敏感数据，这一条恰恰应该最具体。
企业客户的真实采用。 ~30% 的企业采购率是否基于安全信任，还是纯粹的能力驱动？如果客户买的是性能而非安全，五原则的实际约束力存疑。
开放标准的控制权。 MCP 虽然捐给了 Linux Foundation，但 Anthropic 作为创建者在标准演进方向上拥有事实上的影响力。“开放”不等于”中立”。

6. 接下来要盯什么

NIST 是否引用五原则框架： 如果被纳入美国 AI 安全标准体系，将成为行业事实标准
OpenAI / Google 是否发布对标文件： 竞品必须回应——沉默即在安全叙事上失分
MCP 在 Agentic AI Foundation 中的演进： 标准化进程的速度和参与方
企业客户是否将五原则纳入供应商评估： 从叙事到采购决策的传导路径
Anthropic 5 月 19 日口头辩论结果： 五角大楼黑名单案的走向将直接影响”安全公司”叙事的可信度

7. 给动动的一句结论

这份框架单独看是一篇扎实的智能体安全设计文档，放在 Mythos + 五角大楼 + 央行响应的背景下看是一次精准的叙事对冲。Anthropic 在同一周展示了”我们有多强”和”我们有多负责”——这两条线缺一不可。作为技术参考有价值，作为行业标准基础有潜力，但 ManyIH 40% 准确率的现实与五原则描绘的愿景之间的鸿沟，是这篇文档最大的未解答问题。

信源：

https://www.anthropic.com/research/trustworthy-agents
https://www.anthropic.com/news/our-framework-for-developing-safe-and-trustworthy-agents
Anthropic Research Blog

1. 一句话定性
2. 发生了什么
3. 五原则框架与产品落地
原则 1：保持人类控制（Keeping Humans in Control）
原则 2：与人类价值观对齐（Aligning with Human Values）
原则 3：确保交互安全（Securing Agents’ Interactions）
原则 4：维护透明度（Maintaining Transparency）
原则 5：保护隐私（Protecting Privacy）
4. 四层智能体架构模型
5. 行业生态呼吁
标准化基准
证据共享
开放标准：MCP → Linux Foundation
6. 必须保留的质疑
6. 接下来要盯什么
7. 给动动的一句结论