2026-04-17 · 深度解读 · 编辑:Lighthouse

原文:anthropic.com/news/claude-opus-4-7


速查卡

维度 内容
一句话总结 Claude Opus 4.6 的直接升级:在最难的软件工程任务、长时序自主 Agent、视觉理解上全面拉开差距;价格不变但单位任务 token 用量与 tokenizer 映射发生变化
大白话版 还是 Opus 家族,还是 $5 / $25 的价格;但"低档 Opus 4.7 ≈ 中档 Opus 4.6",最吃力的长时运行任务上把 Opus 4.6 甩开一截;图像能看清 3.75MP 了
核心数字 93 题编码基准 +13%;CursorBench 70% vs 58%;Rakuten-SWE-Bench 解决 生产任务;XBOW 视觉精度 98.5% vs 54.5%;Harvey BigLaw Bench 高强度 90.9%;图像长边最高 2,576 px(~3.75MP);tokenizer 新版 1.0–1.35× token 膨胀
价格 / 可用性 $5 / $25 每百万 input / output tokens,与 Opus 4.6 一致;即日起在 Claude 全线产品、API、Amazon Bedrock、Google Cloud Vertex AI、Microsoft Foundry 可用;API 名称 claude-opus-4-7
新增控制项 xhigh 档位(介于 highmax 之间)、task budgets(公开 beta)、Claude Code 中的 /ultrareview 命令与 Max 用户可用的 auto 模式
影响评级 A — 对已在用 Opus 4.6 的编码 / Agent / 企业文档团队几乎是"无痛升级且必须升";但对"最强模型"宝座没有造成颠覆,Mythos Preview 仍被 Anthropic 定位为"更强且对齐最好"的模型,只是暂未全面开放
适用对象 重度使用 Claude Code / Cursor / Devin / Replit / Warp / Notion Agent / Factory / Bolt 等编码 & Agent 产品的开发者;使用 Harvey、Hex、Databricks、Ramp、Hebbia 等在金融 / 法律 / 数据领域的专业用户

文章背景

为什么这次发布值得单独解读

Anthropic 在 2026-04-16 正式放出 Claude Opus 4.7 的通用可用版本。这不是一次小的 point release:官方原文用了"notable improvement on Opus 4.6 in advanced software engineering, with particular gains on the most difficult tasks"来定位这次更新,并明确指出用户"可以把以前需要近距离监督的最硬核编码工作交给 Opus 4.7"。

和上一代 Opus 4.6 相比,这次的信号有三个:

  1. 目标客户非常明确地对齐编码 Agent 与长时序自动化。博客正文用来铺陈的不是 ChatGPT-like 对话体验,而是 Devin、Cursor、Notion Agent、Replit、Warp、Bolt、Factory、Genspark、Hebbia、CodeRabbit、Qodo、XBOW 等 Agent 平台伙伴的引用。
  2. 与 Mythos Preview 的关系被正面承认。Opus 4.7 不是 Anthropic 手里"最强"的模型,但却是"Mythos Preview 的前沿安全试点"——这意味着 Anthropic 开始形成清晰的"Mythos 顶点 + Opus 旗舰 + Sonnet / Haiku 下沉"的产品矩阵。
  3. 价格不变,但 token 结构变了。新 tokenizer 会让同一段输入产生 1.0–1.35× 的 token 数;更高 effort 会产生更多输出 token。这是一条需要所有调用方都警惕的成本曲线。

时间线位置

这次发布处在一个高密度发布窗口,解读这些事件的关系很重要:

三家厂商几乎在同一周都把"长时序、跨应用的 Agent"作为发布主线。Opus 4.7 是 Anthropic 在这个主线上的正面回应——不是靠新能力,而是靠把长时程任务做得更稳、更准、更少回头

与 Mythos Preview 的关系

原文明确定位:

although it is less broadly capable than our most powerful model, Claude Mythos Preview, it shows better results than Opus 4.6 across a range of benchmarks

这条措辞有三层含义:

换句话说:Opus 4.7 是 Anthropic 把 Mythos 能力 / 对齐工艺"平民化"的第一步,但更稳健的 cyber 行为被主动保留在 Mythos 这一层。


完整内容还原

一、发布要点:可用性与价格

原文确认:

这种"价格不变、能力上升"的做法与 Opus 家族一贯的定价节奏一致,但需要和后面 tokenizer 与 effort 行为的变化一起看——真正的"单位任务成本"并没有保持不变。

二、合作伙伴反馈:28 条引用里的信号

官方正文收录了 28 位来自早期测试的合作伙伴引用("01 / 28")。这些引用密度很高,筛出几个最具信息量的核心数据点:

合作伙伴 / 评测 关键数字 来自
93 题编码基准 +13% resolution over Opus 4.6,含 4 个 Opus 4.6 与 Sonnet 4.6 都解不出的任务 Mario Rodriguez, Chief Product Officer
内部研究 Agent 基准 六模块总分 0.715 并列第一;General Finance 0.813 vs 0.767(Opus 4.6) Michal Mucha, Lead AI Engineer, Applied AI
CursorBench 70% vs 58% Michael Truell, Cursor CEO
Notion Agent +14% at fewer tokens,tool errors 仅为 Opus 4.6 的 1/3,首个通过"隐式需求"测试的模型 Sarah Sachs, Notion
Rakuten-SWE-Bench 解决 更多生产任务,Code Quality / Test Quality 双位数提升 Yusuke Kaji, Rakuten
CodeRabbit Recall +10%,precision 持平;比 GPT-5.4 xhigh 更快一点 David Loker, CodeRabbit
XBOW 视觉精度 98.5% vs 54.5%(Opus 4.6),"最大的 Opus 痛点几乎消失" Oege de Moor, XBOW
Harvey BigLaw Bench high effort 下 90.9%,在"区分 assignment / change-of-control 条款"这类前沿模型长期失败的任务上表现好 Niko Grupen, Harvey
Databricks OfficeQA Pro 比 Opus 4.6 错误少 21% Hanlin Tang, Databricks
Factory Droids 任务成功率 +10–15%,tool errors 更少 Leo Tchourakov, Factory
Bolt 长时应用构建任务最多 +10%,无回归 Eric Simons, Bolt
Hex "low-effort Opus 4.7 ≈ medium-effort Opus 4.6" Caitlin Colgrove, Hex
Intology(Sean Ward) 自主构建完整 Rust 语音合成引擎(神经模型 + SIMD 内核 + 浏览器 demo),并自己调用语音识别器回验输出 Sean Ward, Intology
Warp 通过了多个 Terminal Bench / TBench 中 Claude 过去失败的任务 Zach Lloyd, Warp
Devin "能连续工作数小时、推进难题而非放弃" Scott Wu, Cognition
Genspark Super Agent loop resistance 显著提升,"最高的 quality-per-tool-call 比" Kay Zhu, Genspark

几个重复出现的定性信号:

  1. 少 tool error、少中途放弃:Notion、Factory、Genspark 都提到 tool 调用失败时不再"cold stop",能继续推进。
  2. 更少"胡编补白":Hex 说模型能正确报告"数据缺失"而不是给看似合理的错答;Vercel(Joe Haddad)说模型"对自己的极限更诚实",甚至"在动工前先做 systems code 上的证明"。
  3. 更有主见:Replit 的 Michele Catasta 直接说"它会在技术讨论中对我推回去"——这是"不再一味讨好用户"的行为变化;同样地,Augment(Igor Ostrovsky)说模型"带来更有主张的视角,不再只是附和用户"。

这些定性描述和 Anthropic 在"Instruction following"一节的自述互相呼应:Opus 4.7 的行为更"硬"了

三、指令遵循:老 prompt 可能反而翻车

Anthropic 明确提醒:

Opus 4.7 is substantially better at following instructions. Interestingly, this means that prompts written for earlier models can sometimes now produce unexpected results: where previous models interpreted instructions loosely or skipped parts entirely, Opus 4.7 takes the instructions literally. Users should re-tune their prompts and harnesses accordingly.

对现有 harness 的影响:

四、多模态:2,576 像素长边,~3.75 MP

原文:

it can accept images up to 2,576 pixels on the long edge (~3.75 megapixels), more than three times as many as prior Claude models.

这是一个模型层面的提升,而不是 API 参数——你发给模型的图像会直接被更高保真度地处理。直接影响的场景:

脚注特别指出:因为高分辨率图像会消耗更多 token,不需要额外精度的用户可以先 downsample 再发送。视觉精度是以 token 为代价的

五、真实世界工作:金融、法律、GDPval-AA

原文强调 Opus 4.7 在 Finance Agent 评估上达到 state-of-the-art 水平,并且在 GDPval-AA(第三方评估,覆盖金融、法律等经济价值较高的知识工作)上也是 state-of-the-art。配合 Harvey 90.9%、Databricks 减错 21%,Opus 4.7 的"法金文档"定位相当明确。

六、记忆:文件系统记忆变强

原文:

Opus 4.7 is better at using file system-based memory. It remembers important notes across long, multi-session work, and uses them to move on to new tasks that, as a result, need less up-front context.

这条短短一句,但意义不小——它说明 Anthropic 把"记忆"作为基于外部文件系统的工具能力来设计,而不是内置隐式上下文。这对 Agent 框架的意义是:你自己写的 memory store(如 Claude Code 的文件备忘、Cursor 的项目记忆)现在被模型更有效地使用了。

七、安全与对齐

Opus 4.7 的安全剖面整体与 Opus 4.6 相似:

Cyber 方面:

八、同步上线的工具更新

原文在"Also launching today"一节列出三块:

  1. 更细的 effort 控制——新增 xhigh 档位,介于 highmax 之间。Claude Code 所有计划的默认 effort 已被提高到 xhigh;官方建议编码 / agentic 场景从 highxhigh 起步。
  2. Claude Platform(API):高分辨率图像支持;task budgets 进入公开 beta——允许开发者引导 Claude 在长时运行中的 token 开销分配。
  3. Claude Code
  4. 新的 /ultrareview 斜杠命令,启动专门的审阅会话,把 changes 扫一遍并标记 bug 与设计问题。Pro / Max 用户各送 3 次 ultrareview 试用。
  5. auto 模式扩展到 Max 用户——新的权限选项,由 Claude 代为决策,用于更长任务与更少打断,相比"跳过所有权限"风险更低。

九、从 Opus 4.6 升到 4.7 的迁移要点

两件事会影响 token 用量:

  1. Tokenizer 升级:同样的输入,映射到的 token 数量约为 Opus 4.6 的 1.0–1.35×,具体取决于内容类型。
  2. 更高 effort 下思考更多:尤其是 agentic 设置下的后续轮次,输出 token 会变多——这换取的是硬问题上的可靠性。

Anthropic 给出的控制手段:

Anthropic 自己的结论是"净效应是 favorable 的"——在内部编码评估中,各档 effort 下的 token usage 都有改善。但官方诚实地加了一句:"we recommend measuring the difference on real traffic"。官方另外提供了迁移指南。

十、基准注释里容易被忽略的细节

原文脚注揭示几件对 benchmark 解读有重要意义的事:


核心技术洞察

洞察一:长时序稳定性成为差异化主战场

Opus 4.7 的卖点不是"单步更强",而是"跨多小时、多工具、多失败的长时序中不掉链子":

这些定性指标在常规 benchmark 表格里不容易体现,但它们是真实工业场景的瓶颈。Anthropic 在博客中自述"optimized for sustained reasoning over long runs"(Exa 的 Jeff Wang 引用)——这是把模型训练目标从"单 turn 智能"转向"多 turn 执行一致性"

洞察二:Tokenizer 升级是"隐形涨价",但配套了 effort 与 budget 控制

表面看价格未变,但 tokenizer 映射膨胀 1.0–1.35× 意味着同样一段输入,真实账单上升 0–35%。同时高 effort 档位会让输出 token 进一步上升。官方给出的对冲:

对理性的成本优化者,这是从"买模型质量"走向"买单位任务质量"的一次迁移——你必须在真实流量上重新测成本。

洞察三:视觉能力飞跃来自分辨率上限解锁

图像长边从过去的 ~800 px 级别跳到 2,576 px,像素数从 ~0.6 MP 级别跳到 ~3.75 MP(官方措辞"more than three times as many as prior Claude models")。配合 XBOW 的 98.5% 视觉精度,这条升级解锁了:

但要注意:高分辨率图像 = 更多视觉 token。脚注里 Anthropic 明确建议"不需要额外精度时先 downsample"。

洞察四:安全设计走向"分层差分削弱"

Anthropic 在 Opus 4.7 的训练中主动差分削弱 cyber 能力,并给 Opus 4.7 增加了"检测并拦截高风险 cyber 请求"的 safeguards。这是一种与 Mythos 并行的产品策略:

这和 2025 年只是靠"更好的 RLHF"相比,是产品维度上更工程化的安全分层。

洞察五:指令遵循严格化是一次"隐式破坏性变更"

"Opus 4.7 takes the instructions literally"听起来是好消息,但对已经上生产的 prompt 工程来说意味着:


实践指南

你现在应该做什么

1. 小规模流量灰度

Anthropic 官方建议"在真实流量上测量差异"。在把 Opus 4.6 的主流量切到 4.7 之前:

2. Effort 档位选择

官方建议:"编码 / agentic 场景从 highxhigh 起步";Claude Code 默认已经是 xhigh。实操策略:

3. 重新审视你的 prompt

既然 Opus 4.7 更字面执行:

4. 图像工作流

5. Claude Code 用户特别注意

6. 成本监控要加两个指标

这两个会直接构成你真实账单的环比变化,必须单独监控。

你现在不应该做的事


横向对比

vs Opus 4.6(直系前代)

维度 Opus 4.6 Opus 4.7 差值来源
价格 $5 / $25 $5 / $25(一致) 原文"Pricing remains the same"
93 题编码基准 +13%(含 4 题 4.6 与 Sonnet 4.6 都解不出) Mario Rodriguez
CursorBench 58% 70% Michael Truell
Rakuten-SWE-Bench 生产任务解决 Yusuke Kaji
XBOW 视觉精度 54.5% 98.5% Oege de Moor
Databricks OfficeQA Pro 错误 -21% Hanlin Tang
Notion Agent tool errors 基线 1/3 Sarah Sachs
研究 Agent General Finance 0.767 0.813 Michal Mucha
图像最长边 ~800 px 级 2,576 px / ~3.75 MP("more than three times as many") 正文
Tokenizer 旧版 新版,1.0–1.35× 膨胀 Migration guide
Effort 档位 最高 max 新增 xhigh(在 highmax 之间) Also launching

vs Mythos Preview(家族内上位模型)

维度 Mythos Preview Opus 4.7
综合能力 更强("our most powerful model") 比 Mythos 弱,比 Opus 4.6 强
Cyber 能力 更高,被有意保留 差分削弱 + 自动拦截 safeguards
对齐(misaligned behavior) 最低("best-aligned model we've trained") 相对 Opus 4.6 有改善,但未达到 Mythos 水平
可用性 限量 GA,跨所有 Claude 产品与云端

战略含义:Mythos Preview 是"实验室里最好的一瓶酒",Opus 4.7 是"第一批进货到超市的量产款"。

vs GPT-5.4 / Gemini 3.1 Pro

原文脚注明确:"For GPT-5.4 and Gemini 3.1 Pro, we compared against the best reported model version available via API in the charts and table." 公开正文里可引用的直接对比只有两个定性点:

换言之:Anthropic 不靠"我们赢了 GPT"做头条,核心对比锚点始终是 Opus 4.6,这也是本次升级对当前 Opus 用户最负责任的做法。

vs Sonnet 4.6(同门下位模型)

正文只提到 93 题编码基准上"含 4 题 Opus 4.6 与 Sonnet 4.6 都解不出"。没有给出更多直接 Sonnet 4.6 对比。可以推断 Opus 4.7 是在"最难的任务"上进一步拉开了 Opus 与 Sonnet 的质量分层。


批判性分析

① 价格没变,但"单位任务成本"几乎一定上升

Anthropic 以"价格不变"作为叙事锚点,但真实成本由三条路径上升:

  1. tokenizer 膨胀:同一输入多 0–35% token。
  2. effort 更深:尤其后续 turn 的 output 变多。
  3. 视觉高分辨率:图像 token 随像素上升。

官方给的救赎方案是"task budgets + effort 参数 + prompt 简洁化"——这些都要求用户侧重新投入 prompt / harness 工程。对企业客户尤其是"按月发票敏感"的组织,这次升级不是"无痛"的。

② "Users should re-tune their prompts" 是一次隐式破坏性变更

更严格的指令遵循往往被包装成绝对的好消息,但它实际上打破了老 prompt 里"模型会帮我兜着"的惯性。这意味着:

这些是有代价的"更好"。Anthropic 诚实地写了这一段,但用户需要正视它。

③ 合作伙伴引用的选择性偏差

28 条引用全部来自 early-access 合作伙伴——他们由 Anthropic 选择,且几乎全部在博客里用于正面宣传。这意味着:

④ 视觉能力的提升是"解锁"还是"改善"需要更严格验证

XBOW 的 98.5% vs 54.5% 是一个极其戏剧性的跳跃。它背后可能有两种不同含义:

官方没有把两者拆开。这意味着在你自己的视觉任务上,得先评估你的图像是否真的被分辨率卡过——如果之前从未卡过,Opus 4.7 的视觉收益可能远不如 XBOW 那样夸张。

⑤ Cyber safeguards 的"误拦截"尚未有数据

Opus 4.7 是 Anthropic 第一个带"自动拦截高风险 cyber 请求"safeguards 的模型。正文没有给出 false positive 率。对正规安全研究(vulnerability research、pen-test、red-team)用户,唯一的正路是加入 Cyber Verification Program——这意味着:

⑥ Mythos Preview 的缺席与 Opus 4.7 的"顶点错觉"

Opus 4.7 在本文里几乎被描述为"当前最强工程模型",但它不是 Anthropic 手里最强的模型。一旦 Mythos 全面发布,Opus 4.7 的"顶端地位"会立即重排。这提醒使用者:

⑦ 长时序任务的"感性"与"定量"之间的鸿沟

很多合作伙伴对 Opus 4.7 的最强赞美都是定性的:"工作数小时"、"不放弃"、"graceful error recovery"、"真像一个队友"。这些体验正是长时序 Agent 的核心价值,但也最难被标准化基准捕捉。目前:

这让长时序能力的"可迁移性"判断几乎只能靠自己跑灰度——这正是官方建议"measuring the difference on real traffic"的根源。


写在最后

Opus 4.7 是一次典型的"理性升级":

价格没变,能力变了,token 结构也变了——这次升级的真相藏在你在自己的真实流量上测出的那条曲线里