2026-04-17 · 深度解读 · 编辑:Lighthouse
| 维度 | 内容 |
|---|---|
| 一句话总结 | Claude Opus 4.6 的直接升级:在最难的软件工程任务、长时序自主 Agent、视觉理解上全面拉开差距;价格不变但单位任务 token 用量与 tokenizer 映射发生变化 |
| 大白话版 | 还是 Opus 家族,还是 $5 / $25 的价格;但"低档 Opus 4.7 ≈ 中档 Opus 4.6",最吃力的长时运行任务上把 Opus 4.6 甩开一截;图像能看清 3.75MP 了 |
| 核心数字 | 93 题编码基准 +13%;CursorBench 70% vs 58%;Rakuten-SWE-Bench 解决 3× 生产任务;XBOW 视觉精度 98.5% vs 54.5%;Harvey BigLaw Bench 高强度 90.9%;图像长边最高 2,576 px(~3.75MP);tokenizer 新版 1.0–1.35× token 膨胀 |
| 价格 / 可用性 | $5 / $25 每百万 input / output tokens,与 Opus 4.6 一致;即日起在 Claude 全线产品、API、Amazon Bedrock、Google Cloud Vertex AI、Microsoft Foundry 可用;API 名称 claude-opus-4-7 |
| 新增控制项 | xhigh 档位(介于 high 与 max 之间)、task budgets(公开 beta)、Claude Code 中的 /ultrareview 命令与 Max 用户可用的 auto 模式 |
| 影响评级 | A — 对已在用 Opus 4.6 的编码 / Agent / 企业文档团队几乎是"无痛升级且必须升";但对"最强模型"宝座没有造成颠覆,Mythos Preview 仍被 Anthropic 定位为"更强且对齐最好"的模型,只是暂未全面开放 |
| 适用对象 | 重度使用 Claude Code / Cursor / Devin / Replit / Warp / Notion Agent / Factory / Bolt 等编码 & Agent 产品的开发者;使用 Harvey、Hex、Databricks、Ramp、Hebbia 等在金融 / 法律 / 数据领域的专业用户 |
Anthropic 在 2026-04-16 正式放出 Claude Opus 4.7 的通用可用版本。这不是一次小的 point release:官方原文用了"notable improvement on Opus 4.6 in advanced software engineering, with particular gains on the most difficult tasks"来定位这次更新,并明确指出用户"可以把以前需要近距离监督的最硬核编码工作交给 Opus 4.7"。
和上一代 Opus 4.6 相比,这次的信号有三个:
这次发布处在一个高密度发布窗口,解读这些事件的关系很重要:
三家厂商几乎在同一周都把"长时序、跨应用的 Agent"作为发布主线。Opus 4.7 是 Anthropic 在这个主线上的正面回应——不是靠新能力,而是靠把长时程任务做得更稳、更准、更少回头。
原文明确定位:
although it is less broadly capable than our most powerful model, Claude Mythos Preview, it shows better results than Opus 4.6 across a range of benchmarks
这条措辞有三层含义:
换句话说:Opus 4.7 是 Anthropic 把 Mythos 能力 / 对齐工艺"平民化"的第一步,但更稳健的 cyber 行为被主动保留在 Mythos 这一层。
原文确认:
claude-opus-4-7。这种"价格不变、能力上升"的做法与 Opus 家族一贯的定价节奏一致,但需要和后面 tokenizer 与 effort 行为的变化一起看——真正的"单位任务成本"并没有保持不变。
官方正文收录了 28 位来自早期测试的合作伙伴引用("01 / 28")。这些引用密度很高,筛出几个最具信息量的核心数据点:
| 合作伙伴 / 评测 | 关键数字 | 来自 |
|---|---|---|
| 93 题编码基准 | +13% resolution over Opus 4.6,含 4 个 Opus 4.6 与 Sonnet 4.6 都解不出的任务 | Mario Rodriguez, Chief Product Officer |
| 内部研究 Agent 基准 | 六模块总分 0.715 并列第一;General Finance 0.813 vs 0.767(Opus 4.6) | Michal Mucha, Lead AI Engineer, Applied AI |
| CursorBench | 70% vs 58% | Michael Truell, Cursor CEO |
| Notion Agent | +14% at fewer tokens,tool errors 仅为 Opus 4.6 的 1/3,首个通过"隐式需求"测试的模型 | Sarah Sachs, Notion |
| Rakuten-SWE-Bench | 解决 3× 更多生产任务,Code Quality / Test Quality 双位数提升 | Yusuke Kaji, Rakuten |
| CodeRabbit | Recall +10%,precision 持平;比 GPT-5.4 xhigh 更快一点 | David Loker, CodeRabbit |
| XBOW 视觉精度 | 98.5% vs 54.5%(Opus 4.6),"最大的 Opus 痛点几乎消失" | Oege de Moor, XBOW |
| Harvey BigLaw Bench | high effort 下 90.9%,在"区分 assignment / change-of-control 条款"这类前沿模型长期失败的任务上表现好 | Niko Grupen, Harvey |
| Databricks OfficeQA Pro | 比 Opus 4.6 错误少 21% | Hanlin Tang, Databricks |
| Factory Droids | 任务成功率 +10–15%,tool errors 更少 | Leo Tchourakov, Factory |
| Bolt | 长时应用构建任务最多 +10%,无回归 | Eric Simons, Bolt |
| Hex | "low-effort Opus 4.7 ≈ medium-effort Opus 4.6" | Caitlin Colgrove, Hex |
| Intology(Sean Ward) | 自主构建完整 Rust 语音合成引擎(神经模型 + SIMD 内核 + 浏览器 demo),并自己调用语音识别器回验输出 | Sean Ward, Intology |
| Warp | 通过了多个 Terminal Bench / TBench 中 Claude 过去失败的任务 | Zach Lloyd, Warp |
| Devin | "能连续工作数小时、推进难题而非放弃" | Scott Wu, Cognition |
| Genspark Super Agent | loop resistance 显著提升,"最高的 quality-per-tool-call 比" | Kay Zhu, Genspark |
几个重复出现的定性信号:
这些定性描述和 Anthropic 在"Instruction following"一节的自述互相呼应:Opus 4.7 的行为更"硬"了。
Anthropic 明确提醒:
Opus 4.7 is substantially better at following instructions. Interestingly, this means that prompts written for earlier models can sometimes now produce unexpected results: where previous models interpreted instructions loosely or skipped parts entirely, Opus 4.7 takes the instructions literally. Users should re-tune their prompts and harnesses accordingly.
对现有 harness 的影响:
原文:
it can accept images up to 2,576 pixels on the long edge (~3.75 megapixels), more than three times as many as prior Claude models.
这是一个模型层面的提升,而不是 API 参数——你发给模型的图像会直接被更高保真度地处理。直接影响的场景:
脚注特别指出:因为高分辨率图像会消耗更多 token,不需要额外精度的用户可以先 downsample 再发送。视觉精度是以 token 为代价的。
原文强调 Opus 4.7 在 Finance Agent 评估上达到 state-of-the-art 水平,并且在 GDPval-AA(第三方评估,覆盖金融、法律等经济价值较高的知识工作)上也是 state-of-the-art。配合 Harvey 90.9%、Databricks 减错 21%,Opus 4.7 的"法金文档"定位相当明确。
原文:
Opus 4.7 is better at using file system-based memory. It remembers important notes across long, multi-session work, and uses them to move on to new tasks that, as a result, need less up-front context.
这条短短一句,但意义不小——它说明 Anthropic 把"记忆"作为基于外部文件系统的工具能力来设计,而不是内置隐式上下文。这对 Agent 框架的意义是:你自己写的 memory store(如 Claude Code 的文件备忘、Cursor 的项目记忆)现在被模型更有效地使用了。
Opus 4.7 的安全剖面整体与 Opus 4.6 相似:
Cyber 方面:
原文在"Also launching today"一节列出三块:
xhigh 档位,介于 high 和 max 之间。Claude Code 所有计划的默认 effort 已被提高到 xhigh;官方建议编码 / agentic 场景从 high 或 xhigh 起步。/ultrareview 斜杠命令,启动专门的审阅会话,把 changes 扫一遍并标记 bug 与设计问题。Pro / Max 用户各送 3 次 ultrareview 试用。两件事会影响 token 用量:
Anthropic 给出的控制手段:
effort 参数。Anthropic 自己的结论是"净效应是 favorable 的"——在内部编码评估中,各档 effort 下的 token usage 都有改善。但官方诚实地加了一句:"we recommend measuring the difference on real traffic"。官方另外提供了迁移指南。
原文脚注揭示几件对 benchmark 解读有重要意义的事:
Opus 4.7 的卖点不是"单步更强",而是"跨多小时、多工具、多失败的长时序中不掉链子":
这些定性指标在常规 benchmark 表格里不容易体现,但它们是真实工业场景的瓶颈。Anthropic 在博客中自述"optimized for sustained reasoning over long runs"(Exa 的 Jeff Wang 引用)——这是把模型训练目标从"单 turn 智能"转向"多 turn 执行一致性"。
表面看价格未变,但 tokenizer 映射膨胀 1.0–1.35× 意味着同样一段输入,真实账单上升 0–35%。同时高 effort 档位会让输出 token 进一步上升。官方给出的对冲:
xhigh 档位让你在 high 和 max 之间选一个更合身的点,而不是被迫一跳到顶。task budgets beta 让你在 Agent 长流程中压住总预算。对理性的成本优化者,这是从"买模型质量"走向"买单位任务质量"的一次迁移——你必须在真实流量上重新测成本。
图像长边从过去的 ~800 px 级别跳到 2,576 px,像素数从 ~0.6 MP 级别跳到 ~3.75 MP(官方措辞"more than three times as many as prior Claude models")。配合 XBOW 的 98.5% 视觉精度,这条升级解锁了:
但要注意:高分辨率图像 = 更多视觉 token。脚注里 Anthropic 明确建议"不需要额外精度时先 downsample"。
Anthropic 在 Opus 4.7 的训练中主动差分削弱 cyber 能力,并给 Opus 4.7 增加了"检测并拦截高风险 cyber 请求"的 safeguards。这是一种与 Mythos 并行的产品策略:
这和 2025 年只是靠"更好的 RLHF"相比,是产品维度上更工程化的安全分层。
"Opus 4.7 takes the instructions literally"听起来是好消息,但对已经上生产的 prompt 工程来说意味着:
1. 小规模流量灰度
Anthropic 官方建议"在真实流量上测量差异"。在把 Opus 4.6 的主流量切到 4.7 之前:
2. Effort 档位选择
官方建议:"编码 / agentic 场景从 high 或 xhigh 起步";Claude Code 默认已经是 xhigh。实操策略:
xhigh 或 max。xhigh vs high——Hex 的反馈是 low-effort Opus 4.7 ≈ medium-effort Opus 4.6,意味着你可能可以降档省成本。3. 重新审视你的 prompt
既然 Opus 4.7 更字面执行:
4. 图像工作流
5. Claude Code 用户特别注意
xhigh。如果你的工作流偏"短、多轮、低成本",考虑手动降到 high。/ultrareview——Pro / Max 各送 3 次。把它用在 PR 规模的 change 上效果最明显(对应 CodeRabbit 引用"recall +10%"、Qodo 引用"抓到其他模型漏掉的 race condition")。6. 成本监控要加两个指标
这两个会直接构成你真实账单的环比变化,必须单独监控。
max effort。输出 token 会显著上升,但在很多任务上 xhigh 就已经是最佳性价比。| 维度 | Opus 4.6 | Opus 4.7 | 差值来源 |
|---|---|---|---|
| 价格 | $5 / $25 | $5 / $25(一致) | 原文"Pricing remains the same" |
| 93 题编码基准 | — | +13%(含 4 题 4.6 与 Sonnet 4.6 都解不出) | Mario Rodriguez |
| CursorBench | 58% | 70% | Michael Truell |
| Rakuten-SWE-Bench | — | 3× 生产任务解决 | Yusuke Kaji |
| XBOW 视觉精度 | 54.5% | 98.5% | Oege de Moor |
| Databricks OfficeQA Pro | — | 错误 -21% | Hanlin Tang |
| Notion Agent tool errors | 基线 | 1/3 | Sarah Sachs |
| 研究 Agent General Finance | 0.767 | 0.813 | Michal Mucha |
| 图像最长边 | ~800 px 级 | 2,576 px / ~3.75 MP("more than three times as many") | 正文 |
| Tokenizer | 旧版 | 新版,1.0–1.35× 膨胀 | Migration guide |
| Effort 档位 | 最高 max |
新增 xhigh(在 high 与 max 之间) |
Also launching |
| 维度 | Mythos Preview | Opus 4.7 |
|---|---|---|
| 综合能力 | 更强("our most powerful model") | 比 Mythos 弱,比 Opus 4.6 强 |
| Cyber 能力 | 更高,被有意保留 | 差分削弱 + 自动拦截 safeguards |
| 对齐(misaligned behavior) | 最低("best-aligned model we've trained") | 相对 Opus 4.6 有改善,但未达到 Mythos 水平 |
| 可用性 | 限量 | GA,跨所有 Claude 产品与云端 |
战略含义:Mythos Preview 是"实验室里最好的一瓶酒",Opus 4.7 是"第一批进货到超市的量产款"。
原文脚注明确:"For GPT-5.4 and Gemini 3.1 Pro, we compared against the best reported model version available via API in the charts and table." 公开正文里可引用的直接对比只有两个定性点:
换言之:Anthropic 不靠"我们赢了 GPT"做头条,核心对比锚点始终是 Opus 4.6,这也是本次升级对当前 Opus 用户最负责任的做法。
正文只提到 93 题编码基准上"含 4 题 Opus 4.6 与 Sonnet 4.6 都解不出"。没有给出更多直接 Sonnet 4.6 对比。可以推断 Opus 4.7 是在"最难的任务"上进一步拉开了 Opus 与 Sonnet 的质量分层。
Anthropic 以"价格不变"作为叙事锚点,但真实成本由三条路径上升:
官方给的救赎方案是"task budgets + effort 参数 + prompt 简洁化"——这些都要求用户侧重新投入 prompt / harness 工程。对企业客户尤其是"按月发票敏感"的组织,这次升级不是"无痛"的。
更严格的指令遵循往往被包装成绝对的好消息,但它实际上打破了老 prompt 里"模型会帮我兜着"的惯性。这意味着:
这些是有代价的"更好"。Anthropic 诚实地写了这一段,但用户需要正视它。
28 条引用全部来自 early-access 合作伙伴——他们由 Anthropic 选择,且几乎全部在博客里用于正面宣传。这意味着:
XBOW 的 98.5% vs 54.5% 是一个极其戏剧性的跳跃。它背后可能有两种不同含义:
官方没有把两者拆开。这意味着在你自己的视觉任务上,得先评估你的图像是否真的被分辨率卡过——如果之前从未卡过,Opus 4.7 的视觉收益可能远不如 XBOW 那样夸张。
Opus 4.7 是 Anthropic 第一个带"自动拦截高风险 cyber 请求"safeguards 的模型。正文没有给出 false positive 率。对正规安全研究(vulnerability research、pen-test、red-team)用户,唯一的正路是加入 Cyber Verification Program——这意味着:
Opus 4.7 在本文里几乎被描述为"当前最强工程模型",但它不是 Anthropic 手里最强的模型。一旦 Mythos 全面发布,Opus 4.7 的"顶端地位"会立即重排。这提醒使用者:
很多合作伙伴对 Opus 4.7 的最强赞美都是定性的:"工作数小时"、"不放弃"、"graceful error recovery"、"真像一个队友"。这些体验正是长时序 Agent 的核心价值,但也最难被标准化基准捕捉。目前:
这让长时序能力的"可迁移性"判断几乎只能靠自己跑灰度——这正是官方建议"measuring the difference on real traffic"的根源。
Opus 4.7 是一次典型的"理性升级":
xhigh / task budgets 这两个新旋钮在真实大客户使用中的反馈。价格没变,能力变了,token 结构也变了——这次升级的真相藏在你在自己的真实流量上测出的那条曲线里。