Claude Opus 4.7 于 2026 年 4 月 16 日发布,是 Opus 系列迄今最强版本。从本页收录的 8 项可比基准来看,Opus 4.7 的最大亮点集中在软件工程和桌面 Agent 两个方向,而在信息检索类 Agent 任务(BrowseComp)上,它是三大竞品中排名最低的。这种"结构性优势"而非"全面碾压"的格局,是理解这款模型定位的核心。
软件工程:本次升级的最强信号
SWE-bench Verified 是当前代码 Agent 能力最具说服力的公开评测之一。Opus 4.7 以 87.60 分(全榜第 2,共 97 个模型) 拿下该项目的旗舰成绩,比 Opus 4.6 的 80.84 提升了整整 6.76 个百分点——这在 SWE-bench 上属于非常显著的单代进步,因为该榜单头部模型的差距通常以 1–3 分计。SWE-Bench Pro(更难的真实工程任务集)上,Opus 4.7 以 64.30 分排名第 2,领先 GPT-5.4 的 57.70 和 Gemini 3.1 Pro 的 54.20 超过 6 分。
这两项数据的组合意味着:Opus 4.7 的代码能力优势不仅来自对已知题库的优化,在更贴近真实工程环境的困难任务上同样领先,且差距更大。若以 SWE 系列评测作为衡量标准,Opus 4.7 是目前公开可用的最强代码 Agent 模型。
综合推理:GPQA 进入 94 分区间,HLE 工具调用全榜第五
GPQA Diamond 上,Opus 4.7 以 94.20 分排名第 4(共 167 个模型),超过 GPT-5.4 的 92.80,仅以 0.10 分之差落后于 Gemini 3.1 Pro 的 94.30。从 Opus 4.1 的 81 分到 Opus 4.7 的 94.20,GPQA 成绩在四个版本内提升了 13.2 个百分点,显示出 Anthropic 在深度专业推理方向上持续的、非平台期的进步。
HLE(Humanity's Last Exam)是当前公认最难的综合知识基准,Opus 4.7 配合工具调用达到 54.70 分,全榜第 5(不用工具时为 46.90,排第 20)。工具调用带来的 7.80 分增益是三大竞品中最高的,说明 Opus 4.7 的推理能力与工具使用的协同效果优异。GPT-5.4 和 Gemini 3.1 Pro 的带工具 HLE 分别为 52.10 和 51.40,均低于 Opus 4.7。
Agent 能力:OSWorld 第二,Terminal Bench 中游,BrowseComp 是短板
桌面操作类任务(OSWorld-Verified)上,Opus 4.7 以 78.00 分排名第 2(共 12 个模型),超过 GPT-5.4 的 75.00,Gemini 3.1 Pro 无可比数据。这与 Anthropic 官方公告中提到的视觉分辨率大幅提升(支持长边最高 2,576 像素,较前代提升超 3 倍)高度吻合,视觉 Agent 场景的实际性能改善有基准支撑。
Terminal Bench 2.0 上,Opus 4.7 以 69.40 分排名第 4,GPT-5.4 以 75.10 领跑,Gemini 3.1 Pro 以 68.50 紧随 Opus 4.7。这是本页所有评测中,Opus 4.7 相对于 GPT-5.4 差距最显著的项目(5.70 分),说明在需要持续命令行操作和系统交互的任务上,GPT-5.4 的优势更为突出。
BrowseComp(网络信息检索 Agent)是 Opus 4.7 相对最弱的方向:79.30 分,全榜第 6,而 Gemini 3.1 Pro 以 85.90 领先(且使用联网工具),GPT-5.4 以 82.70 居中。BrowseComp 的本质是需要跨多步骤、多来源拼接信息的搜索推理,Gemini 凭借 Google 搜索原生整合具有天然优势,Opus 4.7 在这一方向暂时处于三方中的末位。
代际进化曲线:编程能力在 4.7 出现拐点式跃升
回看 Opus 系列的历史轨迹,有一个结构性特征值得关注:
| 版本 | GPQA Diamond | SWE-bench Verified | Terminal Bench 2.0 |
|---|---|---|---|
| Opus 4.1 | 81.00 | 74.50(并行思考) | — |
| Opus 4.5 | 87.00 | 80.90 | 59.30 |
| Opus 4.6 | 91.31 | 80.84 | 65.40 |
| Opus 4.7 | 94.20 | 87.60 | 69.40 |
GPQA 的进步是线性且持续的,每一代约提升 3–4 分;但 SWE-bench 在 4.5 → 4.6 几乎原地踏步(80.90 → 80.84),却在 4.6 → 4.7 跳升近 7 分。这个"蓄势后爆发"的模式,结合 Anthropic 官方提到的指令遵循和输出验证能力升级,指向的是 Opus 4.7 在工程 Agent 的执行可靠性上做了针对性突破,而非均匀的全面进步。
定价与性价比:与 Opus 4.6 同价,性价比实质提升
Opus 4.7 保持与 Opus 4.6 完全相同的定价:输入 $5 / 1M tokens,输出 $25 / 1M tokens。相比之下,GPT-5.4 的标准输入为 $2.5、输出为 $15(272K 以内),Gemini 3.1 Pro 为输入 $2、输出 $12(200K 以内)——两者在单价上均低于 Opus 4.7,但覆盖的评测范围和顶端能力上限也相应更低。
需要注意的是,Anthropic 同步更新了 tokenizer,相同输入内容的 token 消耗将增加约 1.0–1.35 倍,同时高 effort 模式下思考 token 的产出量也会增加,实际使用成本可能高于 Opus 4.6。是否升级需结合具体任务类型和 effort 设置评估。
结构性判断
Opus 4.7 是一个为工程 Agent 场景深度优化的版本:SWE-bench 系列两项同时排名第二、OSWorld 排名第二,且在 HLE+工具组合下综合推理全场最强,都指向同一个用户群体——需要持续运行、复杂任务分解和自主验证的代码/工程 Agent 开发者。
对于需要网页信息检索(BrowseComp)或纯命令行任务(Terminal Bench)的用例,GPT-5.4 或 Gemini 3.1 Pro 提供了更有竞争力的替代选项。Opus 4.7 的护城河不在"全能",而在"代码+工具调用+长程 Agent 可靠性"的交集地带。
以上数据来源于 DataLearner 收录的公开评测结果及 Anthropic 官方发布说明(2026 年 4 月 16 日)。评测模式细分请参见下方各项具体数据。