Claude Opus 4.6 评测深度分析

Claude Opus 4.6 当前已收录的代表性评测结果包括 τ²-Bench（1 / 40，得分 91.89）、IF Bench（1 / 27，得分 94）、GDPval-AA（1 / 20，得分 1606）。本页还提供与 2 个竞品模型及 3 个前代或同系列模型的对比，在有数据时会展示性能和价格视图。并附有 6 个数据来源链接供参考。

Claude Opus 4.6 评测结果深度解读

模型概述

Claude Opus 4.6 是 Anthropic 于 2026年2月5日发布的旗舰级大语言模型，作为 Opus 系列的最新迭代版本，该模型在推理能力、长文本处理和AI Agent应用方面实现了重大突破。模型支持高达 1M tokens 的上下文窗口和 131K tokens 的输出长度，并首次引入了"思考模式"(Thinking Mode)，通过扩展思维链处理展现更清晰的推理过程。

核心技术特性：

上下文长度：1,000K tokens（业界领先）
双推理模式：常规模式 + 思考模式
多模态支持：文本、图像输入输出
中文全面支持

评测表现总览

Claude Opus 4.6 参与了 25项权威评测，覆盖综合评估、编程、Agent能力、长上下文等8大领域，在多个关键维度获得业界第一或前三的成绩，充分展现了其作为2026年顶级大模型的实力。

🏆 顶级表现领域

评测类别	代表性成绩	排名	核心能力
抽象推理	ARC-AGI 思考·高强度 94分	🥇 1/41	模式识别、逻辑推理
Agent能力	τ²-Bench Telecom 99.3分	🥇 1/23	工具调用、任务执行
长上下文	AA-LCR 思考模式 71分	🥇 1/2	长文档理解
编程工程	SWE-bench Verified 80.8分	🥉 3/81	代码理解、问题解决
科学推理	GPQA Diamond 思考 91.3分	Top 5 / 146	研究生级问题

核心能力深度解析

一、抽象推理能力：业界天花板

Claude Opus 4.6 在 ARC-AGI 系列评测中的表现堪称现象级。ARC-AGI 是公认的AI抽象推理"试金石"，要求模型在零样本情况下识别复杂视觉模式并进行逻辑推理。

数据亮点：

ARC-AGI（原版）思考高强度模式：94分（排名1/41，超越所有参赛模型）
ARC-AGI-2（难度升级版）思考高强度：69.2分（排名1/31，在更难测试中保持领先）

技术解读：这一成绩证明 Opus 4.6 不仅能处理语言任务，更具备接近人类的视觉-逻辑联合推理能力。在思考强度越高的模式下，模型表现越优异，显示其深度推理链路的有效性。

二、思考模式的革命性突破

Opus 4.6 的"思考模式"是其核心创新之一。通过对比常规模式和思考模式在同一评测中的表现，我们发现思考模式平均提升14分，在某些任务中提升幅度高达21分。

典型对比案例：

评测项目	常规模式	思考模式	提升幅度	适用场景
GPQA Diamond	84	91.3	+7.3分	科学问题、学术研究
HLE（类人评估）	18.6	40	+21.4分	复杂决策、多步推理
τ²-Bench Telecom	85	99.3	+14.3分	专业领域Agent
AA-LCR（长上下文）	58	71	+13分	长文档分析

关键发现：思考模式在需要多步推理、复杂决策的任务中优势显著，但在Terminal Bench Hard等注重快速执行的任务中，常规模式反而表现更优（49分 vs 46分），说明不同模式适用于不同场景。

三、AI Agent能力：接近完美的工具掌控

在 τ²-Bench - Telecom 评测中，Opus 4.6 达到了惊人的 99.3分（思考+工具模式），这是电信领域Agent任务的近乎完美表现。该成绩证明模型能够：

准确理解复杂的行业需求
高效调用专业工具链
完成多步骤任务编排

同时在 Terminal Bench 系列中排名第一（常规+工具模式49分），在 Terminal Bench 2.0 中排名第二（思考+工具65.4分），展现了强大的终端操作和系统交互能力，适合DevOps、自动化运维等场景。

四、编程与软件工程：真实世界的验证

在 SWE-bench Verified 这一真实软件工程任务评测中，Opus 4.6 取得 80.8分（排名3/81）。该评测要求模型：

理解GitHub真实代码库
定位和修复实际bug
编写符合工程规范的代码

这一成绩证明 Opus 4.6 不仅能完成教科书式的编程题目，更能胜任真实开发环境中的复杂任务，是AI辅助编程工具的理想选择。

五、长上下文处理：1M token的商业价值

凭借 1M token 的超长上下文窗口，Opus 4.6 在 AA-LCR（长上下文检索）评测中思考模式达到 71分（排名1/2），相比常规模式的58分提升13分。

实际应用价值：

一次性处理整本书籍或完整代码库
企业级知识库全文分析
长期对话历史保持上下文连贯性
法律文档、合同等超长文本的精准理解

需要改进的方向

指令跟随能力有待加强

在 IF Bench（指令跟随）评测中，Opus 4.6 的表现相对一般：

思考+工具模式：53分（排名16/20）
常规+工具模式：45分（排名19/20）

这表明在严格遵循复杂、多层级指令的任务中，模型仍有提升空间。对于需要精确执行用户指令的应用场景（如格式化输出、严格约束条件的生成），建议进行额外的提示工程优化。

定价与性价比分析

Opus 4.6 提供三种定价模式以满足不同需求：

模式	输入价格	输出价格	适用场景
标准模式	$10/1M tokens	$25/1M tokens	常规应用
批量模式	$2.5/1M tokens（75%折扣）	$12.5/1M tokens（50%折扣）	大规模处理
加速模式	$30/1M tokens	$150/1M tokens	低延迟需求

成本优化建议：

对于非紧急的批量任务，使用批量模式可节省75%输入成本
简单任务使用常规模式，复杂推理任务启用思考模式
根据任务特性选择模式，避免过度使用思考模式增加成本

应用场景推荐

✅ 强烈推荐场景

科研与学术：GPQA Diamond 91.3分证明其处理研究生级科学问题的能力
软件开发：SWE-bench 80.8分验证的真实代码能力，适合AI编程助手
企业知识管理：1M token上下文支持全文档库分析和智能检索
复杂Agent开发：τ²-Bench 99.3分展现的工具调用和任务编排能力
战略分析与决策：ARC-AGI 94分证明的抽象推理和深度思考能力
长文本处理：法律文档、学术论文、技术手册的深度理解与摘要

⚠️ 需谨慎评估场景

严格指令遵循任务：IF Bench排名靠后，需要额外优化
成本敏感型应用：作为旗舰模型，推理成本较Sonnet系列高
实时交互场景：思考模式会增加响应延迟，需权衡准确性与速度

评测结果

Claude Opus 4.6

评测结果

综合评估

共 6 项评测

评测名称 / 模式

得分

排名/总数

ARC-AGI

扩展

11 / 65

GPQA Diamond

扩展

91.31

12 / 175

MMLU

扩展

91.05

7 / 65

ARC-AGI-2

扩展

66.30

14 / 58

HLE

扩展工具联网

8 / 149

ARC-AGI-3

扩展

0.30

1 / 4

编程与软件工程

共 5 项评测

评测名称 / 模式

得分

排名/总数

HumanEval

扩展

2 / 39

SWE-bench Verified

扩展工具

80.84

6 / 103

SWE-bench

扩展工具

77.83

1 / 2

LiveCodeBench

扩展

35 / 118

SWE-bench Multilingual

扩展工具

9 / 17

常识问答

共 1 项评测

评测名称 / 模式

得分

排名/总数

SimpleQA

扩展

6 / 45

数学推理

共 2 项评测

评测名称 / 模式

得分

排名/总数

AIME2025

扩展

99.79

7 / 106

MATH-500

扩展

97.60

10 / 44

多模态理解

共 2 项评测

评测名称 / 模式

得分

排名/总数

MMMU

扩展

73.90

18 / 28

MMMU

扩展工具

77.30

15 / 28

Agent能力评测

共 2 项评测

评测名称 / 模式

得分

排名/总数

τ²-Bench - Telecom

扩展工具

99.25

2 / 35

τ²-Bench

扩展工具

91.89

1 / 40

指令跟随

共 1 项评测

评测名称 / 模式

得分

排名/总数

IF Bench

扩展

1 / 27

AI Agent - 工具使用

共 2 项评测

评测名称 / 模式

得分

排名/总数

OSWorld-Verified

扩展工具

72.70

6 / 14

Terminal Bench 2.0

扩展工具

65.40

9 / 43

生产力知识

共 1 项评测

评测名称 / 模式

得分

排名/总数

GDPval-AA

扩展工具联网

1606

1 / 20

与其他模型对比

竞品对比

Claude Opus 4.6 与同类主流模型的评测得分对比

Claude Opus 4.6GPT-5.4 Gemini 3.1 Pro Preview

评测类别:

柱状图按当前筛选范围内每个模型在各评测中的最高分展示；具体模式明细请看下方表格。

评测得分对比

12 项可对比评测得分汇总。每个模型展示最佳得分，模式在分数下方标注。

评测项	Claude Opus 4.6当前	GPT-5.4	Gemini 3.1 Pro Preview
ARC-AGI 综合评估	92.00扩展思考	93.70常规模式	--
ARC-AGI-2 综合评估	66.30扩展思考	77.10常规模式	77.10思考水平·高
ARC-AGI-3 综合评估	0.30扩展思考	0.30思考水平·高	0.20思考水平·高
GPQA Diamond 综合评估	91.31扩展思考	--	94.30思考水平·高
HLE 综合评估	53.00扩展思考｜工具	52.10思考水平·极高｜工具	51.40思考水平·高｜工具
MMLU 综合评估	91.05扩展思考	--	92.60思考水平·高
LiveCodeBench 编程与软件工程	76.00扩展思考	--	91.70思考水平·高｜工具
SWE-bench Verified 编程与软件工程	80.84扩展思考｜工具	--	80.60思考水平·高｜工具
FrontierMath 数学推理	40.70思考水平·高	--	36.90思考水平·高
FrontierMath - Tier 4 数学推理	22.90思考水平·高	27.10思考水平·极高	16.70常规模式
MMMU 多模态理解	77.30扩展思考｜工具	--	80.50思考水平·高
τ²-Bench Agent能力评测	91.89扩展思考｜工具	--	90.80思考水平·高｜工具

其余 5 个 benchmark 仍可在上方图表中查看。

Claude Opus 4.6 与同类模型的标准 API 价格对比

按模型并排展示标准文本输入价与输出价；若存在超长上下文加价，仅保留阈值内标准价，并在下方说明适用范围。

数据来源：DataLearnerAI，展示默认供应商的标准文本价格。 · USD / 1M tokens

若存在上下文阈值，图中标准价仅适用于以下范围：

Claude Opus 4.6: 标准价适用于 <= 200K

GPT-5.4: 标准价适用于 <= 272K

Gemini 3.1 Pro Preview: 标准价适用于 <= 200K

模型	供应商	标准输入	标准输出	标准价适用于
Claude Opus 4.6	Anthropic	$5 / 1M tokens	$25 / 1M tokens	<= 200K
GPT-5.4	OpenAI	$2.5 / 1M tokens	$15 / 1M tokens	<= 272K
Gemini 3.1 Pro Preview	Google Deep Mind	$2 / 1M tokens	$12 / 1M tokens	<= 200K

历代版本对比

Claude Opus 4.6 系列各版本的评测成绩纵向对比

Claude Opus 4.6Opus 4.5 Opus 4.1 Claude Opus 4

评测类别:

柱状图按当前筛选范围内每个模型在各评测中的最高分展示；具体模式明细请看下方表格。

评测得分对比

12 项可对比评测得分汇总。每个模型展示最佳得分，模式在分数下方标注。· 点击任意行可切换下方趋势图。

评测项	Claude Opus 4.6当前	Opus 4.5	Opus 4.1	Claude Opus 4
ARC-AGI 综合评估	92.00扩展思考	80.00扩展思考	--	35.70常规模式
ARC-AGI-2 综合评估	66.30扩展思考	37.60扩展思考	--	8.60常规模式
GPQA Diamond 综合评估	91.31扩展思考	87.00扩展思考	81.00扩展思考	79.60常规模式
HLE 综合评估	53.00扩展思考｜工具	43.20扩展思考｜工具	--	10.70常规模式
LiveCodeBench 编程与软件工程	76.00扩展思考	87.00扩展思考｜工具	--	56.60常规模式
SWE-bench Verified 编程与软件工程	80.84扩展思考｜工具	80.90扩展思考｜工具	74.50扩展思考｜工具	72.50常规模式
AIME2025 数学推理	99.79扩展思考	--	78.00扩展思考	75.50常规模式
FrontierMath 数学推理	40.70思考水平·高	20.70扩展思考	7.20扩展思考	4.50常规模式
FrontierMath - Tier 4 数学推理	22.90思考水平·高	4.20常规模式	4.2032K	4.20开启思考
MATH-500 数学推理	97.60扩展思考	--	--	98.20常规模式
MMMU 多模态理解	77.30扩展思考｜工具	80.70扩展思考	--	--
τ²-Bench Agent能力评测	91.89扩展思考｜工具	81.99扩展思考｜工具	--	72.50开启思考｜工具

其余 4 个 benchmark 仍可在上方图表中查看。

单评测历史趋势图

当前查看：ARC-AGI · 综合评估

选择评测

常规常规 + 工具推理推理 + 工具深度推理深度推理 + 工具

横轴为模型与发布时间，纵轴为分数；同一模式会用实线串起版本变化，同代不同模式继续用虚线辅助对齐。

Claude Opus 4.6 所在系列的标准 API 价格对比

按模型并排展示标准文本输入价与输出价；若存在超长上下文加价，仅保留阈值内标准价，并在下方说明适用范围。

数据来源：DataLearnerAI，展示默认供应商的标准文本价格。 · USD / 1M tokens

若存在上下文阈值，图中标准价仅适用于以下范围：

Claude Opus 4.6: 标准价适用于 <= 200K

模型	供应商	标准输入	标准输出	标准价适用于
Claude Opus 4.6	Anthropic	$5 / 1M tokens	$25 / 1M tokens	<= 200K
Opus 4.5	Facebook AI研究实验室	$5 / 1M tokens	$25 / 1M tokens	—
Opus 4.1	Anthropic	$15 / 1M tokens	$75 / 1M tokens	—
Claude Opus 4	—	15 美元/ 100万tokens	75 美元/100万tokens	—

数据来源

anthropic.com artificialanalysis.ai artificialanalysis.ai swebench.com arcprize.org epoch.ai

Claude Opus 4.6 评测深度分析

Claude Opus 4.6 评测结果深度解读

模型概述

核心技术特性：

上下文长度：1,000K tokens（业界领先）
双推理模式：常规模式 + 思考模式
多模态支持：文本、图像输入输出
中文全面支持

评测表现总览

🏆 顶级表现领域

评测类别	代表性成绩	排名	核心能力
抽象推理	ARC-AGI 思考·高强度 94分	🥇 1/41	模式识别、逻辑推理
Agent能力	τ²-Bench Telecom 99.3分	🥇 1/23	工具调用、任务执行
长上下文	AA-LCR 思考模式 71分	🥇 1/2	长文档理解
编程工程	SWE-bench Verified 80.8分	🥉 3/81	代码理解、问题解决
科学推理	GPQA Diamond 思考 91.3分	Top 5 / 146	研究生级问题

核心能力深度解析

一、抽象推理能力：业界天花板

数据亮点：

ARC-AGI（原版）思考高强度模式：94分（排名1/41，超越所有参赛模型）
ARC-AGI-2（难度升级版）思考高强度：69.2分（排名1/31，在更难测试中保持领先）

二、思考模式的革命性突破

典型对比案例：

评测项目	常规模式	思考模式	提升幅度	适用场景
GPQA Diamond	84	91.3	+7.3分	科学问题、学术研究
HLE（类人评估）	18.6	40	+21.4分	复杂决策、多步推理
τ²-Bench Telecom	85	99.3	+14.3分	专业领域Agent
AA-LCR（长上下文）	58	71	+13分	长文档分析

三、AI Agent能力：接近完美的工具掌控

在 τ²-Bench - Telecom 评测中，Opus 4.6 达到了惊人的 99.3分（思考+工具模式），这是电信领域Agent任务的近乎完美表现。该成绩证明模型能够：

准确理解复杂的行业需求
高效调用专业工具链
完成多步骤任务编排

四、编程与软件工程：真实世界的验证

在 SWE-bench Verified 这一真实软件工程任务评测中，Opus 4.6 取得 80.8分（排名3/81）。该评测要求模型：

理解GitHub真实代码库
定位和修复实际bug
编写符合工程规范的代码

这一成绩证明 Opus 4.6 不仅能完成教科书式的编程题目，更能胜任真实开发环境中的复杂任务，是AI辅助编程工具的理想选择。

五、长上下文处理：1M token的商业价值

凭借 1M token 的超长上下文窗口，Opus 4.6 在 AA-LCR（长上下文检索）评测中思考模式达到 71分（排名1/2），相比常规模式的58分提升13分。

实际应用价值：

一次性处理整本书籍或完整代码库
企业级知识库全文分析
长期对话历史保持上下文连贯性
法律文档、合同等超长文本的精准理解

需要改进的方向

指令跟随能力有待加强

在 IF Bench（指令跟随）评测中，Opus 4.6 的表现相对一般：

思考+工具模式：53分（排名16/20）
常规+工具模式：45分（排名19/20）

定价与性价比分析

Opus 4.6 提供三种定价模式以满足不同需求：

模式	输入价格	输出价格	适用场景
标准模式	$10/1M tokens	$25/1M tokens	常规应用
批量模式	$2.5/1M tokens（75%折扣）	$12.5/1M tokens（50%折扣）	大规模处理
加速模式	$30/1M tokens	$150/1M tokens	低延迟需求

成本优化建议：

对于非紧急的批量任务，使用批量模式可节省75%输入成本
简单任务使用常规模式，复杂推理任务启用思考模式
根据任务特性选择模式，避免过度使用思考模式增加成本

应用场景推荐

✅ 强烈推荐场景

科研与学术：GPQA Diamond 91.3分证明其处理研究生级科学问题的能力
软件开发：SWE-bench 80.8分验证的真实代码能力，适合AI编程助手
企业知识管理：1M token上下文支持全文档库分析和智能检索
复杂Agent开发：τ²-Bench 99.3分展现的工具调用和任务编排能力
战略分析与决策：ARC-AGI 94分证明的抽象推理和深度思考能力
长文本处理：法律文档、学术论文、技术手册的深度理解与摘要

⚠️ 需谨慎评估场景

严格指令遵循任务：IF Bench排名靠后，需要额外优化
成本敏感型应用：作为旗舰模型，推理成本较Sonnet系列高
实时交互场景：思考模式会增加响应延迟，需权衡准确性与速度

评测结果

Claude Opus 4.6

评测结果

综合评估

共 6 项评测

评测名称 / 模式

得分

排名/总数

ARC-AGI

扩展

11 / 65

GPQA Diamond

扩展

91.31

12 / 175

MMLU

扩展

91.05

7 / 65

ARC-AGI-2

扩展

66.30

14 / 58

HLE

扩展工具联网

8 / 149

ARC-AGI-3

扩展

0.30

1 / 4

编程与软件工程

共 5 项评测

评测名称 / 模式

得分

排名/总数

HumanEval

扩展

2 / 39

SWE-bench Verified

扩展工具

80.84

6 / 103

SWE-bench

扩展工具

77.83

1 / 2

LiveCodeBench

扩展

35 / 118

SWE-bench Multilingual

扩展工具

9 / 17

常识问答

共 1 项评测

评测名称 / 模式

得分

排名/总数

SimpleQA

扩展

6 / 45

数学推理

共 2 项评测

评测名称 / 模式

得分

排名/总数

AIME2025

扩展

99.79

7 / 106

MATH-500

扩展

97.60

10 / 44

多模态理解

共 2 项评测

评测名称 / 模式

得分

排名/总数

MMMU

扩展

73.90

18 / 28

MMMU

扩展工具

77.30

15 / 28

Agent能力评测

共 2 项评测

评测名称 / 模式

得分

排名/总数

τ²-Bench - Telecom

扩展工具

99.25

2 / 35

τ²-Bench

扩展工具

91.89

1 / 40

指令跟随

共 1 项评测

评测名称 / 模式

得分

排名/总数

IF Bench

扩展

1 / 27

AI Agent - 工具使用

共 2 项评测

评测名称 / 模式

得分

排名/总数

OSWorld-Verified

扩展工具

72.70

6 / 14

Terminal Bench 2.0

扩展工具

65.40

9 / 43

生产力知识

共 1 项评测

评测名称 / 模式

得分

排名/总数

GDPval-AA

扩展工具联网

1606

1 / 20

与其他模型对比

竞品对比

Claude Opus 4.6 与同类主流模型的评测得分对比

Claude Opus 4.6GPT-5.4 Gemini 3.1 Pro Preview

评测类别:

柱状图按当前筛选范围内每个模型在各评测中的最高分展示；具体模式明细请看下方表格。

评测得分对比

12 项可对比评测得分汇总。每个模型展示最佳得分，模式在分数下方标注。

评测项	Claude Opus 4.6当前	GPT-5.4	Gemini 3.1 Pro Preview
ARC-AGI 综合评估	92.00扩展思考	93.70常规模式	--
ARC-AGI-2 综合评估	66.30扩展思考	77.10常规模式	77.10思考水平·高
ARC-AGI-3 综合评估	0.30扩展思考	0.30思考水平·高	0.20思考水平·高
GPQA Diamond 综合评估	91.31扩展思考	--	94.30思考水平·高
HLE 综合评估	53.00扩展思考｜工具	52.10思考水平·极高｜工具	51.40思考水平·高｜工具
MMLU 综合评估	91.05扩展思考	--	92.60思考水平·高
LiveCodeBench 编程与软件工程	76.00扩展思考	--	91.70思考水平·高｜工具
SWE-bench Verified 编程与软件工程	80.84扩展思考｜工具	--	80.60思考水平·高｜工具
FrontierMath 数学推理	40.70思考水平·高	--	36.90思考水平·高
FrontierMath - Tier 4 数学推理	22.90思考水平·高	27.10思考水平·极高	16.70常规模式
MMMU 多模态理解	77.30扩展思考｜工具	--	80.50思考水平·高
τ²-Bench Agent能力评测	91.89扩展思考｜工具	--	90.80思考水平·高｜工具

其余 5 个 benchmark 仍可在上方图表中查看。

Claude Opus 4.6 与同类模型的标准 API 价格对比

按模型并排展示标准文本输入价与输出价；若存在超长上下文加价，仅保留阈值内标准价，并在下方说明适用范围。

数据来源：DataLearnerAI，展示默认供应商的标准文本价格。 · USD / 1M tokens

若存在上下文阈值，图中标准价仅适用于以下范围：

Claude Opus 4.6: 标准价适用于 <= 200K

GPT-5.4: 标准价适用于 <= 272K

Gemini 3.1 Pro Preview: 标准价适用于 <= 200K

模型	供应商	标准输入	标准输出	标准价适用于
Claude Opus 4.6	Anthropic	$5 / 1M tokens	$25 / 1M tokens	<= 200K
GPT-5.4	OpenAI	$2.5 / 1M tokens	$15 / 1M tokens	<= 272K
Gemini 3.1 Pro Preview	Google Deep Mind	$2 / 1M tokens	$12 / 1M tokens	<= 200K

历代版本对比

Claude Opus 4.6 系列各版本的评测成绩纵向对比

Claude Opus 4.6Opus 4.5 Opus 4.1 Claude Opus 4

评测类别:

柱状图按当前筛选范围内每个模型在各评测中的最高分展示；具体模式明细请看下方表格。

评测得分对比

12 项可对比评测得分汇总。每个模型展示最佳得分，模式在分数下方标注。· 点击任意行可切换下方趋势图。

评测项	Claude Opus 4.6当前	Opus 4.5	Opus 4.1	Claude Opus 4
ARC-AGI 综合评估	92.00扩展思考	80.00扩展思考	--	35.70常规模式
ARC-AGI-2 综合评估	66.30扩展思考	37.60扩展思考	--	8.60常规模式
GPQA Diamond 综合评估	91.31扩展思考	87.00扩展思考	81.00扩展思考	79.60常规模式
HLE 综合评估	53.00扩展思考｜工具	43.20扩展思考｜工具	--	10.70常规模式
LiveCodeBench 编程与软件工程	76.00扩展思考	87.00扩展思考｜工具	--	56.60常规模式
SWE-bench Verified 编程与软件工程	80.84扩展思考｜工具	80.90扩展思考｜工具	74.50扩展思考｜工具	72.50常规模式
AIME2025 数学推理	99.79扩展思考	--	78.00扩展思考	75.50常规模式
FrontierMath 数学推理	40.70思考水平·高	20.70扩展思考	7.20扩展思考	4.50常规模式
FrontierMath - Tier 4 数学推理	22.90思考水平·高	4.20常规模式	4.2032K	4.20开启思考
MATH-500 数学推理	97.60扩展思考	--	--	98.20常规模式
MMMU 多模态理解	77.30扩展思考｜工具	80.70扩展思考	--	--
τ²-Bench Agent能力评测	91.89扩展思考｜工具	81.99扩展思考｜工具	--	72.50开启思考｜工具

其余 4 个 benchmark 仍可在上方图表中查看。

单评测历史趋势图

当前查看：ARC-AGI · 综合评估

选择评测

常规常规 + 工具推理推理 + 工具深度推理深度推理 + 工具

横轴为模型与发布时间，纵轴为分数；同一模式会用实线串起版本变化，同代不同模式继续用虚线辅助对齐。

Claude Opus 4.6 所在系列的标准 API 价格对比

按模型并排展示标准文本输入价与输出价；若存在超长上下文加价，仅保留阈值内标准价，并在下方说明适用范围。

数据来源：DataLearnerAI，展示默认供应商的标准文本价格。 · USD / 1M tokens

若存在上下文阈值，图中标准价仅适用于以下范围：

Claude Opus 4.6: 标准价适用于 <= 200K

模型	供应商	标准输入	标准输出	标准价适用于
Claude Opus 4.6	Anthropic	$5 / 1M tokens	$25 / 1M tokens	<= 200K
Opus 4.5	Facebook AI研究实验室	$5 / 1M tokens	$25 / 1M tokens	—
Opus 4.1	Anthropic	$15 / 1M tokens	$75 / 1M tokens	—
Claude Opus 4	—	15 美元/ 100万tokens	75 美元/100万tokens	—

数据来源

anthropic.com artificialanalysis.ai artificialanalysis.ai swebench.com arcprize.org epoch.ai