Sonnet 4.5是Anthropic一个中等能力的模型,但很多评测结果不比Opus差。
Claude Sonnet 4.5 评测深度分析
Claude Sonnet 4.5 当前已收录的代表性评测结果包括 AIME2025(1 / 106,得分 100)、SWE-bench Verified(3 / 103,得分 82)、MMLU Pro(5 / 124,得分 88)。本页还提供与 2 个竞品模型及 4 个前代或同系列模型的对比,在有数据时会展示性能和价格视图。并附有 2 个数据来源链接供参考。
评测结果
Claude Sonnet 4.5
评测结果
竞品对比
Claude Sonnet 4.5 与同类主流模型的评测得分对比
评测类别:
柱状图按当前筛选范围内每个模型在各评测中的最高分展示;具体模式明细请看下方表格。
评测得分对比
12 项可对比评测得分汇总。每个模型展示最佳得分,模式在分数下方标注。
| 评测项 | Claude Sonnet 4.5当前 | GPT-5.1 | Gemini 2.5-Pro |
|---|---|---|---|
ARC-AGI 综合评估 | 63.70开启思考 | 72.80思考水平·高 | 37.00开启思考 |
ARC-AGI-2 综合评估 | 13.60开启思考 | 17.60思考水平·高 | 4.90开启思考 |
GPQA Diamond 综合评估 | 83.40开启思考 | 88.10开启思考 | 86.40开启思考 |
HLE 综合评估 | 33.60开启思考 | 工具 | 42.70思考水平·高 | 工具 | 21.60开启思考 |
LiveBench 综合评估 | 78.26开启思考 | -- | 71.92开启思考 |
MMLU Pro 综合评估 | 88.00开启思考 | -- | 86.00常规模式 |
LiveCodeBench 编程与软件工程 | 71.00开启思考 | -- | 77.10常规模式 |
SWE-Bench Pro - Public 编程与软件工程 | 43.60开启思考 | 50.80思考水平·高 | -- |
SWE-bench Verified 编程与软件工程 | 82.00开启思考 | 工具 | 76.30思考水平·高 | 67.20开启思考 |
AIME2025 数学推理 | 100.00开启思考 | 工具 | 94.00思考水平·高 | 88.00开启思考 |
FrontierMath 数学推理 | 5.20常规模式 | 26.70思考水平·高 | 工具 | 11.00常规模式 |
2.10常规模式 | 12.50思考水平·高 | 4.20常规模式 |
其余 12 个 benchmark 仍可在上方图表中查看。
Claude Sonnet 4.5 与同类模型的标准 API 价格对比
按模型并排展示标准文本输入价与输出价;若存在超长上下文加价,仅保留阈值内标准价,并在下方说明适用范围。
数据来源:DataLearnerAI,展示默认供应商的标准文本价格。
这些模型的价格币种或计费单位不一致,暂不直接绘制统一柱状图,以下展示原始价格。
Claude Sonnet 4.5
标准输入: 3 美元/100 万tokens
标准输出: 15 美元/100 万tokens
标准价适用于 <= 200K
GPT-5.1
标准输入: 1.25 美元/100万 tokens
标准输出: 10 美元/100万 tokens
Gemini 2.5-Pro
标准输入: 1.25 美元/100 万tokens
标准输出: 10 美元/100 万tokens
标准价适用于 <= 200K
| 模型 | 供应商 | 标准输入 | 标准输出 | 标准价适用于 |
|---|---|---|---|---|
Claude Sonnet 4.5 | — | 3 美元/100 万tokens | 15 美元/100 万tokens | <= 200K |
GPT-5.1 | — | 1.25 美元/100万 tokens | 10 美元/100万 tokens | — |
Gemini 2.5-Pro | — | 1.25 美元/100 万tokens | 10 美元/100 万tokens | <= 200K |
历代版本对比
Claude Sonnet 4.5 系列各版本的评测成绩纵向对比
评测类别:
柱状图按当前筛选范围内每个模型在各评测中的最高分展示;具体模式明细请看下方表格。
评测得分对比
12 项可对比评测得分汇总。每个模型展示最佳得分,模式在分数下方标注。· 点击任意行可切换下方趋势图。
| 评测项 | Claude Sonnet 4.5当前 | Claude Sonnet 4 | Claude Sonnet 3.7 | Claude 3.5 Sonnet New | Claude 3.5 Sonnet |
|---|---|---|---|---|---|
ARC-AGI 综合评估 | 63.70开启思考 | 40.00开启思考 | -- | -- | -- |
ARC-AGI-2 综合评估 | 13.60开启思考 | 5.90开启思考 | -- | -- | -- |
GPQA Diamond 综合评估 | 83.40开启思考 | 83.80深度思考模式 | 工具 | 77.00开启思考 | 65.00常规模式 | 59.40常规模式 |
HLE 综合评估 | 33.60开启思考 | 工具 | 9.60开启思考 | 10.30开启思考 | -- | -- |
LiveBench 综合评估 | 78.26开启思考 | 73.82开启思考 | 68.64开启思考 | -- | -- |
MMLU Pro 综合评估 | 88.00开启思考 | 84.00开启思考 | -- | 78.00常规模式 | 77.64常规模式 |
LiveCodeBench 编程与软件工程 | 71.00开启思考 | 66.00开启思考 | -- | 38.70常规模式 | -- |
SWE-Bench Pro - Public 编程与软件工程 | 43.60开启思考 | 42.70开启思考 | -- | -- | -- |
SWE-bench Verified 编程与软件工程 | 82.00开启思考 | 工具 | 80.20开启思考 | 工具 | 70.30开启思考 | 工具 | 49.00常规模式 | -- |
AIME2025 数学推理 | 100.00开启思考 | 工具 | 85.00深度思考模式 | 工具 | 54.80常规模式 | -- | -- |
FrontierMath 数学推理 | 5.20常规模式 | 4.10常规模式 | 4.10开启思考 | 2.10常规模式 | 1.00常规模式 |
2.10常规模式 | 0.01常规模式 | -- | 0.01常规模式 | 0.01常规模式 |
其余 14 个 benchmark 仍可在上方图表中查看。
单评测历史趋势图
当前查看:ARC-AGI · 综合评估
选择评测
Claude Sonnet 4.5 所在系列的标准 API 价格对比
按模型并排展示标准文本输入价与输出价;若存在超长上下文加价,仅保留阈值内标准价,并在下方说明适用范围。
数据来源:DataLearnerAI,展示默认供应商的标准文本价格。
这些模型的价格币种或计费单位不一致,暂不直接绘制统一柱状图,以下展示原始价格。
Claude Sonnet 4.5
标准输入: 3 美元/100 万tokens
标准输出: 15 美元/100 万tokens
标准价适用于 <= 200K
Claude Sonnet 4
标准输入: 3 美元/ 100万tokens
标准输出: 15 美元/100万tokens
| 模型 | 供应商 | 标准输入 | 标准输出 | 标准价适用于 |
|---|---|---|---|---|
Claude Sonnet 4.5 | — | 3 美元/100 万tokens | 15 美元/100 万tokens | <= 200K |
Claude Sonnet 4 | — | 3 美元/ 100万tokens | 15 美元/100万tokens | — |