Claude Sonnet 4.5 评测深度分析

Claude Sonnet 4.5 当前已收录的代表性评测结果包括 AIME2025（1 / 106，得分 100）、SWE-bench Verified（3 / 103，得分 82）、MMLU Pro（5 / 124，得分 88）。并附有 2 个数据来源链接供参考。

Sonnet 4.5是Anthropic一个中等能力的模型，但很多评测结果不比Opus差。

评测结果

Claude Sonnet 4.5

评测结果

综合评估

共 12 项评测

评测名称 / 模式

得分

排名/总数

MMLU Pro

开启思考

5 / 124

GPQA Diamond

常规模式

73.70

94 / 175

GPQA Diamond

开启思考

83.40

55 / 175

LiveBench

常规模式

70.56

20 / 52

LiveBench

开启思考

78.26

4 / 52

ARC-AGI

常规模式

25.50

52 / 65

ARC-AGI

开启思考

63.70

32 / 65

HLE

常规模式

7.10

136 / 149

HLE

开启思考

17.70

103 / 149

HLE

开启思考工具

33.60

60 / 149

ARC-AGI-2

常规模式

3.80

48 / 58

ARC-AGI-2

开启思考

13.60

34 / 58

编程与软件工程

共 5 项评测

评测名称 / 模式

得分

排名/总数

SWE-bench Verified

开启思考工具

77.20

20 / 103

SWE-bench Verified

开启思考工具

3 / 103

LiveCodeBench

常规模式

69 / 118

LiveCodeBench

开启思考

45 / 118

SWE-Bench Pro - Public

开启思考

43.60

29 / 36

数学推理

共 8 项评测

评测名称 / 模式

得分

排名/总数

AIME2025

常规模式

96 / 106

AIME2025

开启思考

45 / 106

AIME2025

开启思考工具

100

1 / 106

IMO-ProofBench

开启思考

27.10

8 / 16

FrontierMath

常规模式

5.20

38 / 60

IMO-ProofBench Advanced

开启思考

4.80

6 / 8

FrontierMath - Tier 4

常规模式

2.10

56 / 80

FrontierMath - Tier 4

32K

4.20

40 / 80

AI Agent - 工具使用

共 4 项评测

评测名称 / 模式

得分

排名/总数

OSWorld-Verified

开启思考工具

61.40

10 / 14

Terminal-Bench

常规模式工具

25 / 35

Terminal-Bench

开启思考工具

3 / 35

Terminal Bench 2.0

开启思考工具

42.80

38 / 43

多模态理解

共 1 项评测

评测名称 / 模式

得分

排名/总数

MMMU

开启思考

77.80

14 / 28

常识推理

共 1 项评测

评测名称 / 模式

得分

排名/总数

Simple Bench

常规模式

54.30

9 / 27

Agent能力评测

共 4 项评测

评测名称 / 模式

得分

排名/总数

τ²-Bench - Telecom

开启思考工具

5 / 35

τ²-Bench

常规模式工具

24 / 40

τ²-Bench

开启思考工具

84.70

9 / 40

Terminal Bench Hard

开启思考工具

8 / 13

指令跟随

共 1 项评测

评测名称 / 模式

得分

排名/总数

IF Bench

开启思考工具

57.30

19 / 27

AI Agent - 信息收集

共 1 项评测

评测名称 / 模式

得分

排名/总数

BrowseComp

开启思考工具

24.10

41 / 43

生产力知识

共 1 项评测

评测名称 / 模式

得分

排名/总数

GDPval-AA

开启思考

15 / 20

长上下文能力

共 1 项评测

评测名称 / 模式

得分

排名/总数

AA-LCR

开启思考

8 / 13

OpenClaw智能体能力综合测评

共 2 项评测

评测名称 / 模式

得分

排名/总数

Pinch Bench

开启思考工具

88.20

4 / 37

Claw Bench

开启思考工具

88.10

13 / 29

与其他模型对比