Claude Sonnet 4 评测详情

Claude Sonnet 4 当前已收录的代表性评测结果包括 SWE-bench Verified（9 / 103，得分 80.20）、LiveBench（11 / 52，得分 73.82）、MMLU Pro（35 / 124，得分 84）。并附有 1 个数据来源链接供参考。

评测结果

Claude Sonnet 4

评测结果

综合评估

共 12 项评测

评测名称 / 模式

得分

排名/总数

开启思考

84

35 / 124

常规模式

68

119 / 175

开启思考

75.40

88 / 175

深度思考模式工具

83.80

54 / 175

常规模式

65.40

30 / 52

开启思考

73.82

11 / 52

常规模式

23.80

53 / 65

开启思考

40

46 / 65

常规模式

5.52

140 / 149

开启思考

9.60

126 / 149

常规模式

1.30

51 / 58

开启思考

5.90

42 / 58

编程与软件工程

共 5 项评测

评测名称 / 模式

得分

排名/总数

SWE-bench Verified

开启思考工具

72.70

42 / 103

SWE-bench Verified

开启思考工具

80.20

9 / 103

常规模式

48.50

92 / 118

开启思考

66

56 / 118

SWE-Bench Pro - Public

开启思考

42.70

30 / 36

数学推理

共 12 项评测

评测名称 / 模式

得分

排名/总数

常规模式

38

95 / 106

开启思考

70.50

71 / 106

深度思考模式工具

85

50 / 106

常规模式

43.40

50 / 62

开启思考

27.10

8 / 16

常规模式

9.70

5 / 10

开启思考

5.20

8 / 10

IMO-ProofBench Advanced

开启思考

4.80

6 / 8

常规模式

4.10

41 / 60

常规模式

3.30

6 / 9

开启思考

4

5 / 9

FrontierMath - Tier 4

常规模式

0

72 / 80

写作和创作

共 1 项评测

评测名称 / 模式

得分

排名/总数

Creative Writing

常规模式

83.05

14 / 23

AI Agent - 工具使用

共 4 项评测

评测名称 / 模式

得分

排名/总数

OSWorld-Verified

开启思考工具

42.20

12 / 14

常规模式工具

26

26 / 35

开启思考工具

35.50

18 / 35

深度思考模式工具

41.30

10 / 35

多模态理解

共 1 项评测

评测名称 / 模式

得分

排名/总数

常规模式

76.50

16 / 28

常识推理

共 1 项评测

评测名称 / 模式

得分

排名/总数

开启思考

45.50

15 / 27

Agent能力评测

共 3 项评测

评测名称 / 模式

得分

排名/总数

τ²-Bench - Telecom

开启思考工具

65

29 / 35

开启思考

61.30

16 / 26

常规模式工具

52

33 / 40

指令跟随

共 1 项评测

评测名称 / 模式

得分

排名/总数

开启思考工具

55

20 / 27

生产力知识

共 1 项评测

评测名称 / 模式

得分

排名/总数

开启思考

33

18 / 20

长上下文能力

共 1 项评测

评测名称 / 模式

得分

排名/总数

开启思考

65

10 / 13

OpenClaw智能体能力综合测评

共 2 项评测

评测名称 / 模式

得分

排名/总数

开启思考工具

80.50

22 / 37

开启思考工具

77.80

23 / 29

与其他模型对比

数据来源

artificialanalysis.aiartificialanalysis.ai