DataLearner 标志DataLearnerAI
最新AI资讯
大模型排行榜
大模型评测基准
大模型列表
大模型对比
资源中心
工具
语言中文
DataLearner 标志DataLearner AI

专注大模型评测、数据资源与实践教学的知识平台,持续更新可落地的 AI 能力图谱。

产品

  • 评测榜单
  • 模型对比
  • 数据资源

资源

  • 部署教程
  • 原创内容
  • 工具导航

关于

  • 关于我们
  • 隐私政策
  • 数据收集方法
  • 联系我们

© 2026 DataLearner AI. DataLearner 持续整合行业数据与案例,为科研、企业与开发者提供可靠的大模型情报与实践指南。

隐私政策服务条款
页面导航
页面导航
大模型列表Claude Sonnet 4评测分析

Claude Sonnet 4 评测详情

Claude Sonnet 4 当前已收录的代表性评测结果包括 SWE-bench Verified(9 / 103,得分 80.20)、LiveBench(11 / 52,得分 73.82)、MMLU Pro(35 / 124,得分 84)。并附有 1 个数据来源链接供参考。

评测结果

Claude Sonnet 4

评测结果

思考模式
工具使用
并行模式

综合评估

共 12 项评测
评测名称 / 模式
得分
排名/总数
MMLU Pro
开启思考
84
35 / 124
GPQA Diamond
常规模式
68
119 / 175
GPQA Diamond
开启思考
75.40
88 / 175
GPQA Diamond
深度思考模式工具
83.80
54 / 175
LiveBench
常规模式
65.40
30 / 52
LiveBench
开启思考
73.82
11 / 52
ARC-AGI
常规模式
23.80
53 / 65
ARC-AGI
开启思考
40
46 / 65
HLE
常规模式
5.52
140 / 149
HLE
开启思考
9.60
126 / 149
ARC-AGI-2
常规模式
1.30
51 / 58
ARC-AGI-2
开启思考
5.90
42 / 58

编程与软件工程

共 5 项评测
评测名称 / 模式
得分
排名/总数
SWE-bench Verified
开启思考工具
72.70
42 / 103
SWE-bench Verified
开启思考工具
80.20
9 / 103
LiveCodeBench
常规模式
48.50
92 / 118
LiveCodeBench
开启思考
66
56 / 118
SWE-Bench Pro - Public
开启思考
42.70
30 / 36

数学推理

共 12 项评测
评测名称 / 模式
得分
排名/总数
AIME2025
常规模式
38
95 / 106
AIME2025
开启思考
70.50
71 / 106
AIME2025
深度思考模式工具
85
50 / 106
AIME 2024
常规模式
43.40
50 / 62
IMO-ProofBench
开启思考
27.10
8 / 16
IMO 2024
常规模式
9.70
5 / 10
IMO 2024
开启思考
5.20
8 / 10
IMO-ProofBench Advanced
开启思考
4.80
6 / 8
FrontierMath
常规模式
4.10
41 / 60
IMO 2025
常规模式
3.30
6 / 9
IMO 2025
开启思考
4
5 / 9
FrontierMath - Tier 4
常规模式
0
72 / 80

写作和创作

共 1 项评测
评测名称 / 模式
得分
排名/总数
Creative Writing
常规模式
83.05
14 / 23

AI Agent - 工具使用

共 4 项评测
评测名称 / 模式
得分
排名/总数
OSWorld-Verified
开启思考工具
42.20
12 / 14
Terminal-Bench
常规模式工具
26
26 / 35
Terminal-Bench
开启思考工具
35.50
18 / 35
Terminal-Bench
深度思考模式工具
41.30
10 / 35

多模态理解

共 1 项评测
评测名称 / 模式
得分
排名/总数
MMMU
常规模式
76.50
16 / 28

常识推理

共 1 项评测
评测名称 / 模式
得分
排名/总数
Simple Bench
开启思考
45.50
15 / 27

Agent能力评测

共 3 项评测
评测名称 / 模式
得分
排名/总数
τ²-Bench - Telecom
开启思考工具
65
29 / 35
Aider-Polyglot
开启思考
61.30
16 / 26
τ²-Bench
常规模式工具
52
33 / 40

指令跟随

共 1 项评测
评测名称 / 模式
得分
排名/总数
IF Bench
开启思考工具
55
20 / 27

生产力知识

共 1 项评测
评测名称 / 模式
得分
排名/总数
GDPval-AA
开启思考
33
18 / 20

长上下文能力

共 1 项评测
评测名称 / 模式
得分
排名/总数
AA-LCR
开启思考
65
10 / 13

OpenClaw智能体能力综合测评

共 2 项评测
评测名称 / 模式
得分
排名/总数
Pinch Bench
开启思考工具
80.50
22 / 37
Claw Bench
开启思考工具
77.80
23 / 29
与其他模型对比

数据来源

artificialanalysis.aiartificialanalysis.ai