大模型排行榜

大模型评测基准

大模型列表

大模型对比

语言中文

搜索博客

DataLearner AI

专注大模型评测、数据资源与实践教学的知识平台，持续更新可落地的 AI 能力图谱。

产品

评测榜单
模型对比
数据资源

资源

部署教程
原创内容
工具导航

关于

关于我们
隐私政策
数据收集方法
联系我们

© 2026 DataLearner AI. DataLearner 持续整合行业数据与案例，为科研、企业与开发者提供可靠的大模型情报与实践指南。

隐私政策服务条款

页面导航

页面导航

大模型列表Grok 4评测分析

Grok 4 评测详情

Grok 4 当前已收录的代表性评测结果包括 MMLU Pro（12 / 124，得分 87）、IMO 2024（1 / 10，得分 23.20）、IMO 2025（1 / 9，得分 29.20）。

评测结果

Grok 4

评测结果

思考模式

工具使用

联网能力

综合评估

共 8 项评测

评测名称 / 模式

得分

排名/总数

开启思考

87

12 / 124

开启思考

87

35 / 175

常规模式

72.84

12 / 52

开启思考

66.70

29 / 65

开启思考

25.40

78 / 149

开启思考工具

38.60

46 / 149

开启思考工具联网

38.60

46 / 149

开启思考

15.90

33 / 58

编程与软件工程

共 2 项评测

评测名称 / 模式

得分

排名/总数

开启思考

82

23 / 118

SWE-bench Verified

开启思考

58.60

74 / 103

数学推理

共 9 项评测

评测名称 / 模式

得分

排名/总数

开启思考

91.70

36 / 106

开启思考工具

98.80

13 / 106

开启思考

46.70

4 / 16

深度思考模式

23.30

10 / 16

开启思考

29.20

1 / 9

开启思考

23.20

1 / 10

IMO-ProofBench Advanced

开启思考

18.60

3 / 8

常规模式

12.10

22 / 60

FrontierMath - Tier 4

常规模式

2.10

56 / 80

AI Agent - 工具使用

共 1 项评测

评测名称 / 模式

得分

排名/总数

开启思考工具

38

13 / 35

常识推理

共 1 项评测

评测名称 / 模式

得分

排名/总数

开启思考

60.50

5 / 27

Agent能力评测

共 2 项评测

评测名称 / 模式

得分

排名/总数

开启思考

79.60

4 / 26

τ²-Bench - Telecom

开启思考工具

75

26 / 35

与其他模型对比