GPT-5.1 评测结果分析与模型对比 | DataLearnerAI

GPT-5.1 评测详情

GPT-5.1 当前已收录的代表性评测结果包括 MMMU（2 / 28，得分 85.40）、GPQA Diamond（25 / 175，得分 88.10）、Terminal Bench Hard（2 / 13，得分 43）。并附有 2 个数据来源链接供参考。

评测结果

GPT-5.1

评测结果

综合评估

共 12 项评测

评测名称 / 模式

得分

排名/总数

开启思考

88.10

25 / 175

思考水平·高

88.10

25 / 175

思考水平·高

88.10

25 / 175

思考水平·低

33.20

50 / 65

思考水平·中

57.70

37 / 65

思考水平·高

72.80

25 / 65

开启思考

26.50

75 / 149

思考水平·高

25.70

77 / 149

思考水平·高工具联网

42.70

38 / 149

思考水平·低

1.90

49 / 58

思考水平·中

6.50

40 / 58

思考水平·高

17.60

32 / 58

编程与软件工程

共 4 项评测

评测名称 / 模式

得分

排名/总数

SWE-bench Verified

思考水平·高

76.30

25 / 103

SWE-bench Verified

思考水平·高工具

76.30

25 / 103

IC SWE-Lancer(Diamond)

思考水平·高

69.70

3 / 8

SWE-Bench Pro - Public

思考水平·高

50.80

24 / 36

数学推理

共 6 项评测

评测名称 / 模式

得分

排名/总数

思考水平·高

94

28 / 106

思考水平·高

94

28 / 106

思考水平·高工具

26.70

13 / 60

FrontierMath - Tier 4

思考水平·中

4.20

40 / 80

FrontierMath - Tier 4

思考水平·高

12.50

29 / 80

FrontierMath - Tier 4

思考水平·高工具

12.50

29 / 80

多模态理解

共 2 项评测

评测名称 / 模式

得分

排名/总数

思考水平·高

85.40

2 / 28

思考水平·高

85.40

2 / 28

常识推理

共 1 项评测

评测名称 / 模式

得分

排名/总数

思考水平·高

53.20

10 / 27

Agent能力评测

共 2 项评测

评测名称 / 模式

得分

排名/总数

τ²-Bench - Telecom

思考水平·高工具

95.60

14 / 35

Terminal Bench Hard

思考水平·高工具

43

2 / 13

AI Agent - 信息收集

共 1 项评测

评测名称 / 模式

得分

排名/总数

思考水平·高

50.80

34 / 43

AI Agent - 工具使用

共 1 项评测

评测名称 / 模式

得分

排名/总数

Terminal Bench 2.0

思考水平·高工具

47.60

34 / 43

与其他模型对比

数据来源

openai.comopenai.com openai.comopenai.com