GPT-5 评测结果分析与模型对比 | DataLearnerAI

GPT-5 评测详情

GPT-5 当前已收录的代表性评测结果包括 LiveBench（1 / 52，得分 79.33）、AIME2025（9 / 106，得分 99.60）、IMO-ProofBench（2 / 16，得分 59）。并附有 1 个数据来源链接供参考。

评测结果

GPT-5

评测结果

综合评估

共 16 项评测

评测名称 / 模式

得分

排名/总数

常规模式

77.80

81 / 175

开启思考工具

87.30

34 / 175

思考水平·高

85.70

41 / 175

思考水平·中

78.85

2 / 52

思考水平·高

79.33

1 / 52

常规模式

6

61 / 65

思考水平·低

44

45 / 65

思考水平·中

56.20

40 / 65

思考水平·高

65.70

30 / 65

常规模式

6.30

138 / 149

开启思考

24.80

80 / 149

开启思考工具

35.20

53 / 149

常规模式

0

56 / 58

思考水平·低

1.90

49 / 58

思考水平·中

7.50

39 / 58

思考水平·高

9.90

36 / 58

编程与软件工程

共 2 项评测

评测名称 / 模式

得分

排名/总数

SWE-bench Verified

思考水平·高

72.80

41 / 103

SWE-Bench Pro - Public

思考水平·高

36.30

34 / 36

数学推理

共 12 项评测

评测名称 / 模式

得分

排名/总数

常规模式

61.90

80 / 106

开启思考

94.60

26 / 106

开启思考工具

99.60

9 / 106

开启思考

59

2 / 16

开启思考

29

2 / 9

思考水平·中

24.80

15 / 60

思考水平·高

24.80

15 / 60

思考水平·高工具

26.30

14 / 60

IMO-ProofBench Advanced

开启思考

20

2 / 8

FrontierMath - Tier 4

思考水平·中

6.30

35 / 80

FrontierMath - Tier 4

思考水平·高

12.50

29 / 80

开启思考

11

4 / 10

AI Agent - 工具使用

共 1 项评测

评测名称 / 模式

得分

排名/总数

开启思考工具

43.80

8 / 35

多模态理解

共 1 项评测

评测名称 / 模式

得分

排名/总数

思考水平·高

84.20

5 / 28

常识推理

共 1 项评测

评测名称 / 模式

得分

排名/总数

思考水平·高

56.70

8 / 27

Agent能力评测

共 3 项评测

评测名称 / 模式

得分

排名/总数

τ²-Bench - Telecom

开启思考工具

95.80

13 / 35

τ²-Bench - Telecom

思考水平·高工具

96.70

11 / 35

开启思考工具

80

15 / 40

指令跟随

共 1 项评测

评测名称 / 模式

得分

排名/总数

思考水平·高

73.10

6 / 27

AI Agent - 信息收集

共 1 项评测

评测名称 / 模式

得分

排名/总数

开启思考工具

54.90

30 / 43

与其他模型对比

数据来源

openai.comopenai.com