Gemini 2.5-Pro 评测深度分析

Gemini 2.5-Pro 当前已收录的代表性评测结果包括 MATH-500（1 / 44，得分 98.80）、Simple Bench（2 / 27，得分 62.40）、Aider-Polyglot（2 / 26，得分 83.10）。并附有 2 个数据来源链接供参考。

Gemini 2.5 Pro是谷歌发布的Gemini 2.5系列模型中最强的一个。

评测结果

Gemini 2.5-Pro

评测结果

综合评估

共 6 项评测

评测名称 / 模式

得分

排名/总数

GPQA Diamond

开启思考

86.40

38 / 175

MMLU Pro

常规模式

18 / 124

LiveBench

开启思考

71.92

13 / 52

ARC-AGI

开启思考

47 / 65

HLE

开启思考

21.60

89 / 149

ARC-AGI-2

开启思考

4.90

43 / 58

常识问答

共 1 项评测

评测名称 / 模式

得分

排名/总数

SimpleQA

常规模式

10 / 45

编程与软件工程

共 2 项评测

评测名称 / 模式

得分

排名/总数

LiveCodeBench

常规模式

77.10

32 / 118

SWE-bench Verified

开启思考

67.20

63 / 103

数学推理

共 9 项评测

评测名称 / 模式

得分

排名/总数

MATH-500

常规模式

98.80

1 / 44

AIME 2024

常规模式

9 / 62

AIME2025

开启思考

43 / 106

IMO-ProofBench

开启思考

55.20

3 / 16

IMO 2024

开启思考

2 / 10

IMO-ProofBench Advanced

开启思考

17.60

4 / 8

IMO 2025

开启思考

15.20

3 / 9

FrontierMath

常规模式

23 / 60

FrontierMath - Tier 4

常规模式

2.10

56 / 80

写作和创作

共 1 项评测

评测名称 / 模式

得分

排名/总数

Creative Writing

常规模式

85.85

8 / 23

AI Agent - 工具使用

共 2 项评测

评测名称 / 模式

得分

排名/总数

Terminal Bench 2.0

开启思考工具

32.60

43 / 43

Terminal-Bench

开启思考

25.30

28 / 35

多模态理解

共 1 项评测

评测名称 / 模式

得分

排名/总数

MMMU

开启思考

9 / 28

常识推理

共 1 项评测

评测名称 / 模式

得分

排名/总数

Simple Bench

开启思考

62.40

2 / 27

Agent能力评测

共 3 项评测

评测名称 / 模式

得分

排名/总数

Aider-Polyglot

开启思考

83.10

2 / 26

τ²-Bench - Telecom

开启思考工具

32 / 35

Terminal Bench Hard

开启思考工具

12 / 13

指令跟随

共 1 项评测

评测名称 / 模式

得分

排名/总数

IF Bench

开启思考工具

26 / 27

AI Agent - 信息收集

共 1 项评测

评测名称 / 模式

得分

排名/总数

BrowseComp

开启思考工具

7.80

42 / 43

生产力知识

共 1 项评测

评测名称 / 模式

得分

排名/总数

GDPval-AA

开启思考

20 / 20

长上下文能力

共 1 项评测

评测名称 / 模式

得分

排名/总数

AA-LCR

开启思考

8 / 13

与其他模型对比

Gemini 2.5-Pro 评测深度分析

Gemini 2.5 Pro是谷歌发布的Gemini 2.5系列模型中最强的一个。

评测结果

Gemini 2.5-Pro

评测结果

综合评估

共 6 项评测

评测名称 / 模式

得分

排名/总数

GPQA Diamond

开启思考

86.40

38 / 175

MMLU Pro

常规模式

18 / 124

LiveBench

开启思考

71.92

13 / 52

ARC-AGI

开启思考

47 / 65

HLE

开启思考

21.60

89 / 149

ARC-AGI-2

开启思考

4.90

43 / 58

常识问答

共 1 项评测

评测名称 / 模式

得分

排名/总数

SimpleQA

常规模式

10 / 45

编程与软件工程

共 2 项评测

评测名称 / 模式

得分

排名/总数

LiveCodeBench

常规模式

77.10

32 / 118

SWE-bench Verified

开启思考

67.20

63 / 103

数学推理

共 9 项评测

评测名称 / 模式

得分

排名/总数

MATH-500

常规模式

98.80

1 / 44

AIME 2024

常规模式

9 / 62

AIME2025

开启思考

43 / 106

IMO-ProofBench

开启思考

55.20

3 / 16

IMO 2024

开启思考

2 / 10

IMO-ProofBench Advanced

开启思考

17.60

4 / 8

IMO 2025

开启思考

15.20

3 / 9

FrontierMath

常规模式

23 / 60

FrontierMath - Tier 4

常规模式

2.10

56 / 80

写作和创作

共 1 项评测

评测名称 / 模式

得分

排名/总数

Creative Writing

常规模式

85.85

8 / 23

AI Agent - 工具使用

共 2 项评测

评测名称 / 模式

得分

排名/总数

Terminal Bench 2.0

开启思考工具

32.60

43 / 43

Terminal-Bench

开启思考

25.30

28 / 35

多模态理解

共 1 项评测

评测名称 / 模式

得分

排名/总数

MMMU

开启思考

9 / 28

常识推理

共 1 项评测

评测名称 / 模式

得分

排名/总数

Simple Bench

开启思考

62.40

2 / 27

Agent能力评测

共 3 项评测

评测名称 / 模式

得分

排名/总数

Aider-Polyglot

开启思考

83.10

2 / 26

τ²-Bench - Telecom

开启思考工具

32 / 35

Terminal Bench Hard

开启思考工具

12 / 13

指令跟随

共 1 项评测

评测名称 / 模式

得分

排名/总数

IF Bench

开启思考工具

26 / 27

AI Agent - 信息收集

共 1 项评测

评测名称 / 模式

得分

排名/总数

BrowseComp

开启思考工具

7.80

42 / 43

生产力知识

共 1 项评测

评测名称 / 模式

得分

排名/总数

GDPval-AA

开启思考

20 / 20

长上下文能力

共 1 项评测

评测名称 / 模式

得分

排名/总数

AA-LCR

开启思考

8 / 13

与其他模型对比