DeepSeek-V4-Pro 评测深度分析

DeepSeek-V4-Pro 评测分析：LiveCodeBench 排名第一（93.50分），Codeforces 达3206分，数学推理IMO-AnswerBench得分89.80。本文对比GLM 5.1、Kimi K2.6及DeepSeek历代版本，解读各维度优劣与适用场景。

DeepSeek-V4-Pro 评测分析：编程能力独树一帜，综合能力仍有短板

DeepSeek-V4-Pro 是 DeepSeek 旗下目前评测数据最完整、成绩最突出的旗舰推理模型。从 DataLearner 收录的多维度评测结果来看，这个模型的优势集中而明显——代码生成与竞技编程领域几乎无对手，同代国产推理模型难以与之抗衡。但拉开视角看，在某些综合推理维度，它并不是最强的那一个。

编程是 V4 Pro 的核心优势，且差距明显

把编程类评测单独拿出来看，数字足够说明问题。

LiveCodeBench 是目前最能反映模型真实代码能力的动态评测之一，V4 Pro 深度思考模式下得分 93.50，在 DataLearner 收录的 118 个模型中排名第一。与 Kimi K2.6（89.60）相比领先约 4 个百分点，与上一代 DeepSeek V3.2（83.30）相比提升超过 10 个百分点，与 V3.1（74.80）和 R1-0528（73.30）相比提升幅度更接近 20 个百分点。这不是小步迭代，是在编程能力上的一次系统性跃升。

Codeforces 的竞技编程评分更直观：V4 Pro 深度思考模式下达到 3206 分，而 V3.2 是 2386 分，增幅超过 800 分。竞技编程的得分曲线是非线性的，3000 分以上意味着解题能力已经接近人类顶级程序员水平，这个分数在已知模型中排名第 4，属于第一梯队。

评测结果

DeepSeek-V4-Pro

评测结果

综合评估

共 11 项评测

评测名称 / 模式

得分

排名/总数

GPQA Diamond

常规模式

72.90

99 / 175

GPQA Diamond

高

89.10

21 / 175

GPQA Diamond

最高

90.10

17 / 175

MMLU Pro

常规模式

82.90

44 / 124

MMLU Pro

高

87.10

11 / 124

MMLU Pro

最高

87.50

9 / 124

HLE

常规模式

7.70

133 / 149

HLE

高

34.50

57 / 149

HLE

高工具

44.70

30 / 149

HLE

最高

37.70

48 / 149

HLE

思考水平·极高工具

48.20

24 / 149

编程与软件工程

共 14 项评测

评测名称 / 模式

得分

排名/总数

CodeForces

高

2919

4 / 16

CodeForces

最高

3206

2 / 16

LiveCodeBench

常规模式

56.80

73 / 118

LiveCodeBench

高

89.80

5 / 118

LiveCodeBench

最高

93.50

1 / 118

SWE-bench Verified

常规模式工具

73.60

36 / 103

SWE-bench Verified

高工具

79.40

14 / 103

SWE-bench Verified

思考水平·极高工具

80.60

7 / 103

SWE-bench Multilingual

常规模式工具

69.80

12 / 17

SWE-bench Multilingual

高工具

74.10

4 / 17

SWE-bench Multilingual

思考水平·极高工具

76.20

3 / 17

SWE-Bench Pro - Public

常规模式工具

52.10

22 / 36

SWE-Bench Pro - Public

高工具

54.40

15 / 36

SWE-Bench Pro - Public

思考水平·极高工具

55.40

13 / 36

AI Agent - 信息收集

共 2 项评测

评测名称 / 模式

得分

排名/总数

BrowseComp

高工具

80.40

10 / 43

BrowseComp

思考水平·极高工具

83.40

7 / 43

AI Agent - 工具使用

共 3 项评测

评测名称 / 模式

得分

排名/总数

Terminal Bench 2.0

常规模式工具

59.10

19 / 43

Terminal Bench 2.0

高工具

63.30

12 / 43

Terminal Bench 2.0

思考水平·极高工具

67.90

7 / 43

数学推理

共 3 项评测

评测名称 / 模式

得分

排名/总数

IMO-AnswerBench

常规模式

35.30

17 / 17

IMO-AnswerBench

高

3 / 17

IMO-AnswerBench

最高

89.80

1 / 17

生产力知识

共 1 项评测

评测名称 / 模式

得分

排名/总数

GDPval-AA

思考水平·极高工具

1554

2 / 20

与其他模型对比

DeepSeek-V4-Pro 评测深度分析

DeepSeek-V4-Pro 评测分析：编程能力独树一帜，综合能力仍有短板

编程是 V4 Pro 的核心优势，且差距明显

评测结果

评测结果

综合评估

编程与软件工程

AI Agent - 信息收集

AI Agent - 工具使用

数学推理

生产力知识

数据来源

数学推理方向，V4 Pro 是同代国产模型里的最强选手

HLE 是 V4 Pro 的明显短板，同代竞品在这里更强

Agent 能力是 V4 Pro 的加分项，尤其是信息检索

价格维度：V4 Pro 不是最便宜的，但定价逻辑合理

总结：定位清晰的专项强者