DeepSeek-V4-Pro 评测分析:编程能力独树一帜,综合能力仍有短板
DeepSeek-V4-Pro 是 DeepSeek 旗下目前评测数据最完整、成绩最突出的旗舰推理模型。从 DataLearner 收录的多维度评测结果来看,这个模型的优势集中而明显——代码生成与竞技编程领域几乎无对手,同代国产推理模型难以与之抗衡。但拉开视角看,在某些综合推理维度,它并不是最强的那一个。
编程是 V4 Pro 的核心优势,且差距明显
把编程类评测单独拿出来看,数字足够说明问题。
LiveCodeBench 是目前最能反映模型真实代码能力的动态评测之一,V4 Pro 深度思考模式下得分 93.50,在 DataLearner 收录的 118 个模型中排名第一。与 Kimi K2.6(89.60)相比领先约 4 个百分点,与上一代 DeepSeek V3.2(83.30)相比提升超过 10 个百分点,与 V3.1(74.80)和 R1-0528(73.30)相比提升幅度更接近 20 个百分点。这不是小步迭代,是在编程能力上的一次系统性跃升。
Codeforces 的竞技编程评分更直观:V4 Pro 深度思考模式下达到 3206 分,而 V3.2 是 2386 分,增幅超过 800 分。竞技编程的得分曲线是非线性的,3000 分以上意味着解题能力已经接近人类顶级程序员水平,这个分数在已知模型中排名第 4,属于第一梯队。