Gemma 4 31B 评测深度分析

基于 DataLearner 收录数据，对 Gemma 4 31B 在 MMLU Pro、GPQA Diamond、AIME 2026、LiveCodeBench 等评测中的表现进行深度分析，并与 GLM-5、Kimi K2.5、Qwen3.5-27B 横向对比。

Gemma 4 31B 是 2026 年上半年参数效率最高的开源稠密推理模型之一——用 310 亿全激活参数，在数学和综合知识类评测上基本追平同级别最强开源竞品，但在复杂知识推理（HLE）和 Agent 任务上仍有明显差距，选择时需根据实际用途判断。

从 Gemma 3 到 Gemma 4：这次是真代际跳跃

对比同系列上代模型 Gemma 3 27B，Gemma 4 31B 的提升幅度远超正常迭代节奏，不像是渐进优化，更像是更换了核心技术路线。

（博士级专业知识推理）从 42.40 跳至，涨幅超过 40 个百分点；（实时编程能力）从 29.70 升至，几乎翻了近三倍；（系统性多学科知识）从 67.50 升至。这种幅度在同一系列的相邻两代之间非常罕见。

评测结果

Gemma 4 31B

评测结果

综合评估

共 4 项评测

评测名称 / 模式

得分

排名/总数

MMLU Pro

思考模式

85.20

21 / 124

GPQA Diamond

思考模式

84.30

50 / 175

HLE

思考模式

19.50

97 / 149

HLE

思考模式工具联网

26.50

75 / 149

编程与软件工程

共 1 项评测

评测名称 / 模式

得分

排名/总数

LiveCodeBench

思考模式

28 / 118

Agent能力评测

共 1 项评测

评测名称 / 模式

得分

排名/总数

τ²-Bench

思考模式工具

76.90

19 / 40

数学推理

共 1 项评测

评测名称 / 模式

得分

排名/总数

AIME 2026

思考模式

89.20

13 / 14

与其他模型对比

Gemma 4 31B 评测深度分析

从 Gemma 3 到 Gemma 4：这次是真代际跳跃

评测结果

评测结果

综合评估

编程与软件工程

Agent能力评测

数学推理

数据来源

竞品横向：在哪里赢、在哪里输

综合判断：哪些场景值得用 Gemma 4 31B

参数效率：这才是 Gemma 4 31B 的核心叙事

数据说明