Gemma 4 31B 评测详情
Gemma 4 31B 当前已收录的代表性评测结果包括 MMLU Pro(21 / 124,得分 85.20)、LiveCodeBench(28 / 118,得分 80)、GPQA Diamond(50 / 175,得分 84.30)。本页还提供与 3 个竞品模型及 2 个前代或同系列模型的对比,在有数据时会展示性能和价格视图。并附有 1 个数据来源链接供参考。
评测结果
Gemma 4 31B
评测结果
综合评估
共 4 项评测评测名称 / 模式
得分
排名/总数
竞品对比
Gemma 4 31B 与同类主流模型的评测得分对比
评测类别:
柱状图按当前筛选范围内每个模型在各评测中的最高分展示;具体模式明细请看下方表格。
评测得分对比
6 项可对比评测得分汇总。每个模型展示最佳得分,模式在分数下方标注。
| 评测项 | Gemma 4 31B当前 | GLM-5 | Kimi K2.5 | Qwen3.5-27B |
|---|---|---|---|---|
GPQA Diamond 综合评估 | 84.30开启思考 | 86.00开启思考 | 87.60开启思考 | 85.50开启思考 |
HLE 综合评估 | 26.50开启思考 | 工具 | 50.40开启思考 | 工具 | 30.10开启思考 | 48.50开启思考 | 工具 |
MMLU Pro 综合评估 | 85.20开启思考 | -- | 78.50开启思考 | 86.10开启思考 |
LiveCodeBench 编程与软件工程 | 80.00开启思考 | -- | 85.00开启思考 | 80.70开启思考 | 工具 |
τ²-Bench Agent能力评测 | 76.90开启思考 | 工具 | 89.70开启思考 | 工具 | -- | 79.00开启思考 | 工具 |
AIME 2026 数学推理 | 89.20开启思考 | 92.70开启思考 | 92.50开启思考 | -- |
Gemma 4 31B 与同类模型的标准 API 价格对比
按模型并排展示标准文本输入价与输出价;若存在超长上下文加价,仅保留阈值内标准价,并在下方说明适用范围。
数据来源:DataLearnerAI,展示默认供应商的标准文本价格。 · USD / 1M tokens
| 模型 | 供应商 | 标准输入 | 标准输出 | 标准价适用于 |
|---|---|---|---|---|
GLM-5 | 智谱AI | $1 / 1M tokens | $3.2 / 1M tokens | — |
Kimi K2.5 | — | 0.6 美元/100 万tokens | 3 美元/100 万tokens | — |
历代版本对比
Gemma 4 31B 系列各版本的评测成绩纵向对比
评测类别:
柱状图按当前筛选范围内每个模型在各评测中的最高分展示;具体模式明细请看下方表格。
评测得分对比
3 项可对比评测得分汇总。每个模型展示最佳得分,模式在分数下方标注。· 点击任意行可切换下方趋势图。
| 评测项 | Gemma 4 31B当前 | Gemma 3 - 27B (IT) | Gemma2-27B |
|---|---|---|---|
GPQA Diamond 综合评估 | 84.30开启思考 | 42.40常规模式 | -- |
MMLU Pro 综合评估 | 85.20开启思考 | 67.50常规模式 | 56.54常规模式 |
LiveCodeBench 编程与软件工程 | 80.00开启思考 | 29.70常规模式 | -- |
单评测历史趋势图
当前查看:GPQA Diamond · 综合评估
选择评测
Gemma 4 31B 所在系列的标准 API 价格对比
按模型并排展示标准文本输入价与输出价;若存在超长上下文加价,仅保留阈值内标准价,并在下方说明适用范围。
数据来源:DataLearnerAI,展示默认供应商的标准文本价格。
这些模型暂未提供可比较的标准文本价格。