GPT-5.4 mini 评测详情
GPT-5.4 mini 当前已收录的代表性评测结果包括 GPQA Diamond(29 / 175,得分 88)、HLE(41 / 149,得分 41.50)、Tool Decathlon(2 / 7,得分 42.90)。本页还提供与 2 个竞品模型及 1 个前代或同系列模型的对比,在有数据时会展示性能和价格视图。
评测结果
GPT-5.4 mini
评测结果
竞品对比
GPT-5.4 mini 与同类主流模型的评测得分对比
评测类别:
柱状图按当前筛选范围内每个模型在各评测中的最高分展示;具体模式明细请看下方表格。
评测得分对比
5 项可对比评测得分汇总。每个模型展示最佳得分,模式在分数下方标注。
| 评测项 | GPT-5.4 mini当前 | Haiku 4.5 | Gemini 3.0 Flash |
|---|---|---|---|
GPQA Diamond 综合评估 | 88.00思考水平·极高 | 73.30扩展思考 | 90.40开启思考 |
HLE 综合评估 | 41.50思考水平·极高 | 工具 | 9.70扩展思考 | 43.50开启思考 | 工具 |
SWE-Bench Pro - Public 编程与软件工程 | 54.40思考水平·极高 | 工具 | 39.45扩展思考 | 工具 | -- |
Terminal Bench 2.0 AI Agent - 工具使用 | 60.00思考水平·极高 | 工具 | -- | 47.60开启思考 | 工具 |
Claw Bench OpenClaw智能体能力综合测评 | 75.30开启思考 | 工具 | 89.40开启思考 | 工具 | 85.70开启思考 | 工具 |
GPT-5.4 mini 与同类模型的标准 API 价格对比
按模型并排展示标准文本输入价与输出价;若存在超长上下文加价,仅保留阈值内标准价,并在下方说明适用范围。
数据来源:DataLearnerAI,展示默认供应商的标准文本价格。 · USD / 1M tokens
| 模型 | 供应商 | 标准输入 | 标准输出 | 标准价适用于 |
|---|---|---|---|---|
GPT-5.4 mini | OpenAI | $0.75 / 1M tokens | $4.5 / 1M tokens | — |
Haiku 4.5 | — | 1 美元 / 100万 tokens | 5 美元 / 100万 tokens | — |
Gemini 3.0 Flash | — | 0.5 美元/100万 tokens | 3 美元/100万 tokens | — |
历代版本对比
GPT-5.4 mini 系列各版本的评测成绩纵向对比
GPT-5.4 miniGPT-5-mini
评测类别:
柱状图按当前筛选范围内每个模型在各评测中的最高分展示;具体模式明细请看下方表格。
评测得分对比
2 项可对比评测得分汇总。每个模型展示最佳得分,模式在分数下方标注。· 点击任意行可切换下方趋势图。
| 评测项 | GPT-5.4 mini当前 | GPT-5-mini |
|---|---|---|
GPQA Diamond 综合评估 | 88.00思考水平·极高 | 69.00开启思考 |
HLE 综合评估 | 41.50思考水平·极高 | 工具 | 5.00开启思考 |
单评测历史趋势图
当前查看:GPQA Diamond · 综合评估
选择评测
GPT-5.4 mini 所在系列的标准 API 价格对比
按模型并排展示标准文本输入价与输出价;若存在超长上下文加价,仅保留阈值内标准价,并在下方说明适用范围。
数据来源:DataLearnerAI,展示默认供应商的标准文本价格。 · USD / 1M tokens
| 模型 | 供应商 | 标准输入 | 标准输出 | 标准价适用于 |
|---|---|---|---|---|
GPT-5.4 mini | OpenAI | $0.75 / 1M tokens | $4.5 / 1M tokens | — |
GPT-5-mini | — | 0.25 美元/100 万tokens | 2 美元/100 万tokens | — |