大模型排行榜

大模型评测基准

大模型列表

大模型对比

语言中文

搜索博客

DataLearner AI

专注大模型评测、数据资源与实践教学的知识平台，持续更新可落地的 AI 能力图谱。

产品

评测榜单
模型对比
数据资源

资源

部署教程
原创内容
工具导航

关于

关于我们
隐私政策
数据收集方法
联系我们

© 2026 DataLearner AI. DataLearner 持续整合行业数据与案例，为科研、企业与开发者提供可靠的大模型情报与实践指南。

隐私政策服务条款

GPT-5.4 mini 评测结果分析与模型对比 | DataLearnerAI

页面导航

页面导航

大模型列表GPT-5.4 mini评测分析

GPT-5.4 mini 评测详情

GPT-5.4 mini 当前已收录的代表性评测结果包括 GPQA Diamond（29 / 175，得分 88）、HLE（41 / 149，得分 41.50）、Tool Decathlon（2 / 7，得分 42.90）。

评测结果

GPT-5.4 mini

评测结果

思考模式

工具使用

综合评估

共 3 项评测

评测名称 / 模式

得分

排名/总数

极高

88

29 / 175

极高

28.20

73 / 149

极高工具

41.50

41 / 149

数学推理

共 1 项评测

评测名称 / 模式

得分

排名/总数

FrontierMath - Tier 4

高

2.10

56 / 80

编程与软件工程

共 1 项评测

评测名称 / 模式

得分

排名/总数

SWE-Bench Pro - Public

极高工具

54.40

15 / 36

Agent能力评测

共 1 项评测

评测名称 / 模式

得分

排名/总数

τ²-Bench - Telecom

极高工具

93.40

17 / 35

AI Agent - 工具使用

共 3 项评测

评测名称 / 模式

得分

排名/总数

OSWorld-Verified

极高工具

72.10

8 / 14

Terminal Bench 2.0

极高工具

60

16 / 43

极高工具

42.90

2 / 7

OpenClaw智能体能力综合测评

共 1 项评测

评测名称 / 模式

得分

排名/总数

开启思考工具

75.30

25 / 29

与其他模型对比