DataLearner 标志DataLearnerAI
最新AI资讯
大模型排行榜
大模型评测基准
大模型列表
大模型对比
资源中心
工具
语言中文
DataLearner 标志DataLearner AI

专注大模型评测、数据资源与实践教学的知识平台,持续更新可落地的 AI 能力图谱。

产品

  • 评测榜单
  • 模型对比
  • 数据资源

资源

  • 部署教程
  • 原创内容
  • 工具导航

关于

  • 关于我们
  • 隐私政策
  • 数据收集方法
  • 联系我们

© 2026 DataLearner AI. DataLearner 持续整合行业数据与案例,为科研、企业与开发者提供可靠的大模型情报与实践指南。

隐私政策服务条款
页面导航
目录
大模型列表GPT-5-mini
GP

GPT-5-mini

基础大模型

GPT-5-mini

发布时间: 2025-08-07更新于: 2025-10-09 17:18:482,210
在线体验GitHubHugging FaceCompare
模型参数
未披露
上下文长度
400K
中文支持
支持
推理能力

GPT-5-mini 是由 OpenAI 发布的 AI 模型,发布时间为 2025-08-07,定位为 基础大模型,参数规模约为 0.0B,上下文长度为 400K,采用 不开源 许可。

数据优先来自官方发布(GitHub、Hugging Face、论文),其次为评测基准官方结果,最后为第三方评测机构数据。 了解数据收集方法

GPT-5-mini

模型基本信息

推理过程
支持
思考模式
不支持思考模式
上下文长度
400K tokens
最大输出长度
131072 tokens
模型类型
基础大模型
发布时间
2025-08-07
模型文件大小
暂无数据
MoE架构
否
总参数 / 激活参数
暂无数据 / 不涉及
知识截止
暂无数据
GPT-5-mini

开源和体验地址

代码开源状态
不开源
预训练权重开源
不开源- 不开源
GitHub 源码
暂无GitHub开源地址
Hugging Face
暂无开源HuggingFace地址
在线体验
https://chat.openai.com/
GPT-5-mini

官方介绍与博客

官方论文
Introducing GPT-5
DataLearnerAI博客
OpenAI发布GPT-5:这是一个包含实时路由的AI系统,而不仅仅是一个模型
GPT-5-mini

API接口信息

接口速度
3/5
💡默认单位:$/100万 tokens。若计费单位不同,则以供应商公开的原始标注为准。
标准计费Standard
模态输入输出
文本$0.25$2
缓存计费Cache
模态输入 Cache输出 Cache
文本$0.025--
GPT-5-mini

评测结果

GPT-5-mini 当前已收录的代表性评测结果包括 LiveBench(14 / 52,得分 71.86)、FrontierMath(18 / 60,得分 19.30)、FrontierMath - Tier 4(35 / 80,得分 6.30)。 本页还汇总了参数规模、上下文长度与 API 价格,便于结合评测结果与部署约束一起判断模型适配度。

思考模式
全部常规思考
思考模式细分 (3)
全部默认 (中)思考模式高
工具使用
全部使用工具不使用工具

综合评估

共 3 项评测
评测名称 / 模式
得分
排名/总数
MMLU Pro
思考模式
78
67 / 124
GPQA Diamond
思考模式
69
115 / 175
HLE
思考模式
5
145 / 149

编程与软件工程

共 1 项评测
评测名称 / 模式
得分
排名/总数
LiveCodeBench
思考模式
55
82 / 118

数学推理

共 5 项评测
评测名称 / 模式
得分
排名/总数
AIME2025
思考模式
47
90 / 106
FrontierMath
中
19.30
18 / 60
FrontierMath
高
19
20 / 60
FrontierMath - Tier 4
中
4.20
40 / 80
FrontierMath - Tier 4
高
6.30
35 / 80

AI Agent - 工具使用

共 1 项评测
评测名称 / 模式
得分
排名/总数
Terminal-Bench
思考模式
14
33 / 35

OpenClaw智能体能力综合测评

共 1 项评测
评测名称 / 模式
得分
排名/总数
Pinch Bench
思考模式工具
80.30
23 / 37
查看评测深度分析与其他模型对比
GPT-5-mini

发布机构

OpenAI
OpenAI
查看发布机构详情
GPT-5-mini

模型解读

OpenAI 在 2025 年 8 月 7 日发布了 GPT-5 系列模型,其中 GPT-5 Mini 是该系列的一个较小版本。它针对处理较轻量的推理任务设计,在 OpenAI 的 API 中可用,包括 gpt-5-main-mini 和 gpt-5-thinking-mini 两种形式。前者用于一般查询,后者用于需要更长内部思考链的复杂问题。GPT-5 Mini 取代了之前的 GPT-4o-mini 模型。

技术规格

GPT-5 Mini 支持文本和图像输入,但输出仅限于文本。它的输入令牌上限为 272,000 个,输出令牌上限为 128,000 个,其中包括用于推理的不可见令牌,总上下文长度达到 400,000 个令牌。模型的知识截止日期为 2024 年 5 月 30 日。

在 API 使用中,开发者可以选择四个推理级别:minimal、low、medium 或 high。这些级别允许调整响应速度和深度。模型支持多项功能,包括并行工具调用、内置工具(如网页搜索和文件搜索)、结构化输出、提示缓存以及批处理 API。它还提供推理摘要选项,通过 API 参数如 "reasoning": {"summary": "auto"} 来生成。

训练过程涉及多样化数据集,包括公开互联网信息、第三方合作伙伴数据和用户生成内容。数据经过质量过滤、风险缓解和个人信息减少处理。安全训练使用 safe-completions 方法,专注于输出安全而非简单拒绝,尤其适用于生物或网络安全等双重用途场景。

参数数量未公开,但 GPT-5 Mini 被设计为紧凑版本,以平衡性能、成本和延迟。

能力

GPT-5 Mini 处理写作、编码和健康相关查询等常见任务。它在指令跟随方面有所改进,能更好地执行用户指定的步骤。模型支持多模态输入,如图像分析,并在工具使用中表现稳定,例如链式工具调用或并行处理。

在编码领域,它能生成代码、修复 bug、编辑代码库,并回答复杂代码问题。对于代理任务,它适合长运行序列,如多轮背景代理或客户服务环境中的工具交互。健康查询方面,它在现实健康对话中提供响应,并在多语言支持上覆盖 13 种语言,使用零样本链式思考提示。

模型还减少了幻觉,即自信陈述不实事实的情况,尤其在无浏览工具时。它能承认任务不可行性,并在工具失败时给出诚实反馈。

基准结果

以下表格列出 GPT-5 Mini 在几个典型基准上的成绩。这些成绩使用高推理努力级别计算,除非另有说明。表格选择了智能、多模态、编码和指令跟随等类别中的代表性指标。

类别基准名称成绩

智能AIME ’25(无工具)91.1%

智能GPQA diamond(无工具)82.3%

多模态MMMU81.6%

多模态VideoMMMU(最大 256 帧)82.5%

编码SWE-bench Verified71.0%

指令跟随Scale multichallenge62.3%

指令跟随COLLIE98.5%

这些结果显示 GPT-5 Mini 在多模态和指令跟随任务中得分较高,但在某些数学挑战中得分较低。

第三方红队测试显示,模型在生物武器化提示上拒绝率达 96.7%,但存在少量越狱风险,已部分修复。网络安全方面,它解决简单场景但无法自动化对硬化目标的操作。

定价和可用性

API 定价为输入 0.25 美元/百万令牌,输出 2.00 美元/百万令牌。前几分钟缓存的输入令牌享受 90% 折扣。它在 OpenAI 的 Chat Completions API、Responses API 和 Codex CLI 中可用,也集成到 Microsoft 平台如 GitHub Copilot 和 Azure AI Foundry。

在 ChatGPT 中,它作为使用限制后的备用模型,通过路由器选择。

局限性

GPT-5 Mini 在某些不允许内容领域显示安全回归,如非暴力仇恨分数 0.851(低于 GPT-4o 的 0.882)。生物风险评估显示,它接近提升新手到严重危害的阈值,尽管有缓解措施。

幻觉在无浏览设置中持续存在,率为 0.9%-3.7%。在自改进基准如 OPQA 上得分 2%,未达高阈值。提示注入漏洞存在,攻击成功率达 75.5% 在多查询场景。

模型可能过度拒绝良性查询,并依赖开发者使用安全标识符以检测恶意使用。

总结

GPT-5 Mini 提供了一个平衡成本和功能的选项,适用于编码、代理和一般查询。其基准显示在多模态和指令跟随上的进步,但数学和长上下文领域有空间改进。安全机制覆盖高风险领域,尽管残余风险需要持续监控。开发者可通过 OpenAI API 访问它,以测试具体用例。

DataLearner 官方微信

欢迎关注 DataLearner 官方微信,获得最新 AI 技术推送

DataLearner 官方微信二维码