GPT-4.1 mini

Name: GPT-4.1 mini
Availability: InStock
Author: OpenAI

聊天大模型

GPT-4.1 mini

发布时间: 2025-04-14更新于: 2025-04-15 12:44:081,225

在线体验GitHubHugging FaceCompare

模型参数

未披露

上下文长度

1024K

中文支持

支持

推理能力

GPT-4.1 mini 是由 OpenAI 发布的 AI 模型，发布时间为 2025-04-14，定位为聊天大模型，上下文长度为 1024K，采用不开源许可。

数据优先来自官方发布（GitHub、Hugging Face、论文），其次为评测基准官方结果，最后为第三方评测机构数据。了解数据收集方法

GPT-4.1 mini

模型基本信息

推理过程

不支持

思考模式

不支持思考模式

上下文长度

1024K tokens

最大输出长度

32768 tokens

模型类型

聊天大模型

发布时间

2025-04-14

模型文件大小

暂无数据

MoE架构

否

总参数 / 激活参数

暂无数据 / 不涉及

知识截止

暂无数据

GPT-4.1 mini

开源和体验地址

代码开源状态

不开源

预训练权重开源

不开源- 不开源

GitHub 源码

暂无GitHub开源地址

Hugging Face

暂无开源HuggingFace地址

在线体验

暂无在线体验地址

GPT-4.1 mini

官方介绍与博客

官方论文

Introducing GPT-4.1 in the API

DataLearnerAI博客

暂无介绍博客

GPT-4.1 mini

API接口信息

接口速度

4/5

💡默认单位：$/100万 tokens。若计费单位不同，则以供应商公开的原始标注为准。

标准计费Standard

模态	输入	输出
文本	$0.4	$1.6
图片	$0.4	--

GPT-4.1 mini

评测结果

GPT-4.1 mini 当前已收录的代表性评测结果包括 MMLU（22 / 65，得分 87.50）、IC SWE-Lancer(Diamond)（4 / 8，得分 33）、FrontierMath（39 / 60，得分 4.50）。本页还汇总了参数规模、上下文长度与 API 价格，便于结合评测结果与部署约束一起判断模型适配度。

综合评估

共 2 项评测

评测名称 / 模式

得分

排名/总数

MMLU

常规模式

87.50

22 / 65

GPQA Diamond

常规模式

128 / 175

编程与软件工程

共 2 项评测

评测名称 / 模式

得分

排名/总数

IC SWE-Lancer(Diamond)

常规模式

4 / 8

SWE-bench Verified

常规模式

23.60

101 / 103

数学推理

共 2 项评测

评测名称 / 模式

得分

排名/总数

AIME 2024

常规模式

49.60

48 / 62

FrontierMath

常规模式

4.50

39 / 60

查看评测深度分析与其他模型对比

GPT-4.1 mini

发布机构

OpenAI

查看发布机构详情

GPT-4.1 mini

模型解读

OpenAI近期发布的轻量化模型GPT-4.1 mini，凭借其平衡的性能、成本与效率，成为开发者探索AI应用的新选择。作为GPT-4.1系列的成员之一，该模型虽未达到旗舰模型的全面能力，但在特定场景下展现出显著优势。本文基于公开技术参数与第三方测试数据，客观分析其核心特性与适用边界。

核心性能与技术参数

1. 编码能力：基础任务的高效支持

SWE-bench Verified：在真实代码修复任务中，GPT-4.1 mini的准确率为23.6%，虽远低于GPT-4.1（54.6%），但显著超越GPT-4o mini（8.7%）与GPT-4o（33.2%）。
Aider多语言代码编辑：在“全文件重写”（whole）模式下，其准确率为34.7%，约为GPT-4.1（51.6%）的三分之二，但成本仅为后者的21%（输入0.40vs.0.40vs.2.00/百万Token）。

2. 指令遵循：满足常规需求

Scale MultiChallenge：得分35.8%，较GPT-4o（27.8%）提升8%，但在复杂指令（如多跳逻辑排序）场景下，性能仅为GPT-4.1的78%。
IFEval测试：严格指令遵循率84.1%，接近GPT-4.1（87.4%），表明其在格式化输出任务中具备实用性。

3. 长上下文处理：成本优化的妥协方案

支持1 million tokens上下文窗口，但在实际测试中：OpenAI-MRCR（多指令检索）：128K上下文下，对2/4条指令的准确率分别为47.2%、33.3%，仅为GPT-4.1的82%与70%。Graphwalks图遍历：准确率61.7%（与GPT-4.1持平），但处理超过128K Token时性能骤降至15%。

4. 知识能力与通用基准

MMLU（多学科知识测试）：得分87.5%，接近GPT-4o（85.7%），但落后于GPT-4.1（90.2%）。
GPQA Diamond（高阶学术问答）：准确率65.0%，显著优于GPT-4o（46.0%），但弱于GPT-4.1（66.3%）。

效率与成本优势

1. 延迟与吞吐量

首Token响应时间：128K输入下，P95延迟为GPT-4.1的50%（约7.5秒 vs. 15秒）。
吞吐量：单位时间内可处理的请求量较GPT-4.1提升近2倍，适合高并发场景。

2. 定价策略

模型	输入成本（$/1M Token）	输出成本（$/1M Token）	混合成本*
GPT-4.1 mini	$0.40	$1.60	$0.42
GPT-4.1	$2.00	$8.00	$1.84
GPT-4o	$5.00（估算）	$10.00（估算）	$6.50

注：混合成本基于典型输入/输出比例计算，GPT-4.1 mini的总成本仅为GPT-4o的6.5%。

适用场景与局限性

1. 推荐使用场景

基础代码生成：快速生成简单脚本、单元测试或代码补全（如Hex平台实测错误率降低30%）。
常规问答与文档处理：基于短至中等长度上下文的客服应答、知识检索（如Blue J税法查询任务效率提升40%）。
实时分类与过滤：结合低延迟特性，适用于社交媒体内容审核、电商评论情感分析。

2. 性能边界

复杂编码任务：在需要多文件协作或深度调试的场景中，其SWE-bench成绩仅为GPT-4.1的43%。
长上下文推理：处理超过128K Token的文档时，关键信息检索准确率下降约50%。
多模态任务：MathVista视觉数学推理得分73.1%（接近GPT-4.1的72.2%），但视频理解任务（Video-MME）表现未公布，推测弱于旗舰模型。

开发者实测反馈

Qodo（代码审核平台）在200个真实GitHub Pull Request测试中，GPT-4.1 mini生成优质代码建议的比例为36%（GPT-4.1为55%），但其成本仅为前者的22%，适合预算有限的团队。
Thomson Reuters（法律分析）在多文档法律条款冲突检测任务中，GPT-4.1 mini的准确率较GPT-4o提升12%，但较GPT-4.1低8%，需在精度与成本间权衡。
Hex（数据工具平台）在生成复杂SQL查询时，GPT-4.1 mini的错误率较GPT-4o降低40%，但需多次迭代才能达到GPT-4.1的单次输出质量。

总结：平衡之道的轻量化选择

GPT-4.1 mini并非追求极致性能，而是以83%的成本削减与50%的延迟降低，为开发者提供高性价比的AI工具。其在常规编码、短上下文问答等场景中表现可靠，尤其适合中小型项目或对实时性要求较高的应用。然而，面对复杂逻辑、长文档深度分析等任务，仍需依赖GPT-4.1等旗舰模型。

对于资源有限的团队，GPT-4.1 mini可作为低成本试水AI能力的入口；对成熟企业，则可将其用于分流非核心请求，优化整体API开支。OpenAI通过此模型进一步细化产品矩阵，推动AI技术从实验室向产业落地的规模化渗透。

DataLearner 官方微信

欢迎关注 DataLearner 官方微信，获得最新 AI 技术推送

模态

输入

输出

文本

$0.4

$1.6

图片

$0.4

模型

输入成本（$/1M Token）

输出成本（$/1M Token）

混合成本*

GPT-4.1 mini

$0.40

$1.60

$0.42

GPT-4.1

$2.00

$8.00

$1.84

GPT-4o

$5.00（估算）

$10.00（估算）

$6.50