GPT-image-2
OpenAI 于 2026 年 4 月 21 日正式发布 GPT Image 2(gpt-image-2),这是其迄今最强的图像生成模型,也是首个内置原生推理能力的图像模型。新模型支持 Thinking 模式实时联网、单提示生成 8 张一致图像,文字渲染准确率从 90% 提升至 ~99%,最高输出 2K 分辨率(API Beta 支持 4K)。DALL-E 系列将于 5 月 12 日正式退役,gpt-image-2 全面接棒。
数据优先来自官方发布(GitHub、Hugging Face、论文),其次为评测基准官方结果,最后为第三方评测机构数据。 了解数据收集方法
| 类型 | 适用条件 | 输入 | 输出 |
|---|---|---|---|
| 文本 | - | $5.00/ 1M | $10.00/ 1M |
| 图像 | - | $8.00/ 1M | $30.00/ 1M |
2026 年 4 月 21 日,OpenAI 正式发布 ChatGPT Images 2.0,底层模型标识符为 gpt-image-2。这是 OpenAI 迄今发布的最强图像生成模型,也是其首个原生集成推理(Thinking)能力的图像模型。
与此前的 GPT Image 1 / 1.5 和 DALL-E 系列不同,gpt-image-2 并非简单的扩散模型迭代——OpenAI 研究负责人将其定位为"图像领域的 GPT",一个从零构建的单通道推理生成架构(single-pass inference),在生成第一个像素之前就已完成对布局、语义和视觉意图的规划。
值得注意的是,DALL-E 2 与 DALL-E 3 将于 2026 年 5 月 12 日正式退役,gpt-image-2 将全面接棒成为 OpenAI 图像生成能力的核心基础设施。
参数项详细信息
模型 IDgpt-image-2
快照版本gpt-image-2-2026-04-21
最大分辨率标准 2K;API Beta 支持 4K
宽高比范围3:1(超宽)至 1:3(超高竖向)
生成模式Instant(快速)/ Thinking(推理)
单提示最大输出图数8 张(Thinking 模式)
知识截止时间2025 年 12 月
文本渲染准确率~99%(前代 GPT Image 1.5 约 90-95%)
API 定价输入 $8 / 百万 token;输出 $30 / 百万 token
单图大致费用$0.006 – $0.211(依质量与分辨率浮动)
接入平台ChatGPT(全套餐)、Codex、API、Azure AI Foundry
这是 gpt-image-2 最具里程碑意义的变化。在选用 Thinking 或 Pro 模式时,模型具备以下全新能力:
这一能力使其从"提示响应器"升级为 OpenAI 所描述的"视觉思考伙伴(Visual Thought Partner)"。
AI 图像模型长期以来在图内文字生成方面表现糟糕,即便是 GPT Image 1.5 也存在约 5-10% 的文字乱码率。gpt-image-2 将准确率推至约 99%,具体表现为:
OpenAI 将本次升级描述为在指令遵循、对象位置控制、密集构图精度方面的全面提升。模型能有效处理此前常常失效的元素:小文本、图标、UI 组件、复杂多层构图,最高支持 2K 分辨率输出(API Beta 支持 4K)。
据社区测试与研究负责人披露,gpt-image-2 并非基于 GPT-4o 的图像管线迭代,而是从头设计的独立系统,训练数据大量偏向真实世界参考素材:实际 UI 截图、店面、公共界面布局等,使模型具备更扎实的"世界知识"而非关键词联想。
Instant 模式Thinking 模式
速度快速,接近即时较慢,先推理后生成
适用场景日常创作、快速草图多图一致性、精准排版、复杂设计
联网搜索✗✓
多图输出有限最多 8 张
自我校验✗✓
可用套餐全部 ChatGPT 用户Plus / Pro / Business 订阅用户
全体用户(包括免费用户)可访问 Images 2.0;高级输出特性仅限付费套餐(Plus / Pro / Business)。
Images 2.0 已直接集成至 OpenAI 的 Codex 编程环境。开发者可在同一工作区内完成代码编写与 UI 视觉设计,无需切换工具或单独申请 API 密钥。
模型标识符为 gpt-image-2,可通过标准 /v1/images/generations 接口调用。定价按 Token 计算(输入 $8/M,输出 $30/M),单张图片实际费用约为 $0.006 至 $0.211,具体取决于质量等级与分辨率。
gpt-image-2 已同步上线 Azure AI Foundry(Microsoft Foundry),结合 Azure AI Content Safety 进行内容安全过滤,并支持 4K 分辨率与智能路由层(两种模式可自动匹配最优生成配置)。
截至 2026 年 4 月,LM Arena 文生图排行榜上,Google Gemini(Nano Banana Pro) 位居第一,gpt-image-1.5 排名第二。gpt-image-2 的发布明确是对谷歌的正面回应:
尽管性能大幅提升,OpenAI 也坦诚了 gpt-image-2 目前的不足:
gpt-image-2 的内容安全策略结合了 OpenAI 自身的图像生成安全过滤与(Azure 平台上的)Azure AI Content Safety 分类器,覆盖敏感内容识别与滥用检测。所有生成图像均嵌入 C2PA 来源元数据(尽管并非银弹)。
gpt-image-2 是 OpenAI 图像生成能力的一次代际跃升。从核心变化来看,它不只是"更好的图片生成器",而是将图像生成纳入了推理-规划-验证的完整工作流,并与实时网络信息打通。对于开发者而言,最值得关注的三点是:
DALL-E 时代正式落幕,gpt-image-2 将接替成为 OpenAI 图像能力的核心基础。
相关资源
欢迎关注 DataLearner 官方微信,获得最新 AI 技术推送

| 类型 | 有效期 | 写入 | 读取 |
|---|---|---|---|
| 文本 | - | - | $1.25/ 1M |
| 图像 | - | - | $2.00/ 1M |