GPT-5 Codex

Name: GPT-5 Codex
Availability: InStock
Author: OpenAI

编程大模型

GPT-5 Codex

发布时间: 2025-09-15更新于: 2025-11-10 09:46:50616

在线体验GitHubHugging FaceCompare

模型参数

未披露

上下文长度

400K

中文支持

支持

推理能力

GPT-5 Codex 是由 OpenAI 发布的 AI 模型，发布时间为 2025-09-15，定位为编程大模型，参数规模约为 0.0B，上下文长度为 400K，采用不开源许可。

数据优先来自官方发布（GitHub、Hugging Face、论文），其次为评测基准官方结果，最后为第三方评测机构数据。了解数据收集方法

GPT-5 Codex

模型基本信息

推理过程

支持

思考模式

不支持思考模式

上下文长度

400K tokens

最大输出长度

128000 tokens

模型类型

编程大模型

发布时间

2025-09-15

模型文件大小

暂无数据

MoE架构

否

总参数 / 激活参数

暂无数据 / 不涉及

知识截止

暂无数据

GPT-5 Codex

开源和体验地址

代码开源状态

不开源

预训练权重开源

不开源- 不开源

GitHub 源码

暂无GitHub开源地址

Hugging Face

暂无开源HuggingFace地址

在线体验

https://chatgpt.com/codex

GPT-5 Codex

官方介绍与博客

官方论文

Introducing upgrades to Codex

DataLearnerAI博客

暂无介绍博客

GPT-5 Codex

API接口信息

接口速度

3/5

💡默认单位：$/100万 tokens。若计费单位不同，则以供应商公开的原始标注为准。

标准计费Standard

模态	输入	输出
文本	$1.25	$10
图片	$1.25	--

缓存计费Cache

模态	输入 Cache	输出 Cache
文本	$0.125	--
图片	$0.125	--

GPT-5 Codex

评测结果

GPT-5 Codex 当前已收录的代表性评测结果包括 LiveBench（5 / 52，得分 78.24）、SWE-bench Verified（31 / 103，得分 74.50）。本页还汇总了参数规模、上下文长度与 API 价格，便于结合评测结果与部署约束一起判断模型适配度。

编程与软件工程

共 1 项评测

评测名称 / 模式

得分

排名/总数

SWE-bench Verified

高

74.50

31 / 103

查看评测深度分析与其他模型对比

GPT-5 Codex

发布机构

OpenAI

查看发布机构详情

GPT-5 Codex

模型解读

OpenAI 的 GPT-5-Codex 是 GPT-5 系列的一个专用变体，专为代理式编码（agentic coding）任务优化设计。它不是一个通用的聊天模型，而是针对软件工程工作流（如代码生成、重构、调试和测试）进行了微调，旨在帮助开发者更快地委托复杂任务。该模型于 2025 年 9 月 15 日正式发布，作为 OpenAI Codex 工具系列的核心组件。Codex 本身是 OpenAI 的一系列 AI 编码工具，支持云端和本地代理，帮助开发者处理从简单代码片段到大型项目重构的任务。

背景与上下文

发展历史：GPT-5 于 2025 年 8 月 7 日发布，作为 OpenAI 的新一代通用模型，在编码、数学和写作等领域表现出色。GPT-5-Codex 是其后续优化版本，基于 GPT-5 基础模型，但进一步针对编码代理进行了训练。它继承了早期 Codex 模型（基于 GPT-3 的代码生成工具）的理念，后者已整合到 GitHub Copilot 中，但 GPT-5-Codex 更注重自主性和长时任务执行。
设计理念：不同于通用 GPT-5，GPT-5-Codex 强调“动态思考”（adaptive reasoning），即根据任务复杂度自动调整思考时间——简单任务响应更快（简单任务令牌使用减少 93%），复杂任务则分配更多资源（复杂任务令牌使用增加 102%）。这使得它适合从快速聊天式交互到独立运行数小时的场景。
生态整合：它与 OpenAI 的 Codex 生态深度融合，包括 CLI（命令行工具）、IDE 扩展（如 VS Code）、Web 云代理和 GitHub Code Review。Codex 支持无缝切换本地和云端环境，例如在 VS Code 中启动任务后切换到 Web 版继续执行。
系统提示泄露：从社区泄露的系统提示显示，模型内置 Git 工作流指令（如提交变更而不创建新分支、运行预提交检查）、.codex 文件支持（用于项目特定指令，如编码规范）和引用机制（使用文件路径和终端输出进行引用）。它还支持互联网访问、Playwright 脚本运行（用于前端截图）和容器化环境管理。

关键特性

自主执行能力：可独立运行超过 7 小时（测试中达 35 分钟），处理大型重构、调试和测试迭代。内置代码审查代理，能实际运行代码以捕获 bug。
多模态支持：在 Codex Web 中生成 UI 截图（使用浏览器容器工具），适用于前端工程。
效率优化：支持会话恢复（CLI 中使用 codex resume），并减少简单任务的令牌消耗。
工具集成：内置容器工具（如新会话、字符输入、PR 创建）和浏览器工具（Playwright 脚本运行、图像工件打开）。
限制与指南：环境非交互式（无需用户许可运行命令），优先使用 ripgrep 而非慢速命令如 ls -R。最终响应需使用 Markdown 结构化，包括总结、测试结果（带 ✅/⚠️/❌ 图标）和引用。

性能指标

使用 SWE-bench Verified 基准（软件工程基准，覆盖 500 个任务）评估：

模型变体SWE-bench Verified 分数简单任务令牌节省复杂任务令牌增加上下文窗口

GPT-5 (High)72.8%--400K

GPT-5-Codex74.5%93%102%400K

GPT-5-Codex-Mini71.3%类似 Codex类似 Codex400K

优势：在重构、调试和添加测试上优于 GPT-5，尤其在代理式任务中。社区测试显示，它在生产代码库中表现强劲，但需精确提示以避免“懒惰”行为（如拒绝大型任务）。
比较：优于 Claude Sonnet 4.5 在规则遵循和文件修改控制上，但有时在边缘案例中产生幻觉（如导入错误）。与 Anthropic 的 Claude 相比，更适合严格 Git 工作流。

社区反馈与争议

正面：开发者称赞其在 API 重构和 bug 捕获上的速度（20% 更快），并视其为 Claude Code 的合法替代。Rust 构建的 CLI 效率高，支持图像生成等扩展。
负面：有时过度谨慎或懒惰，需要提示优化；边缘案例中偶有幻觉。部分用户担心访问控制（如 Simon Willison 通过 CLI 逆向工程实现图像生成）。

DataLearner 官方微信

欢迎关注 DataLearner 官方微信，获得最新 AI 技术推送

模态

输入

输出

文本

$1.25

$10

图片

$1.25

模态

输入 Cache

输出 Cache

文本

$0.125

图片

$0.125