DataLearner 标志DataLearnerAI
最新AI资讯
大模型排行榜
大模型评测基准
大模型列表
大模型对比
资源中心
工具
语言中文
DataLearner 标志DataLearner AI

专注大模型评测、数据资源与实践教学的知识平台,持续更新可落地的 AI 能力图谱。

产品

  • 评测榜单
  • 模型对比
  • 数据资源

资源

  • 部署教程
  • 原创内容
  • 工具导航

关于

  • 关于我们
  • 隐私政策
  • 数据收集方法
  • 联系我们

© 2026 DataLearner AI. DataLearner 持续整合行业数据与案例,为科研、企业与开发者提供可靠的大模型情报与实践指南。

隐私政策服务条款
页面导航
目录
大模型列表GPT-5 Codex
GP

GPT-5 Codex

编程大模型

GPT-5 Codex

发布时间: 2025-09-15更新于: 2025-11-10 09:46:50616
在线体验GitHubHugging FaceCompare
模型参数
未披露
上下文长度
400K
中文支持
支持
推理能力

GPT-5 Codex 是由 OpenAI 发布的 AI 模型,发布时间为 2025-09-15,定位为 编程大模型,参数规模约为 0.0B,上下文长度为 400K,采用 不开源 许可。

数据优先来自官方发布(GitHub、Hugging Face、论文),其次为评测基准官方结果,最后为第三方评测机构数据。 了解数据收集方法

GPT-5 Codex

模型基本信息

推理过程
支持
思考模式
不支持思考模式
上下文长度
400K tokens
最大输出长度
128000 tokens
模型类型
编程大模型
发布时间
2025-09-15
模型文件大小
暂无数据
MoE架构
否
总参数 / 激活参数
暂无数据 / 不涉及
知识截止
暂无数据
GPT-5 Codex

开源和体验地址

代码开源状态
不开源
预训练权重开源
不开源- 不开源
GitHub 源码
暂无GitHub开源地址
Hugging Face
暂无开源HuggingFace地址
在线体验
https://chatgpt.com/codex
GPT-5 Codex

官方介绍与博客

官方论文
Introducing upgrades to Codex
DataLearnerAI博客
暂无介绍博客
GPT-5 Codex

API接口信息

接口速度
3/5
💡默认单位:$/100万 tokens。若计费单位不同,则以供应商公开的原始标注为准。
标准计费Standard
模态输入输出
文本$1.25$10
图片$1.25--
缓存计费Cache
模态输入 Cache输出 Cache
文本$0.125--
图片$0.125--
GPT-5 Codex

评测结果

GPT-5 Codex 当前已收录的代表性评测结果包括 LiveBench(5 / 52,得分 78.24)、SWE-bench Verified(31 / 103,得分 74.50)。 本页还汇总了参数规模、上下文长度与 API 价格,便于结合评测结果与部署约束一起判断模型适配度。

思考模式
全部思考
思考模式细分 (2)
全部默认 (思考模式)高

编程与软件工程

共 1 项评测
评测名称 / 模式
得分
排名/总数
SWE-bench Verified
高
74.50
31 / 103
查看评测深度分析与其他模型对比
GPT-5 Codex

发布机构

OpenAI
OpenAI
查看发布机构详情
GPT-5 Codex

模型解读

OpenAI 的 GPT-5-Codex 是 GPT-5 系列的一个专用变体,专为代理式编码(agentic coding)任务优化设计。它不是一个通用的聊天模型,而是针对软件工程工作流(如代码生成、重构、调试和测试)进行了微调,旨在帮助开发者更快地委托复杂任务。该模型于 2025 年 9 月 15 日正式发布,作为 OpenAI Codex 工具系列的核心组件。Codex 本身是 OpenAI 的一系列 AI 编码工具,支持云端和本地代理,帮助开发者处理从简单代码片段到大型项目重构的任务。

背景与上下文

  • 发展历史:GPT-5 于 2025 年 8 月 7 日发布,作为 OpenAI 的新一代通用模型,在编码、数学和写作等领域表现出色。GPT-5-Codex 是其后续优化版本,基于 GPT-5 基础模型,但进一步针对编码代理进行了训练。它继承了早期 Codex 模型(基于 GPT-3 的代码生成工具)的理念,后者已整合到 GitHub Copilot 中,但 GPT-5-Codex 更注重自主性和长时任务执行。
  • 设计理念:不同于通用 GPT-5,GPT-5-Codex 强调“动态思考”(adaptive reasoning),即根据任务复杂度自动调整思考时间——简单任务响应更快(简单任务令牌使用减少 93%),复杂任务则分配更多资源(复杂任务令牌使用增加 102%)。这使得它适合从快速聊天式交互到独立运行数小时的场景。
  • 生态整合:它与 OpenAI 的 Codex 生态深度融合,包括 CLI(命令行工具)、IDE 扩展(如 VS Code)、Web 云代理和 GitHub Code Review。Codex 支持无缝切换本地和云端环境,例如在 VS Code 中启动任务后切换到 Web 版继续执行。
  • 系统提示泄露:从社区泄露的系统提示显示,模型内置 Git 工作流指令(如提交变更而不创建新分支、运行预提交检查)、.codex 文件支持(用于项目特定指令,如编码规范)和引用机制(使用文件路径和终端输出进行引用)。它还支持互联网访问、Playwright 脚本运行(用于前端截图)和容器化环境管理。

关键特性

  • 自主执行能力:可独立运行超过 7 小时(测试中达 35 分钟),处理大型重构、调试和测试迭代。内置代码审查代理,能实际运行代码以捕获 bug。
  • 多模态支持:在 Codex Web 中生成 UI 截图(使用浏览器容器工具),适用于前端工程。
  • 效率优化:支持会话恢复(CLI 中使用 codex resume),并减少简单任务的令牌消耗。
  • 工具集成:内置容器工具(如新会话、字符输入、PR 创建)和浏览器工具(Playwright 脚本运行、图像工件打开)。
  • 限制与指南:环境非交互式(无需用户许可运行命令),优先使用 ripgrep 而非慢速命令如 ls -R。最终响应需使用 Markdown 结构化,包括总结、测试结果(带 ✅/⚠️/❌ 图标)和引用。

性能指标

使用 SWE-bench Verified 基准(软件工程基准,覆盖 500 个任务)评估:

模型变体SWE-bench Verified 分数简单任务令牌节省复杂任务令牌增加上下文窗口

GPT-5 (High)72.8%--400K

GPT-5-Codex74.5%93%102%400K

GPT-5-Codex-Mini71.3%类似 Codex类似 Codex400K

  • 优势:在重构、调试和添加测试上优于 GPT-5,尤其在代理式任务中。社区测试显示,它在生产代码库中表现强劲,但需精确提示以避免“懒惰”行为(如拒绝大型任务)。
  • 比较:优于 Claude Sonnet 4.5 在规则遵循和文件修改控制上,但有时在边缘案例中产生幻觉(如导入错误)。与 Anthropic 的 Claude 相比,更适合严格 Git 工作流。

社区反馈与争议

  • 正面:开发者称赞其在 API 重构和 bug 捕获上的速度(20% 更快),并视其为 Claude Code 的合法替代。Rust 构建的 CLI 效率高,支持图像生成等扩展。
  • 负面:有时过度谨慎或懒惰,需要提示优化;边缘案例中偶有幻觉。部分用户担心访问控制(如 Simon Willison 通过 CLI 逆向工程实现图像生成)。

DataLearner 官方微信

欢迎关注 DataLearner 官方微信,获得最新 AI 技术推送

DataLearner 官方微信二维码