OpenAI发布ChatGPT Agent系统：一个新模型驱动的系统，可以写代码运行代码，使用浏览器订票，写PPT、做excel的全能Agent

OpenAI刚刚发布了一个全新的AI Agent产品，称为ChatGPT Agent。这个全新的Agent系统可以控制我们的电脑，然后使用电脑上的浏览器、PPT、Excel等工具帮我们完成一些日常的工作，从头开始帮我们完成一些非常复杂的任务。根据OpenAI的描述，这个Agent系统的目标未来是一个通用的Agent，而这些能力未来将会随着这个产品不定期更新。

[toc]

ChatGPT Agent产品介绍

OpenAI此次发布的这个Agent系统的产品名字就叫ChatGPT Agent，这个系统可以帮助我们完成如下任务：

查看我的日历并根据最新消息向我简要介绍即将召开的客户会议
计划并购买食材制作四人份日式早餐
分析三个竞争对手并制作幻灯片

类似这种任务发出之后，ChatGPT 将智能地导航网站、过滤结果、在需要时提示我们进行登录、运行代码、进行分析，甚至提供可编辑的幻灯片和电子表格来总结其发现。

总之， ChatGPT Agent的目标是端到端交付：自然语言输入一个目标，最终输出可编辑文件（PPT/XLSX）、数据报告、预订凭证等。

这些看起来我们稀松平常的任务，对于大模型来说挑战非常大。以“买食材做一顿三口之家的晚餐” 为例，人类能瞬间调用生活常识：三口之家的食量、营养搭配、烹饪时间、预算范围，甚至孩子的挑食偏好。

但对AI而言，这等同于在黑暗中拼凑一幅动态拼图——它需将模糊的意图转化为精确操作：从理解“晚餐”的地域文化隐含要求（中餐？西餐？），到动态适配电商网站的库存、价格、配送时效；从绕过验证码陷阱，到支付时自动合并优惠券。每个环节的失误都可能导致任务崩溃：若错估份量则食材浪费，选错登录方式则流程中断，支付超时则订单失效。简单任务背后，是跨常识推理、实时决策与对抗性环境的三重压力。

评测集	ChatGPT Agent得分	对比组	提升幅度
Humanity’s Last Exam	41.6% → 44.4%*	Deep Research (26.6%)	+67%
FrontierMath（顶尖数学）	27.4%	o4-mini (19.3%)	+42%
DSBench（数据分析）	89.9%	人类基线 (64.1%)	超人类25.8%
SpreadsheetBench	45.5% (支持.xlsx编辑)	Copilot in Excel (20%)	+127%
投行建模任务	71.3%	Deep Research (55.9%)	+28%

案例名称	类别	简要描述	使用结果
在线超市购物计划	个人用途	用户让 Agent 规划并下单购买烤肉晚餐所需食材（通过 Tesco）。	Agent 自动登录、选购、加入购物车并成功结账，包含甜点。
每周膳食规划与下单	个人用途	Agent 根据用户日程安排规划每周餐食并自动下单。	成功生成完整膳食计划并完成线上超市下单流程。
奢侈品/礼物购物任务	个人用途	用户要求 Agent 寻找复古灯具、订购鲜花等礼物。	部分成功，有登录或支付失败情况，暴露目前的限制。
营销内容自动生成	职业/工作场景	从 Instagram 链接中提取文案，并生成 Canva 海报模板。	提取准确、设计自动生成，效率远超旧方案（Operator）。
竞争对手分析演示文稿	职业/工作场景	Agent 被要求调研 3 个竞争对手并生成 SWOT 分析幻灯片。	成功输出完整可编辑的 PowerPoint 文件。
表格 / 幻灯片自动化	职业/工作场景	用户让 Agent 创建财务表格和商业汇报用的 PPT。	自动生成文件，可直接使用，大大节省时间。
销售话术角色扮演 Agent	自动化 / 市场营销	Agent 模拟客户异议处理对话，供销售练习使用。	效果“非常好”，被用于培训真实销售人员。
销售会议分析 Agent	自动化 / 市场营销	分析 Zoom 会议记录，检查是否符合脚本及语气标准。	提供具体反馈和改进建议，提升会议质量。
每日语音简报助手	自动化 / 市场营销	每天早上自动发送语音简报：新闻、天气、日程、交通等信息。	完整自动化晨间信息获取，节省用户大量时间。
客服工单分类 Agent	新兴（客服支持）	根据工单内容自动分类并路由至对应客服人员。	提升响应效率并减轻人工负担。
财报解析 Agent	新兴（金融分析）	将复杂的财务报表解析为通俗易懂的摘要报告。	成功转化为结构化摘要，适合非财务背景人员阅读。
广告投放优化 Agent	新兴（市场运营）	自动监控广告效果并给出优化建议（如 Google/Facebook 投放）。	实时跟踪并提供可执行的策略改进建议。

案例名称

类别

简要描述

使用结果

在线超市购物计划

个人用途

用户让 Agent 规划并下单购买烤肉晚餐所需食材（通过 Tesco）。

Agent 自动登录、选购、加入购物车并成功结账，包含甜点。

每周膳食规划与下单

个人用途

Agent 根据用户日程安排规划每周餐食并自动下单。

成功生成完整膳食计划并完成线上超市下单流程。