OpenAI发布ChatGPT Agent系统:一个新模型驱动的系统,可以写代码运行代码,使用浏览器订票,写PPT、做excel的全能Agent
OpenAI刚刚发布了一个全新的AI Agent产品,称为ChatGPT Agent。这个全新的Agent系统可以控制我们的电脑,然后使用电脑上的浏览器、PPT、Excel等工具帮我们完成一些日常的工作,从头开始帮我们完成一些非常复杂的任务。根据OpenAI的描述,这个Agent系统的目标未来是一个通用的Agent,而这些能力未来将会随着这个产品不定期更新。

[toc]
ChatGPT Agent产品介绍
OpenAI此次发布的这个Agent系统的产品名字就叫ChatGPT Agent,这个系统可以帮助我们完成如下任务:
- 查看我的日历并根据最新消息向我简要介绍即将召开的客户会议
- 计划并购买食材制作四人份日式早餐
- 分析三个竞争对手并制作幻灯片
类似这种任务发出之后,ChatGPT 将智能地导航网站、过滤结果、在需要时提示我们进行登录、运行代码、进行分析,甚至提供可编辑的幻灯片和电子表格来总结其发现。
总之, ChatGPT Agent的目标是端到端交付:自然语言输入一个目标,最终输出可编辑文件(PPT/XLSX)、数据报告、预订凭证等。
这些看起来我们稀松平常的任务,对于大模型来说挑战非常大。以“买食材做一顿三口之家的晚餐” 为例,人类能瞬间调用生活常识:三口之家的食量、营养搭配、烹饪时间、预算范围,甚至孩子的挑食偏好。
但对AI而言,这等同于在黑暗中拼凑一幅动态拼图——它需将模糊的意图转化为精确操作:从理解“晚餐”的地域文化隐含要求(中餐?西餐?),到动态适配电商网站的库存、价格、配送时效;从绕过验证码陷阱,到支付时自动合并优惠券。每个环节的失误都可能导致任务崩溃:若错估份量则食材浪费,选错登录方式则流程中断,支付超时则订单失效。简单任务背后,是跨常识推理、实时决策与对抗性环境的三重压力。


