探索 OSWorld Verified：大模型AI Agent在真实计算机任务中的评估框架

OSWorld 是一个用于测试 AI 代理在真实计算机环境中的基准。这些代理是能处理文字、图片等信息的 AI 系统。基准包括开放式任务，比如操作文件或使用软件。OSWorld Verified 是它的改进版，通过修复问题和提升运行方式，提供更准确的测试结果。它支持不同操作系统，如 Ubuntu、Windows 和 macOS，并允许 AI 通过互动学习来完成任务。

现有基准的常见问题

许多现有的 AI 测试基准使用模拟环境，而不是真实的计算机。这导致测试结果无法反映实际使用情况。主要问题包括：

模拟环境不能处理任意软件或操作系统文件。
测试依赖人工检查，难以重复和自动化。
任务只限于特定类型，忽略了涉及多个软件的复杂工作流程。

这些问题使评估 AI 在日常计算机任务中的表现变得不准确。

基准的起源与目的

OSWorld 由香港大学、销售力量研究、卡内基梅隆大学和滑铁卢大学共同开发。初版于 2024 年发布，相关论文发表于 NeurIPS 2024 会议。OSWorld Verified 于 2025 年 7 月 28 日推出，添加了 AWS 云服务支持，以加快测试速度，并修复了社区报告的 300 多项问题。

这个基准的目的是解决现有测试的不足，帮助评估 AI 代理在真实计算机中的能力。具体包括：

创建一个可扩展的环境，支持多种操作系统。
使用自动脚本检查任务完成情况，减少人工参与。

任务类型	数量	示例
Chrome 浏览器	46	浏览网页、调整设置
GIMP 图像编辑	26	修改图片
LibreOffice Calc 表格	47	计算数据
LibreOffice Impress 演示	47	制作幻灯片
LibreOffice Writer 文档	23	编辑文字
多软件协作	93	结合多个程序完成工作
操作系统操作	23	管理文件、配置系统
Thunderbird 邮件	15	发送接收邮件
VLC 媒体播放	17	播放视频
VS Code 代码编辑	23	编写程序

排名	模型名称	发布日期	成功率 (%)	类型
1	Claude Sonnet 4.6 (Anthropic)	2026-02-17	72.5	通用模型
2	Claude Opus 4.6 (Anthropic)	2026-02-17	72.7	通用模型
3	Kimi K2.5 (Moonshot AI)	2026-01-30	63.3	通用模型
4	GPT-5.3 Codex (OpenAI)	2025-12 (约)	64.7	专用模型

探索 OSWorld Verified：大模型AI Agent在真实计算机任务中的评估框架

现有基准的常见问题

基准的起源与目的

DataLearner 官方微信

测试方法与运行步骤

主流 AI 模型的表现与观察

基准的价值与未来

热门博客