探索 OSWorld Verified:大模型AI Agent在真实计算机任务中的评估框架
OSWorld 是一个用于测试 AI 代理在真实计算机环境中的基准。这些代理是能处理文字、图片等信息的 AI 系统。基准包括开放式任务,比如操作文件或使用软件。OSWorld Verified 是它的改进版,通过修复问题和提升运行方式,提供更准确的测试结果。它支持不同操作系统,如 Ubuntu、Windows 和 macOS,并允许 AI 通过互动学习来完成任务。

现有基准的常见问题
许多现有的 AI 测试基准使用模拟环境,而不是真实的计算机。这导致测试结果无法反映实际使用情况。主要问题包括:
- 模拟环境不能处理任意软件或操作系统文件。
- 测试依赖人工检查,难以重复和自动化。
- 任务只限于特定类型,忽略了涉及多个软件的复杂工作流程。
这些问题使评估 AI 在日常计算机任务中的表现变得不准确。
基准的起源与目的
OSWorld 由香港大学、销售力量研究、卡内基梅隆大学和滑铁卢大学共同开发。初版于 2024 年发布,相关论文发表于 NeurIPS 2024 会议。OSWorld Verified 于 2025 年 7 月 28 日推出,添加了 AWS 云服务支持,以加快测试速度,并修复了社区报告的 300 多项问题。
这个基准的目的是解决现有测试的不足,帮助评估 AI 代理在真实计算机中的能力。具体包括:
- 创建一个可扩展的环境,支持多种操作系统。
- 使用自动脚本检查任务完成情况,减少人工参与。
