OSWorld-Verified:大模型“用电脑”能力的权威评测基准
随着大语言模型(LLM)和视觉语言模型(VLM)向Agent方向快速发展,“让AI像人类一样操作电脑”已成为前沿热点。2024年4月发布的OSWorld基准一经推出,便迅速成为评估多模态智能体在真实计算机环境中执行开放式任务的标杆。而2025年7月推出的OSWorld-Verified则是其重大升级版本,进一步提升了任务质量、可复现性和评估公平性,成为当前最权威的“计算机使用”评测基准。
什么是 OSWorld?
OSWorld(Open Source World)是首个真正基于真实操作系统环境的多模态Agent评测平台。它不同于传统的模拟环境(如MiniWoB或WebArena),而是直接在完整的Ubuntu、Windows和macOS系统中运行,让AI代理通过截图观察、鼠标键盘操作来完成任务。
核心特点包括:
- 真实环境:支持任意桌面/网页应用,无需预定义API。
- 开放式任务:369个真实世界任务,覆盖文件管理、网页浏览、办公软件、多应用协作等。
- 执行式评估:每个任务都有自定义的成功判定脚本,确保结果客观可复现。
- 跨平台支持:Ubuntu、Windows、macOS均可运行,支持并行与无头模式。
早期版本发布后,社区反馈了大量问题(如网页结构变化、指令歧义、评估函数不鲁棒等),这也促使团队推出Verified升级版。
OSWorld-Verified:更严谨、更高效的升级版
2025年7月28日,XLANG Lab正式发布,这是对原版的一次“原地大修”:
