DataLearner AI 专注大模型评测、数据资源与实践教学的知识平台,持续更新可落地的 AI 能力图谱。
© 2026 DataLearner AI. DataLearner 持续整合行业数据与案例,为科研、企业与开发者提供可靠的大模型情报与实践指南。
直接使用大模型通过界面来操作电脑和浏览器:谷歌发布Gemini 2.5 Computer Use 模型,重塑 AI 与界面交互能力,实测优秀~ | DataLearnerAI
首页 / 博客列表 / 博客详情 就在昨天,2025年10月7日,Google DeepMind 正式发布其最新模型——Gemini 2.5 Computer Use 。该模型基于 Gemini 2.5 Pro 的视觉理解与推理能力,新增了“界面交互(UI 控制)”能力,能够在浏览器或移动端界面上像人类那样点击、输入、滚动、选择控件 等操作。
Gemini 2.5 Computer Use模型详情介绍
Gemini 2.5 Computer Use 在多项 UI 自动化基准测试上,以更低延迟和更高准确率 大幅领先 于现有同类产品。
本文将介绍一下这个模型,同时要给出用这个模型操作DataLearnerAI网站的实例,结果很不错~
欢迎关注 DataLearner 官方微信,获得最新 AI 技术推送
一、为什么我们需要一个可以基于UI界面操作的大模型AI Agent 当前大模型的计算机使用主要依赖接口:你可以让模型调用接口完成上传图片、提交表单、查数据库等。
但许多现实任务,如提交网页表单、操作后台管理系统或控制移动 App,本质上都依赖图形界面(GUI),而非 API 调用。
尽管已有部分模型尝试界面控制,它们常常受限于特定页面结构、动作库有限、上下文理解不准确、出错时恢复能力脆弱。常见问题包括:表单自动填写失败、复杂下拉菜单无法适配、异常情形不能自我纠错。
Gemini 2.5 Computer Use 模型的推出,正是为了填补这一空白。它构建在 Gemini 2.5 Pro 的视觉和推理基础上,专为 UI 交互优化,解决了代理在真实世界任务中的“最后一公里”问题。不同于以往版本的被动响应,这款模型主动“观察”截图、分析历史动作,并生成精确指令,形成闭环迭代。结果?代理不再是哑巴助手,而是能自主适应变化的智能操作者,大幅减少人为干预,推动 AI 从辅助工具向全能伙伴的跃进。
二、Gemini 2.5 Computer Use 模型不仅速度快,而且各方面水平都很好 在性能上,Gemini 2.5 Computer Use 模型展现出无可匹敌的领先。它在多个权威基准测试中脱颖而出,包括 Online-Mind2Web、WebVoyager 和 AndroidWorld,这些测试涵盖了从网页导航到移动控制的复杂任务。
下图展示了Gemini 2.5 Computer Use模型与当前最强模型在计算机使用方面的评测结果:
可以看到,Gemini 2.5 Computer Use模型各方面表现都很强,都明显由于其它模型:
在 Online-Mind2Web、WebVoyager 和 AndroidWorld 基准上,该模型均夺得第一名。
在 Browserbase 的整合测评中,它在浏览器控制任务中的 准确率超过 70% ,而延迟却保持在极低水平(典型任务从截图输入到动作输出的平均延迟仅约 225 ms )。
在延迟-准确率散点图中,它位于低延迟与高准确率象限的极端位置:几乎没有其他模型能同时兼顾这两项指标。
来自早期合作方的反馈也认为Gemini 2.5 Computer Use模型非常不错:
- Poke.com 表示其流程速度比“次优方案”快 50% ;
- Autotab 报告其在最难评测中的表现比竞品高出 18% ;
- Google 内部支付平台团队 引入该模型后,曾造成 25% 的 UI 测试失败率中 的那部分脆弱流程中,有 60% 的执行失败能被模型自动恢复 ,节省了大量人工干预。
从数据来看,Gemini 2.5 Computer Use 在多个维度都取得了 显著提升 :延迟减少、准确率提升、任务成功率增强、错误恢复能力增强。这些量化指标足以支撑其在 UI 控制领域的领先地位。
三、Gemini 2.5 Computer Use实测:去DataLearnerAI网站上比较DeepSeek-R1模型和Kimi K2模型 当前,Browserbase提供了一个Gemini 2.5 Computer Use的体验地址,我们测试了一下,在对话框中输入:
compare deepseek-r1 with kimi k2 model on datalearner.com,也就是用datalearner.com对比下过程最强的2个大模型DeepSeek-R1模型和Kimi K2。
Gemini 2.5 Computer Use成功完成了我们的任务,主要过程截图如下:
Gemini 2.5 Computer Use测试实例1
首先,模型准确理解用浏览器访问datalearner.com网站
Gemini 2.5 Computer Use测试实例2
接下来模型准确的理解到“大模型对比工具”这个菜单可以做这件事,点击进入了这个页面
Gemini 2.5 Computer Use测试实例3
接下来模型准确理解可以在搜索框输入deepseek-r1和kimi k2关键词检索,并且选择,同时模型可以理解直接点击下方对比按钮即可对比
最后跳转到这个对比页面后,模型开始下拉滑动对比这两个模型
上面的例子可以看出来Gemini 2.5 Computer Use模型是可以准确理解意图并进行操作的。显然,Gemini 2.5 Computer Use不太可能训练过我们DataLearnerAI的大模型对比工具功能(因为它才上线几个月),但是理解准确性还是不错的。
四、Gemini 2.5 Computer Use模型最大的价值是从视觉分析到自主执行的智能闭环 Gemini 2.5 Computer Use 模型的核心在于其“计算机使用”工具(computer_use)。它接收用户请求 、当前环境截图 和近期动作历史 作为输入,然后输出 UI 操作指令,如点击、输入或滚动。这些指令支持自定义函数扩展,甚至可排除敏感操作,确保灵活性。
Gemini 2.5 Computer Use模型最高支持 32K输入 和32K的输出长度,足以处理复杂多步任务,而其视觉推理能力让它能“读懂”屏幕元素,就像人类浏览网页一样。
视觉 + 上下文理解:识别界面元素结构该模型能够从界面截图中识别按钮、输入框、下拉框、滑块、选单、页签等常用控件。它不仅识别控件的位置,还能理解控件的语义(比如“提交”、“登录”、“下一步”)。
这意味着:当页面复杂、有多个层级、控件标识文本不规则时,它仍能准确定位目标操作对象。举例:用户请求“在某个网盘页面点击‘上传’按钮”,模型可在视觉上确定哪个图标最可能是上传控件,并进行点击。
多步操作串联 + 状态回环感知模型不是一次性操作,而是基于循环机制 :每一步执行后拿到新的界面截图、URL 与历史动作,继续推理下一步。
这带来的好处是:即便中间页面跳转、加载延迟、异步刷新、错误弹窗出现,模型也能识别“当前状态 vs 预期状态”的差异,重新修正操作路径。这种反馈—修正—继续执行的闭环控制,是在复杂场景下稳定执行的关键。举例:如果点击“下一步”后出现验证码弹窗,模型能判断当前任务被阻断,可能触发用户确认或选择绕过策略。
高阶交互行为:拖拽、排序、筛选、登录、验证除了点击与输入,Gemini 2.5 Computer Use模型还支持更加复杂的 UI 操作,例如:
拖拽与元素重排序:在可视化编辑画布、看板、图表界面中,模型可拖动组件、重新排列布局;
滤选与筛选控件:在下拉列表、复选框、滑块中做条件筛选;
登录与会话维持:模型可以模拟登录流程、填写账户/密码、处理验证码(在用户确认或授权的条件下)并保持会话状态连续;
高安全场景的确认策略:对于高风险操作(如支付、账户修改、权限变更等),模型可请求 用户确认 或开发者设定的安全策略。
五、Gemini 2.5 Computer Use的安全控制机制 为防范风险,Google 在模型层面与运行时均加入安全机制:
逐步安全服务(per-step safety) :每个动作在客户端执行前,由一个独立服务校验其风险;
开发者策略指令 :开发者可在策略层面指定某类操作必须询问用户确认 或 被拒绝(如绕过 CAPTCHA、控制设备、执行系统级操作等);
训练阶段内置安全策略 :让模型本身“学习”拒绝高风险行为、识别 prompt 注入、避免滥用。
这些机制共同保证:即便模型能“动”界面,也不会越过权限边界或未经授权操作。
六、Gemini 2.5 Computer Use总结以及在线体验地址 目前,Gemini 2.5 Computer Use 已进入公共预览(Public Preview) ,开发者可通过 Gemini API 在 Google AI Studio 或 Vertex AI 中使用。
此外,在 Chrome 浏览器环境中,可在 Browserbase 提供的 Demo 环境中测试 Agent 行为效果。
总体而言,Gemini 2.5 Computer Use 模型 是 Google 在 UI 控制领域的一次重大突破。它使得 AI Agent 真正具备“看得见界面、能动界面、能恢复故障”的能力。这对于自动化办公、AI 助手、软件测试、工作流集成等应用有巨大潜力。
Anthropic 最新 Agent 工程方案:使用双 Agent 架构让 AI 实现真正的长时自主工作