谷歌发布 Gemini 2.5 Computer Use 模型:专攻浏览器交互,支持 13 种操作

10 月 8 日消息,谷歌正在预览一款全新的 Gemini 人工智能模型,该模型旨在通过浏览器浏览网络并与之交互,使 AI 智能体能够在原本为人而非机器人设计的用户界面中执行操作。这款名为「Gemini 2.5 计算机使用」(Gemini 2.5 Computer Use)的模型,利用「视觉理解与推理能力」分析用户的请求,并完成相应任务,例如填写并提交表单。

谷歌发布 Gemini 2.5 Computer Use 模型:专攻浏览器交互,支持 13 种操作

该模型可用于用户界面测试,或用于操作那些仅面向人类用户、未提供 API 或其他直接接口的系统。此前,此类模型已应用于谷歌 AI 模式(AI Mode)中的智能体功能,以及研究原型项目「Mariner」,该项目利用 AI 智能体在浏览器中自主执行任务,例如根据食材清单自动将商品添加到购物车。

谷歌此次发布恰逢 OpenAI 在其年度开发者日(Dev Day)宣布推出 ChatGPT 新应用的次日。OpenAI 正持续聚焦其「ChatGPT 智能体」(ChatGPT Agent)功能,该功能可代表用户完成复杂任务。与此同时,Anthropic 公司已于去年发布了其 Claude AI 模型的「计算机使用」(computer use)版本。

声明:内容来源公开的各类媒体平台,若收录的内容侵犯了您的权益,请联系邮箱,本站将第一时间处理。
资讯

艾维对话奥尔特曼:为 OpenAI 构思 20 个硬件创意,但不会像 iPhone

2025-10-8 13:25:47

资讯

OpenAI 与流媒体音乐平台 Spotify 达成合作,用户可通过ChatGPT获取个性化音乐推荐

2025-10-9 11:40:02

搜索