Gemini 2.5 Computer Use
搜索文档
腾讯研究院AI速递 20251010
腾讯研究院· 2025-10-09 16:01
生成式AI模型发布与进展 - 谷歌DeepMind发布Gemini 2 5 Computer Use模型 使AI能直接控制浏览器执行点击 滚动和输入等操作 在相关基准测试中性能达到SOTA水平 使用效率高于竞品 [1] - 马斯克旗下xAI推出视频生成模型Imagine v0 9并向所有用户免费开放 视频生成时间不到20秒 能生成6秒左右视频 支持语音优先界面 [2] - 蚂蚁集团发布并开源万亿参数通用语言大模型Ling-1T 总参数达1T但推理时仅激活约50B参数 在编程与数学推理基准测试中表现亮眼 LiveCodeBench得分最高 数学相关评测双双突破74分 [3] - 腾讯推出混元图像3 0 具备更丰富的细节和更细腻的画质 支持生成表情包组图 四格漫画 图文设计等多种创作风格 [4] - 以色列AI21 Labs开源30亿参数轻量推理模型Jamba Reasoning 3B 采用混合SSM-Transformer架构 支持256K上下文窗口 效率比竞品提升2-5倍 在M3 MacBook Pro上每秒生成40个token [5][6] 前沿科技与材料科学 - 2025年诺贝尔化学奖授予三位科学家 表彰他们在金属有机框架材料发展方面的贡献 该材料能从水中分离PFAS 捕获二氧化碳 从沙漠空气中采集水分 [7] 行业战略与愿景 - OpenAI的愿景是构建垂直整合AGI帝国 由个人AI订阅服务 超大规模基础设施和前沿研究实验室三大支柱构成 预测未来2年内AI将在科学发现领域扮演关键角色 [7] - 具身智能公司Figure获得10亿美元C轮融资 估值达390亿美元 专家指出部署能力是行业卡脖子环节 预计家庭场景大规模部署至少需7-12年 [8] 开发工具与资源 - 谷歌资深工程主管发布《智能体设计模式》一书 系统总结AI Agent开发领域的21个关键设计模式 全书400多页 提供详实代码示例 [9][11]
谷歌发布Gemini 2.5 Computer Use模型,科创100指数ETF(588030)涨超1%,华虹公司领涨
搜狐财经· 2025-10-09 03:05
上证科创板100指数及ETF表现 - 截至2025年10月9日10:13,上证科创板100指数强势上涨1.26% [2] - 指数成分股中华虹公司上涨16.71%,国盾量子上涨11.71%,东芯股份上涨7.11% [2] - 科创100指数ETF(588030)上涨1.12%,最新价报1.44元,近2周累计上涨2.30% [2] - 该ETF盘中换手率为1.72%,成交额达1.38亿元,近1年日均成交4.38亿元,居可比基金第一 [2] - 科创100指数ETF最新规模达71.79亿元,创近1月新高,近2周份额增长3.54亿份,新增份额位居可比基金1/12 [6][7] - 近4个交易日内,该ETF合计资金净流入4.68亿元,但最新单日资金净流出4252.74万元 [7] - 上证科创板100指数前十大权重股合计占比24.32%,包括华虹公司、百济神州、东芯股份等 [7] 人工智能行业重大事件 - 10月1日,OpenAI发布视频生成模型Sora 2.0,其社交应用"Sora"登顶苹果免费应用榜单第一名 [3] - 10月2日,OpenAI与三星电子和SK海力士签署意向书,邀请其参与全球数据中心建设计划 [3] - 10月6日,OpenAI与AMD达成深度合作,将部署总计6吉瓦的AMD GPU算力以支持下一代AI基础设施 [3] - 10月8日,英伟达CEO黄仁勋证实对马斯克旗下xAI进行了投资 [3] - 10月8日,谷歌发布Gemini 2.5 Computer Use,是首个专为界面控制设计的大语言模型 [3] - Google计划在印度投资100亿美元,用于建设1吉瓦的数据中心及附属电力基础设施 [3] 科技行业政策与市场展望 - 机构解读认为,节后A股市场科技成长占优的风格可能延续 [5] - 10月下旬四中全会即将召开,"十五五"规划可能继续大力支持发展新质生产力和科技创新 [5] - 10月底APEC会议将于韩国召开,中美两国元首有望会晤,短期中美贸易谈判有望迎来积极进展 [5] - 在政策支持、外部环境改善及市场情绪积极的背景下,科技成长风格预计有较好表现 [5] 电力设备行业技术进展 - 中国科学院金属研究所科研团队在固态锂电池领域取得突破,为解决固态电池界面阻抗大、离子传输效率低的难题提供了新路径 [4]
谷歌加入CUA战场,发布Gemini 2.5 Computer Use:让AI直接操作浏览器
36氪· 2025-10-08 07:06
产品发布与核心能力 - 谷歌DeepMind发布了基于Gemini 2.5的计算机使用模型Gemini 2.5 Computer Use,该模型允许AI直接控制用户的浏览器,执行点击、滚动和输入等操作 [1] - 模型的核心能力是通过Gemini API中新增的computer_use工具实现的,其工作流程为迭代循环:模型分析用户请求、当前环境截图和动作历史记录后生成UI动作函数调用,客户端执行动作后将最新截图和URL返回模型,循环直至任务完成或终止 [11][13] - 该模型主要针对网页浏览器优化,在移动端UI控制方面也展现出潜力,但暂未针对桌面操作系统级控制进行优化 [13] 性能表现与基准测试 - 在Online-Mind2Web基准测试的官方排行榜上,Gemini 2.5 Computer Use性能达到69.0%,高于OpenAI Computer-Using Agent模型的61.3% [5] - 在WebVoyager基准测试中,模型自报告成绩为88.9%,高于OpenAI模型的87.0%;由Browserbase测量的成绩为79.9%,高于Claude Sonnet 4.5的71.4%和OpenAI模型的61.0% [5] - 在AndroidWorld基准测试中,模型性能达到69.7%,高于Claude Sonnet 4.5的56.0%和Claude Sonnet 4的62.1%,其速度表现也优于其他对比模型 [5] 实际应用演示与当前局限 - 官方演示显示,模型能准确完成从指定链接获取宠物详细信息并添加到水疗中心CRM系统,以及为艺术俱乐部整理看板笔记等任务 [3][4] - 在演示环境中,模型完成简单任务(如在维基百科上找到John Wick页面)时准确度较高,但执行稍复杂任务(如找到页面后总结信息并给出中文版,或整理指定网站的报道)时容易失败 [8] 行业竞争与战略意义 - 谷歌DeepMind发布Gemini 2.5 Computer Use标志着AI智能体领域的竞争进入白热化阶段,科技巨头正竞相定义未来的人机交互方式 [16][17] - 这一发布被视为一个清晰信号,表明通过自然语言直接驱动数字世界的时代正在加速到来,键盘和鼠标的主导地位受到挑战 [17] 安全机制与开发者资源 - 为应对用户恶意使用、模型意外行为及网页环境下的提示词注入与诈骗等风险,公司在模型训练阶段直接融入了安全机制 [14] - 公司为开发者提供了安全控制选项,包括逐步安全服务(在推理阶段由独立服务评估每个拟执行动作)和系统指令(可设定在高风险操作前必须拒绝或请求用户确认),以防止模型自动执行如损害系统完整性、绕过验证码等潜在高风险操作 [14][15] - 开发者已可通过Google AI Studio和Vertex AI的Gemini API获取这些能力,也可在Browserbase托管的演示环境中进行试用 [8]
谷歌加入CUA战场,发布Gemini 2.5 Computer Use:让AI直接操作浏览器
机器之心· 2025-10-08 03:18
产品发布与核心能力 - 谷歌DeepMind发布了基于Gemini 2.5的计算机使用模型Gemini 2.5 Computer Use,该模型允许AI直接控制用户的浏览器,执行点击、滚动和输入等操作[1] - 模型在视觉理解和推理能力的基础上,能够准确快速地完成收集网络信息与执行动作、整理杂乱笔记等任务[5] - 其核心能力是通过Gemini API中新增的computer_use工具实现的,开发者需在一个循环流程中运行,输入包括用户请求、当前环境截图和最近执行动作的历史记录[15][17] 性能基准测试表现 - 在Online-Mind2Web基准测试中,Gemini 2.5 Computer Use在官方排行榜上的成绩为69.0%,由Browserbase测量的成绩为65.7%,优于Claude Sonnet 4的61.0%和OpenAI Computer-Using Agent模型的44.3%[7] - 在WebVoyager基准测试中,其自报告成绩为88.9%,由Browserbase测量的成绩为79.9%,高于Claude Sonnet 4.5的71.4%和OpenAI模型的61.0%[7] - 在AndroidWorld基准测试中,其成绩为69.7%,高于Claude Sonnet 4.5的56.0%和Claude Sonnet 4的62.1%[7] - 模型的速度表现也优于其他几个相比较的模型[8] 当前能力局限性与可用性 - 模型在完成简单任务时准确度较高,但在执行稍微复杂的任务时容易失败,例如在维基百科上找到页面并总结信息给出中文版,或打开特定网站整理近期报道等任务均未能成功完成[9][11][12] - 开发者已可通过Google AI Studio和Vertex AI的Gemini API获取这些能力,用户也可在Browserbase托管的演示环境中试用,但最多仅支持5分钟的流程且不支持用户中途接管[13] 行业竞争与战略意义 - 谷歌DeepMind携Gemini 2.5 Computer Use入场,标志着AI智能体领域的竞争进入白热化阶段,科技巨头们正竞相定义未来的人机交互方式[25] - 这一发布被视为一个清晰的信号,表明键盘和鼠标的主导地位正受到挑战,一个通过自然语言直接驱动数字世界的时代正在加速到来[25]