Gemini 2.5 Computer Use - 财报，业绩电话会，研报，新闻

Gemini 2.5 Computer Use

搜索文档

腾讯研究院AI速递 20251010

腾讯研究院· 2025-10-09 16:01

生成式AI模型发布与进展 - 谷歌DeepMind发布Gemini 2 5 Computer Use模型使AI能直接控制浏览器执行点击滚动和输入等操作在相关基准测试中性能达到SOTA水平使用效率高于竞品 [1] - 马斯克旗下xAI推出视频生成模型Imagine v0 9并向所有用户免费开放视频生成时间不到20秒能生成6秒左右视频支持语音优先界面 [2] - 蚂蚁集团发布并开源万亿参数通用语言大模型Ling-1T 总参数达1T但推理时仅激活约50B参数在编程与数学推理基准测试中表现亮眼 LiveCodeBench得分最高数学相关评测双双突破74分 [3] - 腾讯推出混元图像3 0 具备更丰富的细节和更细腻的画质支持生成表情包组图四格漫画图文设计等多种创作风格 [4] - 以色列AI21 Labs开源30亿参数轻量推理模型Jamba Reasoning 3B 采用混合SSM-Transformer架构支持256K上下文窗口效率比竞品提升2-5倍在M3 MacBook Pro上每秒生成40个token [5][6] 前沿科技与材料科学 - 2025年诺贝尔化学奖授予三位科学家表彰他们在金属有机框架材料发展方面的贡献该材料能从水中分离PFAS 捕获二氧化碳从沙漠空气中采集水分 [7] 行业战略与愿景 - OpenAI的愿景是构建垂直整合AGI帝国由个人AI订阅服务超大规模基础设施和前沿研究实验室三大支柱构成预测未来2年内AI将在科学发现领域扮演关键角色 [7] - 具身智能公司Figure获得10亿美元C轮融资估值达390亿美元专家指出部署能力是行业卡脖子环节预计家庭场景大规模部署至少需7-12年 [8] 开发工具与资源 - 谷歌资深工程主管发布《智能体设计模式》一书系统总结AI Agent开发领域的21个关键设计模式全书400多页提供详实代码示例 [9][11]

生成式AI

AGI

金属有机框架（MOF）材料

Artificial Intelligence

Artificial Intelligence

Imagine v0.9

Ling-1T

谷歌发布Gemini 2.5 Computer Use模型，科创100指数ETF(588030)涨超1%，华虹公司领涨

搜狐财经· 2025-10-09 03:05

上证科创板100指数及ETF表现 - 截至2025年10月9日10:13，上证科创板100指数强势上涨1.26% [2] - 指数成分股中华虹公司上涨16.71%，国盾量子上涨11.71%，东芯股份上涨7.11% [2] - 科创100指数ETF(588030)上涨1.12%，最新价报1.44元，近2周累计上涨2.30% [2] - 该ETF盘中换手率为1.72%，成交额达1.38亿元，近1年日均成交4.38亿元，居可比基金第一 [2] - 科创100指数ETF最新规模达71.79亿元，创近1月新高，近2周份额增长3.54亿份，新增份额位居可比基金1/12 [6][7] - 近4个交易日内，该ETF合计资金净流入4.68亿元，但最新单日资金净流出4252.74万元 [7] - 上证科创板100指数前十大权重股合计占比24.32%，包括华虹公司、百济神州、东芯股份等 [7] 人工智能行业重大事件 - 10月1日，OpenAI发布视频生成模型Sora 2.0，其社交应用"Sora"登顶苹果免费应用榜单第一名 [3] - 10月2日，OpenAI与三星电子和SK海力士签署意向书，邀请其参与全球数据中心建设计划 [3] - 10月6日，OpenAI与AMD达成深度合作，将部署总计6吉瓦的AMD GPU算力以支持下一代AI基础设施 [3] - 10月8日，英伟达CEO黄仁勋证实对马斯克旗下xAI进行了投资 [3] - 10月8日，谷歌发布Gemini 2.5 Computer Use，是首个专为界面控制设计的大语言模型 [3] - Google计划在印度投资100亿美元，用于建设1吉瓦的数据中心及附属电力基础设施 [3] 科技行业政策与市场展望 - 机构解读认为，节后A股市场科技成长占优的风格可能延续 [5] - 10月下旬四中全会即将召开，"十五五"规划可能继续大力支持发展新质生产力和科技创新 [5] - 10月底APEC会议将于韩国召开，中美两国元首有望会晤，短期中美贸易谈判有望迎来积极进展 [5] - 在政策支持、外部环境改善及市场情绪积极的背景下，科技成长风格预计有较好表现 [5] 电力设备行业技术进展 - 中国科学院金属研究所科研团队在固态锂电池领域取得突破，为解决固态电池界面阻抗大、离子传输效率低的难题提供了新路径 [4]

Gemini 2.5 Computer Use

Gemini 2.5 Computer Use

Sora 2.0

谷歌加入CUA战场，发布Gemini 2.5 Computer Use：让AI直接操作浏览器

36氪· 2025-10-08 07:06

产品发布与核心能力 - 谷歌DeepMind发布了基于Gemini 2.5的计算机使用模型Gemini 2.5 Computer Use，该模型允许AI直接控制用户的浏览器，执行点击、滚动和输入等操作 [1] - 模型的核心能力是通过Gemini API中新增的computer_use工具实现的，其工作流程为迭代循环：模型分析用户请求、当前环境截图和动作历史记录后生成UI动作函数调用，客户端执行动作后将最新截图和URL返回模型，循环直至任务完成或终止 [11][13] - 该模型主要针对网页浏览器优化，在移动端UI控制方面也展现出潜力，但暂未针对桌面操作系统级控制进行优化 [13] 性能表现与基准测试 - 在Online-Mind2Web基准测试的官方排行榜上，Gemini 2.5 Computer Use性能达到69.0%，高于OpenAI Computer-Using Agent模型的61.3% [5] - 在WebVoyager基准测试中，模型自报告成绩为88.9%，高于OpenAI模型的87.0%；由Browserbase测量的成绩为79.9%，高于Claude Sonnet 4.5的71.4%和OpenAI模型的61.0% [5] - 在AndroidWorld基准测试中，模型性能达到69.7%，高于Claude Sonnet 4.5的56.0%和Claude Sonnet 4的62.1%，其速度表现也优于其他对比模型 [5] 实际应用演示与当前局限 - 官方演示显示，模型能准确完成从指定链接获取宠物详细信息并添加到水疗中心CRM系统，以及为艺术俱乐部整理看板笔记等任务 [3][4] - 在演示环境中，模型完成简单任务（如在维基百科上找到John Wick页面）时准确度较高，但执行稍复杂任务（如找到页面后总结信息并给出中文版，或整理指定网站的报道）时容易失败 [8] 行业竞争与战略意义 - 谷歌DeepMind发布Gemini 2.5 Computer Use标志着AI智能体领域的竞争进入白热化阶段，科技巨头正竞相定义未来的人机交互方式 [16][17] - 这一发布被视为一个清晰信号，表明通过自然语言直接驱动数字世界的时代正在加速到来，键盘和鼠标的主导地位受到挑战 [17] 安全机制与开发者资源 - 为应对用户恶意使用、模型意外行为及网页环境下的提示词注入与诈骗等风险，公司在模型训练阶段直接融入了安全机制 [14] - 公司为开发者提供了安全控制选项，包括逐步安全服务（在推理阶段由独立服务评估每个拟执行动作）和系统指令（可设定在高风险操作前必须拒绝或请求用户确认），以防止模型自动执行如损害系统完整性、绕过验证码等潜在高风险操作 [14][15] - 开发者已可通过Google AI Studio和Vertex AI的Gemini API获取这些能力，也可在Browserbase托管的演示环境中进行试用 [8]

AI智能体

人工智能

Gemini 2.5 Computer Use

AI智能体

人工智能

Gemini 2.5 Computer Use

谷歌加入CUA战场，发布Gemini 2.5 Computer Use：让AI直接操作浏览器

机器之心· 2025-10-08 03:18

产品发布与核心能力 - 谷歌DeepMind发布了基于Gemini 2.5的计算机使用模型Gemini 2.5 Computer Use，该模型允许AI直接控制用户的浏览器，执行点击、滚动和输入等操作[1] - 模型在视觉理解和推理能力的基础上，能够准确快速地完成收集网络信息与执行动作、整理杂乱笔记等任务[5] - 其核心能力是通过Gemini API中新增的computer_use工具实现的，开发者需在一个循环流程中运行，输入包括用户请求、当前环境截图和最近执行动作的历史记录[15][17] 性能基准测试表现 - 在Online-Mind2Web基准测试中，Gemini 2.5 Computer Use在官方排行榜上的成绩为69.0%，由Browserbase测量的成绩为65.7%，优于Claude Sonnet 4的61.0%和OpenAI Computer-Using Agent模型的44.3%[7] - 在WebVoyager基准测试中，其自报告成绩为88.9%，由Browserbase测量的成绩为79.9%，高于Claude Sonnet 4.5的71.4%和OpenAI模型的61.0%[7] - 在AndroidWorld基准测试中，其成绩为69.7%，高于Claude Sonnet 4.5的56.0%和Claude Sonnet 4的62.1%[7] - 模型的速度表现也优于其他几个相比较的模型[8] 当前能力局限性与可用性 - 模型在完成简单任务时准确度较高，但在执行稍微复杂的任务时容易失败，例如在维基百科上找到页面并总结信息给出中文版，或打开特定网站整理近期报道等任务均未能成功完成[9][11][12] - 开发者已可通过Google AI Studio和Vertex AI的Gemini API获取这些能力，用户也可在Browserbase托管的演示环境中试用，但最多仅支持5分钟的流程且不支持用户中途接管[13] 行业竞争与战略意义 - 谷歌DeepMind携Gemini 2.5 Computer Use入场，标志着AI智能体领域的竞争进入白热化阶段，科技巨头们正竞相定义未来的人机交互方式[25] - 这一发布被视为一个清晰的信号，表明键盘和鼠标的主导地位正受到挑战，一个通过自然语言直接驱动数字世界的时代正在加速到来[25]

AI智能体

人工智能

Gemini 2.5 Computer Use

AI智能体

人工智能

Gemini 2.5 Computer Use