Workflow
系统级GUI Agent
icon
搜索文档
「豆包手机」为何能靠超级Agent火遍全网,我们听听AI学者们怎么说
36氪· 2025-12-10 09:39
手机上的 AI,从来没有这么像真人。 最近一个星期,席卷科技圈的一款手机不来自任何一家硬件大厂,而是与字节的豆包联系在了一起。 这款搭载豆包手机助手的工程机引爆了全网,让很多人第一次真切地感受到 Agent 已经触手可及。在某宝平台上,这款手机的价格被炒到了近五千元。 本月初发布的豆包手机助手,目前还是技术预览版。与大多数作为独立 App 存在的 AI 助手都不一样的是,它通过把 AI Agent 嵌入系统底层的方式,让 手机实现了端侧 AI 能力的全面突破,带来了全新的交互方式和多模态体验。在不少科技从业者看来,豆包手机助手已经把 AI 工具的认知推向了新的高 度,它不再只是一个辅助工具或外置 App,而是与手机操作系统深度绑定的「超级管家」。 毕竟,只需要一句话,豆包手机助手可以真正地实现跨 App 的复杂指令执行。除了其他手机上 Agent 常见的订餐、记账、修改设置等能力之外,豆包手 机助手能够攻克相对模糊且复杂的长链条需求。 豆包手机助手全程无中断地完成「地图上标记餐厅、查找博物馆以及旅行平台订票」的多需求、长链路任务。 这样的表现让人直呼:「是不是有点过于智能化了」。 与此同时,围绕豆包手机助手持 ...
「豆包手机」为何能靠超级Agent火遍全网,我们听听AI学者们怎么说
机器之心· 2025-12-10 08:13
文章核心观点 - 字节跳动推出的豆包手机助手(搭载自研UI-TARS引擎)通过“GUI Agent + 系统级权限”的深度集成,实现了端侧AI能力的重大突破,能够执行跨应用、长链路的复杂任务,将手机交互范式从“人找服务”推向“服务找人”,可能成为下一代手机操作系统的核心能力[1][3][6][12][26] 豆包手机助手的产品表现与市场反响 - 搭载豆包手机助手的工程机近期引爆科技圈,在某宝平台价格被炒至近五千元,让公众首次真切感受到触手可及的AI Agent[1] - 豆包手机助手是技术预览版,其核心创新在于将AI Agent嵌入系统底层,而非作为独立App存在,使其成为与操作系统深度绑定的“超级管家”[3] - 该助手能够执行模糊且复杂的长链条需求,例如无中断地完成“地图上标记餐厅、查找博物馆以及旅行平台订票”的多需求任务,其智能化表现引发广泛讨论[5][6] 系统级GUI Agent的技术挑战与行业趋势 - 行业趋势显示,手机厂商和AI硬件公司正探索将原生AI能力深度融入设备系统,核心形态之一是引入AI Agent,特别是系统级GUI Agent[8] - 实现系统级GUI Agent需克服四大层面障碍:感知层(毫秒级识别与抗干扰)、规划层(跨App逻辑连贯与自我反思)、决策层(强泛化与细粒度操作)、系统层(低延迟与打破权限壁垒)[9][10] - 学术界专家指出当前瓶颈包括:长链路任务规划与状态管理、上下文记忆与推理速度、轻量级模型的记忆管理,以及因权限和数据访问限制导致无法完全对齐用户操作空间[10][11] - 现有尝试(如AppAgent、Rabbit等)仍存在成功率低、等待时间长、处理突发UI能力弱等问题,限制了系统级GUI Agent的稳定性和实用性[12] 豆包手机助手的技术路径与优势 - 豆包手机助手采取“GUI Agent + 系统级权限”路径,通过深度系统集成获得Android系统级权限(需用户授权),可模拟用户点击、滑动、键入及跨App操作[12] - 同时借助视觉多模态能力识别屏幕、理解界面、解析意图并执行规划,自主决定下一步操作,被专家形容为“幽灵手指 + 大脑 + 决策系统”[12] - 其原生GUI视觉操作与系统底层指令模拟,与依赖无障碍服务的第三方App有本质区别,具备更强通用性、稳定性及更接近真人的执行过程[13] - 该助手在兼容性、跨App自动化执行、长链路任务处理、多任务调度等多个维度上,已展现出优于传统脚本自动化或无障碍接口方案的能力[14] 核心技术引擎:UI-TARS - 豆包手机助手的能力背后是字节跳动自研的UI-TARS系统级GUI Agent引擎,其闭源版本针对移动使用进行了大量优化,性能优于开源版本[16] - UI-TARS的发展历程:2025年1月奠定基础框架,4月发布UI-TARS-1.5(融合强化学习增强推理),9月推出UI-TARS-2将体系推进到新阶段[16] - UI-TARS通过四大关键技术构建可落地的基础能力: 1. 可扩展的数据飞轮机制:通过模型生成智能体轨迹并动态分配至不同训练阶段(如SFT、CT),形成“更好的模型产生更好的数据,更好的数据训练更强的模型”的自我强化闭环,以缓解GUI场景数据稀缺难题[17] 2. 稳定的多轮强化学习框架:针对长链场景,采用带状态保持的异步rollout、流式更新及增强版PPO算法,以解决奖励延迟和训练不稳定的问题[20] 3. 混合式GUI环境:使智能体不仅能操作屏幕,还能调用文件系统、终端等外部工具,将操作空间从纯GUI动作拓展为更高维的动作集合,突破纯GUI操作限制[21] 4. 统一沙箱平台:通过共享文件系统等创新,支持大规模、高吞吐的强化学习训练与评估,保证复杂任务的稳定性与可复现性[22] - 学界专家评价UI-TARS-2为通用GUI Agent提供了一套经过验证、可扩展的端到端基础框架,其通过大规模数据、算力与强化学习体系,补足了学术界在资源与工程实践方面的短板,是兼具工业与学术价值的规模化探索[22][23][24] 对未来手机交互与行业发展的展望 - 未来手机可能不再以独立App为中心,而是由一个“无所不能”的系统级GUI Agent自动解决问题,手机操作系统将从资源管理器进化为“意图调度器”,实现真正的AI原生,交互范式由“人找服务”转变为“服务找人”[26] - 专家认为,当“意图驱动+自动化+Agent”成为系统自带功能,系统级GUI Agent有望成为下一代手机操作系统的标配能力[26] - GUI Agent被认为是当前AI手机的实现路径之一,其操作智能水平很快可能媲美人类,其提供的“用了就回不去”的便利性,如同触屏取代实体键盘,预示着未来的发展方向[26]
起底“豆包手机”:核心技术探索早已开源,GUI Agent布局近两年,“全球首款真正的AI手机”
36氪· 2025-12-09 08:57
产品市场反响与定位 - 豆包手机首批3万台备货被一抢而空,在二手市场价格翻番,显示出极高的市场热度 [1] - 产品被用户评价为“全球第一部真正的AI智能手机”,其AI助手能跨应用自动化执行复杂任务,例如代为请假、提交差旅申请、预订高铁票等 [1][46] - 产品具备跨语言操作能力,用户无需将手机系统语言改为英语,即可直接用英语下达指令,AI助手会自动在中文应用中完成操作 [52][53] 核心技术基础:UI-TARS模型系列 - 豆包手机助手的核心是字节自研的UI-TARS模型,该模型是字节在“系统级GUI Agent”赛道布局近两年的成果 [1][3] - 初代UI-TARS模型于2025年1月由字节Seed团队与清华联手开源,性能优于当时曝光的OpenAI Operator,为系统级AI Agent奠定基础 [3][4] - 模型持续迭代,后续发布了UI-TARS-1.5和UI-TARS-2,在多项基准测试中刷新SOTA(State-of-the-Art)记录 [15][17][19] 技术架构与核心能力 - 原生Agent具备感知、动作、推理、记忆四大核心能力,UI-TARS围绕这些能力进行了关键创新 [6] - 通过大规模GUI截图数据集和五大感知任务增强GUI感知精度 [8] - 融入600万高质量GUI教程和多种推理模式,注入System-2深思型推理能力 [10] - 借助数百台虚拟机自动收集交互轨迹,通过多阶段过滤和直接偏好优化解决数据瓶颈,实现模型迭代优化 [12] 模型性能表现 - 在计算机使用基准测试OSworld(100步)中,UI-TARS-1.5得分为42.5,优于OpenAI CUA的36.4和Claude 3.7的28.0 [18] - 在GUI定位任务ScreenSpot-V2中,UI-TARS-1.5得分为94.2,优于OpenAI CUA的87.9和Claude 3.7的87.6 [19] - 在14款网页游戏测试中,UI-TARS-1.5在11款游戏中得分达到100,全面优于OpenAI CUA和Claude 3.7 [22][23] - UI-TARS-2在15款游戏集合的平均标准化得分为59.77,显著高于OpenAI CUA的24.73和Claude Computer Use的21.61,更趋近人类水平(100) [32] UI-TARS-2的技术突破 - UI-TARS-2旨在实现图形界面的自主交互,解决了数据可扩展性、多轮强化学习稳定性等四大问题 [25] - 核心技术包括可扩展的数据飞轮、稳定长时序优化的训练框架、混合GUI中心环境以及统一的沙盒平台 [25][27][28] - 模型采用532M参数视觉编码器与23B激活参数的MoE LLM架构,在多场景表现全面提升 [30] - 在LMGame-Bench中,UI-TARS-2与OpenAI o3等前沿模型竞争力相当 [33] 产品化与工程实现 - 豆包手机助手是在成熟的UI-TARS技术基础上,针对手机端做了深度定制与优化形成的产品 [35] - 工程分析显示,其视觉管道经过过滤,截屏只包含目标应用界面,基于Activity Hierarchy抓取,物理上无法监控视频通话等悬浮窗内容,保护了隐私 [41] - 系统设计了OS级虚拟化,后台有独立的Virtual Display供Agent执行任务,不与用户前台界面互相干扰,实现并行运行 [41] - 产品将Agent拆分为标准模式和Pro模式两套技术栈,标准模式依赖浅层视觉响应极快,Pro模式则进行深度推理和工具使用 [42] 安全与权限管理 - 豆包手机助手需要用户主动授权才能调用INJECT_EVENTS等系统级权限操作手机,此权限为行业AI助手提供类似服务(如语音助手定闹钟)所必需 [36] - 在遇到支付、身份验证等敏感授权时,助手会暂停任务并交由人工接管 [36] - 基于行业发展,官方主动限制了刷分、刷激励、部分游戏以及操作银行和互联网支付类APP的能力 [45] 行业影响与生态 - 相关开源项目在GitHub上已获得8.3k Star,成为最受欢迎的开源多模态智能体之一 [34][35] - 行业观点认为,该技术证明手机操作可以成为一种操作系统级的原生能力,将定义下一代AI原生手机 [53] - 该产品被视为一次技术革命,尽管目前仍是技术预览版,软件功能完善度尚有提升空间 [56][59]
起底“豆包手机”:核心技术探索早已开源,GUI Agent布局近两年,“全球首款真正的AI手机”
量子位· 2025-12-09 07:37
豆包手机市场热度与产品定位 - 首批3万台备货被一抢而空,二手市场价格翻番,显示产品市场热度极高 [1] - 产品被用户评价为“全球第一款真正的AI手机”,其核心在于将手机操作变为操作系统级的原生能力 [69][76] - 产品形态为搭载在工程样机nubia M153上的“豆包手机助手技术预览版”,能跨应用自动化执行复杂任务 [3][4] 核心技术:UI-TARS模型演进 - 豆包手机助手的图形界面操作能力建立在字节自研的UI-TARS模型基础上,该模型闭源版本针对移动端进行了大量优化 [7][8] - UI-TARS模型发展历经多个版本:今年1月开源初代模型;3个月后推出强化学习驱动的UI-TARS-1.5;今年9月发布能力更强的UI-TARS-2,为豆包手机提供关键技术支撑 [11][23][32] - 模型旨在构建具备感知、动作、推理、记忆四大核心能力的系统级AI Agent [13] 技术细节与创新 - **初代UI-TARS四大创新**:1) 使用大规模GUI截图数据集和五大感知任务增强感知精度;2) 定义了涵盖点击、滚动、输入等跨平台(Web、Mobile、Desktop)的原子动作集;3) 融入600万高质量GUI教程和多种推理模式注入深度推理能力;4) 借助数百台虚拟机自动收集交互轨迹,通过多阶段过滤和直接偏好优化解决数据瓶颈 [16][18][20] - **UI-TARS-1.5的进步**:新增强化学习驱动的推理机制,在执行前进行思考,显著提升性能与推理扩展性 [25] - **UI-TARS-2的四大突破**:1) 设计可扩展的数据飞轮实现数据与模型协同进化;2) 设计在长时序设定中稳定优化的训练框架;3) 构建混合GUI中心环境,通过SDK接入文件系统、终端等,打破纯GUI操作局限;4) 开发统一的沙盒平台管理异构环境,支撑数百万次交互的大规模训练 [35][37][39][42] 模型性能表现 - **UI-TARS-1.5基准测试成绩**:在计算机使用基准OSworld(100步)得分42.5,优于OpenAI CUA的36.4;在Windows Agent Arena(50步)得分42.1;在手机使用基准Android World得分64.2 [27] - **UI-TARS-1.5 GUI定位任务**:在ScreenSpot-V2得分94.2,在ScreenSpotPro得分61.6,均刷新SOTA [28] - **UI-TARS-1.5游戏测试**:在14款游戏测试中,UI-TARS-1.5在11款游戏上得分达到100,全面优于OpenAI CUA和Claude 3.7 [31][32] - **UI-TARS-2游戏性能**:在15款游戏的平均标准化得分为59.77,更接近人类水平(100),显著高于OpenAI CUA的24.73和Claude Computer Use的21.61 [46] - **UI-TARS-2在LMGame基准**:与前沿模型竞争,例如在Super Mario Bros得分1783.2,高于GPT-4o的1028.3,接近GPT-4.1的1991.3 [47] - 该项目在GitHub已获得8.3k Star,成为最受欢迎的开源多模态智能体之一 [47][48] 产品工程设计与隐私安全 - **权限与安全**:豆包手机助手使用INJECT_EVENTS系统级权限,需用户主动授权;遇到支付、身份验证等敏感操作会暂停任务交由人工接管 [50][51][52] - **隐私保护设计**:视觉管道经过过滤,截屏只包含目标应用界面,基于Activity Hierarchy抓取,物理上无法监控视频通话等悬浮窗内容 [56] - **后台运行机制**:Agent在后台执行长链任务时,即使前台接电话或切换App也不会被挂起,推测在OS层做了并行运行的虚拟化设计,拥有独立的Virtual Display [57] - **双模式技术栈**:豆包手机助手分为标准模式和Pro模式两套完全不同的Pipeline,标准模式依赖浅层视觉响应极快,Pro模式则进行深度推理和工具使用 [58][59][61] 实际应用体验与行业影响 - **用户体验案例**:用户可用英语直接下达复杂指令(如找人代排队、呼叫无人车),助手能自主选择应用并完成操作,无需预先设置手机语言 [69][72][75] - **能力限制**:官方已主动限制部分能力,包括限制刷分、刷激励场景,部分游戏类场景,并暂时下线操作银行、互联网支付等金融类APP的能力 [68] - **行业评价**:被评价为定义了下一代AI原生手机,展现了手机从被动操作工具向能主动理解意图、独立完成任务伙伴转变的可能性 [76][85]