Workflow
系统级Agent
icon
搜索文档
豆包手机引发的思考:AgentVS超级App,AI公司VS手机厂商
新财富· 2025-12-16 08:22
文章核心观点 - 字节跳动推出的豆包手机助手技术预览版,通过系统级GUI Agent实现了跨应用自动操作,标志着AI手机从“以App为中心”向“以用户意图为中心”的范式转变,并引发了与超级App的生态冲突 [5][8] - 系统级Agent与超级App内Agent代表了两种不同的技术路线和商业模式,其核心冲突在于对用户意图入口和操作权限的争夺,行业可能走向重新划分权力边界的共存方案 [14][17] - 字节跳动率先推出豆包手机,是其寻找新增长入口、绕开阿里腾讯既有优势的战略实验,而华为、小米、三星、苹果等手机厂商基于各自的软硬件生态,采取了不同的Agent发展策略 [20][22] 豆包手机的突破性意义 - 技术演进:GUI Agent从依赖固定脚本的“不可理解”阶段,发展到2024年基于多模态视觉识别的“可理解”阶段,并在2025年随着OpenAI Operator等产品的推出走向实用化 [6][7] - 机制突破:豆包手机依托INJECT_EVENTS等系统级权限,实现了无需App开放API即可“看懂”屏幕并操作,其核心在于操作系统层面的高权限,而非模型本身 [8] - 优势体现:任务组织方式从“用户选App再操作”变为“Agent解析用户总任务并调度多个App完成”,理论上具有平台中立性,能缓解跨App流程割裂、操作链条过长等问题 [10][11] - 现状与挑战:当前仍处于“可用但早期”的工程机阶段,复杂链路执行效率、界面变化适应性有待提升,且用户对高权限Agent的隐私与安全存在顾虑 [13] 系统级Agent和超级App的冲突 - 路线对立:冲突本质是“操作系统+App+系统级Agent”与“超级应用+小程序+应用内Agent”两条路线的正面相遇,争夺用户意图的“总入口”地位 [14] - 超级App的反制:微信、支付宝、淘宝等超级App通过屏蔽、风控、人机验证等手段,旨在守住“账号由我监管、入口由我解释”的边界 [3][15] - 未来格局:中长期看,双方可能重新划分权力边界,形成分工合作,系统级Agent负责通用意图理解和基础编排,超级App则在高价值场景内提供标准化接口,形成新的“共存方案” [17] - 模式对比:操作系统+App模式优势在于复用现有生态、培养用户习惯,但模型通用性、本地算力、隐私保护要求高;超级应用+Agent模式优势在于云端统一运行、场景精准,但需重建以超级App为核心的生态 [18] 主要厂商在Agent方面的进展 - 华为:采用自研鸿蒙OS+自研大模型,将小艺深度写入系统,向“AI native OS”演进,致力于打造系统级、跨终端(手机、车机、穿戴、家居)的统一Agent [22][23][25] - 小米:路径是“系统助手+生态助手”结合,在HyperOS中整合AI能力,小爱同学叠加大模型,重点强化手机与AIoT设备之间的协同,打造人车家一体场景 [22][23][25] - 三星:深度绑定Google,以Google Gemini为核心打造Galaxy AI,自身侧重硬件与体验打磨,在安卓阵营中做Gemini的最佳载体 [22][24][25] - 苹果:坚持软硬一体,iOS 18的Apple Intelligence是唯一官方全局Agent(新Siri),第三方模型(如ChatGPT)只能作为可选插件接入,强调本地推理与隐私保护 [22][24][25] - 字节跳动:推出豆包手机是“重构入口的实验”,战略意图在于通过“硬件+AI模型+新入口”的组合,绕开阿里、腾讯的既有优势,寻找新增量 [20][21]