Workflow
荣耀MagicOS 9.0的YOYO智能体
icon
搜索文档
豆包“撕裂”AI手机
投中网· 2025-12-13 06:49
文章核心观点 - 豆包手机(努比亚M153技术预览版工程机)作为一款由大模型公司主导、通过系统级AI Agent重构操作系统的AI手机,其激进的技术路线和强大的通用任务能力引发了行业震动,并因触及现有移动生态的边界而与传统互联网平台发生冲突,标志着AI手机赛道两条主要技术路线的正面碰撞,加速了行业对下一代“超级入口”的争夺与重构 [6][7][22] 1. 豆包手机的产品表现与市场反响 - 豆包手机(努比亚M153技术预览版工程机)并非正式产品,是豆包与中兴旗下努比亚联合开发的AI手机技术预览版,豆包手机助手被深度嵌入操作系统 [6] - 产品在二手市场价格飙升,原价3499元的手机一度被炒至3.6万元,显示出市场的高度关注与分歧情绪 [6] - 产品功能强大,可执行跨应用连续操作,如在B站答题、在多邻国打卡、跨平台比价下单,被评价为“像人一样玩手机” [6] - 产品同时存在频繁“死机”、任务中断及隐私担忧等问题,导致大量用户保持观望 [6] 2. AI手机行业的技术路线分野 - 行业存在两条主要技术路线:一条是以传统手机厂商为代表的“软硬一体”渐进式AI升级;另一条是由大模型公司主导、通过系统级AI Agent重构操作系统的跳跃式路径,豆包手机属于后者 [7] - 2025年之前,行业普遍采用传统方案,即AI助手通过APP的SDK接口执行任务,高度依赖接口开放程度,早期语音助手如Siri、小爱同学属于此类 [9] - 当前主要方案是基于GUI Agent(图形用户界面智能体),由大模型直接识别屏幕内容并模拟人类手势操作,无需调用SDK接口,但通常需要获取系统级权限,豆包手机是典型代表 [9] - 豆包手机的技术原理是基于视觉语言模型方案,通过读取屏幕权限进行操作,该方案在行业中已有实践,并非突破性创新 [10] - 豆包手机的突出之处在于其通用任务能力,能自主进行信息检索、调用陌生APP并规划复杂任务(如结合地图应用判断会议延迟是否影响接孩子),试图构建不依赖预设场景的通用智能体,而多数厂商的AI功能仍局限于有限场景的自动化 [11] 3. 引发的冲突与核心挑战 - 豆包手机的“跨应用连续操作”能力触及了现有移动生态的边界,导致微信、支付宝、淘宝等超级APP对其自动化操作采取了技术性“封堵”,限制登录或禁止AI操作 [14] - 冲突核心在于操作权限的判定标准差异:APP端的风控机制监测到非人为操作(如利用Android的INJECT_EVENTS权限模拟输入)会触发保护;而AI方则认为这是用户授权下的人机协同 [15] - 基于GUI Agent的技术路径面临三项核心用户体验挑战:隐私安全、结果“幻觉”与执行效率 [16] - 隐私安全方面,AI执行任务时需将必要页面信息上传云端推理,但通常不会全程全量上传屏幕数据;通过功耗表现推测,AI并非“24小时窥屏”,而是“按需触发”;支付等敏感环节会中断流程由用户手动确认 [16][17][18] - “幻觉”问题指AI错误理解或执行任务,例如错误筛选商品或勾选错误商品,行业共识是在现有技术下追求100%准确率不现实 [19] - 执行效率上,AI完成复杂任务(如跨应用比价)需耗时数分钟,远慢于人工,主要因需等待界面完全加载稳定后才能识别操作,且受主流应用技术限制,实际可用范围受限 [19] 4. AI手机的战略意义与竞争格局 - AI手机赛道正成为科技公司争夺AI时代“超级入口”的核心战场,新的入口将从“用户主动点开应用”转向“智能体自动代办”,掌握入口意味着掌握用户注意力与数据流动主导权 [22] - 相比AI眼镜、耳机、智能汽车或机器人,手机拥有庞大的用户基数、极高使用频次和成熟生态,是AI时代最现实的超级入口载体 [22] - 当前大多数“AI手机”体验未达颠覆性,整体处于探索期;豆包手机的出现迫使各大科技公司重新审视布局 [23] - 竞争格局可划分为三个梯队:第一梯队是垂直整合能力极强的系统级厂商(苹果、谷歌、华为、三星),拥有从芯片到操作系统的全栈架构,能定义新标准但步伐稳健 [24] - 第二梯队是拥有大模型与服务生态的软实力企业(微软、OpenAI、字节跳动等),战略是“以软赋硬”,通过与硬件厂商合作集成模型,但需解决操作权限问题 [25] - 第三梯队是具备规模与硬件经验的终端制造商(小米、OPPO、vivo、荣耀等),优势在于硬件设计、供应链、快速响应市场,可将AI功能快速普及至中低端机型 [26] - 行业最终胜出者必须在开放生态与安全控制之间找到新平衡,博弈远未停止,演进速度将加快 [26]