行业核心事件与产品动态 - 字节跳动与中兴通讯联合推出的“豆包AI手机”(努比亚M153工程样机)于12月限量发售,开售后迅速售罄,二手平台成交价一度接近发售价的两倍[1] - 豆包手机助手展示了跨应用自动比价、订票、智能管家等功能,但很快被微信、淘宝、美团及多家银行类App限制登录或禁止AI操作[1] - 产品经理出身的投资人李云龙在豆包手机引发震动后,自行开发了类似产品“肉包”,该项目在开源社区GitHub上星标数持续攀升,获得大量开发者关注[1] AI手机助手的技术实现与门槛 - “肉包”项目的初版开发仅耗时四小时,其中99%的代码由AI生成,开发者仅写了约十行代码[3] - 开发过程调用了包括Claude、ChatGPT在内的六款AI助手,分别负责UI设计、前端开发、后端逻辑与测试部署[3] - “肉包”核心原理是通过高权限工具截取屏幕画面,利用多模态大模型识别界面元素,再结合模拟点击、滑动等操作实现对手机应用的自动化控制[3] - 该工具采用多智能体架构,包含管理者、执行者、反思者和记录者等角色,使AI具备从错误中学习的能力[3] - 技术门槛并不高,真正的挑战在于模型优化、数据标注、系统权限获取以及可持续的商业模式[2] 行业竞争格局与开源生态 - 在豆包手机被主流App封禁后,智谱开源了“会操作手机的AI”AutoGLM,阿里也发布了同类开源项目Mobile Agent[4] - 阿里Mobile Agent和智谱AutoGLM(开源版)均需连接电脑作为中转,而“肉包”则完全运行于手机本地,降低了用户使用门槛[4] - 豆包手机问世前,荣耀已在发布会上演示过AI操控手机的能力,例如“一句话点咖啡”的场景[4] - 各大厂纷纷推出内置AI服务,如腾讯的“元宝”、美团的“小美”、字节跳动的“豆包”、阿里的“夸克”和“通义千问”,形成“围墙花园”[9] 性能瓶颈与核心技术壁垒 - “肉包”在演示中执行“在B站搜索关键词视频并点赞”任务时,整个流程耗时2分54秒,而豆包手机预计只需十几秒[6] - 性能瓶颈源于“肉包”底层依赖阿里通义千问VL通用大模型,每一步操作都需要上传整屏截图至云端进行分析,导致响应迟缓[6] - 豆包手机体验流畅得益于其“封闭性”:仅适配单一机型努比亚M153,聚焦国内几十个高频App,通过深度标注与专属模型实现精准控制[6] - 数据标注是提升效率的关键,豆包手机投入重金对主流App进行了人工标注,而“肉包”及大多数开源项目缺乏标注资源[6] - 据估算,若要将“肉包”训练至媲美豆包手机助手的水平,至少需要300万元投入和三到四个月时间[7] 商业利益冲突与平台封禁 - 大厂封禁AI助手(如微信、淘宝、美团封禁豆包手机和“肉包”)是因为其行为模式被识别为非人类操作,且不愿开放接口[8] - 封禁本质上是出于商业利益考量,AI助手会直接冲击平台依赖“用户打开App—浏览页面—点击广告”构建的传统流量变现模型[8] - 360集团创始人周鸿祎指出,AI助手让用户无须浏览首页、观看广告即可直达目标,直接冲击了传统流量逻辑[8] - 一旦AI助手试图成为跨平台的“超级入口”,便直接威胁到了现有利益格局,这解释了豆包手机在接入微信、淘宝时遭遇抵制的原因[9] 行业面临的深层挑战 - 手机操作权限与安全之间存在矛盾,手机厂商对用户隐私和品牌声誉高度敏感,不敢贸然开放系统底层权限[10] - 一旦开放权限给AI,也意味着黑灰产和诈骗者可能利用这些接口[10] - 理想的路径是由手机厂商作为整合者,与头部App达成授权合作,在系统底层预留安全可控的AI代理接口[10] - AI手机助手的终极障碍是责任界定,目前豆包手机助手和“肉包”均在支付及其他关键环节强制用户二次确认,将最终决策权留给人类以规避责任纠纷[11] - 法律人士指出,对于涉及敏感信息的App,监管部门应对AI代操作系统、使用App的行为作出必要限制,例如严禁授予AI操纵财产的权限[11]
四小时 他做出了豆包手机平替“肉包”
中国经营报·2025-12-17 09:00