四小时他做出了豆包手机平替“肉包”

行业核心事件与产品动态 - 字节跳动与中兴通讯联合推出的“豆包AI手机”（努比亚M153工程样机）于12月限量发售，开售后迅速售罄，二手平台成交价一度接近发售价的两倍[1] - 豆包手机助手展示了跨应用自动比价、订票、智能管家等功能，但很快被微信、淘宝、美团及多家银行类App限制登录或禁止AI操作[1] - 产品经理出身的投资人李云龙在豆包手机引发震动后，自行开发了类似产品“肉包”，该项目在开源社区GitHub上星标数持续攀升，获得大量开发者关注[1] AI手机助手的技术实现与门槛 - “肉包”项目的初版开发仅耗时四小时，其中99%的代码由AI生成，开发者仅写了约十行代码[3] - 开发过程调用了包括Claude、ChatGPT在内的六款AI助手，分别负责UI设计、前端开发、后端逻辑与测试部署[3] - “肉包”核心原理是通过高权限工具截取屏幕画面，利用多模态大模型识别界面元素，再结合模拟点击、滑动等操作实现对手机应用的自动化控制[3] - 该工具采用多智能体架构，包含管理者、执行者、反思者和记录者等角色，使AI具备从错误中学习的能力[3] - 技术门槛并不高，真正的挑战在于模型优化、数据标注、系统权限获取以及可持续的商业模式[2] 行业竞争格局与开源生态 - 在豆包手机被主流App封禁后，智谱开源了“会操作手机的AI”AutoGLM，阿里也发布了同类开源项目Mobile Agent[4] - 阿里Mobile Agent和智谱AutoGLM（开源版）均需连接电脑作为中转，而“肉包”则完全运行于手机本地，降低了用户使用门槛[4] - 豆包手机问世前，荣耀已在发布会上演示过AI操控手机的能力，例如“一句话点咖啡”的场景[4] - 各大厂纷纷推出内置AI服务，如腾讯的“元宝”、美团的“小美”、字节跳动的“豆包”、阿里的“夸克”和“通义千问”，形成“围墙花园”[9] 性能瓶颈与核心技术壁垒 - “肉包”在演示中执行“在B站搜索关键词视频并点赞”任务时，整个流程耗时2分54秒，而豆包手机预计只需十几秒[6] - 性能瓶颈源于“肉包”底层依赖阿里通义千问VL通用大模型，每一步操作都需要上传整屏截图至云端进行分析，导致响应迟缓[6] - 豆包手机体验流畅得益于其“封闭性”：仅适配单一机型努比亚M153，聚焦国内几十个高频App，通过深度标注与专属模型实现精准控制[6] - 数据标注是提升效率的关键，豆包手机投入重金对主流App进行了人工标注，而“肉包”及大多数开源项目缺乏标注资源[6] - 据估算，若要将“肉包”训练至媲美豆包手机助手的水平，至少需要300万元投入和三到四个月时间[7] 商业利益冲突与平台封禁 - 大厂封禁AI助手（如微信、淘宝、美团封禁豆包手机和“肉包”）是因为其行为模式被识别为非人类操作，且不愿开放接口[8] - 封禁本质上是出于商业利益考量，AI助手会直接冲击平台依赖“用户打开App—浏览页面—点击广告”构建的传统流量变现模型[8] - 360集团创始人周鸿祎指出，AI助手让用户无须浏览首页、观看广告即可直达目标，直接冲击了传统流量逻辑[8] - 一旦AI助手试图成为跨平台的“超级入口”，便直接威胁到了现有利益格局，这解释了豆包手机在接入微信、淘宝时遭遇抵制的原因[9] 行业面临的深层挑战 - 手机操作权限与安全之间存在矛盾，手机厂商对用户隐私和品牌声誉高度敏感，不敢贸然开放系统底层权限[10] - 一旦开放权限给AI，也意味着黑灰产和诈骗者可能利用这些接口[10] - 理想的路径是由手机厂商作为整合者，与头部App达成授权合作，在系统底层预留安全可控的AI代理接口[10] - AI手机助手的终极障碍是责任界定，目前豆包手机助手和“肉包”均在支付及其他关键环节强制用户二次确认，将最终决策权留给人类以规避责任纠纷[11] - 法律人士指出，对于涉及敏感信息的App，监管部门应对AI代操作系统、使用App的行为作出必要限制，例如严禁授予AI操纵财产的权限[11]