手机Agent
搜索文档
AutoGLM深夜开源,千千万万个手机Agent要站起来了。
数字生命卡兹克· 2025-12-09 01:20
智谱开源AutoGLM事件 - 智谱公司于深夜将其手机Agent框架AutoGLM开源 此次开源内容包括Phone Agent框架和AutoGLM-Phone-9B模型 [1][2] - 该框架是手机Agent领域的先驱 于2023年10月25日在CNCC大会上首次发布 经过32个月的研发后开源 [3][5] - 此次开源被视作在豆包手机助手被全面封禁的背景下 为技术世界增添新动力的举措 [5] 开源AutoGLM的技术方案与现状 - 开源方案提供了三种部署模式以解决当前手机端算力不足与隐私保护的矛盾 本地部署隐私性最高 数据不离开设备 云端部署需开发者自行确保安全 混合部署则结合本地与云端优势 [6] - 当前开源的AutoGLM并非系统级助手 不支持后台虚拟屏运行 且受本地模型限制 速度较慢 智能程度有限 [6][7][8] - 该框架目前大约支持50个应用程序 [9] - 安装和使用过程较为复杂 主要面向开发者而非普通用户 [6] 开源AutoGLM的行业意义与历史类比 - 此次开源是当前市场上为数不多的完全开源手机Agent方案 荣耀YOYO智能助手曾使用AutoGLM技术 [11] - 开源可能引发类似Stable Diffusion和LLaMA模型泄漏后的行业效应 即一个开源模型催生出大量应用和变体 成为行业基础设施 [13] - 此举被类比于Linux、安卓、Arduino和树莓派等开源硬件软件的历史 它们通过开放生态从巨头手中撬动市场 激发普通人的创造力 [14][15][16][17][18] - 开源可能改变“入口”的定义 未来入口可能不再是某个公司的APP 而是用户自己部署的本地Agent [19] 对AI助手未来的展望 - 未来十年 人们可能会习惯身边有长期伴随的AI助手 帮助处理起床、行程安排和信息过滤等任务 [24][25] - 技术发展也可能带来过度外包记忆、判断和品味的风险 进而可能引发新的“数字极简主义”潮流 [26][27][28] - 技术本身不替人类做价值选择 只是提供更多可能性 最终如何生活取决于人类自身的选择 [29] - 当前时代是AI技术发展的灿烂起点 集体意志将由豆包封禁、AutoGLM开源以及个人选择共同塑造 [29][30]
手机Agent的两种范式:API与GUI
国盛证券· 2025-12-07 08:24
行业投资评级 - 增持(维持)[4] 报告核心观点 - 手机Agent正推动移动交互范式从GUI(图形用户界面)向Agentic(智能体)交互跃迁,用户可通过自然语言指令完成任务,无需在不同App间手动切换[1][12] - 实现手机Agent有两条主要技术路线:API范式和GUI范式,两者各有优劣,未来可能走向融合而非单选[1][24][32] - API范式(以苹果Apple Intelligence为代表)通过标准化语义接口调用App功能,强调生态整合与隐私安全[1][12][16] - GUI范式(以智谱AutoGLM、字节豆包助手为代表)利用多模态模型视觉理解屏幕并模拟点击,通用性高但面临可靠性与隐私挑战[2][13][19] - 手机Agent的发展将引发手机厂商、大模型厂商和应用厂商之间的三方博弈,重塑移动互联网流量与商业生态[3][26] 手机Agent的两种范式 API范式 - 核心是建立标准化的语义接口,需要App开发者主动适配并暴露功能,Agent通过结构化API指挥App执行任务[1][12] - 典型代表是苹果的Apple Intelligence及其App Intents框架,旨在构建“语义互联网”[12][16] - 苹果通过提供多个“助手架构”作为标准化模板,以解决不同开发者对同一功能定义差异的问题[17] - 谷歌在安卓生态中也进行了API尝试,例如推出基于Gemini Nano模型的设备生成式AI API和Prompt API[18] GUI范式 - 核心是利用多模态模型理解屏幕UI元素,并通过系统辅助服务模拟手指的点击与滑动来操作App,不依赖开发者配合[2][13] - 典型代表包括智谱AI的AutoGLM和字节跳动的豆包手机助手[2][13] - 智谱AutoGLM 2.0已面向公众开放,可操作抖音、美团等40余款应用完成点餐、订票等任务[21] - 字节豆包手机助手是与中兴手机合作的系统级服务,通过长按侧边键唤醒,可直接获取系统底层屏幕缓冲区数据以降低延迟[22] - 谷歌Gemini 3 Pro模型在多模态理解,特别是屏幕理解任务上表现突出,在ScreenShot-Pro评测基准得分72.7%,大幅领先Claude Sonnet 4.5的36.2%和GPT 5.1的3.5%[19] 两种范式核心差异对比 - **通用性**:GUI Agent通用性显著更高,是其核心优势,不需要App开发者适配,理论上人类能用的App它都能用,解决了长尾应用覆盖问题[2][24][25] - **可靠性**:API Agent可靠性更高,只要API稳定即可保证任务完成;GUI Agent可靠性较低,原因包括模型对复杂界面识别能力未达100%(如Gemini 3 Pro得分72.7%)、多步骤操作导致失败率更高、UI改版时易失效[2][24][25] - **性能**:API Agent高效,可单次调用完成复杂任务;GUI Agent低效,完成简单任务可能需要多次截图分析和视觉推理,算力消耗大,且截图上传云端的数据量和延迟均高于API传输参数[2][24][25] - **隐私风险**:API Agent隐私风险低,应用端可进行精细的权限管理;GUI Agent隐私风险高,需要读取屏幕权限,可能暴露聊天记录、密码等敏感信息[2][24][25] - **商业阻力**:GUI Agent商业阻力极大,不经过应用厂商授权,易受到技术和法律手段封杀,如豆包手机助手操作微信时曾引发账号封禁和银行App强弹窗提醒[2][23][24][25] 商业形态演变与三方博弈 - **手机厂商**:角色从硬件售卖转向获取流量入口价值,操作系统成为用户意图的第一接收者,可能催生类似搜索广告的新竞价模式[3][26][27] - **大模型厂商**:愿景是打造跨越操作系统的超级助理App(如ChatGPT、豆包),将其他App变为自己的后端工具,并积极寻求与二线手机厂商合作(如字节与中兴)[3][26][28][30] - **应用厂商**:面临合作与防御的两难选择,一方面可能开放部分接口,另一方面为保护自身利益可能拒绝或限制Agent接入[3][26][31] - **法律与授权边界**:AI助手作为“用户授权的代理人”与平台权益之间存在法律争议,可能需要双重或多重授权[31] - **App自身Agent化**:微信明确表示最终会推出AI智能体,淘宝已通过“问问”功能尝试在App内实现自然语言导购[3][31][32] 未来展望与融合路径 - 手机Agent的发展不会是API或GUI的单选题,而是两者融合[3][32] - 对于高价值、涉及敏感数据的操作(如支付、通讯),API Agent因准确度高和隐私保护更优而更适用[3][32] - 对于只读、信息查询类需求以及API未覆盖的应用,GUI Agent通过视觉理解的方式运行更灵活通用[6][32] - 为解决GUI Agent的延迟和隐私问题,未来手机处理器预计将进一步优化视觉模型的端侧推理能力,使识别和决策在本地完成,无需上传云端[6][32] 建议关注的领域与公司 - **GUI Agent相关**:字节跳动、谷歌、阿里巴巴、中兴通讯[7][33] - **API Agent相关**:腾讯控股、阿里巴巴、谷歌[7][33] - **算力相关**:寒武纪、海光信息、中际旭创、中科曙光、浪潮信息等[7][33] - **其他Agent相关**:包括第四范式、360、金蝶国际、科大讯飞、恒生电子等[8][34] - **自动驾驶相关**:江淮汽车、赛力斯、小鹏汽车、理想汽车、地平线等[8][34] - **军工AI相关**:拓尔思、能科科技、普天科技、中科星图等[8][34]
智谱AutoGLM 2.0再升级:全球首个手机Agent 人人可用
凤凰网· 2025-08-20 06:35
产品核心升级 - 智谱AI宣布AutoGLM 2.0再次升级,亮点包括全球首个手机Agent,人人可用 [1] - 开创Agent+云手机/云电脑的新技术范式,不抢占用户手机和电脑资源 [1] - 突破硬件限制,可在任何设备、任何场景下运行,帮助用户代理操作 [1] - 由国产模型GLM-4.5和GLM-4.5V驱动,具备推理、代码与多模态的全能能力 [1] 技术能力突破 - 过去的AI多停留在"对话"层面,一般的智能体助手多局限于信息查询和总结 [1] - AutoGLM 2.0不再只是"说",而是真正能够"做",实现操作执行 [1] 应用场景覆盖 - 在生活场景中,用户只需一句话,AutoGLM即可操作美团、京东、小红书、抖音等几十个高频应用 [1] - 在办公场景中,能跨网站执行全流程工作,操作网页版的飞书、网易邮箱、知乎、微博等网站 [1] - 功能覆盖从信息检索到内容撰写,再到生成视频、PPT或播客,并直接完成社交媒体平台内容发布 [1]