苹果Siri与智能代理发展现状 - 苹果预计在2026年推出支持自主行动的Siri升级版 旨在实现跨应用任务执行和智能助理体验[2] - 目前苹果尚未发布完整落地的执行型Agent Siri语音交互持续进化但缺乏复杂任务操作能力[2] - 技术安全性和生态要求极高 用户设想的"一句话指令"场景仍需数年实现[2] 智谱AutoGLM 2.0核心突破 - 8月20日发布全球首个手机端Agent 开创"Agent+云手机/云电脑"技术范式[3][4] - 突破硬件限制 通过云端部署实现任何设备场景下的代理操作[4] - 实现从"说"到"做"的质变 支持操作美团京东小红书抖音等数十个高频应用[6] 技术架构与成本优势 - 采用云端方案解决本地设备抢占屏幕安卓系统差异和关机无法运行等问题[8] - 单个任务平均消耗超过256K Token 是传统Chatbot(8K)的32倍[8] - 完全基于国产模型 成本比海外模型方案降低一个数量级[8] - Deep Research任务单次成本约0.2美元(约1元人民币) 远低于Claude API的3-5美元[9] 性能表现与基准测试 - Device Use基准测试中表现优于主流Agent:OSWorld达48.1% ChatGPT Agent为42.9%[10] - Browser Use在WebVoyager达87.7% 移动端AndroidWorld达75.8%[10] - 由GLM-4.5语言模型和GLM-4.5V视觉模型驱动 结合端到端异步强化学习新方法[10] 强化学习框架特性 - MobileRL提升移动端GUI任务推理能力 AUTOGLM-Mobile-9B在AndroidWorld成功率75.8%[11] - ComputerRL采用API-GUI范式 在OSWorld基准测试实现48.1%准确率[13] - 模型自主决策而非固定流程 能适应环境变化并理解自然语言指令[11] 行业生态变革与机遇 - 手机OEM厂商成为重要切入点 未来设备将存在多个AI Agent形成多生态共存[14] - Meta腾讯字节等科技公司通过AI代理强化生态闭环 可能颠覆移动应用分发格局[16] - 智谱通过为OEM提供解决方案 帮助厂商在AI时代重新掌握用户入口[16] 技术挑战与隐私考量 - 手机AI Agent存在任务成功率偏低瓶颈 移动设备涉及银行健康记录等敏感信息[17] - 需确保行为可控和隐私安全 大模型需理解操作后果及暂停时机[18][21] - 人类行为复杂且依赖情境 机器处理需考虑点击背后的人类含义[21]
首个为手机而生的通用Agent?!苹果做不到的事,“野路子”智谱抢先实现了