Workflow
App Intents
icon
搜索文档
手机Agent的两种范式:API与GUI
国盛证券· 2025-12-07 08:24
行业投资评级 - 增持(维持)[4] 报告核心观点 - 手机Agent正推动移动交互范式从GUI(图形用户界面)向Agentic(智能体)交互跃迁,用户可通过自然语言指令完成任务,无需在不同App间手动切换[1][12] - 实现手机Agent有两条主要技术路线:API范式和GUI范式,两者各有优劣,未来可能走向融合而非单选[1][24][32] - API范式(以苹果Apple Intelligence为代表)通过标准化语义接口调用App功能,强调生态整合与隐私安全[1][12][16] - GUI范式(以智谱AutoGLM、字节豆包助手为代表)利用多模态模型视觉理解屏幕并模拟点击,通用性高但面临可靠性与隐私挑战[2][13][19] - 手机Agent的发展将引发手机厂商、大模型厂商和应用厂商之间的三方博弈,重塑移动互联网流量与商业生态[3][26] 手机Agent的两种范式 API范式 - 核心是建立标准化的语义接口,需要App开发者主动适配并暴露功能,Agent通过结构化API指挥App执行任务[1][12] - 典型代表是苹果的Apple Intelligence及其App Intents框架,旨在构建“语义互联网”[12][16] - 苹果通过提供多个“助手架构”作为标准化模板,以解决不同开发者对同一功能定义差异的问题[17] - 谷歌在安卓生态中也进行了API尝试,例如推出基于Gemini Nano模型的设备生成式AI API和Prompt API[18] GUI范式 - 核心是利用多模态模型理解屏幕UI元素,并通过系统辅助服务模拟手指的点击与滑动来操作App,不依赖开发者配合[2][13] - 典型代表包括智谱AI的AutoGLM和字节跳动的豆包手机助手[2][13] - 智谱AutoGLM 2.0已面向公众开放,可操作抖音、美团等40余款应用完成点餐、订票等任务[21] - 字节豆包手机助手是与中兴手机合作的系统级服务,通过长按侧边键唤醒,可直接获取系统底层屏幕缓冲区数据以降低延迟[22] - 谷歌Gemini 3 Pro模型在多模态理解,特别是屏幕理解任务上表现突出,在ScreenShot-Pro评测基准得分72.7%,大幅领先Claude Sonnet 4.5的36.2%和GPT 5.1的3.5%[19] 两种范式核心差异对比 - **通用性**:GUI Agent通用性显著更高,是其核心优势,不需要App开发者适配,理论上人类能用的App它都能用,解决了长尾应用覆盖问题[2][24][25] - **可靠性**:API Agent可靠性更高,只要API稳定即可保证任务完成;GUI Agent可靠性较低,原因包括模型对复杂界面识别能力未达100%(如Gemini 3 Pro得分72.7%)、多步骤操作导致失败率更高、UI改版时易失效[2][24][25] - **性能**:API Agent高效,可单次调用完成复杂任务;GUI Agent低效,完成简单任务可能需要多次截图分析和视觉推理,算力消耗大,且截图上传云端的数据量和延迟均高于API传输参数[2][24][25] - **隐私风险**:API Agent隐私风险低,应用端可进行精细的权限管理;GUI Agent隐私风险高,需要读取屏幕权限,可能暴露聊天记录、密码等敏感信息[2][24][25] - **商业阻力**:GUI Agent商业阻力极大,不经过应用厂商授权,易受到技术和法律手段封杀,如豆包手机助手操作微信时曾引发账号封禁和银行App强弹窗提醒[2][23][24][25] 商业形态演变与三方博弈 - **手机厂商**:角色从硬件售卖转向获取流量入口价值,操作系统成为用户意图的第一接收者,可能催生类似搜索广告的新竞价模式[3][26][27] - **大模型厂商**:愿景是打造跨越操作系统的超级助理App(如ChatGPT、豆包),将其他App变为自己的后端工具,并积极寻求与二线手机厂商合作(如字节与中兴)[3][26][28][30] - **应用厂商**:面临合作与防御的两难选择,一方面可能开放部分接口,另一方面为保护自身利益可能拒绝或限制Agent接入[3][26][31] - **法律与授权边界**:AI助手作为“用户授权的代理人”与平台权益之间存在法律争议,可能需要双重或多重授权[31] - **App自身Agent化**:微信明确表示最终会推出AI智能体,淘宝已通过“问问”功能尝试在App内实现自然语言导购[3][31][32] 未来展望与融合路径 - 手机Agent的发展不会是API或GUI的单选题,而是两者融合[3][32] - 对于高价值、涉及敏感数据的操作(如支付、通讯),API Agent因准确度高和隐私保护更优而更适用[3][32] - 对于只读、信息查询类需求以及API未覆盖的应用,GUI Agent通过视觉理解的方式运行更灵活通用[6][32] - 为解决GUI Agent的延迟和隐私问题,未来手机处理器预计将进一步优化视觉模型的端侧推理能力,使识别和决策在本地完成,无需上传云端[6][32] 建议关注的领域与公司 - **GUI Agent相关**:字节跳动、谷歌、阿里巴巴、中兴通讯[7][33] - **API Agent相关**:腾讯控股、阿里巴巴、谷歌[7][33] - **算力相关**:寒武纪、海光信息、中际旭创、中科曙光、浪潮信息等[7][33] - **其他Agent相关**:包括第四范式、360、金蝶国际、科大讯飞、恒生电子等[8][34] - **自动驾驶相关**:江淮汽车、赛力斯、小鹏汽车、理想汽车、地平线等[8][34] - **军工AI相关**:拓尔思、能科科技、普天科技、中科星图等[8][34]
iOS 26.1 隐藏彩蛋曝光,苹果给 ChatGPT 们造了个新「C 口」
36氪· 2025-09-28 00:33
iOS 26系统更新与市场反应 - iOS 26正式版上线后用户评价两极分化,部分用户认为视觉体验提升,另一部分用户则抱怨系统存在过多bug且电池续航能力直线下降[1] - 苹果公司几天前推送了iOS 26.1开发者测试版,重点优化了液态效果和UI细节[1] MCP协议的技术整合与行业影响 - 在iOS 26.1、iPadOS 26.1和macOS Tahoe 26.1开发者测试版的隐藏代码中,发现苹果正为App Intents引入MCP支持打基础[3] - MCP全称为Model Context Protocol,由Anthropic于去年11月提出,旨在通过标准化协议解决AI模型与外部工具或数据源集成的N x M难题,成为AI领域的通用协议[4] - MCP协议已被Notion、Google、Figma、OpenAI等公司和平台陆续接入,成为行业通用插口,其本质是解决模型或外部服务与系统安全对话的问题,不局限于AI场景[6] - 苹果公司并非让每个应用单独支持MCP,而是构建一个直接集成在App Intents框架中的系统级MCP支持,使外部AI能通过此现成通道与系统交互[8] 未来应用场景与系统架构优势 - 未来用户可通过ChatGPT等AI模型发出指令,模型调用MCP将指令标准化,iPhone系统再通过App Intents识别并调用应用接口完成操作,实现无需手动切换应用的无缝体验[9][11] - 系统级整合使苹果能直接享用行业围绕MCP建设的工具生态,同时通过自家严格审查的App Intents框架强制执行隐私安全标准,保证用户体验一致性[11] - 与AI Key等硬件外挂相比,系统层面的调度机制被认为是更可规模化、更务实且具备长远价值的解决方案[12] 苹果公司的战略转向与行业定位 - 苹果公司近年开放姿态明显,在AI领域不再执念于全栈自研,而是主动拥抱外部模型,为系统预留灵活的接入入口,内部曾就自研与合作路线进行激烈争论[13] - 行业长期将走向分层竞争,平台型公司的最优解是通过集成不同供应商的模型实现风险分散、成本优化和择优使用,微软集成Anthropic的Claude模型进入Microsoft 365 Copilot即为典型案例[15] - 苹果已将Google Gemini和Anthropic Claude列入下一代Siri与系统级AI的候选名单,延续其熟悉的平台治理逻辑,即制定标准与规则,第三方在规则内创新[15][17] - 通过MCP协议,苹果将外部AI模型转化为供应商,自身则处于分发渠道和规则制定者的位置,这与其推出App Store、CarPlay、HealthKit等平台策略一脉相承[18][19]
苹果原来在“憋大招”,Siri要改变你用iPhone的方式
36氪· 2025-08-14 00:05
苹果AI战略布局 - 公司CEO库克强调把握AI革命机遇 指出公司历史上并非最早进入新兴技术领域但最终取得市场成功 [1] - 公司即将推出基于Apple Intelligence的新版Siri 具备跨应用语音控制能力 用户可通过自然语言指令直接操作iPhone上绝大部分应用 [3] - 新版Siri通过App Intents接口实现功能 无需预设指令即可执行"在应用中搜索内容"等复杂操作 [3][6] Siri技术升级 - 新版Siri与iOS 12快捷指令存在本质区别 前者赋予等同用户权限 后者仅限预设自动化操作 [6] - 技术突破关键在于iOS 16引入的App Intents框架成熟 实现应用功能模块化解耦 包括意图/实体/快捷指令三组件 [8] - 模块化设计使Siri能理解不同应用功能 解决跨应用用户体验一致性难题 类似技术谷歌通过Android App Bundle同步推进 [8] 行业竞争格局 - 国内手机厂商AI功能局限在单应用场景 无法实现跨应用操作 主因系统底层缺乏跨应用数据共享机制 [9] - 苹果个性化Siri定位为通用智能体 可驱动除健康/银行外几乎所有应用 形成与Android阵营场景化AI的差异化竞争 [11] - 公司生态优势体现在硬件矩阵协同 计划将语音交互扩展至Apple Watch/Vision Pro/桌面机器人等全系产品 [11] 技术挑战与策略 - 跨应用操作存在"上下文断裂"技术瓶颈 需协调开发者并改造系统底层架构 [9] - 公司选择延迟发布以追求技术突破 而非推出功能有限的过渡产品 [13] - 语音交互被定位为统一硬件生态的核心交互方式 与智能家居战略形成协同 [11]
有嘴就行?Siri 又画大饼了,明年让你解放双手用 iPhone……
36氪· 2025-08-12 07:22
人机交互技术演进 - iPhone革命性引入多点触控屏幕 触控成为过去18年电子设备主要交互方式[2] - 苹果认为触控不足 已在Vision Pro上实现基于视觉识别的纯手势交互方案[2] - 近期证据显示苹果正开发基于Siri的纯语音交互方案[2] Siri语音交互新架构 - 苹果专家Mark Gurman预测 2026年AI Siri将通过增强App Intents实现纯语音操作iPhone[4] - 2024年WWDC展示过Siri跨应用收集信息场景 但因技术未实现而下架广告[6] - Siri团队采用双轨架构调整 老架构维护旧功能 新架构整合内外部大模型用于agent功能[6] App Intents技术框架 - App Intents是面向开发者的系统功能框架 2022年iOS 16首次推出并取代SiriKit Intents[8] - 该框架为app功能创建系统级快捷通道 整合至Siri、聚焦搜索和捷径等系统功能[12] - 目前仅支持三大调用入口:Siri、聚焦搜索和捷径 其中捷径使用频率最高[16] 技术实现路径 - 第一步加强App Intents调用范围 可能通过新API让系统直接读取app功能列表[18] - 第二步利用端侧模型将自然语言指令转换为App Intents组合指令[18] - 预计2026年春季发布会推出 可实现多步骤自动化操作如照片处理及跨应用发送[18] 应用场景与产品扩展 - 纯语音交互将优先落地iPhone 但主要受益者包括Apple Watch、HomePod及AR设备[20] - 智能家居中控屏和桌面机器人等新产品形态更适合该交互方案[20] - 该组合拳形成全新交互系统 既服务无障碍用户又支撑新产品形态[22] 行业技术对比 - 华为HarmonyOS拥有类似技术Intents Kit 连接系统入口与app/元服务内部功能[14] - 苹果方案目前覆盖app数量有限 需依赖开发者主动编写框架[18]
有嘴就行?Siri又画大饼了,明年让你解放双手用iPhone
虎嗅· 2025-08-12 06:42
苹果人机交互技术演进 - 公司认为触控交互方式已不足够,正探索下一代交互方案 [2] - 公司已在Vision Pro上实现基于视觉识别的纯手势交互,是当前AR设备中无感方案 [3] - 近期证据表明公司正开发基于Siri的纯语音交互方案 [4] AI Siri与App Intents整合计划 - 彭博社预测推迟至2026年的AI Siri将通过加强App Intents实现纯语音操作iPhone [5] - 新架构Siri实现复杂功能需对App Intents进行史诗级加强 [7] - App Intents是2022年iOS 16推出的开发者框架,用于创建app功能快捷通道并整合至系统级功能 [7][13] App Intents功能现状 - 当前仅支持Siri、聚焦搜索和捷径三个系统入口调用App Intents [18] - 因Siri能力不足和聚焦搜索用户少,捷径成为最高频的App Intents调用方式 [19] - 现有App Intents覆盖app数量有限,需开发者主动编写 [21] 未来交互方案实施路径 - 第一步加强App Intents调用范围,可能通过新建API让系统直接读取app功能列表 [21] - 第二步利用端侧AI模型将自然语言指令转换为依次调用App Intents的组合 [22] - 预测2026年春季发布会推出新AI Siri+App Intents组合,实现复杂语音自动化操作 [23] 新交互方案应用场景 - 纯语音交互方案将优先在iPhone落地,但主要受益者包括Apple Watch、HomePod、智能家居中控屏和AR设备 [25][26] - 该组合拳是利于无障碍用户和新产品形态的全新交互系统 [27]