API范式
搜索文档
普京年度记者会:愿谈判结束俄乌冲突;“数十万份”爱泼斯坦案文件将公布;美军大规模空袭叙利亚境内“伊斯兰国”目标 | 一周国际财经
每日经济新闻· 2025-12-20 16:40
AI手机技术路线分野 - 字节跳动联合中兴努比亚推出“豆包手机”nubia M153,并正与vivo、联想、传音等厂商推进AI手机合作,其技术核心是GUI(图形用户界面)多模态大模型与系统级权限深度绑定,使AI助手能通过读屏、模拟点击等方式操作各款App,完成跨应用复杂任务[3][5][7] - 以苹果、谷歌为主导的海外阵营坚持API(应用程序接口)标准化路线,通过构建底层框架与标准化接口让AI调用应用功能,此模式稳定且保障隐私,但需要应用开发者主动配合,生态构建周期更长,进展相对迟缓[3][5][12][13] - 市场调查机构Canalys报告显示,全球AI手机出货占比将从2024年的16%升至2028年的54%,2023年至2028年的年复合增长率预计达到63%[20] GUI路线的影响与挑战 - GUI路线让AI助手获得系统级操作权限,直接“接管”屏幕,引发了微信、淘宝、各大银行App等主流应用的集体“自卫”,表现为提示环境异常、频繁人机验证或拒绝在录屏状态下运行[5][10] - 智谱AI宣布开源自主任务模型AutoGLM,同样基于GUI范式,但此前因未获厂商系统级权限支持,只能依赖安卓无障碍模式运行,该模式存在操作时会完全占据前台窗口的短板[10] - 手机厂商对开放系统级权限给AI公司存在顾虑,包括用户对隐私泄露的担忧,以及希望将系统级AI入口掌握在自己手中而非沦为技术通道,这解释了字节跳动首个合作伙伴是中兴努比亚而非头部厂商的原因[11] API路线的布局与策略 - 苹果的Apple Intelligence集成OpenAI的ChatGPT,并正计划采用谷歌的Gemini模型为Siri升级提供技术支撑,但其坚持通过API向Siri提供屏幕内容,而非直接操控界面,被评价为“最保守的大玩家”[13][17] - 谷歌走端云协同路线,其Gemini大模型具备强大端云协同能力,但手机端未采用GUI多模态操作,推出的AppFunctions API旨在解决生态内碎片化问题,实现系统对应用能力的统一发现与索引[20] - 谷歌和苹果均倾向于推动应用开发者主动接入标准化接口,实现AI助手跨应用协作,目前两家公司尚未在手机上推出GUI多模态操作相关功能,仍处于技术储备和观望市场反馈阶段[20] AI手机生态的利益格局重构 - GUI Agent将用户操作截留在手机系统层面,用户无需打开App就能使用其核心功能,这可能使App上的广告投放失去核心价值,冲击互联网行业的重要营收来源,这是超级App集体“自卫”的核心焦虑[21] - 未来AI手机生态可能呈现“分层治理”格局,微信、淘宝等超级App的长期最优解是自研AI Agent,形成Agent to Agent(A2A)协作模式,以保护自身“领地”并融入生态[22] - 对于缺乏自研能力的中长尾App,大概率将“被系统级AI直接控制”,它们可能通过接受系统级AI操作来换取新生态的流量分发,手机厂商或会制定标准化利益分配条款[23] 主要科技公司与AI动态 - OpenAI首席执行官山姆·阿尔特曼披露其产品周活跃用户数量已接近9亿,公司计划在2026年第一季度推出一款性能超越GPT-5.2的新模型,并预计在2028至2029年实现盈利[24][26] - 软银集团正通过一系列筹款方案,力争在年底前完成对OpenAI的225亿美元注资承诺,为此已卖掉持有的全部58亿美元英伟达股份,并减持了48亿美元的T-Mobile股份[27] - 微软AI主管穆斯塔法·苏莱曼表示,未来五到十年在AI前沿竞争将耗资数千亿美元,由于成本高昂,初创公司很难与大型科技公司竞争,xAI创始人埃隆·马斯克则预计其公司有望在2026年实现与人类智能相当的通用人工智能(AGI)[36][38] 金融市场与公司表现 - 马斯克确认特斯拉已开始在无安全员情况下测试自动驾驶出租车(Robotaxi),特斯拉市值增至1.6万亿美元,其个人财富增长近40%,达6440亿美元[40] - 美光科技股价上涨,此前公司对本季度营收给出了强劲指引,甲骨文股价上涨6.6%,因消息称TikTok已与包括甲骨文在内的三家投资者签署协议,将成立新的TikTok美国合资公司[40][41] - 日本央行加息25个基点至0.75%,创30年新高,但日元重挫1.4%,美元兑日元最高触及157.76,贵金属中现货白银本周累涨8.4%,报67.166美元/盎司,盘中刷新历史高位[41]
AI手机路线大分野:当豆包试图“接管屏幕” 苹果和谷歌为何选择“慢半拍”?
每日经济新闻· 2025-12-20 05:47
AI手机的技术路线已形成鲜明分野。 12月19日,字节跳动在联合中兴努比亚推出"豆包手机"nubia M153后再传扩围动作——正与vivo、联想、传音等厂商推进AI手机合作。 以"豆包手机"为代表的阵营,凭借读屏、模拟点击等GUI(图形用户界面)技术,试图让AI助手突破应用壁垒完成复杂任务,却引发主流App集体"自卫"。 反观海外,苹果、谷歌主导的阵营,则坚持API(应用程序接口)标准化路线,虽稳健却进展迟缓。 | 陆 | 模型 | 机 25 | 功能 | | --- | --- | --- | --- | | | | | 1.豆包手机助手直接 | | 字节跳动 | 豆包 | 中兴努比亚M153 | 嵌入手机操作底层 | | | | | 2.能以用户身份操作 | | | | | 各款App | | 智谱华章 | AutoGLM | 手机厂商可自由整合 | 1.支持跨应用长流程 任务,如订外卖、订 | | | | 到系统 | 机票、跨平台比价购 | | | | | 物等 | | | | | 1.配备多种AI功能, 如图像修改,智能视 | | 谷歌 | Gemini Nano | 最新型号Pixel 10 | ...
手机Agent的两种范式:API与GUI
国盛证券· 2025-12-07 08:24
行业投资评级 - 增持(维持)[4] 报告核心观点 - 手机Agent正推动移动交互范式从GUI(图形用户界面)向Agentic(智能体)交互跃迁,用户可通过自然语言指令完成任务,无需在不同App间手动切换[1][12] - 实现手机Agent有两条主要技术路线:API范式和GUI范式,两者各有优劣,未来可能走向融合而非单选[1][24][32] - API范式(以苹果Apple Intelligence为代表)通过标准化语义接口调用App功能,强调生态整合与隐私安全[1][12][16] - GUI范式(以智谱AutoGLM、字节豆包助手为代表)利用多模态模型视觉理解屏幕并模拟点击,通用性高但面临可靠性与隐私挑战[2][13][19] - 手机Agent的发展将引发手机厂商、大模型厂商和应用厂商之间的三方博弈,重塑移动互联网流量与商业生态[3][26] 手机Agent的两种范式 API范式 - 核心是建立标准化的语义接口,需要App开发者主动适配并暴露功能,Agent通过结构化API指挥App执行任务[1][12] - 典型代表是苹果的Apple Intelligence及其App Intents框架,旨在构建“语义互联网”[12][16] - 苹果通过提供多个“助手架构”作为标准化模板,以解决不同开发者对同一功能定义差异的问题[17] - 谷歌在安卓生态中也进行了API尝试,例如推出基于Gemini Nano模型的设备生成式AI API和Prompt API[18] GUI范式 - 核心是利用多模态模型理解屏幕UI元素,并通过系统辅助服务模拟手指的点击与滑动来操作App,不依赖开发者配合[2][13] - 典型代表包括智谱AI的AutoGLM和字节跳动的豆包手机助手[2][13] - 智谱AutoGLM 2.0已面向公众开放,可操作抖音、美团等40余款应用完成点餐、订票等任务[21] - 字节豆包手机助手是与中兴手机合作的系统级服务,通过长按侧边键唤醒,可直接获取系统底层屏幕缓冲区数据以降低延迟[22] - 谷歌Gemini 3 Pro模型在多模态理解,特别是屏幕理解任务上表现突出,在ScreenShot-Pro评测基准得分72.7%,大幅领先Claude Sonnet 4.5的36.2%和GPT 5.1的3.5%[19] 两种范式核心差异对比 - **通用性**:GUI Agent通用性显著更高,是其核心优势,不需要App开发者适配,理论上人类能用的App它都能用,解决了长尾应用覆盖问题[2][24][25] - **可靠性**:API Agent可靠性更高,只要API稳定即可保证任务完成;GUI Agent可靠性较低,原因包括模型对复杂界面识别能力未达100%(如Gemini 3 Pro得分72.7%)、多步骤操作导致失败率更高、UI改版时易失效[2][24][25] - **性能**:API Agent高效,可单次调用完成复杂任务;GUI Agent低效,完成简单任务可能需要多次截图分析和视觉推理,算力消耗大,且截图上传云端的数据量和延迟均高于API传输参数[2][24][25] - **隐私风险**:API Agent隐私风险低,应用端可进行精细的权限管理;GUI Agent隐私风险高,需要读取屏幕权限,可能暴露聊天记录、密码等敏感信息[2][24][25] - **商业阻力**:GUI Agent商业阻力极大,不经过应用厂商授权,易受到技术和法律手段封杀,如豆包手机助手操作微信时曾引发账号封禁和银行App强弹窗提醒[2][23][24][25] 商业形态演变与三方博弈 - **手机厂商**:角色从硬件售卖转向获取流量入口价值,操作系统成为用户意图的第一接收者,可能催生类似搜索广告的新竞价模式[3][26][27] - **大模型厂商**:愿景是打造跨越操作系统的超级助理App(如ChatGPT、豆包),将其他App变为自己的后端工具,并积极寻求与二线手机厂商合作(如字节与中兴)[3][26][28][30] - **应用厂商**:面临合作与防御的两难选择,一方面可能开放部分接口,另一方面为保护自身利益可能拒绝或限制Agent接入[3][26][31] - **法律与授权边界**:AI助手作为“用户授权的代理人”与平台权益之间存在法律争议,可能需要双重或多重授权[31] - **App自身Agent化**:微信明确表示最终会推出AI智能体,淘宝已通过“问问”功能尝试在App内实现自然语言导购[3][31][32] 未来展望与融合路径 - 手机Agent的发展不会是API或GUI的单选题,而是两者融合[3][32] - 对于高价值、涉及敏感数据的操作(如支付、通讯),API Agent因准确度高和隐私保护更优而更适用[3][32] - 对于只读、信息查询类需求以及API未覆盖的应用,GUI Agent通过视觉理解的方式运行更灵活通用[6][32] - 为解决GUI Agent的延迟和隐私问题,未来手机处理器预计将进一步优化视觉模型的端侧推理能力,使识别和决策在本地完成,无需上传云端[6][32] 建议关注的领域与公司 - **GUI Agent相关**:字节跳动、谷歌、阿里巴巴、中兴通讯[7][33] - **API Agent相关**:腾讯控股、阿里巴巴、谷歌[7][33] - **算力相关**:寒武纪、海光信息、中际旭创、中科曙光、浪潮信息等[7][33] - **其他Agent相关**:包括第四范式、360、金蝶国际、科大讯飞、恒生电子等[8][34] - **自动驾驶相关**:江淮汽车、赛力斯、小鹏汽车、理想汽车、地平线等[8][34] - **军工AI相关**:拓尔思、能科科技、普天科技、中科星图等[8][34]