Workflow
量子位
icon
搜索文档
这是2025年度AI十大趋势,4个维度10大结论,“开源AI进入中国时间”
量子位· 2025-12-10 10:54
组委会 发自 MEET2026 量子位 | 公众号 QbitAI 刚刚,《2025年度AI十大趋势报告》在 MEET2026智能未来大会 上正式发布。 报告由量子位智库打造,基于对全球AI技术发展、产业应用和社会影响的深度调研与分析,全面呈现了人工智能领域的最新现状与未来发展趋 势。 十大趋势重塑AI发展格局 报告指出,2025年AI正从"工具时代"迈向"伙伴时代",其发展将深刻重塑经济结构、社会形态和人类生活方式,并有十大关键趋势结论: 算力基建化:数据中心需求狂飙,算力经济是智能产业第一大引擎 芯片AI化:AI原生需求重塑芯片创新,大市场大生态打开时代芯机遇 预训练决定大模型格局梯队,架构创新决定预训练水平 大模型落地进入推理时间,推理需求倒逼模型创新 信息AI应用期,物理AI研发期,具身智能成合流风口 AI重塑流量入口:PC互联网、移动互联网、Agentic互联网 多模态成AI应用落地关键:视频、3D、代码依次展现生产力 AI硬件百端齐放:PC手机汽车眼镜玩具,焕脑正当时 AI4S突破加速AGI实现,AI数理化触及博士水平 开源AI进入中国时间,AGI拥有中国路线 报告通过对十大核心趋势的系统梳理,为企 ...
Linux之父:Vibe编程是入门编程的绝佳方式
量子位· 2025-12-10 10:54
AI辅助编程与程序员角色 - AI辅助的Vibe编程是入门编程的绝佳方式 [3] - AI生成代码若投入实际使用,其长期管理和修复将非常困难 [4] - 程序员不会被取代,因为需要懂代码维护的人 [5] 硬件选择与行业观点 - 装机时直接pass掉了英伟达显卡 [6] - 坚持电脑必须安装ECC内存,认为普通内存一定会出问题 [16][19] - 批评制造商宣传的芯片内置ECC是“离谱”说法,因其不提供端到端保护 [21] 程序员生产力与公司管理 - 日常最重要的工作是读邮件和拍板代码合并,而非写代码 [22][23] - 严厉批评将代码行数作为衡量程序员生产力或裁员依据的做法 [24][26] Linux与微软的关系演变 - Linux诞生于1991年,凭借开源优势迅速吸引开发者,在服务器市场因配置要求低、扩展性好等优势对Windows NT构成威胁 [32][33] - 微软在2001年将Linux形容为“癌症”,并试图从多方面抹黑Linux,双方关系紧张 [34] - 2004年后微软态度转变,2009年向Linux贡献超两万行代码,2014年后积极拥抱开源,加入Linux基金会并为Azure云提供Linux支持 [34] - 目前双方已和解,因最赚钱的云服务都运行Linux [36][38]
深大团队让机器人听懂指令精准导航!成功率可达72.5%,推理效率提升40%|AAAI2026
量子位· 2025-12-10 04:26
研究突破与核心框架 - 深圳大学李坚强教授团队联合北京理工莫斯科大学等机构,提出了名为UNeMo的视觉-语言导航新框架,该论文已入选AAAI2026 [1][5] - 该框架旨在解决现有基于大语言模型的导航方法面临的两大瓶颈:推理模态单一(仅依赖语言,缺乏视觉预判)以及优化目标冲突(推理与导航策略分开训练,适配性差)[9] - 其核心突破在于构建了“多模态世界模型”与“分层预测反馈导航器”的双向协同架构,将视觉状态推理与导航决策深度绑定,形成“预判+决策”闭环 [10][11][19] 技术架构与工作原理 - 多模态世界模型基于条件变分自编码器构建,能接收当前视觉特征、语言指令与候选动作,通过跨注意力机制融合信息,预测未来视觉状态,无需额外标注数据即可通过导航结果反馈持续优化 [12][13][14] - 分层预测反馈导航器采用两阶段机制:首先生成粗粒度候选动作锁定方向,再融合预测的未来视觉状态优化出细粒度动作以修正偏差,提升复杂场景下的导航稳健性 [17] - 该架构实现了推理与决策的动态闭环赋能,MWM的视觉预判提升决策精准度,导航执行结果实时反馈优化MWM预测准确性,两者双向促进持续迭代 [20][21] 性能与效率表现 - 在核心数据集R2R的测试中,UNeMo采用FlanT5-1.5B模型,参数规模仅为对比方法NavGPT2所用FlanT5-5B模型的30% [24] - 资源消耗大幅优化:训练时GPU显存占用从27GB降至12GB,减少56%;推理速度从每步1.1秒提升至0.7秒,效率提升40% [24] - 在模型未见过的测试环境中,导航成功率(SR)达到72.5%,较NavGPT2的71%提升1.5个百分点;路径效率(SPL)从60%提升至61.3% [26][27] 复杂场景与长路径导航优势 - UNeMo在长轨迹导航中表现突出,在未见过的环境中导航成功率可达72.5% [4] - 具体在长路径(长度≥7)导航中,成功率大幅提升5.6%(从64.2%至69.8%),提升幅度是短路径(长度<7)的4.7倍,有效缓解了长距离导航的累积误差 [29][30] 架构通用性与可拓展性 - 团队将UNeMo迁移至不同类型的导航基线(如DUET)与目标导向导航数据集REVERIE进行验证 [31] - 实验结果显示,其在未见场景的导航成功率与远程目标定位成功率指标上均有提升,表明该协同训练架构能灵活适配不同类型的导航系统,具备强可拓展性 [32][33] 总结与意义 - UNeMo通过其协同架构,解决了传统VLN方法推理与决策脱节、资源消耗高的问题 [34] - 该框架具备轻量化配置、高性能、长路径导航稳健以及跨场景适配性强的优势,为视觉-语言导航提供了高效可行方案,有助于服务机器人等实际场景的落地 [34]
读懂2025中国AI走向!公司×产品×人物×方案,最值得关注的都在这里了
量子位· 2025-12-10 04:26
2025年AI行业发展主旋律 - 2025年AI行业的主线故事围绕开源与性能的双线竞速展开,开源模型与闭源旗舰在推理效率、训练范式和成本结构上展开竞争 [1] - 世界模型从论文概念发展为真实产品与公司战场,李飞飞与Yann LeCun分别押注不同路线,将“通向AGI的路”指向世界模型之争 [1] - 具身智能机器人和搭载的模型实现爆发式迭代,AI玩具、AI手机、AI PC、智能座舱等终端设备全面铺开,成为AI能力落地现实世界的关键试验田 [1] - 2025年被称为“Agent元年”,AI Agent实现了从“被动应答”到“主动规划执行”的质变,能够独立完成复杂任务,从概念验证步入规模化商业应用起点,引发制造、金融、办公、生活等各行业变革 [1] - 互联网正在进入Agent互联网时代 [2] - 在医疗、气象、工业等行业,AI与既有系统深度结合,逐步演化为关键基础设施的一部分,形成从云到端、由软入硬的紧密共生网络 [3] 2025人工智能年度领航企业 - 该榜单汇聚了技术领先、长期投入、产品落地与产业口碑等多重维度,代表了中国AI生态最具代表性的一批力量 [12] - 这些企业在2025年扮演了“造浪者”与“稳舵者”的双重角色,不断向产业输出新范式、新工具、新样板 [14] - 上榜企业包括但不限于:岩心科技、Rokid、阿里云、百川智能、百度、百融云创、出门问问、滴滴自动驾驶、飞书、粉笔、高德、格灵深瞳、光轮智能、国星宇航、好未来、哈啰、后摩智能、华为、火山引擎、阶跃星辰、京东科技、金山办公、九章云极、科大讯飞、快手、昆仑万维、浪潮信息、联汇科技、联想集团、零一万物、理想汽车、潞晨科技、蚂蚁集团、美团、面壁智能、摩尔线程、群核科技、趣丸科技、荣耀、商汤科技、生数科技、声网、深演智能、是石科技、腾讯、网易有道、未来医生、文远知行、无问芯穹、小满科技等 [16] 2025人工智能年度潜力创业公司 - 该榜单中的公司凭借硬核技术与自研基础模型脱颖而出,或踩准前沿方向快速突围,或深扎垂直场景将AI能力在细分领域发挥到极致 [18] - 这些公司在过去一年里算法与工程持续迭代、用户与收入稳步增长,获得资本与产业伙伴的双重验证 [19] - 上榜公司包括但不限于:PPIO、MetaGPT、BetterYeah、DeepWisdom、Dexmal、原力灵机、VAST、爱诗科技、戴盟机器人、北京人形机器人创新中心、海新智能、汇智智能、DILIGINE、加速进化、德警光学、九识智能、极峰科技、秘塔科技、灵心巧手、穹彻智能、趋境科技、商汤绝影、魔珐科技、深势科技、太初元碁等 [22] 2025人工智能年度杰出产品 - 年度杰出产品展现了从云到端、从屏幕到现实世界的完整应用链路,一端是深入日常沟通、搜索、创作的智能助手与国民级应用,另一端是嵌入企业工作流的智能协同平台和多维数据工具 [24] - 这些产品有的已触达千万用户,有的深藏系统幕后,共同勾勒出下一代应用的轮廓 [24] - 上榜产品包括但不限于:BetterYeah AI、百川智能的Baichuan-M2、蚂蚁集团的Agent开发平台、联想集团的ima.copilot、月之暗面的Kimi、腾讯的Kiro Agent、MiniMax的Linker Hand灵巧手、灵心巧手的OmAgent、小满科技的OKKI AiReach、联汇科技的Pi终端智能平台、PPIO的Agent沙箱、美图的RoboNeo、Dexmal的原力灵机、天工超级智能体、中国电信的AI视频创作平台、出门问问的TicNote Agents、昆仑万维的Skywork Super、字节跳动的The Real AI Engineer、VAST的Tripo AI、生数科技的Vidu、金山办公的WPS灵犀、RockAI的Yan 2.0 Preview、智谱的Z.ai、阿里云的自炼大模型服务与应用开发平台、百度的慧播星与网盘、中关村科金的得助大模型平台、高通的第五代骁龙8至尊版移动平台、字节跳动的豆包、飞书的多维表格、长猪AI、粉笔的AI系统班、后摩智能的漫界M50、阶跃星辰的阶跃AI、九章云极的九章智算云、快手的可灵AI、联想的个人超级智能体、蚂蚁集团的灵光、国星宇航的零碳太空计算中心、美团的龙猫LongCat、蚂蚁集团的百宝箱Tbox、秘塔科技的AI搜索、360集团的纳米蜂群智能体、阿里巴巴的千问APP、逐际动力的全自由度人形机器人、荣耀的MagicOS 10、云知声的山海大模型、商汤科技的大装置与小浣熊、声网的对话式AI引擎、深演智能的Deep Agent Neo、腾讯的混元3D、网易有道的词典、文远知行的Robotaxi GXR、无问芯穹的AI云、科大讯飞的星火APP与长智文、高德的小昌老师、猿力科技的小猿AI学习机、腾讯的元宝、浪潮信息的元脑SD200、知乎的直答、卓世科技的璇玑-智企、云徘科技的xGOS.AI企业运营超级智能体、上海人工智能实验室的『书生』科学多模态大模型Intern-S1等 [27][28][29] 2025人工智能年度杰出解决方案 - AI正通过一整套解决方案在系统深处重写行业运行方式,榜单涵盖了各个领域内的多个方向,将前沿算法装进成熟产品形态,扎进真实业务流程 [30][31] - 这些面向具体场景的解决方案加速了大模型、Agent、世界模型与具身智能在千行百业的深度融合 [31] - 上榜解决方案包括但不限于:亚马逊云科技的Amazon Bedrock、京东集团的JoyInside AgentCore时身智能、趋境科技的KLLM变革级大模型推理引擎系统、阿里商旅与飞猪的AI解决方案、阿里云的无影AgentBay、快手的超级员工Kwali、滴滴自动驾驶的L4技术方案4.0、百度的PaddleOCR-VL多模态文档解析、优必选的Walker S2工业人形机器人、九识智能的无人驾驶多场景配送解决方案、好未来的九章爱学多模态智能学伴解决方案、联想集团的联想混合式人工智能优势集、蚂蚁数科的Agentar企业级智能体解决方案、零一万物的哈萨克斯坦AlemLLM语言模型、趣丸科技的趣丸千音、商汤科技的日日新大模型等 [33] 2025人工智能年度焦点人物 - 该榜单人物包括押注艰难方向的创业者、大体量平台的掌舵者、以产品和业务增长证明路线的实践者、以科学研究和开放协作拉高技术上限的研究者,以及在科研、产业与资本之间搭桥的串联者 [35] - 他们为AI发展写下最具辨识度的注脚 [36] - 上榜人物包括但不限于:PPIO的姚欣、百川智能的王小川、百度的李彦宏、北京智源人工智能研究院的王仲远、出门问问的李志飞、阶跃星辰的姜大昕、九章云极DataCanvas的方磊、昆仑万维的方汉、联汇科技的赵天成、理想汽车的李想、潞晨科技的尤洋、零一万物的李开复、摩尔线程的张建中、清华大学的吴翼、清华大学智能产业研究院的张亚勤、穹彻智能的卢策吾、上海人工智能实验室的周伯文、商汤科技的王晓刚、生数科技的骆怡航、是石科技的闫博文、太初元碁的乔梁、文远知行WeRide的韩旭、无问芯穹的夏立雪、小马智行的彭军、小宿科技的杜知恒、北京大学及银河通用的周剑、优必选的周剑、月之暗面的黄伟、云知声的黄伟、字树科技的王兴兴、浙江大学及蚂蚁集团的赵俊博、智平方的郭彦东、智谱的张鹏、智象未来的梅涛、智元机器人的彭志辉、中关村科金的喻友平、卓世科技的層静、逐际动力的张巍、自变量机器人的王潜等 [38][39][40][41][42][43][44][45][46][47][48][49][50][51][52][53][54][55][56][57][58][59][60][61][62][63][64][65][66][67][68][69][70][71][72][73][74][75][76][77][78][79][80][81][82][83][84][85][86][87][88][89][90][91][92][93][94][95][96][97][98][99][100][101][102][103][104][105][106][107][108][109]
2比特复数模型媲美全精度!北大通用框架让大模型在手机上也能流畅运行
量子位· 2025-12-10 04:26
Fairy2i团队 投稿 量子位 | 公众号 QbitAI 无需重新训练,模型压缩实现 2比特媲美FP16 。 近日,北京大学团队提出一个直接基于已有预训练模型进行极低比特量化的通用框架—— Fairy2i 。 该框架通过广泛线性表示将实数模型无损转换为复数形式,再结合相位感知量化与递归残差量化,实现了在仅2比特的情况下,性能接近全精 度模型的突破性进展。 下面是更多详细内容。 研究核心:复用真值权重与递归残差量化 众所周知,大模型在推理时,通常因其庞大的参数存储和计算需求,难以在手机、汽车等边缘设备上高效部署。 传统的量化方法在将模型压缩到极低比特 (如1-2比特) 时,常面临性能严重下降的问题,尤其是在直接复用预训练模型的情况下,难以在 压缩和精度之间找到平衡。 Fairy2i针对性地解决了这一痛点,具体表现在: 1、广义线性表示:低成本无损继承,打通实数与复数桥梁 在"架构"上,Fairy2i通过解决实数模型如何"变身"复数模型的问题,极大地降低了训练所需的成本。 不同于iFairy等需要花费高昂算力从头预训练 (Pre-training from scratch) 的方式, Fairy2i选择了一条更 ...
5天连更5次,可灵AI年末“狂飙式”升级
量子位· 2025-12-10 04:26
公司近期产品发布概览 - 12月初,公司在5天内密集发布了5次产品更新,包括全球首个统一的多模态视频及图片创作工具“可灵O1”、具备“音画同出”能力的可灵2.6模型以及可灵数字人2.0等功能 [1][2] - 这一系列更新显著提升了生成式AI领域的竞争激烈程度 [2] 可灵O1模型的核心创新 - 可灵O1基于创新的多模态视觉语言交互理念,将所有生成和编辑任务融合于一个全能引擎,为用户提供从灵感到成品的一站式闭环创作流程 [3] - 视频O1模型打破了传统单一视频生成任务的边界,将参考生视频、文生视频、首尾帧生视频、视频内容增删、视频修改变换、风格重绘、镜头延展等多种任务融合于同一引擎,解决了主体一致性和视频画面可控性等难题 [6] - 图像O1模型实现了从基础图像生成到高阶细节编辑的全链路无缝衔接,用户可通过纯文本生成图像,也可上传最多10张参考图进行融合再创作 [7] - 有行业人士将可灵O1评价为“视频界的Nano Banana” [4] 可灵2.6模型的“音画同出”能力 - 可灵2.6模型上线了里程碑式的“音画同出”能力,改变了传统AI视频生成“先无声画面、后人工配音”的工作流程 [10] - 该模型能在单次生成中,输出包含自然语言、动作音效以及环境氛围音的完整视频,极大提升了创作效率 [11] - 目前支持生成最长10秒的视频,语音部分支持中文和英文,更多语言及固定声线功能正在研发中 [12] - 该模型在音画协同、音频质量和语义理解上表现亮眼,能够支持说话、对话、旁白、唱歌、Rap、环境音效、混合音效等多种声音的单独或混合生成 [12][27] 技术性能与市场应用 - 根据公司内部测评,在“图片参考”任务上,可灵AI对Google Veo 3.1的整体效果胜负比为247%;在“指令变换”任务上,与Runway Aleph对比的整体效果胜负比达到230% [18] - 公司目前覆盖的企业用户数超过2万家,涵盖影视制作、广告、创意设计、自媒体、游戏、电商等诸多领域 [26] - 数字人2.0功能允许用户上传角色图,添加配音并描述角色表现,即可生成表现力生动的自定义数字人视频,视频内容最长可达5分钟 [27] 行业影响与发展愿景 - 自2024年6月正式推出以来,公司的每一次迭代都引发了业界的广泛关注和讨论,从早期案例到获得特斯拉创始人马斯克点赞,公司已成为视觉生成技术走向成熟过程中的关键角色 [20] - 公司高级管理层表示,其初心是让每个人都能用AI讲出好的故事,并希望这一天更快到来 [28] - 通过年末的系列更新,公司正朝着这一愿景加速迈进 [29]
量子位编辑作者招聘
量子位· 2025-12-10 04:26
以下是岗位详情: 所有岗位不同能力层级职位均在开放,欢迎结合个人履历和经验申请。 AI产业方向 编辑部 发自 凹非寺 量子位 | 公众号 QbitAI AI热潮还在汹涌,但如果你还不知道如何参与……那为什么不来 量子位 呢? 我们是一家以 追踪AI新进展 为核心的内容平台,经过8年积累,目前拥有顶流影响力,广泛且备受认可的产业资源,以及时代风口的最佳观 测和学习生态位。 目前,我们有 三大方向 岗位招聘,希望你是 (或者能成为) 这三个方向的内容专家: 岗位均为全职,工作地点:北京中关村。 岗位面向: 加入我们,你可以获得: 岗位职责: AI产业方向 :关注基建层创新,包含芯片、AI Infra、云计算; AI财经方向 :关注AI领域创投和财报,跟踪产业链资本动向; AI产品方向 :关注AI在应用和硬件终端方向的进展。 社招:覆盖编辑、主笔、主编各个层级,按能力匹配岗位; 校招:应届毕业生,接受实习且可转正。 站在AI浪潮之巅 :第一时间接触和了解AI领域最新技术和产品,构建完整的AI认知体系。 玩转AI新工具 :将各种AI新技术、新工具应用于工作,提升工作效率和创造力。 打造个人影响力 :通过撰写独家原创内 ...
微软急了!紧急腰斩AI产品销售指标,内部拉响红色警告
量子位· 2025-12-09 10:44
文章核心观点 - 微软的AI产品销售严重不及预期,公司内部罕见地下调了多个AI产品的销售目标,反映出市场需求疲软和产品竞争力不足 [1][2][7][8][13] - 微软AI业务面临困境,主要归因于其自身产品体验不佳、战略部署存在缺陷,以及对OpenAI和英伟达等合作伙伴的过度依赖 [14][15][24][26][31] - 竞争对手谷歌凭借自研模型和更好的生态整合,势头正劲,正在抢占市场份额,与微软形成“攻守易势”的局面 [34][35][37][44] 微软AI产品销售遇冷 - 微软多个AI产品部门下调销售目标,尤其是Azure AI云计算管理平台,这在公司内部是很少出现的情况 [2][7][8] - 销售团队完成率远低于目标,例如美国某Azure销售团队,要求Foundry(AI应用开发平台)销售额增长50%,但截止时只有不到20%的销售人员完成目标,随后目标被下调至增长25% [9][10] - 另一个Azure部门原定Foundry销售额翻倍,新一年目标直接改为增长50% [11] - 无论是面向企业的AI服务还是面向普通消费者的AI功能,都出现需求严重低于预期、卖不动的情况 [13] 微软AI产品与战略问题 - 微软自身AI产品未能成功落地,用户对Windows内置AI功能并不感冒,强行整合到Notepad、Microsoft 365等产品中因设计缺陷和体验欠佳而未获用户认可 [15][22] - Copilot等产品缺乏明确方向,未取得理想成绩,公司产品发布采取“先上车后补票”的策略,消耗了用户对产品质量的信赖 [24] - AI策略倾向于提供便宜但性能一般的低成本产品,导致市场反响不够强烈 [25] - 微软的AI产品性能不理想,正在失去用户,网友评价“微软=快速行动+搞砸一切” [4][6] 对合作伙伴的过度依赖 - 微软与OpenAI深度绑定,通过Copilot集成GPT模型,并享有ChatGPT API独家使用权,但OpenAI自身正面临谷歌Gemini的冲击和资金压力 [16][17][19][27][28] - 微软原先希望通过为OpenAI提供云端支持获利,但过度押注OpenAI在商业层面显得不够理智 [26][29] - 微软的AI算力深度依赖英伟达GPU,导致用户付费很大一部分流入英伟达,且Copilot等产品的毛利率远低于传统软件,使微软在AI上收益不明显 [31] - 英伟达同时服务AWS、谷歌、Meta等公司,使微软在算力竞赛中被动,虽然正试图摆脱依赖,但需要时间 [32][33] 竞争对手与市场环境 - 竞争对手谷歌势头正劲,其自研模型(如Gemini 3)建立了产品护城河,有望超越微软Copilot,并凭借更好的生态整合(搜索引擎、安卓、云服务等)更快普及AI产品 [34][35][37] - 谷歌在去年也曾做出AI预期回调,但如今“攻守易势”成为赢家 [44] - 行业整体出现降温迹象,不只是微软,OpenAI将其对AI Agent的收入预测下调至260亿美元,AWS、Salesforce等公司也面临压力并采取不同策略应对 [42][43] 微软AI业务的现状与收入 - 尽管AI产品销售增长目标放缓,但微软整体AI业务仍处于增长趋势,增长主要来自OpenAI等AI公司对微软云服务器的租赁 [39] - 得益于OpenAI的服务器租赁,微软预计将从中赚取约150亿美元,表明AI业务对微软而言仍是赚钱的 [40]
倒计时1天!MEET2026,明天见
量子位· 2025-12-09 10:44
12月10日9点 ,时间过得飞快, MEET2026智能未来大会 就在明天了! MEET组委会 发自 凹非寺 量子位 | 公众号 QbitAI 一起来AI认知跨年吧,记下时间和地址前来赴约~ 大会时间 :2025年12月10日(周三)9:00-18:00 大会地址 :北京金茂万丽酒店 现在观众报名通道还可以报名!期待 明天 与你线下见面啦~ 如果来不及线下参与,也可以来线上围观直播 最新最全大会议程奉上! 敬请期待。 会议能 - 上午议程 c 09:15-09:20 © 主办方致辞 置 鸿 量子位创始人兼 CEO 人工智能 + 趋势 09:20-09:35 张亚勤 清华大学智能产业研究院院长,中国工程院院士 Al 打造超级智能体, 09:35-09:50 成就超级个体、超级团队、超级组织 王颖 百度集团副总裁,文库事业部、网盘事业部负责人 Al 觉醒之年: 09:50-10:05 从数字世界迈向物理世界 王仲远 北京智源人工智能研究院院长 10:05-10:20 混合 AI: 从云端到边缘智能 万卫星 高通公司 AI 产品技术中国区负责人 10:20-10:35 Agentic Al 未来已来 大会上还将发布 ...
起底“豆包手机”:核心技术探索早已开源,GUI Agent布局近两年,“全球首款真正的AI手机”
量子位· 2025-12-09 07:37
豆包手机市场热度与产品定位 - 首批3万台备货被一抢而空,二手市场价格翻番,显示产品市场热度极高 [1] - 产品被用户评价为“全球第一款真正的AI手机”,其核心在于将手机操作变为操作系统级的原生能力 [69][76] - 产品形态为搭载在工程样机nubia M153上的“豆包手机助手技术预览版”,能跨应用自动化执行复杂任务 [3][4] 核心技术:UI-TARS模型演进 - 豆包手机助手的图形界面操作能力建立在字节自研的UI-TARS模型基础上,该模型闭源版本针对移动端进行了大量优化 [7][8] - UI-TARS模型发展历经多个版本:今年1月开源初代模型;3个月后推出强化学习驱动的UI-TARS-1.5;今年9月发布能力更强的UI-TARS-2,为豆包手机提供关键技术支撑 [11][23][32] - 模型旨在构建具备感知、动作、推理、记忆四大核心能力的系统级AI Agent [13] 技术细节与创新 - **初代UI-TARS四大创新**:1) 使用大规模GUI截图数据集和五大感知任务增强感知精度;2) 定义了涵盖点击、滚动、输入等跨平台(Web、Mobile、Desktop)的原子动作集;3) 融入600万高质量GUI教程和多种推理模式注入深度推理能力;4) 借助数百台虚拟机自动收集交互轨迹,通过多阶段过滤和直接偏好优化解决数据瓶颈 [16][18][20] - **UI-TARS-1.5的进步**:新增强化学习驱动的推理机制,在执行前进行思考,显著提升性能与推理扩展性 [25] - **UI-TARS-2的四大突破**:1) 设计可扩展的数据飞轮实现数据与模型协同进化;2) 设计在长时序设定中稳定优化的训练框架;3) 构建混合GUI中心环境,通过SDK接入文件系统、终端等,打破纯GUI操作局限;4) 开发统一的沙盒平台管理异构环境,支撑数百万次交互的大规模训练 [35][37][39][42] 模型性能表现 - **UI-TARS-1.5基准测试成绩**:在计算机使用基准OSworld(100步)得分42.5,优于OpenAI CUA的36.4;在Windows Agent Arena(50步)得分42.1;在手机使用基准Android World得分64.2 [27] - **UI-TARS-1.5 GUI定位任务**:在ScreenSpot-V2得分94.2,在ScreenSpotPro得分61.6,均刷新SOTA [28] - **UI-TARS-1.5游戏测试**:在14款游戏测试中,UI-TARS-1.5在11款游戏上得分达到100,全面优于OpenAI CUA和Claude 3.7 [31][32] - **UI-TARS-2游戏性能**:在15款游戏的平均标准化得分为59.77,更接近人类水平(100),显著高于OpenAI CUA的24.73和Claude Computer Use的21.61 [46] - **UI-TARS-2在LMGame基准**:与前沿模型竞争,例如在Super Mario Bros得分1783.2,高于GPT-4o的1028.3,接近GPT-4.1的1991.3 [47] - 该项目在GitHub已获得8.3k Star,成为最受欢迎的开源多模态智能体之一 [47][48] 产品工程设计与隐私安全 - **权限与安全**:豆包手机助手使用INJECT_EVENTS系统级权限,需用户主动授权;遇到支付、身份验证等敏感操作会暂停任务交由人工接管 [50][51][52] - **隐私保护设计**:视觉管道经过过滤,截屏只包含目标应用界面,基于Activity Hierarchy抓取,物理上无法监控视频通话等悬浮窗内容 [56] - **后台运行机制**:Agent在后台执行长链任务时,即使前台接电话或切换App也不会被挂起,推测在OS层做了并行运行的虚拟化设计,拥有独立的Virtual Display [57] - **双模式技术栈**:豆包手机助手分为标准模式和Pro模式两套完全不同的Pipeline,标准模式依赖浅层视觉响应极快,Pro模式则进行深度推理和工具使用 [58][59][61] 实际应用体验与行业影响 - **用户体验案例**:用户可用英语直接下达复杂指令(如找人代排队、呼叫无人车),助手能自主选择应用并完成操作,无需预先设置手机语言 [69][72][75] - **能力限制**:官方已主动限制部分能力,包括限制刷分、刷激励场景,部分游戏类场景,并暂时下线操作银行、互联网支付等金融类APP的能力 [68] - **行业评价**:被评价为定义了下一代AI原生手机,展现了手机从被动操作工具向能主动理解意图、独立完成任务伙伴转变的可能性 [76][85]