量子位
搜索文档
量子位编辑作者招聘
量子位· 2025-12-10 04:26
以下是岗位详情: 所有岗位不同能力层级职位均在开放,欢迎结合个人履历和经验申请。 AI产业方向 编辑部 发自 凹非寺 量子位 | 公众号 QbitAI AI热潮还在汹涌,但如果你还不知道如何参与……那为什么不来 量子位 呢? 我们是一家以 追踪AI新进展 为核心的内容平台,经过8年积累,目前拥有顶流影响力,广泛且备受认可的产业资源,以及时代风口的最佳观 测和学习生态位。 目前,我们有 三大方向 岗位招聘,希望你是 (或者能成为) 这三个方向的内容专家: 岗位均为全职,工作地点:北京中关村。 岗位面向: 加入我们,你可以获得: 岗位职责: AI产业方向 :关注基建层创新,包含芯片、AI Infra、云计算; AI财经方向 :关注AI领域创投和财报,跟踪产业链资本动向; AI产品方向 :关注AI在应用和硬件终端方向的进展。 社招:覆盖编辑、主笔、主编各个层级,按能力匹配岗位; 校招:应届毕业生,接受实习且可转正。 站在AI浪潮之巅 :第一时间接触和了解AI领域最新技术和产品,构建完整的AI认知体系。 玩转AI新工具 :将各种AI新技术、新工具应用于工作,提升工作效率和创造力。 打造个人影响力 :通过撰写独家原创内 ...
微软急了!紧急腰斩AI产品销售指标,内部拉响红色警告
量子位· 2025-12-09 10:44
文章核心观点 - 微软的AI产品销售严重不及预期,公司内部罕见地下调了多个AI产品的销售目标,反映出市场需求疲软和产品竞争力不足 [1][2][7][8][13] - 微软AI业务面临困境,主要归因于其自身产品体验不佳、战略部署存在缺陷,以及对OpenAI和英伟达等合作伙伴的过度依赖 [14][15][24][26][31] - 竞争对手谷歌凭借自研模型和更好的生态整合,势头正劲,正在抢占市场份额,与微软形成“攻守易势”的局面 [34][35][37][44] 微软AI产品销售遇冷 - 微软多个AI产品部门下调销售目标,尤其是Azure AI云计算管理平台,这在公司内部是很少出现的情况 [2][7][8] - 销售团队完成率远低于目标,例如美国某Azure销售团队,要求Foundry(AI应用开发平台)销售额增长50%,但截止时只有不到20%的销售人员完成目标,随后目标被下调至增长25% [9][10] - 另一个Azure部门原定Foundry销售额翻倍,新一年目标直接改为增长50% [11] - 无论是面向企业的AI服务还是面向普通消费者的AI功能,都出现需求严重低于预期、卖不动的情况 [13] 微软AI产品与战略问题 - 微软自身AI产品未能成功落地,用户对Windows内置AI功能并不感冒,强行整合到Notepad、Microsoft 365等产品中因设计缺陷和体验欠佳而未获用户认可 [15][22] - Copilot等产品缺乏明确方向,未取得理想成绩,公司产品发布采取“先上车后补票”的策略,消耗了用户对产品质量的信赖 [24] - AI策略倾向于提供便宜但性能一般的低成本产品,导致市场反响不够强烈 [25] - 微软的AI产品性能不理想,正在失去用户,网友评价“微软=快速行动+搞砸一切” [4][6] 对合作伙伴的过度依赖 - 微软与OpenAI深度绑定,通过Copilot集成GPT模型,并享有ChatGPT API独家使用权,但OpenAI自身正面临谷歌Gemini的冲击和资金压力 [16][17][19][27][28] - 微软原先希望通过为OpenAI提供云端支持获利,但过度押注OpenAI在商业层面显得不够理智 [26][29] - 微软的AI算力深度依赖英伟达GPU,导致用户付费很大一部分流入英伟达,且Copilot等产品的毛利率远低于传统软件,使微软在AI上收益不明显 [31] - 英伟达同时服务AWS、谷歌、Meta等公司,使微软在算力竞赛中被动,虽然正试图摆脱依赖,但需要时间 [32][33] 竞争对手与市场环境 - 竞争对手谷歌势头正劲,其自研模型(如Gemini 3)建立了产品护城河,有望超越微软Copilot,并凭借更好的生态整合(搜索引擎、安卓、云服务等)更快普及AI产品 [34][35][37] - 谷歌在去年也曾做出AI预期回调,但如今“攻守易势”成为赢家 [44] - 行业整体出现降温迹象,不只是微软,OpenAI将其对AI Agent的收入预测下调至260亿美元,AWS、Salesforce等公司也面临压力并采取不同策略应对 [42][43] 微软AI业务的现状与收入 - 尽管AI产品销售增长目标放缓,但微软整体AI业务仍处于增长趋势,增长主要来自OpenAI等AI公司对微软云服务器的租赁 [39] - 得益于OpenAI的服务器租赁,微软预计将从中赚取约150亿美元,表明AI业务对微软而言仍是赚钱的 [40]
倒计时1天!MEET2026,明天见
量子位· 2025-12-09 10:44
12月10日9点 ,时间过得飞快, MEET2026智能未来大会 就在明天了! MEET组委会 发自 凹非寺 量子位 | 公众号 QbitAI 一起来AI认知跨年吧,记下时间和地址前来赴约~ 大会时间 :2025年12月10日(周三)9:00-18:00 大会地址 :北京金茂万丽酒店 现在观众报名通道还可以报名!期待 明天 与你线下见面啦~ 如果来不及线下参与,也可以来线上围观直播 最新最全大会议程奉上! 敬请期待。 会议能 - 上午议程 c 09:15-09:20 © 主办方致辞 置 鸿 量子位创始人兼 CEO 人工智能 + 趋势 09:20-09:35 张亚勤 清华大学智能产业研究院院长,中国工程院院士 Al 打造超级智能体, 09:35-09:50 成就超级个体、超级团队、超级组织 王颖 百度集团副总裁,文库事业部、网盘事业部负责人 Al 觉醒之年: 09:50-10:05 从数字世界迈向物理世界 王仲远 北京智源人工智能研究院院长 10:05-10:20 混合 AI: 从云端到边缘智能 万卫星 高通公司 AI 产品技术中国区负责人 10:20-10:35 Agentic Al 未来已来 大会上还将发布 ...
起底“豆包手机”:核心技术探索早已开源,GUI Agent布局近两年,“全球首款真正的AI手机”
量子位· 2025-12-09 07:37
豆包手机市场热度与产品定位 - 首批3万台备货被一抢而空,二手市场价格翻番,显示产品市场热度极高 [1] - 产品被用户评价为“全球第一款真正的AI手机”,其核心在于将手机操作变为操作系统级的原生能力 [69][76] - 产品形态为搭载在工程样机nubia M153上的“豆包手机助手技术预览版”,能跨应用自动化执行复杂任务 [3][4] 核心技术:UI-TARS模型演进 - 豆包手机助手的图形界面操作能力建立在字节自研的UI-TARS模型基础上,该模型闭源版本针对移动端进行了大量优化 [7][8] - UI-TARS模型发展历经多个版本:今年1月开源初代模型;3个月后推出强化学习驱动的UI-TARS-1.5;今年9月发布能力更强的UI-TARS-2,为豆包手机提供关键技术支撑 [11][23][32] - 模型旨在构建具备感知、动作、推理、记忆四大核心能力的系统级AI Agent [13] 技术细节与创新 - **初代UI-TARS四大创新**:1) 使用大规模GUI截图数据集和五大感知任务增强感知精度;2) 定义了涵盖点击、滚动、输入等跨平台(Web、Mobile、Desktop)的原子动作集;3) 融入600万高质量GUI教程和多种推理模式注入深度推理能力;4) 借助数百台虚拟机自动收集交互轨迹,通过多阶段过滤和直接偏好优化解决数据瓶颈 [16][18][20] - **UI-TARS-1.5的进步**:新增强化学习驱动的推理机制,在执行前进行思考,显著提升性能与推理扩展性 [25] - **UI-TARS-2的四大突破**:1) 设计可扩展的数据飞轮实现数据与模型协同进化;2) 设计在长时序设定中稳定优化的训练框架;3) 构建混合GUI中心环境,通过SDK接入文件系统、终端等,打破纯GUI操作局限;4) 开发统一的沙盒平台管理异构环境,支撑数百万次交互的大规模训练 [35][37][39][42] 模型性能表现 - **UI-TARS-1.5基准测试成绩**:在计算机使用基准OSworld(100步)得分42.5,优于OpenAI CUA的36.4;在Windows Agent Arena(50步)得分42.1;在手机使用基准Android World得分64.2 [27] - **UI-TARS-1.5 GUI定位任务**:在ScreenSpot-V2得分94.2,在ScreenSpotPro得分61.6,均刷新SOTA [28] - **UI-TARS-1.5游戏测试**:在14款游戏测试中,UI-TARS-1.5在11款游戏上得分达到100,全面优于OpenAI CUA和Claude 3.7 [31][32] - **UI-TARS-2游戏性能**:在15款游戏的平均标准化得分为59.77,更接近人类水平(100),显著高于OpenAI CUA的24.73和Claude Computer Use的21.61 [46] - **UI-TARS-2在LMGame基准**:与前沿模型竞争,例如在Super Mario Bros得分1783.2,高于GPT-4o的1028.3,接近GPT-4.1的1991.3 [47] - 该项目在GitHub已获得8.3k Star,成为最受欢迎的开源多模态智能体之一 [47][48] 产品工程设计与隐私安全 - **权限与安全**:豆包手机助手使用INJECT_EVENTS系统级权限,需用户主动授权;遇到支付、身份验证等敏感操作会暂停任务交由人工接管 [50][51][52] - **隐私保护设计**:视觉管道经过过滤,截屏只包含目标应用界面,基于Activity Hierarchy抓取,物理上无法监控视频通话等悬浮窗内容 [56] - **后台运行机制**:Agent在后台执行长链任务时,即使前台接电话或切换App也不会被挂起,推测在OS层做了并行运行的虚拟化设计,拥有独立的Virtual Display [57] - **双模式技术栈**:豆包手机助手分为标准模式和Pro模式两套完全不同的Pipeline,标准模式依赖浅层视觉响应极快,Pro模式则进行深度推理和工具使用 [58][59][61] 实际应用体验与行业影响 - **用户体验案例**:用户可用英语直接下达复杂指令(如找人代排队、呼叫无人车),助手能自主选择应用并完成操作,无需预先设置手机语言 [69][72][75] - **能力限制**:官方已主动限制部分能力,包括限制刷分、刷激励场景,部分游戏类场景,并暂时下线操作银行、互联网支付等金融类APP的能力 [68] - **行业评价**:被评价为定义了下一代AI原生手机,展现了手机从被动操作工具向能主动理解意图、独立完成任务伙伴转变的可能性 [76][85]
稚晖君5000台机器人量产下线!创业仅3年,订单数亿元
量子位· 2025-12-09 05:39
公司核心进展 - 智元机器人公司第5000台通用具身机器人正式量产下线,创始人彭志辉(稚晖君)在创业不到三年内即实现此量产规模 [1][5] - 公司已形成三大产品线,累计下线5000台机器人,具体包括:远征A1/A2系列1742台、灵犀X1/X2系列1846台、精灵G1/G2系列1412台 [13] 产品线与技术特点 - **远征系列(全尺寸人形机器人)**:身高175cm(A2型号169cm),体重69kg,自由度超过40个,定位工业制造与交互服务,搭载ActionGPT动作大模型,可根据语音指令生成上百种仿人自然动作 [14] - **灵犀系列(半尺寸人形机器人)**:累计下线1846台,为出货量最高系列,X2型号身高约1.31米,体重35-39公斤,拥有25至30个主动自由度,集成运动、交互和作业智能模块,具备自主导航、避障和自动补能功能,旗舰版搭载激光雷达和RGB-D相机,主要面向家庭陪伴、文娱商演 [16] - **精灵系列(轮式具身机器人)**:累计下线1412台,采用轮式底盘以提高稳定性和工业适用性,G2型号采用100%车规级零部件,防护等级IP42,具备亚毫米级力控装配精度,拥有三自由度腰部结构,主要面向工业智造、物流分拣、数据采集训练 [20] 商业化落地与订单情况 - **工业制造领域**:在汽车零部件企业富临精工工厂部署近百台远征A2-W轮式机器人,覆盖15个上料点,单班次可完成近万次搬箱动作,承接超500台产能的原材料配送,该订单价值数千万元,为国内首个工业具身机器人规模化商业签单案例 [23] - **3C电子领域**:与全球智能产品ODM头部企业龙旗科技达成数亿元合作,精灵G2机器人投入平板电脑组装产线执行毫米级精密操作,并首次应用“真机强化学习”技术,将新技能训练部署周期从数周锐减至数十分钟 [25] - **汽车电子领域**:获得均胜电子过亿元订单,精灵G2投入汽车安全带锁芯生产流程;在奇瑞汽车供应链企业,精灵G1承担料箱转移和物料分拣工作 [27] - **讲解接待领域**:中标中国移动7800万元全尺寸人形双足机器人采购项目,预计部署200台远征A2至各省公司展厅或营业厅,为国内人形机器人领域已披露的最大单笔采购订单之一 [29] - **品牌营销与文娱领域**:与百事可乐合作推出人形机器人代言人“百事蓝宝”;远征A2机器人“小玖”作为非人类合伙人参与湖南卫视综艺《中餐厅·非洲创业季》,承担翻译、助手等角色 [31][32] 行业量产进度与竞争格局 - 有机构预测2025年中国人形机器人商用销售出货量约5000台,而智元一家公司目前已达到此目标,显示行业量产进度快于预期 [7][8] - 2026年成为具身智能量产元年的可能性增大 [9] - 国内对比:宇树未披露产量,优必选截至今年11月交付约200台人形机器人,智元处于行业前排 [10] - 海外对比:Figure公布年产能1.2万台,计划4年内提升至10万台;特斯拉Optimus虽宣称今年产量目标近1万台,但机构调研显示实际生产进度明显不及预期 [11][12]
摩尔线程新一代GPU架构10天后发布
量子位· 2025-12-09 05:39
大会概况 - 摩尔线程将于2025年12月19日至20日在北京中关村国际创新中心举办首届MUSA开发者大会(MDC 2025)[1] - 大会是国内首个聚焦全功能GPU的开发者盛会,核心理念为“创造、链接、汇聚”[1] - 大会旨在汇聚全球AI与GPU领域开发者及产业人士,共同探索国产算力突破路径与自主计算生态建设[1] 核心议程与发布 - 主论坛将聚焦“智能算力”,公司创始人兼CEO张建中将首次系统阐述以MUSA为核心的全栈发展战略与未来愿景[2] - 主论坛将重磅发布新一代GPU架构,并推出涵盖产品体系、核心技术及行业解决方案的完整布局[2] - 公司将分享在AI计算、图形渲染、科学计算及多场景融合中的落地实践、生态进展与前瞻思考[3] 技术专题与生态建设 - 大会设立超过20场技术分论坛,议题覆盖智能计算、图形计算、科学计算、AI基础设施、端侧智能、具身智能、开发者工具与平台等关键领域[4] - 大会将设立“摩尔学院”,通过体系化的技术共享、资源整合与人才培养,共同构建国产GPU应用生态[5] 现场展示与互动体验 - 大会将联合生态伙伴打造超过1000平方米的沉浸式“MUSA嘉年华”展区[6] - 展区内容覆盖AI大模型&Agent、具身智能、科学计算、空间智能等前沿技术,并延伸至工业智造、数字孪生、数字文娱、智慧医疗等应用场景[6] - 现场将通过互动性Live Demo展示技术,具体体验包括具身智能(如机械臂/机器狗/机器人)、数字人实时交互与3D建模、国产GPU游戏、AI开发零距离体验等[7][9][11][13] 行业应用赋能 - 大会将展示全功能GPU如何深度赋能千行百业[14] - 具体展示的行业应用场景包括智慧农业、工业智造、智慧教育、智慧医疗、智慧出行、专业视觉、互联网及运营商等[16]
明天!量子位的这件大事就要来了|MEET2026
量子位· 2025-12-09 05:39
大会核心信息 - MEET2026智能未来大会将于2025年12月10日在北京金茂万丽酒店举办 [24][37][39][56] - 大会主题为“共生无界,智启未来”,关注AI技术如何穿透产业、学科与场景边界 [39] - 大会将发布《2025年度AI十大趋势报告》与《2025人工智能年度榜单》 [35][39][54] 嘉宾阵容与背景 - 大会累计邀请近三十位重量级嘉宾,覆盖学术界、产业界与前沿创业一线 [17] - 学术界嘉宾包括清华大学张亚勤院士、孙茂松教授、智源研究院王仲远院长、交大高金朱宁教授等 [1][17] - 产业界阵容覆盖芯片、云、模型到终端的全栈力量,包括百度、小米、商汤、中关村科金、高通、亚马逊云科技、谷歌云、昆仑万维、潞晨科技、PPIO等代表性企业 [1][21] - 参会的新生力量企业包括卓世科技、太初元碁、RockAI、自变量机器人、光轮智能、云徙科技、灵心巧手等 [28] 核心议题与议程亮点 - 大会议题涵盖大语言模型、多模态、具身智能、自动驾驶、云计算及具体应用等AI主流方向 [3] - 设置“重磅GenAI对话”与“前沿Agent圆桌”两场高浓度对话,探讨真问题 [5][7] - GenAI Talk由文远知行创始人兼CEO韩旭对话量子位总编辑李根,探讨GenAI赋能自动驾驶及Robotaxi大规模商业化落地 [8][11][12] - Agent圆桌主题为“距离AI Agent革新千行百业还有多久”,汇聚小宿科技、联汇科技、蚂蚁百宝箱的平台方、技术方与应用方嘉宾,探讨Agent技术架构与应用落地 [13][16][50] - 上午议程包括人工智能+趋势、AI打造超级智能体、AI从数字世界迈向物理世界、混合AI、Agentic AI未来已来等主题演讲 [41] - 下午议程涵盖多模态与智能体、AI基础设施、AI操作系统层、大模型赋能千行百业、国产算力生态、硬件觉醒、物理世界基础模型、具身智能平台等主题演讲与圆桌讨论 [45][48][50] 大会影响力与参与价值 - MEET系列大会是业界最具代表性的年度智能商业峰会之一,每年获数千万媒体曝光,吸引千位线下观众与超300万名在线观众 [36] - 参会观众质量极高,不乏企业管理层等高精尖人才,是绝佳的交流机会 [31] - 嘉宾阵容构成从理论、平台、应用到终端的完整AI落地拼图,专注解决现实问题而非空谈AGI [33] - 通过一线实践者的分享,有望找到AI从炒作走向产生实际影响的真实路径 [34]
论文自动变漫画PPT!Nano Banana同款用秘塔免费生成,还有一对一语音讲解
量子位· 2025-12-09 05:39
核心观点 - 国产AI应用“秘塔AI搜索”推出对标海外Nano Banana 2的“漫画式课件生成”功能,通过将复杂资料(如学术论文、行业报告)自动转化为图文并茂、带语音讲解的PPT,显著提升了知识获取与学习的效率,并坚持免费、零门槛的普惠模式 [1][2][3][4][11][48][58] 产品功能与体验 - 核心功能是“学点啥”模块,可将上传的文档、链接或关键词搜索的内容,自动生成逻辑清晰、带语音讲解的PPT课件 [12][14][15][20] - 支持近20种画面风格(如像素风)和多种讲解风格供用户选择 [5][18][36] - 生成过程全自动,用户上传素材并设定偏好后,约五分钟即可获得结果,课件支持自动播放与语音讲解,如同上课 [20][22] - 课件具备交互性,用户可点击PPT中的陌生词汇获取名词解释 [25] - 除单篇文档解析外,还支持通过“知识库”功能一次性上传并解析多个文件(包括音视频),并生成总结与PPT [29][30][31][34] - 在常规搜索结果页面,也可直接点击“生成幻灯片”将冗长文字转化为PPT [40][41] - 功能应用场景广泛,不仅用于学习,也可用于快速梳理热点事件(如人物关系) [43][44] 市场定位与差异化 - 与市面上侧重精美模板和演示的AI PPT工具不同,该产品将重心转向“对内输入”,专注于辅助用户自主学习与消化复杂信息 [53][54][55] - 产品定位从“办公耗材”转变为辅助用户理解信息的“外挂大脑”,将制作PPT从负担转化为获取知识的捷径 [56][57] - 该功能延续了公司产品线的一贯逻辑,即通过免费AI工具(如AI搜索、DeepResearch)降低信息获取门槛,致力于让用户从“搜得到”、“研究深”到“看得懂” [58] 商业模式与用户价值 - 功能完全免费开放,无需内测申请或排队,零门槛使用 [8][48] - 官方每日提供100积分(相当于100页PPT),免费额度足以覆盖绝大多数用户日常高频的学习与阅读需求 [49][51] - 上传文档会消耗额外积分,但实测将一篇《自然》(Nature)论文转为PPT后,每日积分仍有剩余 [50] - 公司旨在利用科技手段抹平信息鸿沟,使AI带来的效率提升普惠于每一个人 [58][59]
量子位编辑作者招聘
量子位· 2025-12-09 05:39
编辑部 发自 凹非寺 量子位 | 公众号 QbitAI AI热潮还在汹涌,但如果你还不知道如何参与……那为什么不来 量子位 呢? 我们是一家以 追踪AI新进展 为核心的内容平台,经过8年积累,目前拥有顶流影响力,广泛且备受认可的产业资源,以及时代风口的最佳观 测和学习生态位。 目前,我们有 三大方向 岗位招聘,希望你是 (或者能成为) 这三个方向的内容专家: 岗位均为全职,工作地点:北京中关村。 岗位面向: 加入我们,你可以获得: 以下是岗位详情: 所有岗位不同能力层级职位均在开放,欢迎结合个人履历和经验申请。 AI产业方向 岗位职责: AI产业方向 :关注基建层创新,包含芯片、AI Infra、云计算; AI财经方向 :关注AI领域创投和财报,跟踪产业链资本动向; AI产品方向 :关注AI在应用和硬件终端方向的进展。 社招:覆盖编辑、主笔、主编各个层级,按能力匹配岗位; 校招:应届毕业生,接受实习且可转正。 站在AI浪潮之巅 :第一时间接触和了解AI领域最新技术和产品,构建完整的AI认知体系。 玩转AI新工具 :将各种AI新技术、新工具应用于工作,提升工作效率和创造力。 打造个人影响力 :通过撰写独家原创内 ...
准确率腰斩!大模型视觉能力一出日常生活就「失灵」
量子位· 2025-12-09 01:21
研究背景与核心问题 - 当前大多数第一人称视频问答基准集中于日常生活活动,忽略了真实世界应用中的巨大领域差异[3] - 现有多模态大语言模型在真实专业场景中面临泛化瓶颈,例如在外科、工业、极限运动与动物视角等场景下表现不佳[1] - 研究核心在于评估模型在视觉风格和语义内容上与日常家务大相径庭的专业领域中的表现,即应对领域差异的能力[7][8] EgoCross基准概述 - 该研究首次提出跨域第一视角视频问答基准EgoCross,填补了该领域的评估空白[3] - 基准覆盖手术、工业、极限运动、动物视角四个高价值专业领域[3] - 数据集包含957个高质量问答对,覆盖识别、定位、预测和计数四类核心任务下的15种子任务[11][12] - 每个问答对同时提供开放式和选择式两种评测格式[3][12] 模型评估关键发现 - 评测了8款主流多模态大语言模型,包括GPT-4.1、Gemini 2.5 Pro等闭源模型,以及Qwen2.5-VL、VideoLLaMA3等开源模型[12] - 模型在跨域场景中表现不佳:表现最好的模型在闭卷格式下准确率低于55%,在开卷格式下低于35%[12] - 领域差距显著:模型在日常活动基准上的准确率为73.58%,但在EgoCross跨域场景中骤降至43.14%[13] - 专业领域挑战不均:工业和极限运动领域对模型最具挑战性,动物视角相对容易[13] - 任务类型影响显著:预测类任务比基础识别任务性能下降更严重[18] - 通用大模型表现优于专用模型:Gemini 2.5 Pro等通用模型优于专门针对第一人称视频训练的模型,表明当前领域适应方法存在局限[13][18] 模型性能数据详述 - 在手术领域,GPT-4.1闭卷准确率为57.24%,开卷为39.58%;Gemini 2.5 Pro闭卷为61.48%,开卷为42.40%[13] - 在工业领域,GPT-4.1闭卷准确率为45.71%,开卷为12.24%;Gemini 2.5 Pro闭卷为37.55%,开卷为24.49%[13] - 在极限运动领域,GPT-4.1闭卷准确率为43.09%,开卷为20.33%;Gemini 2.5 Pro闭卷为43.90%,开卷为21.54%[13] - 在动物视角领域,GPT-4.1闭卷准确率为64.48%,开卷为34.43%;Gemini 2.5 Pro闭卷为68.85%,开卷为49.18%[13] - 开源模型Qwen2.5-VL-7B总体闭卷准确率为44.82%,开卷为20.41%[13] 改进方法探索与效果 - 研究探索了提示学习、监督微调和强化学习三种改进方法[12] - 提示学习通过在推理阶段加入领域特定提示,不改动模型参数,挖掘模型已有能力[15] - 监督微调在目标领域少量数据上全参数微调,在工业领域使性能相对基线提升接近20个百分点[15] - 强化学习方法基于GRPO框架,对模型策略进行优化,在四个领域上平均带来约22个百分点的闭卷准确率提升,效果最显著[12][15] - 具体数据:以Qwen2.5-VL-7B为基座,强化学习方法使其在手术、工业、极限运动、动物视角领域的平均准确率从44.82%提升至60.12%[14] 研究价值与影响 - 该研究系统揭示了现有多模态大语言模型在跨域第一人称视频理解上的短板[4] - 研究验证了微调、强化学习等方法的改进潜力,为未来构建更具泛化能力的模型提供了方向[4][12] - 所有数据集、代码已全部开源,该项研究已入选AAAI 2026[5]