量子位
搜索文档
小米大模型“杀”进第一梯队:代码能力开源第一,智商情商全在线
量子位· 2025-12-18 00:30
模型发布与市场定位 - 小米公司新近官宣的开源大语言模型MiMo-V2-Flash,已成功跻身开源模型第一梯队[1][2] - 该模型以309B的总参数量实现了“以小博大”,在多项权威评测中取得优异成绩,展现出极高的效能密度[4][11] - 模型在实现高达2.6倍推理加速的同时,兼顾了顶尖的模型效果与极致的部署成本[6] - 模型在海外平台受到广泛好评,用户认为其能让智能体变得更加实用,并期待推出更多适配格式[9][10] 核心技术架构与创新 - 模型采用MoE架构,总参数量309B,包含256个专家,但通过动态激活机制,每次仅激活8个专家,对应参数量15B[11][12] - 采用5:1混合的滑动窗口注意力与全局注意力机制,以平衡效率与长文理解能力[13][14] - 引入“可学习的注意力汇聚偏置”技术,解决了滑动窗口注意力可能导致的语义断层问题,在将KV Cache显存占用降低到1/6的情况下,长文理解能力不降反升[15][16][17] - 其滑动窗口大小虽仅为128,但效果优于512的大窗口[19] - 采用多层Token预测技术,该模块在推理时被复用为投机解码的草稿模型,加载3层MTP模块后可实现2至2.6倍的实际推理加速比[20][21] - 训练流程采用多教师在线策略蒸馏新范式,使学生模型仅需消耗传统SFT+RL流程约1/50的精力就能迅速追平教师模型能力[23] 性能表现与基准测试 - 在衡量通用能力的Arena-Hard基准测试中得分86.2,在复杂推理任务MMLU-Pro中得分84.9[27] - 代码能力是其突出长板,在SWE-Bench Verified评测中斩获73.4%的高分,超越了DeepSeek-V3.2的73.1%和Kimi-K2 Thinking的71.3%[28] - 在Agent能力方面表现卓越,在SWE-Bench Multilingual测试中解决了71.7%的问题,在衡量工具使用能力的Tau2-Bench中得分达到80.3,均位列全球开源模型前茅[28] - 在官方“价格vs速度”坐标系中占据高能效生态位,其API定价极具竞争力,为每百万输入0.7元、输出2.1元[25] 实际应用场景演示 - 在具体工程化场景中展现出极高的编程完成度,例如能一次性生成完整的前端代码来构建一个网页版macOS操作系统,功能完备性优于闭源模型Gemini 3 Pro[30][31][36][38] - 不仅能够生成复杂交互网页,还能调用各种HTML接口,实现如基于摄像头的手势控制等高级功能[40][41][42] - 在人文交互与语义理解方面展现出清晰的逻辑与拟人化的温度,能够探讨开放性话题并提供情感建议[50][51][52][53][54] 公司战略与行业影响 - 小米的大模型发展轨迹清晰,从MiMo一代的7B模型积累经验,到MiMo二代直接达到世界先进水平,体现了其持续性的技术投入[56] - 公司的核心逻辑是死磕“高效+智能”,旨在让模型跑得快、用起来便宜且足够智能[57] - 按照规划,Flash纯语言模型只是“开路先锋”,后续将有多模态模型等更多产品登场[57] - 这标志着小米正加速从一家硬件大厂,向一家拥有独立底层核心的“大模型公司”转型[58] - 公司的战略是基于其独特的“人车家全生态”硬件布局,旨在为这个硬件帝国打造一个统一的“大脑”,使AI能精准指挥各类硬件,打通数字世界与物理世界[60][62][63] - 这种向“物理世界AGI”迈进的尝试,揭示了公司为下一代智能硬件交互提供动力、并实现更宏大野心的战略意图[65]
“特斯拉延期交付机器人是卡在灵巧手上,中国灵巧手遥遥领先”| 灵心巧手@MEET2026
量子位· 2025-12-17 10:00
文章核心观点 - 灵巧手是具身智能的核心执行平台,而非人形机器人的附属部件,可独立于机器人本体率先在工业与家庭场景应用 [2][3] - 灵巧手是一个高门槛的软硬一体平台,其硬件性能与算法生态共同决定了机器人是否具备真正的泛化操作能力 [3][7] - 一只好的灵巧手需具备高自由度、高耐用性、高性价比、多模态感知能力,并能通过软硬结合为不同场景提供稳定的定制化解决方案 [5][7] 灵巧手的行业定位与重要性 - 特斯拉原计划今年交付5000只人形机器人,但因灵巧手问题而整体延期交付,突显了灵巧手在具身智能行业中的关键性 [8][9] - 灵巧手不仅是具身机器人的核心部件,也可直接与协作机械臂、除草机器人、扫地机器人等结合,应用于工厂和家庭场景,因此能先于完整的人形机器人得到应用 [12][13] - 该部件从未来生态应用的广度到技术门槛壁垒都很高,是行业中的关键部件之一 [3][15] 优秀灵巧手的核心特征 - **高自由度**:需像人手一样具备多个关节自由度,以实现比传统两指夹爪更广泛的泛化操作能力,例如抓取火柴盒、箱子等不同物体时无需更换硬件 [18][20][21] - **高性价比**:行业竞争激烈,五指灵巧手价格已“卷到万元以内”,与工业两指夹爪处于同一价格区间,为其进入各类场景创造了条件 [22][23] - **软硬结合与算法生态**:仅有硬件不够,需配套算法以决定如何抓取和使用不同工具(如螺丝刀、移液枪),并支撑工业自动化及研究等生态链 [14][24][26] - **多模态交互能力**:需集成视觉、触觉等感知能力,作为与物理世界交互的接口,目前触觉传感器行业发展迅速 [27][28] - **耐用性与稳定性**:需达到工业级效率与稳定性,其应用成本需换算至低于雇佣工人2-3年的成本水平,才能获得大规模应用 [29][30][31] 灵巧手的主流技术路线 - 全球灵巧手主要有三种技术路线:腱绳传动、刚性连杆传动、电机直驱传动 [32] - **腱绳传动**:以特斯拉(采用英国Shadow方案)为代表,将驱动电机置于小臂,通过腱绳远程拉动手指,理论上在负载与自由度方面上限高,但存在腱绳蠕变问题,影响寿命、可靠性和控制精度,这是特斯拉机器人延期的主要原因 [33][35][36] - **刚性连杆传动**:国内大多数人形机器人公司采用此方案,刚度大、负载能力强、可靠性好、性价比高,但自由度相对有限,且难以平衡灵巧手的“不可能三角” [33][37][38][39] - **电机直驱传动**:将微型电机置于每个手指关节内直接驱动,随着电机小型化而兴起,透明度高、易于稳定控制,但结构复杂、对零部件加工要求极高 [33][40] - 灵心巧手公司作为行业领军者,同时布局并拥有这三种技术路线的全套解决方案,以适配不同应用场景 [16][41] 灵巧手行业的竞争格局与中国优势 - 在具身智能硬件,尤其是机器人与灵巧手领域,中国优势相当明显,处于“遥遥领先”的地位 [16][43] - 国产核心部件(如电机、减速机、丝杠)的性能和迭代速度高于全球其他国家 [44] - 灵心巧手公司拥有从6个自由度到20个自由度以上的全系列产品,是行业解决方案最全的公司之一,员工超过300人 [44] 灵心巧手公司的产品与市场表现 - **Linker Hand O6**:重量仅370克,为全球最轻灵巧手,单手指捏力3公斤,整手负载30公斤,已成为爆款产品,月交付量超过1000只,帮助公司在行业中占据第一位置 [44][46] - **Linker Hand L6**:以速度见长,完成手指弯折动作仅需0.3秒,可每天工作8小时无需散热休息,已应用于弹钢琴机器人等场景 [46][49] - **Linker Hand L20**:高自由度灵巧手(16个电机),是全球销量冠军,其销量超过全球其他公司高自由度灵巧手的总和,被全球知名科研机构和互联网巨头广泛采购 [49][51] - **Linker Hand L30**:采用腱绳传动结构,于2024年11月已实现商业化,开合速度达0.1秒一次,在自由度和灵活性上更拟人 [52][53] 公司的核心发展战略 - **软件算法方向**:致力于开发基于灵巧手的“原子技能”算法,使其能识别并适配抓取物理世界中的各种物体(如螺丝刀、镊子),并进行简单组装,这是未来具身智能应用的基础 [53][55] - **硬件底座方向**:坚持自研三大核心部件——触觉传感器、电机和减速器,并通过双团队赛马机制持续提升微型化与耐用性,以构建长期工程壁垒 [16][55]
腾讯调整大模型组织架构:姚顺雨加盟,向总裁刘炽平汇报
量子位· 2025-12-17 10:00
腾讯AI组织架构与人才引进 - 腾讯内部官宣大模型研发组织架构调整,新成立AI Infra部、AI Data部、数据计算平台部,以全面强化大模型研发体系与核心能力 [6] - 姚顺雨加盟腾讯,出任“CEO/总裁办公室”首席AI科学家,向总裁刘炽平汇报,同时兼任AI Infra部、大语言模型部负责人,向技术工程事业群总裁卢山汇报 [4][7] - AI Infra部将负责大模型训练和推理平台技术能力建设,聚焦分布式训练、高性能推理等核心技术 [8] - AI Data部负责大模型数据及评测体系建设,数据计算平台部负责大数据和机器学习的数据智能融合平台建设 [8] - 此次架构升级旨在强化工程化优势,提升AI大模型研究能力,聚焦公司AI战略布局,提升研发效率 [8] 姚顺雨背景与成就 - 姚顺雨是前OpenAI研究员,拥有清华大学姚班背景和普林斯顿大学计算机博士学位,是NOI奥赛银牌得主和安徽省高考探花 [2][16] - 他是Tree of Thoughts(思维树)、ReAct等知名研究的作者,也是SWE-bench、SWE-agent等一系列研究的核心贡献者 [3][27] - 博士期间师从GPT-1第二作者Karthik Narasimhan,从事智能体方向研究,毕业后加入OpenAI [18] - 其研究工作贯穿Agent研究关键节点,包括提出CALM、WebShop等 [19] 姚顺雨的AI发展观点 - 姚顺雨在2024年8月发表博文《The Second Half》,提出AI正处在“中场休息”阶段 [21] - 他认为AI上半场以模型和方法为中心,核心是“把模型训出来”;下半场重心将转向任务定义、系统构建与评估体系 [22] - 关键问题从“能否训练模型解决XX”转向“什么问题值得被解决”以及“如何判断AI是否真的进步”,评估成为决定方向的前置条件 [23] - 真正重要的不是继续堆模型规模,而是让模型在真实任务和系统中经得起检验 [24] - 他认为Agent的本质不是“会用工具”,而是“能推理并泛化” [26] - 创业公司的最大机会不在模型,而在交互方式 [28] 腾讯AI产品与业务进展 - 过去一年,腾讯混元大模型发布了超过30个新模型 [9] - 2024年12月5日发布的混元2.0显著改进了预训练数据和强化学习策略,在复杂推理与文本生成场景表现国内领先 [9] - 混元3D模型保持全球领先水准,开源社区下载量超过300万 [9] - 腾讯元宝AI应用用户规模稳居国内前三,成为最受新中产欢迎的AI原生应用,上线初期保持每天一个版本的迭代频率 [10] - 腾讯将元宝的AI能力融入微信、QQ、音乐、会议等国民级产品中 [10] - 腾讯混元大模型已在内部超过900款应用和场景中落地,包括腾讯会议、微信、广告、游戏等 [10] - 公司内部超90%的工程师使用腾讯云代码助手CodeBuddy,50%新增代码由AI辅助生成,代码评审环节AI参与度达94% [10] 腾讯AI战略与行业地位 - 腾讯被认为拥有完备的AI要素:丰富场景、海量数据、生态资源,以及谋定后动的战略风格 [14] - 公司通过组织变阵、人才引进、产品(如元宝)和开源(如混元3D)等多方面举措,明显开启了AI进程上的提速 [12][13] - 引进姚顺雨这样的顶尖人才,被视为腾讯开启AI攻坚的证明 [11]
全球功能最全的视频生成模型来了
量子位· 2025-12-17 10:00
公司产品发布 - 阿里发布了新一代通义万相2.6系列模型,该模型一次性覆盖文生视频、图生视频、参考生视频、图像生成和文生图,是目前全球功能最全的视频生成模型 [1] - 该模型在视频创作上推出了Sora2目前还没有的多音频驱动生视频能力,并同步引入了音画同步、多镜头叙事等能力 [2] 视频生成核心能力升级 - **视频参考生成**:支持视频参考,模型能提取其中主体的外观与音色,并结合提示词生成新视频内容,可用于单人表演或双人合拍等场景 [12] - **多镜头叙事**:支持多镜头生成,保持镜头间关键信息一致,可通过简单提示词完成分镜 [12] - **自然声画同步**:在多人对话等复杂场景中,语音与动作匹配更稳定 [12] - **长视频生成**:单条视频最长15秒(参考生视频最长10秒) [12] - **基础能力提升**:在指令理解与执行、画面真实度及整体美学表现等方面均有加强 [12] 视频生成能力实测表现 - **视频参考生成效果**:在主体一致性和提示词理解上做得比较扎实,能实现1:1还原,口型匹配较为准确,动作、表情与台词语义能够对应,但生成结果中的声线并未完全沿用原视频 [11] - **声画同步效果**:在双人剧情对话等复杂场景中,动作与语言能形成完整互动,模型能补全台词并添加与动作匹配的拟声细节,能区分不同角色的情感变化,但在多角色台词绑定上仍有提升空间,偶尔会出现角色说错台词或字幕语音未完全对齐的情况 [13] - **画面质感与美学**:在画面质感和美学呈现方面有提升,能准确呈现如“第一人称赛博城市飞行视角”等复杂提示词,生成具有电影级画面质感、节奏紧凑、科幻感强烈的视频 [13][14] - **多镜头叙事效果**:对多镜头叙事的理解较为到位,镜头中的主要动作和转场均能得到完整呈现,镜头衔接自然,但对于提示词中描述不够充分的抽象动作(如“探头观察”)仍存在理解难度 [15][17][18] 图像生成能力升级 - 图片生成功能在美学理解、人像生成、文字处理、历史文化及知识IP语义理解上带来新升级 [18] - **风格化能力**:能及时掌握并生成新的美学风格,如生成具有高饱和色块拼接、像素风处理的“星露谷风格”插画 [19][20][22] - **人像生成能力**:在人像光影方面的处理更好,能生成具有清晰明暗分区、面部结构立体、肤质细节自然、具有电影感和空间层次感的半身人像 [22][24] - **中英文处理与排版能力**:能生成中英文对照排版的美食宣传海报,在构图排版上判断靠谱,主体突出,文字层级分明,达到成品水准 [25][27] 整体评价与可用性 - 模型在音视频参考、声画同步、风格理解方面表现不错,但在个别场景下仍会出现画面逻辑偏差、多角色台词对不上、复杂动作理解不到位等小问题 [7][28] - 对于日常短视频创作和二创而言,模型已经是可用且好用的水平,用户敢多跑几次而不用每次都碰运气 [7][28][29] - 模型还在多图融合、美学要素迁移、历史知识语义理解上做了提升 [30]
摩尔线程算法一鸣惊人,图形学顶会夺银!已开源
量子位· 2025-12-17 09:07
文章核心观点 - 摩尔线程在SIGGRAPH Asia 2025的3DGS重建挑战赛中凭借自研的LiteGS技术获得银奖,证明了其在新一代图形渲染技术上的深厚积累和软硬件协同优化能力,并获得了学术界的高度认可 [1][2][13] - 3D Gaussian Splatting是一项革命性的3D场景表示与渲染技术,相比传统NeRF,它在保持逼真画质的同时,将渲染效率提升了数百至上千倍,并被视为下一代图形渲染的范式革命,对具身智能等前沿AI领域具有关键基础价值 [4][6][8] - 摩尔线程通过开源其3DGS基础库LiteGS,展示了从底层GPU系统到高层算法的全栈协同优化能力,在训练效率和重建质量上树立了新的性能标杆,并致力于推动三维重建与渲染技术的开放协作 [17][20][23] 3DGS技术的重要性与前景 - 3DGS是一项于2023年提出的革命性技术,以可参数化的3D高斯分布为核心,在画质、效率与资源占用间实现了卓越平衡 [4] - 相比传统神经辐射场技术,3DGS在保持逼真渲染质量的前提下,将渲染效率提升数百至上千倍,并在光线追踪、VR/AR实时渲染、多模态融合等方向展现出极强的适应性与扩展性 [4] - 该技术为需要高质量、低延迟三维环境建模的具身智能等前沿领域提供了可靠支撑,有助于提升智能体的路径规划、环境感知和复杂操作任务能力,正成为具身智能训练场景中的关键基础技术之一 [6][7][8] - 3DGS已成为全球学术界与产业界竞相投入的研究方向,受到了SIGGRAPH Asia等权威机构的高度关注 [8] 挑战赛详情与公司表现 - 本次竞赛任务极具挑战性,要求参赛团队在60秒内,基于一段10-30秒的真实终端视频序列、存在误差的相机轨迹及终端SLAM点云,完成高质量的3DGS重建 [9] - 主办方以峰值信噪比和重建速度作为综合评价指标 [10] - 摩尔线程AI团队在重建精度与效率两项指标上取得均衡表现,最终获得银奖 [13] - 具体成绩为:平均PSNR 27.58,位列前三;重建耗时34秒,显著领先多数队伍 [15] - 官方排名显示,摩尔线程团队在8支决赛队伍中PSNR排名第三,耗时与另一支队伍并列第三快 [16] 摩尔线程的LiteGS技术优势 - 摩尔线程自主研发了3DGS基础库LiteGS,旨在解决3DGS训练过程耗时过长(通常需要数十分钟甚至数小时)的瓶颈问题 [17] - LiteGS首次实现了从底层GPU系统、中层数据管理到高层算法设计的全链路协同优化 [18] - 在GPU系统层面,创新提出基于“One Warp Per Tile”原则的“Warp-Based Raster”新范式,结合扫描线算法与混合精度策略,大幅降低梯度计算开销 [18] - 在数据管理层,引入“聚类-剔除-压缩”流水线,借助Morton编码提升数据局部性,减少缓存失效 [18] - 在算法设计层,采用更鲁棒的像素不透明度梯度方差作为致密化核心判据,精准识别欠拟合区域 [18] - 通过系统与算法的协同优化,LiteGS在训练效率与重建质量上均实现显著领先 [20] LiteGS的性能数据 - 在达到与当前质量最优方案同等水平时,LiteGS可获得高达10.8倍的训练加速,且参数量减少一半以上 [20] - 在相同参数量下,LiteGS在PSNR指标上超出主流方案0.2–0.4dB,训练时间缩短3.8至7倍 [20] - 针对轻量化模型,LiteGS仅需原版3DGS约10%的训练时间与20%的参数量,即可实现同等质量 [21] - 该技术已全面开源,以推动三维重建与渲染技术的开放协作与持续演进 [23] 公司的战略与未来动向 - 此次获奖体现了公司准确把握全球技术发展趋势并引领未来图形计算技术方向的战略眼光 [23] - 3DGS技术对算法与硬件协同提出了极高要求,公司通过创新的算法设计、深度优化的自研硬件以及高效的软硬件协同,展现了卓越的综合能力 [24][25] - 这一成就印证了公司在图形智能计算领域技术路径的前瞻性与工程可行性,体现了将前沿研究快速转化为实践成果的强大执行力 [25] - 公司将于2025年12月20日-21日举办的首届MUSA开发者大会上设立技术专题,深入探讨3DGS等图形智能技术如何塑造未来,赋能具身智能等前沿领域 [25]
大模型的进化方向:Words to Worlds | 对话商汤林达华
量子位· 2025-12-17 09:07
文章核心观点 - 商汤科技发布的原生多模态空间智能模型SenseNova-SI,在多项基准测试中超越了李飞飞团队的Cambrian-S等模型,标志着公司在空间智能领域达到世界前列水平 [2][3][4][5][6] - 行业单纯依赖参数规模扩展的AI发展范式面临瓶颈,边际效应递减,未来需要回归科研本质,发展能够理解物理世界的原生多模态模型 [8][9][12][13][14][15][16] - 商汤科技通过底层架构创新(NEO架构)和极致工程优化(如算法蒸馏),实现了技术突破与商业落地成本的大幅降低,践行“原始创新”与“击穿工业红线”的双轮驱动战略 [39][49][58][61][63][67] 模型性能与突破 - SenseNova-SI模型在多个空间智能基准测试(vsi, MMSI, MindCube-Tiny, ViewSpatial, SITE)中均取得了SOTA成绩,超越了包括Cambrian-S在内的开源及闭源模型 [4][5] - 具体数据:SenseNova-SI的1.1-InternVL3-2B版本在vsi基准得分为63.7,高于Cambrian-S-3B的57.3;其1.1-InternVL3-8B版本在vsi基准得分为68.7,高于Cambrian-S-7B的67.5,并在MindCube-Tiny基准上以85.6分大幅领先 [5] - 该模型基于商汤科技开源的NEO架构,仅用同类模型10%的训练数据就达到了SOTA水平,数据效率提升了10倍 [39][49] 行业范式转变 - AI行业过去三年奉行Scaling Law,依赖算力、GPU和数据堆叠,但自2024年下半年起,风向转变,模型分数提升带来的惊艳感边际递减 [12][13][14] - 纯语言模型红利将尽,顶尖模型在数学、编程上接近奥赛金牌水平,但在理解物理世界、处理三维空间关系上能力薄弱 [20] - 未来的AGI必须是能够理解物理世界、具有多感官能力的世界模型,AI需要从“读万卷书”(语言模型)进化到“行万里路”(空间与世界交互) [20][21] - OpenAI前首席科学家Ilya Sutskever提出“Back to Research”的呼吁,与商汤科技首席科学家林达华的思考不谋而合 [17][19] 技术架构创新 - 传统多模态模型采用“视觉编码器+大语言模型”的拼接式架构,视觉信号在转化为语言Token过程中丢失大量空间细节和三维结构信息,导致模型出现“幻觉”(如数不清手指) [32][33][36][37] - 商汤科技提出的NEO架构是原生多模态架构,从最底层的Transformer Block开始,每个单元都能同时处理视觉和语言信号 [42] - NEO架构采用混合注意力机制,让视觉Token和文本Token一同进入模型的每一层进行推理计算,并引入“跨视角预测”等训练方法,让模型真正理解三维空间关系 [44][46][47][48] 商业化落地与成本优化 - 大模型行业当前痛点包括不够聪明、成本太高、速度太慢,商汤科技内部设定“工业红线”标准:技术使用成本必须低于其创造的价值 [53][54][55] - 以视频生成为例,商汤科技通过“算法蒸馏”技术,将扩散模型的推理步数从100步压缩到4步,实现了64倍的速度提升,使得在消费级显卡上实时生成高质量数字人视频成为可能 [59][61][63][64] - 实时语音驱动数字人产品SekoTalk展示了算法与系统协同的极致优化,将20秒视频生成时间从一小时缩短到实时,为直播、短视频等领域的规模化落地打通路径 [58][65][66] 对中国AI产业的启示 - 在从“语言”到“世界”的AI范式迁徙中,中国科技公司已经抢到了一张船票 [11][73] - 中国拥有全世界最丰富的应用场景和最完整的工业体系,这片土壤天生适合培育能与物理世界深度交互的AI [72] - 建议年轻研究者和创业者不要只拥挤在大语言模型赛道,应拓宽视野至具身智能、AI for Science、工业制造、生命科学等领域 [68][69][70]
让大模型“吃一堑长一智”,南理工百度等提出模型记忆新方法
量子位· 2025-12-17 09:07
文章核心观点 - 南京理工大学与百度等单位联合提出了一种名为ViLoMem的新方法,该方法通过构建视觉流与逻辑流分离的双流语义记忆,使多模态大模型能够从错误中学习,有效解决了模型“记不住教训”的问题[1] - ViLoMem是一个即插即用的框架,无需微调模型参数,即可在多模态推理基准上稳定提升模型性能,并为构建能从经验中学习的多模态智能体提供了新路径[5] 技术原理与框架 - ViLoMem的核心思想是将“看错了什么”(视觉错误)和“想错了什么”(逻辑错误)分开记忆,模仿人类的多模态整合语义记忆方式[14][16] - 框架包含记忆生成与记忆检索两个关键部分[18] - 记忆生成:当模型解题失败时,并行启动视觉分析模块与逻辑分析模块,分别生成结构化的视觉指南和逻辑规则[19][20][21] - 记忆检索:采用不同的策略。视觉记忆采用两阶段检索(图像级相似度搜索与问题语义过滤)并生成问题感知的注意力热力图;逻辑记忆则基于对题目的理解进行语义匹配检索[26][27][28][29] - 通过“增长-精炼”机制控制记忆规模,新记忆会与已有记忆进行相似度匹配,或合并为更通用的规则,或创建新记忆槽位,避免记忆无限膨胀[23][24] 性能提升效果 - 在六个多模态基准测试中,ViLoMem使GPT-4.1在MathVision上的得分提升+6.48,在MathVista上提升+2.61[2][31] - 对于小模型,Qwen3-VL-8B在MMMU基准上提升+4.38,在RealWorldQA上提升+2.74[2][31] - 从任务类型看,数学与视觉密集任务收益最大,因为双流记忆能阻断视觉错误向推理链条的级联传播[31][33] - 从模型规模看,小模型提升幅度更大[31] 知识迁移与蒸馏效应 - ViLoMem支持跨模型记忆迁移,即小模型可以直接使用大模型生成的记忆[34] - 实验显示,Qwen3-VL-8B使用大模型(Qwen3-VL-235B)的记忆后,在MMMU上的得分从69.90提升至71.26,在MathVista上从77.87提升至79.20[36] - 这提供了一种“免微调的知识蒸馏”路径,使强模型的经验能直接赋能弱模型[3][36]
挖掘注意力中的运动线索:无需训练,解锁4D场景重建能力
量子位· 2025-12-17 09:07
文章核心观点 - 香港科技大学(广州)与地平线研究团队提出了一种名为VGGT4D的无需训练框架,旨在通过挖掘预训练的3D基础模型(VGGT)内部隐藏的运动线索,使其在不增加训练成本的前提下,获得处理动态4D场景的能力 [1][2][6] 技术背景与挑战 - 以VGGT、DUSt3R为代表的3D基础模型在静态场景重建中表现出色,但在处理包含移动物体的动态4D场景时性能显著下降,动态物体会干扰背景几何建模并导致相机位姿漂移 [4] - 现有解决方案面临两大挑战:一是依赖繁重的测试时优化或大规模4D数据微调,导致计算或训练成本高;二是需要引入光流、深度估计等额外模块,增加了系统复杂性 [5] 核心发现与原理 - 研究发现,VGGT虽然是基于静态假设训练的,但其内部不同网络层对动态区域的响应模式不同,表明模型已隐式编码了丰富的动态线索 [7][13] - 标准注意力图混合了纹理、语义和运动信息,信噪比低,导致基于极几何假设的方法在VGGT上失效 [13] - VGGT4D的核心是提出一套无需训练的注意力特征挖掘与掩膜精修机制,通过深入特征流形内部,利用Gram矩阵和梯度流实现高精度的动静分离 [14] 关键技术方法 - **特征挖掘**:引入自相似性Gram矩阵替代标准注意力图,通过在同构潜在分布内计算相似度,使运动引起的方差成为主导信号,并在时间窗口内聚合不同层级的统计矩以构建动态显著性场 [17] - **掩膜精修**:引入投影梯度感知精修,利用3D点几何投影残差关于坐标的梯度所包含的强边界信息,结合光度残差项,实现对动态掩膜的亚像素级锐化 [18][19] - **推理策略**:采用分布内早期掩膜策略,仅在浅层抑制动态Token的Key向量,既切断了动态信息对深层几何推理的影响,又保证了深层Transformer Block在预训练特征流形上运行,确保了位姿估计的鲁棒性 [19] 性能评估与结果 - **动态物体分割**:在DAVIS-2016和DAVIS-2017数据集上,VGGT4D取得了最优性能。例如,在DAVIS-2016上,其JM指标达62.12,JR指标达76.80,显著优于其他方法。定性结果显示其生成的掩码更准确、边界更清晰 [21][22] - **相机位姿估计**:在长序列Point Odyssey基准测试中,VGGT4D在所有指标上均取得最佳结果,且能高效运行(许多其他方法因内存不足无法运行)。其ATE指标为0.019,优于VGGT基线的0.022 [25][26] - **4D点云重建**:在DyCheck数据集上,VGGT4D在所有重建指标上均取得最佳性能。与VGGT基线相比,中位准确度误差从0.009降低到0.004,平均距离从0.150降低到0.123 [28] - **基线对比**:原始VGGT本身已是强大基线,优于MonST3R、DAS3R等专门方法,而VGGT4D在所有数据集上持续改进了这一基线。例如在VKITTI数据集上,VGGT4D的ATE为0.164,远低于MonST3R的2.272 [23] 意义与潜力 - VGGT4D提出了一种无需训练的新范式,成功将3D基础模型能力扩展至4D动态场景,证明了通过挖掘模型内部Gram相似度统计特性可有效解耦动态与静态信息 [30] - 该工作为低成本的4D重建提供了新思路,并展示了基础模型在零样本迁移任务中的潜力 [30]
量子位编辑作者招聘
量子位· 2025-12-17 09:07
AI热潮还在汹涌,但如果你还不知道如何参与……那为什么不来 量子位 呢? 我们是一家以 追踪AI新进展 为核心的内容平台,经过8年积累,目前拥有顶流影响力,广泛且备受认可的产业资源,以及时代风口的最佳观 测和学习生态位。 目前,我们有 三大方向 岗位招聘,希望你是 (或者能成为) 这三个方向的内容专家: 岗位均为全职,工作地点:北京中关村。 岗位面向: 编辑部 发自 凹非寺 量子位 | 公众号 QbitAI 加入我们,你可以获得: 以下是岗位详情: 所有岗位不同能力层级职位均在开放,欢迎结合个人履历和经验申请。 AI产业方向 岗位职责: AI产业方向 :关注基建层创新,包含芯片、AI Infra、云计算; AI财经方向 :关注AI领域创投和财报,跟踪产业链资本动向; AI产品方向 :关注AI在应用和硬件终端方向的进展。 社招:覆盖编辑、主笔、主编各个层级,按能力匹配岗位; 校招:应届毕业生,接受实习且可转正。 站在AI浪潮之巅 :第一时间接触和了解AI领域最新技术和产品,构建完整的AI认知体系。 玩转AI新工具 :将各种AI新技术、新工具应用于工作,提升工作效率和创造力。 打造个人影响力 :通过撰写独家原创内 ...
英伟达护城河又宽了!低调收购开源算力调度王牌工具,全球过半顶级超算在用,Thinking Machines也离不开它
量子位· 2025-12-17 03:38
英伟达收购SchedMD的战略意义 - 公司收购了高性能计算与AI领域的“资源调度王牌管家”SchedMD,其核心资产是开源工作负载管理系统Slurm [1][2] - Slurm系统在全球超半数TOP500超级计算机、科技巨头Meta以及Mistral和Thinking Machines等AI创企中得到广泛应用,行业地位不可替代 [3][9][10] - 该收购被业界评价为“悄悄把自家的护城河拓宽了”,因为即使客户使用AMD或Intel芯片,只要依赖Slurm调度算力,就绕不开英伟达生态的辐射 [3][15] SchedMD公司业务与商业模式 - SchedMD成立于2010年,专注于大规模计算任务调度技术 [5] - 其核心产品Slurm能高效分配成千上百台设备的算力资源,服务于大模型训练、数据预处理、天气预报及基因测序等任务 [6] - 公司商业模式清晰:Slurm免费开源,通过提供专业工程支持、系统维护和定制化开发等增值服务盈利 [8] 英伟达的收购动因 - 整合成本低:双方已有十年合作基础,技术衔接与团队整合成本较低,便于英伟达快速将SchedMD能力融入自身生态 [12][13] - 战略价值高:收购使英伟达的影响力从硬件层延伸至调度层,有助于锁定超算中心、云厂商和AI企业等核心客户群体 [14][15][16] 收购后的承诺与外界关切 - 英伟达官宣收购时承诺,将继续保持Slurm的开源和供应商中立属性,确保全球用户正常使用 [18] - 外界担忧英伟达可能不会持续投入开发支撑新云厂商服务的Slinky项目关键仓库,若后续开发断档可能影响相关业务稳定性 [19][21] 英伟达同期推出的Nemotron 3系列开源模型 - 公司推出了采用MoE架构、支持百万token上下文窗口的Nemotron 3系列开源模型,包括Nano、Super和Ultra三种规模 [22] - Nano模型总参数30B,单次任务激活3B参数;Super总参数100B,每token激活10B参数;Ultra总参数500B,每token激活50B参数 [22] - 该设计通过精准控制活跃参数量,在保留大模型核心能力的同时大幅减少算力消耗 [23] - Nano模型现已推出,相比前代Nemotron 2 Nano,吞吐量提高4倍,推理成本更低,并被Artificial Analysis评为同类型中最开放高效的模型 [25][26][27] - Super和Ultra模型预计于2026年上半年推出 [25]