Workflow
机器之心
icon
搜索文档
一手实测 | 智谱AutoGLM重磅开源: AI手机的「安卓时刻」正式到来
机器之心· 2025-12-10 05:10
文章核心观点 - 智谱公司全面开源的AutoGLM项目,通过一个手机端智能助手框架和一个9B参数模型,实现了能真正操控手机的AI智能体,这标志着AI从对话到行动的范式转变,并可能成为AI Agent领域的“安卓时刻”,为未来AI原生手机和隐私保护型智能助手奠定了开源基础 [5][6][12][35][42] 锤子科技与TNT的历史背景 - 锤子科技虽已落幕七年,但其TNT(Touch & Talk)构想通过触控加语音操作设备,在当今大模型时代被验证为高效交互方式,仍有百万日活用户怀念其产品 [3][4][5] AutoGLM项目的起源与里程碑 - 智谱是首个进行可操作智能体研究的厂商,于32个月前的2023年4月启动AutoGLM项目,旨在打造能“做”而不仅是“说”的智能体 [11][12] - 2024年10月,AutoGLM面世并被公认为全球首个可真正操控手机的Agent,也是完成度最高的GUI Phone Use模型 [12] - 该项目实现了一个关键里程碑:完成了人类历史上第一个由AI全自动发出的微信红包,象征着大模型从Chat到Act的范式转变 [13][15] AutoGLM的技术架构与核心能力 - 项目由手机端智能助手框架Phone Agent和9B大小的模型AutoGLM-Phone-9B组成 [6] - 其实现依赖于三大核心技术:1) ADB作为手机控制器;2) 视觉-语言模型作为AI的“眼睛+大脑”;3) 智能规划能力作为任务拆解的“策划师” [17][18][19] - 该模型通过理解手机屏幕内容、解析UI状态并结合智能规划,能自主完成从自然语言指令到具体操作的全套流程 [16][19] AutoGLM的实际应用表现 - 在实测中能流畅执行发微信、浏览小红书商品、更新应用宝软件、跨应用查询与播放音乐等复杂任务 [22][27][28][29] - 展现出强大的稳健性,如在操作中遭遇误触打开错误应用时,能感知错误、自我修正并回到正轨,这是Agent走向实用的关键 [30][31][40] - 具有高通用性,不局限于特定应用,甚至能调用其他AI助手(如Gemini)来完成更复杂的任务,充当连接本地应用与云端模型的“超级胶水” [31][32][33] 全面开源的意义与影响 - 智谱将AutoGLM全面开源,包括核心模型、推理代码、完整工具链、支持50多款常用中文App的Demo以及友好协议,将能力开放给整个行业 [35][41] - 开源解决了隐私问题,允许AI在本地设备运行,数据无需上云,代码透明可验证,提供了透明、可控、私有的智能管家方案 [36][37] - 此举打破了可能由单一平台独占AI手机入口的局面,为行业提供了平等的模型底座,回应了其他AI手机助手被大厂应用限制的现状 [38][39] - 开源被视作AI Agent领域的“安卓时刻”,为动嘴就能搞定一切的未来交互时代铺下了开源基石 [42]
Percept-WAM:真正「看懂世界」的自动驾驶大脑,感知到行动的一体化模型
机器之心· 2025-12-10 02:09
在过去几年,自动驾驶圈流行一句话: 「大模 型会说话,但不会开 车。」 一方面,大规模视觉语言模型(VLM)在文本理解和逻辑推理上突飞猛进;另一方面,一旦把它们放到真实道路上,让它们处理长尾场景、远距离目标和复杂博 弈时,这些 "聪明大脑" 却常常犯低级错误:看不清、定位不准、反应不稳定。深层原因在于 —— 现有 VLM 在空间感知和几何理解上的能力,远远跟不上它们在 语义层面的 "表达能力" 。 为了让大模型真的能 "看懂世界",在很多现有方案中,研究者会在训练中加入一些 "感知类 QA" 问题,比如问 "左前方有没有车""两车距离有多远"。但这类监督 更多停留在语义标签和粗略相对关系层面,并没有让模型真正学会可用于控制决策的强 2D/3D 感知能力 —— 例如精确、稳定的检测框、分割结果和 BEV 感知信 息。换句话说,今天很多 VLA 仍然停留在「会回答关于世界的问题」,而不是「真的看清这个世界」。这种 "弱感知的大模型",显然不足以支撑自动驾驶和广义 具身智能对空间理解的高要求。 近日,来自引望智能与复旦大学的研究团队联合提出了一个面向自动驾驶的新一代大模型 ——Percept-WAM(Percept ...
大模型「有心了」:首个情感大模型Echo-N1,32B胜过200B
机器之心· 2025-12-10 02:09
文章核心观点 - NatureSelect公司旗下Team Echo团队发布了首个情感大模型Echo-N1,提出了一套全新的情感模型训练方法,成功将强化学习应用于主观情感领域,打破了大型语言模型在情感共情能力上的瓶颈 [2][3][9] - 该研究通过创新的“共情的心理物理模型”和“生成式奖励模型”等技术,将玄学的“共情”转化为可计算、可优化的过程,使仅32B参数的模型在多轮情感陪伴任务中取得了显著优于千亿参数商业模型的表现 [10][14][37] 现有模型在情感陪伴领域的问题 - 无法量化情感:用户表达背后细微的情绪信号难以被传统的标量奖励有效捕捉 [7] - 存在奖励黑客问题:模型为获取高分而堆砌华丽辞藻,产生对缓解用户情绪无帮助甚至适得其反的“美丽的废话” [8] - 评测失真:现有的顶尖闭源模型自身也难以区分“像人”与“像AI”的表达,导致评测标准失效 [8] Echo-N1的核心技术创新 - 提出生成式奖励模型:摒弃单一的标量奖励,要求奖励模型在输出前先生成一段逻辑严密的情感推理路径,通过对用户画像进行深度侧写来推导能引发共鸣的回答,显著提升了判别精度 [14] - 训练了两种生成式奖励模型:拟人度奖励用于消除“助手味”,确保回复逻辑自洽且具备“活人感”;共情奖励旨在实现用户特定的深度共情,通过“从公理推定理”的范式处理人类偏好的多样性 [16] - 引入过程性奖励、离散化奖励与参考答案锚定等策略,有效缓解了奖励黑客问题,提升了训练策略模型的稳定性 [15] 评测体系的革命:共情的心理物理模型 - 团队打造了机器共情科学标尺——EPM情感物理模型,将抽象的心理疗愈转化为可计算的物理过程,使共情效果成为可视化追踪的能量轨迹和可计算的物理功 [19][22][23] - 构建了“拟人化认知沙盒”:这是一个由模拟人类“中央执行脑区”统筹的多智能体协作系统,能够动态、基于环境反馈地进行决策,实现多轮鲜活的复杂心智模拟,用于残酷而真实的社会共情能力测试 [24][25] 模型性能测试结果 - 在覆盖30个高难度心理场景的压力测试中,未经后训练的基座模型Qwen3-32B通过率为0%,其EPM轨迹显示其不仅无法提供情感支持,反而可能滋生用户更负面的情绪 [26] - 千亿参数级别的商业模型Doubao 1.5 Character在测试中成功率仅为13.3% [27] - 仅32B参数的Echo-N1模型在多轮情感陪伴任务中的胜率达到46.7%,远超Doubao 1.5 Character的13.3% [10] - 在综合评测中,Echo-N1最终得分为73.54分,远超Doubao的42.95分和基座模型Qwen3-32B的29.66分 [33][34] 行业影响与意义 - 研究证明,真实的情感共情能力并非单纯通过堆砌参数就能涌现,而是需要专门、科学的训练范式 [28] - 该工作为强化学习在主观、不可验证领域的应用开辟了新的可能性,使AI的“情商”成为一种可以被数学建模和优化的硬核能力 [37][38] - 这项技术让较小参数的模型具备了越级挑战超大参数模型的共情能力,为未来开发更具温度、更人性化的人工通用智能指明了方向 [36][38]
Light-X来了!全球首个「镜头×光照」双控4D视频生成框架,单目视频秒变电影级
机器之心· 2025-12-09 08:41
仅凭一段随手拍摄的单目视频,是否能够让镜头在空间中自由飞行,让光线随意变换,让原本固定的真实场景在全新的视角与照明条件下被再次「拍摄」?这一 过去被视作科幻设想的问题,如今迎来了明确答案。 近日,新加坡南洋理工大学 S-Lab、北京智源人工智能研究院(BAAI)、华中科技大学、清华大学智能产业研究院(AIR)等多家科研机构联合推出 Light-X —— 全球首个实现「镜头 × 光照」双维度可控 的 4D 视频生成框架 。Light-X 让「按用户意图重新导演一段视频」成为现实:既能自由规划镜头轨迹、生成任意新视角 内容,也能灵活调整光源方向、亮度与风格 —— 从电影级布光到赛博霓虹氛围,都能在一段普通视频中轻松实现。 研究背景 现实世界的视觉体验由几何、运动和光照共同构成,而我们日常拍摄的单目视频,只是这一复杂四维时空的二维投影。若能在拍摄后重新控制镜头位置、自由调 节光照条件,那么普通视频就能具备「可重拍摄」、「可再导演」的能力。无论是电影制作、虚拟拍摄,还是 AR/VR 内容生成,都将受益匪浅。 现有研究大多沿着两条彼此独立的路线发展: 论文名称:Light-X : Generative 4D Video ...
地平线首曝BPU「黎曼」架构,用数学流形重构AI计算
机器之心· 2025-12-09 08:41
公司发展历程与愿景 - 公司成立于2015年7月14日,与NASA“新视野号”飞掠冥王星同日,寓意向人工智能算力高峰攀登 [2] - 公司创始人余凯在2012年参与竞购Geoff Hinton团队,后因思考为深度学习专门设计芯片而创立公司 [1] - 公司站在从“数字智能”向“物理智能”跨越的拐点,致力于为物理AI世界构建底层生态 [4] 芯片架构演进与发布 - 公司BPU架构迭代基于对AI本质的数学理解,认为AI在物理世界的任务是“逼近真理” [6] - 架构演进路径:伯努利架构面向感知计算,应用于征程2、3芯片 [10];贝叶斯架构面向预测计算,应用于征程5芯片 [10];纳什架构面向博弈决策,应用于征程6系列 [10] - 全新BPU“黎曼”架构面向通用机器人和L4/L5级自动驾驶,其设计灵感源于现实世界隐藏的低维流形结构 [7] - 相比上一代架构,“黎曼”关键算子性能提升10倍,高精度算子支持数量增加10倍,面向LLM能效提升5倍,并全面支持浮点计算 [7] - 搭载“黎曼”架构的征程7系列芯片正在酝酿中,目标直接对标特斯拉下一代AI5芯片 [7] 编译器技术突破 - 公司发布第四代编译器“天工开物 OpenExplorer 4.0”,引入AI驱动的优化策略,包括强化学习和蒙特卡洛树搜索,以解决传统编译器处理离散优化问题的瓶颈 [8][9] - 新版编译器将编译速度从“小时级”缩短至“分钟级”,并通过优化使模型性能提升20% [12] - 在HSD量产实践中,编译器将端到端延迟从通常的300ms优化至160ms [12] 全场景智驾与商业模式创新 - 公司在2025技术生态大会上交出了全场景智驾的量产答卷 [4] - 针对行业面临模型训练成本动辄数十亿、AI人才稀缺、算法迭代慢的挑战,公司推出HSD Together全栈算法服务模式 [13] - HSD Together模式将公司已验证的全场景智驾系统作为“样板间”向合作伙伴开放,提供白盒或黑盒授权,甚至包括核心基座模型 [13][14] - 该模式旨在帮助合作伙伴聚焦集成和差异化,预计可将其人力、算力和时间成本降低90% [14] - 公司正从“卖铲子的人”转变为“施工队队长”,亲自下场扶车企上马 [14] 极致性价比智驾方案 - 公司提出让10万级国民车型拥有好用的城区辅助驾驶,方案基于单颗征程6M芯片 [16] - 基于单颗J6M的方案在复杂路段实现了无保护左转、窄道博弈和施工绕行,其杀手锏在于极致性价比与被动散热(风冷) [18] - 该方案不仅适用于新能源车,也能让庞大的燃油车市场搭载高阶智驾 [18] - 目前博世、卓驭、轻舟智航等Tier 1已基于此方案与公司合作,目标直指千万级量产 [19] 开源具身智能与机器人生态 - 公司认为智能驾驶大模型是物理AI基座模型的开端,其本质是处理“Video in, Control out”的高维序列 [21] - 公司开源具身智能模型,包括专注于运动智能的“小脑”HoloMotion,一个模型支持多种形态,在S100芯片上可实现50Hz高帧率运行 [22] - 同时开源专注于操作智能的“大脑”HoloBrain,基于VLA架构,赋予机器人理解指令和细腻操作的能力 [25] - HoloMotion已在GitHub开源,并获得斯坦福、清华等机构使用 [27] - 公司短期目标是优化VLA和动作建模,长期目标是构建包含摩擦力、重力等物理属性的真实世界模型 [27]
谷歌TPU杀疯了,产能暴涨120%、性能4倍吊打,英伟达还坐得稳吗?
机器之心· 2025-12-09 08:41
谷歌TPU产能与商业化战略 - 摩根士丹利大幅上调谷歌TPU产量预测,预计2027年达500万块,2028年达700万块,较此前预测分别上调67%和120% [2] - 未来两年(2027-2028)谷歌计划生产1200万块TPU,而过去四年总产量仅为790万块 [2] - 摩根士丹利测算,谷歌每销售50万块TPU芯片,2027年可贡献约130亿美元收入,并增加每股收益0.40美元 [2] - 谷歌战略包括直接向第三方数据中心销售TPU,作为谷歌云平台业务的重要补充,为广泛商业化做准备 [2] AI算力市场格局演变:从训练到推理 - 到2030年,推理将消耗75%的AI计算资源,形成一个规模达2550亿美元、年复合增长率19.2%的市场 [8] - 分析师估计,到2026年,推理需求将比训练需求高出118倍,并将推动7万亿美元的基础设施投资 [14] - 训练是一次性高成本投入,例如GPT-4训练成本为1.5亿美元,而推理是持续成本,例如OpenAI 2024年推理支出预计达23亿美元,是GPT-4训练成本的15倍 [13][14] - 市场格局正从模型训练(英伟达强项)向模型推理(实时应用)重塑 [8] 谷歌TPU与英伟达GPU的技术与成本对比 - 在大型语言模型等推理任务上,TPU的性价比是英伟达H100 GPU的4倍 [17] - 谷歌最新的Ironwood (v7) TPU速度是v6的4倍,峰值计算能力是v5p的10倍,每代产品带来2-3倍的性价比提升 [17] - TPU能效更高,执行搜索查询时比GPU节能60-65%,在MLPerf基准测试9个推理类别中赢得8个 [17] - TPU v6e按需使用起价为每小时1.375美元,长期合约可降至每小时0.55美元,且无需支付英伟达授权费,而H100成本为每小时2.50美元以上 [17][21] ASIC与GPU的架构差异及竞争态势 - GPU是通用处理器,灵活性高;ASIC是专用集成电路,为单一任务(如张量运算)设计,牺牲灵活性以换取极高效率 [27] - ASIC在能效、延迟、每次操作成本和可扩展性方面具有优势,TPU通过硬件固定操作,相同工作负载下能耗降低60-65% [28] - 未来计算策略预计是混合部署:GPU用于研究和训练,ASIC用于生产推理 [30] - 谷歌云高管预计,仅TPU的采用就可能影响英伟达10%的收入,并对英伟达70-80%的高毛利率构成价格压力 [22] 行业巨头向TPU迁移的案例 - 图像生成公司Midjourney在2024年转向TPU后,推理成本降低65%,从每月200万美元降至70万美元 [34] - Anthropic与谷歌达成价值数百亿美元的交易,承诺使用多达100万个TPU,预计到2026年释放超过1GW计算容量 [35] - Meta作为英伟达最大客户(计划2025年支出720亿美元),正就价值数十亿美元的TPU部署进行深入洽谈,计划从2026年开始通过谷歌云租赁TPU,并在2027年前部署本地TPU [36] - Salesforce和Cohere使用TPU后实现了3倍的吞吐量增长 [36] TPU与GPU的选择决策框架 - 选择TPU的场景:推理成本超过每月5万美元、工作负载为大规模LLM服务或推荐系统、部署于谷歌云平台、重视能源效率、具有可预测的扩展需求 [41][42][43] - 选择英伟达GPU的场景:需要训练灵活性及CUDA生态系统、实施多云战略避免供应商锁定、运行多样化非AI工作负载、每月AI计算预算低于2万美元、尝试尚未针对TPU优化的前沿模型架构 [44][45][46][47][48] - 混合战略建议:部署英伟达H100用于训练和模型开发,使用TPU v6e/v7进行生产推理服务,可节省40-50%的总计算资源 [49] - 大规模TPU迁移通常需要2-6个月,投资回报期约为3-4个月 [49] 市场影响与投资者行为 - 部分精英投资者抛售英伟达股票,例如彼得·蒂尔的对冲基金在2025年第三季度清仓价值约1亿美元的英伟达股票,日本软银清仓3210万股套现58.3亿美元 [65][66] - 投资者担忧包括:GPU供应过剩和资产贬值(每年价值下降30-40%)、TPU竞争导致英伟达利润率压缩、客户多元化投资减少对英伟达收入依赖 [67] - 尽管面临挑战,英伟达仍控制着超过80%的AI芯片市场,其2023年数据中心业务收入达600亿美元 [13][67] TPU面临的挑战与未来竞争 - TPU生态系统与TensorFlow/JAX绑定,灵活性不及英伟达CUDA,本地部署市场处于起步阶段 [69] - 扩展TPU至4096个芯片需要谷歌云投入,混合架构将持续存在 [69] - 新兴竞争者包括亚马逊的Trainium、微软的Maia芯片,但它们在成熟度(TPU已发展至第九代)和规模上尚无法与TPU相比 [69] - 谷歌与博通和台积电合作加速v7芯片生产,预计到2026年第二季度TPU供应将能满足需求 [69] 其他关键问答摘要 - 英伟达即将发布的Blackwell架构承诺提升推理效率,但早期分析表明TPU在大规模纯推理方面仍保持2-3倍的成本优势 [74] - AMD的MI300和英特尔的Gaudi芯片是GPU替代方案,可节省30-40%成本,但效率仍不及TPU [77] - TPU在标准架构上表现出色,对于自定义AI模型,建议先在GPU上原型设计,待架构稳定后再针对TPU优化生产模型 [76]
没了遥控器,还被扔进荒野,具身智能该「断奶」了
机器之心· 2025-12-09 03:17
文章核心观点 - 在真实、复杂的户外场景中,当前机器人的自主能力面临严峻挑战,频繁“翻车”,特别是在感知与操作方面存在显著短板 [4][8][9] - 行业普遍高估了人形机器人的通用能力,短期内(如五年内)走进家庭承担家务的目标难以实现 [11] - 实现具身智能真正落地的“必选项”是让机器人“丢掉遥控器”,具备全自主的感知、决策与执行能力 [11] - 尽管面临挑战,但比赛中部分机器人的成功表现(如完成500米全自主定向越野)也展示了技术进步的真实希望 [57][59][65] 感知能力面临的困境 - 户外光照变化严重影响机器人视觉感知,强光下深度相机(如RealSense)的主动光结构几乎失效,导致机器人无法识别透明或反光物体(如矿泉水瓶、白色水壶)[14][16] - 复杂变量(如透明与反光、材质差异、颜色变化、光照波动)使得操作任务极其困难,抓取香蕉和矿泉水瓶对机器人而言是完全不同的任务 [23] - 机器人严重缺乏真实的物理信息与触觉反馈,而触觉在人类操作行为中与视觉同等重要 [23] - 部分队伍通过回归“传统视觉+几何”路线并极致打磨,或在高保真模拟器中复现真实噪声,成功实现了复杂任务(如垃圾分拣、吊桥穿越)的全自主完成 [26][28] 智能决策与任务规划能力不足 - 当前多数机器人被形容为只有“20岁身体,3岁智商”,缺乏在开放环境中进行长链任务规划与决策的能力 [31] - 复杂的长链任务(如自主浇花包含8个子任务)难倒了所有参赛机器人,没有一台能实现全自主完成 [32] - 即使采用大模型(VLA模型)进行高层语义理解,其在真实场景中的物理细节理解与操作精度仍不足,导致队伍不得不依赖遥操 [34] - 机器人在任务流程中缺乏异常处理能力,一旦某个环节出错(如水龙头卡住、道具形变),就会陷入停滞,无法自主调整 [37][38][40] 硬件与算力瓶颈 - 主流系统架构采用“大模型+小模型”协同范式,但异构算力(CPU、GPU、NPU)集成面临体积、功耗与高效协同的挑战 [51][52] - 算力不足是突出限制,即使采用豪华端侧配置(如一台Intel NUC主控加两块英伟达算力板),仍面临延迟高、耗电大的问题,无法支撑更大规模模型推理 [52][53] - 实现高质量感知和自适应控制(如力控、重心实时调整)需要更高的算力和更优的本体性能,目前仍有差距 [56] - 行业需要低功耗、高性能的专用芯片和轻量化模型,以让机器人的身体能承载其大脑的智能 [56] 不同机器人形态的发展差异 - 四足机器人在“能走”这一维度已取得质变,有两台四足机器人在比赛中成功完成了500米级、充满挑战的自然地形全自主定向越野 [59][61] - 双足/人形机器人在平衡、力控、地形适应方面远比四足困难,重心高、支撑面小,技术挑战更陡峭,发展道路更长 [61][62][64] - 机器人要真正进入人类世界,需同时具备“能走、能操作、能改造环境”三大能力,目前后两者仍有巨大研究空间 [61] - 在吊桥穿越任务中,面对50cm间隙,四足机器人选择直接跳过,而双足机器人需借助工具(如移动木板)才能通过,这体现了高级智能行为的差距 [43][44][45][49] 赛事价值与行业方向 - 赛事设计直面真实世界的扰动,旨在系统验收机器人的核心能力,并通过碰撞暴露其真正弱点,从而指引行业突破方向 [65][66] - 人工智能的未来方向是机器智能与物理世界的深度融合,AI必须从数据认知走向环境交互和行动执行 [66] - 失败(“翻车”)是进步过程中的正常现象,是迈向成功的必要步骤 [65]
Snapchat提出Canvas-to-Image:一张画布集成 ID、姿态与布局
机器之心· 2025-12-09 03:17
核心观点 - Canvas-to-Image是一个面向组合式图像创作的全新框架,其核心创新在于取消了传统“分散控制”的流程,将身份参考图、空间布局、姿态线稿等不同类型的控制信息全部整合在同一个画布中,由模型直接解释为生成指令,从而简化了图像生成的控制流程 [2][9][31] 传统方法的局限性 - 在以往的生成流程中,身份参考、姿态线稿、布局框等控制方式被设计成互不相干的独立输入路径,各自拥有独立的编码方式与预处理逻辑 [7][8] - 这种多入口、分散式的输入结构缺乏统一的表达空间,使得用户无法在同一位置叠加多种控制信息,也无法用一个局部区域里的组合提示来指导模型生成,导致复杂场景的构建流程冗长且割裂 [8] 核心方法论 - Canvas-to-Image将所有控制信号汇聚到同一张画布中,由模型在同一个像素空间内理解、组合并执行,画布本身既是用户界面,也是模型的输入 [9][14] - 在训练过程中,模型采用跨帧采样策略自动生成多任务画布,从跨帧图像集中抽取目标帧所需的不同视觉元素(如人物片段、背景、姿态结构、框选区域等),并按目标帧中的相应位置摆放在输入画布中 [15][17] - 训练时,模型在每一次训练中只会接收到一种随机选定的控制模态(例如空间布局、姿态骨架或边界框),这使其学会独立理解不同类型的控制提示 [15] - 尽管训练数据中不存在显式标注的“多模态组合控制”样本,但模型在推理阶段展现出对未见过控制组合的泛化能力,能够在统一画布中同时解析并整合多种控制信号 [16] 实验结果与能力 - 在多控制组合任务中,Canvas-to-Image能够同时处理身份、姿态和布局框,而基线方法往往会失败 [18] - 当画布中同时包含人物提示和物体提示时,模型能够理解两者之间应有的空间与语义关系,生成具有自然接触、合理互动的场景,而非简单并置 [20] - 在多种控制叠加的情况下,模型能遵循给定的姿态与空间约束,保持人物外观与参考图一致,并维持整体画面的连贯性与合理性 [21][22][23] - 在多层次场景生成中,给定背景图后,模型可通过放置参考图或标注边界框的方式,将人物或物体自然地融入场景,使其在位置、光照和整体氛围上与背景保持一致 [25] 消融研究与总结 - 消融研究表明,当逐步添加控制时,模型表现逐步提升:仅身份控制时能生成人物但姿态和位置随机;增加姿态控制后能同时控制身份和姿态;增加空间布局后能完全控制身份、姿态和位置 [28][32] - 关键发现是,虽然训练时使用单任务画布,但模型自然学会了在推理时组合多种控制,这种涌现能力验证了其设计理念 [28] - 该框架的核心价值是把多模态的生成控制方式全部图形化,让复杂场景的构建回归到最直观的方式:在画布上摆放、画、框,就能生成对应的结构化、真实感强的画面,统一画布加多模态控制的范式有望成为下一代创作工具的基础界面形态 [31]
全图与切片并非等价?LLaVA-UHD-v3揭示差异推出高效全图建模方案
机器之心· 2025-12-09 03:17
多模态大模型视觉编码的技术挑战与现状 - 当前主流视觉编码范式难以兼顾性能与效率:基于切片的编码方法牺牲全局上下文感知能力,而全局原生分辨率编码则带来巨大计算负担 [2] - 现有视觉压缩策略与特征提取过程相对独立,缺乏一个能兼顾细粒度建模与计算效率的统一架构 [2] LLaVA-UHD v3 的发布与核心目标 - 清华大学、中科院研究团队发布 LLaVA-UHD v3,旨在解决高清原生分辨率下保持全局理解能力并实现快速推理的核心问题 [3] - 模型提出了全新的渐进式视觉压缩框架,旨在显著减少视觉 Token 数量,从根本上提升原生高分辨率视觉编码的效率 [4] 渐进式视觉压缩框架详解 - 框架核心由精细化 Patch 嵌入与窗口化 Token 压缩两个组件构成 [4] - 精细化 Patch 嵌入通过将图像划分为更小尺寸的 patch,并转换预训练模型权重,实现更丰富的视觉语义提取建模 [11] - 窗口化 Token 压缩在 ViT 中间层聚合相邻 token,通过可学习的池化权重渐进压缩 token 数量,保留关键语义信息 [13] - 该“先细粒度建模 + 再渐进压缩”的设计,在兼顾全局语义与局部细节的同时大幅降低计算量 [15] 全图编码与切片编码的对比分析 - 实验对比显示,全局原生分辨率编码在空间感知/定位任务上相比切片编码平均提升约 11.0% [6] - 在通用视觉-语言理解任务中,全局原生分辨率编码在语义理解表现上略优于切片编码,平均提升约 2.1% [7] - 研究发现切片编码机制破坏了图像的空间连续性,导致系统性方向与结构偏差,削弱了空间理解的可靠性 [7] - 结论表明,尽管切片编码效率有优势,但从语义、空间及几何一致性角度,全局原生分辨率编码更适合需要空间感知与高分辨率理解的任务 [7] LLaVA-UHD v3 的效率与性能验证 - 效率方面,ViT-UHD 编码器相比 MoonViT 实现 2.4× 加速,相比 Qwen2.5-ViT 快 1.9× [16] - 整合到完整 MLLM 后,LLaVA-UHD v3 的 TTFT 相较 Qwen2-VL 降低 49%(约快 1.9×),比以高效著称的切片编码模型 MiniCPM-V2.6 仍快约 10% [16] - 性能方面,模型仅使用约 2000 万对图文数据训练,远低于 Qwen2-VL(约 7 亿)和 MiniCPM-V-2.6(约 4.6 亿)的训练规模 [17] - 模型实现了 64× 的视觉 Token 压缩率,远超对手(Qwen2-VL 约为 4×,MiniCPM-V2.6 为 16×)[17] - 在需要细粒度视觉信息的任务上,如 HallusionBench、CV-Bench 以及 OCR&Chart,模型取得了与 SOTA 模型相当甚至更优的表现 [17] 模型综合性能基准对比 - 在通用与知识基准测试中,LLaVA-UHD-v3 在多个指标上展现出竞争力,例如在 MME 上得分为 2183.6,在 MMB 上为 81.3,在 MathVista 上为 64.2 [18] - 在视觉推理与 OCR & Chart 基准测试中,模型在 HallusionBench 上得分为 52.2,在 RealworldQA 上为 70.3,在 DocVQA 上为 92.8,表现优异 [19] 技术局限与未来展望 - 实验表明,缺失预对齐阶段的 ViT-UHD 性能不佳,当前 MLLM 标准训练流程难以完全挖掘视觉编码器的潜力 [20] - 随着 Token 数量增大,Transformer 的二次复杂度仍会带来成本瓶颈 [20] - 未来需探索更适合多模态任务的视觉编码预训练策略,并引入线性复杂度算子以替代传统注意力机制,实现可扩展的高效多模态建模 [20]
刚上市的摩尔线程,即将揭晓新一代GPU架构
机器之心· 2025-12-09 03:17
大会概况 - 摩尔线程将于2025年12月19日至20日在北京举办首届MUSA开发者大会(MDC 2025)[2] - 大会是国内首个聚焦全功能GPU的开发者盛会,旨在汇聚全球AI与GPU领域开发者,共同探索国产算力突破路径[2] - 大会将全面展示从硬件到软件、从技术到场景的全栈能力与生态进展,推动国产全功能GPU技术扎根千行百业[2] 核心议程与发布 - 主论坛将聚焦智能算力,公司创始人将首次系统阐述以MUSA为核心的全栈发展战略与未来愿景[4] - 主论坛将重磅发布新一代GPU架构,并推出涵盖产品体系、核心技术及行业解决方案的完整布局[4] - 演讲将分享公司在AI计算、图形渲染、科学计算及多场景融合中的落地实践与生态进展[4] 技术专题与生态建设 - 大会设立超过20场技术分论坛,议题覆盖智能计算、图形计算、科学计算、AI基础设施、端侧智能、具身智能等关键领域[6] - 将设立“摩尔学院”以赋能开发者成长,通过技术共享、资源整合与人才培养,共同构建国产GPU应用生态[6] 沉浸式体验与展示 - 大会将联合生态伙伴打造超过1000平方米的沉浸式“MUSA嘉年华”[8] - 现场设置多元主题展区,内容覆盖AI大模型&Agent、具身智能、科学计算、空间智能等前沿技术领域[8] - 展示将延伸至工业智造、数字孪生、数字文娱、智慧医疗等热门应用场景,通过Live Demo让技术可体验[8] - 具体互动体验包括具身智能(如机械臂/机器狗/机器人)、数字人实时交互与3D建模、国产GPU在游戏等数字文娱中的应用等[12][13][15] 行业应用赋能 - 大会将展示全功能GPU如何深度赋能千行百业[19] - 覆盖的行业应用领域包括智慧农业、工业智造、智慧教育、智慧医疗、智慧出行、专业视觉、互联网及运营商等[21] 公司定位与愿景 - 公司以全功能GPU为核心,致力于向全球提供加速计算的基础设施和一站式解决方案,为各行各业数智化转型提供AI计算支持[26] - 公司目标是成为具备国际竞争力的GPU领军企业,为融合人工智能和数字孪生的数智世界打造先进的加速计算平台[26]