Workflow
多模态大语言模型
icon
搜索文档
NeurIPS 2025 | 告别全量扫描!浙大提出COIDO:破解多模态数据选择「高耗」难题
机器之心· 2025-12-13 08:31
研究背景与动机 - 多模态大语言模型的能力高度依赖高质量的视觉指令微调,但数据集规模爆炸式增长导致全量微调计算开销巨大且存在冗余[8] - 现有数据筛选方法普遍存在两大痛点:筛选成本高昂,需要目标模型对全量数据进行反向传播;优化目标解耦,将重要性与多样性割裂处理,导致次优权衡[12] 方法论核心创新 - 引入轻量级插件评分器,仅需随机采样一小部分数据(例如20%)进行训练,即可学习整个数据集的分布特征并对剩余数据泛化评分,无需遍历全集[14] - 提出重要性与多样性的耦合优化框架,将两者统一在联合训练中,而非分阶段进行[14] - 重要性损失基于交叉熵损失的重加权,使评分器隐式学习样本重要性;多样性损失基于谱聚类的方差最小化,保证数据多样性分布[14] - 引入基于同方差不确定性的自动加权机制,通过动态调整损失权重,实现重要性与多样性的自适应平衡[15][18] 实验性能与效率 - 在多项基准测试中,仅利用20%的数据进行训练和筛选,即可达到全量数据微调98.2%的平均性能[20] - 与现有先进方法相比,COIDO拥有最低的总计算量,仅为4.2E FLOPs,计算效率最高[20][24] - 在相同数据留存率下,COIDO在各个基准测试上均取得了极具竞争力的结果,筛选质量最优[24] - 在LLaVA-665K上训练好的评分器,可直接应用于Vision-Flan数据集,其零样本迁移表现优于在该数据集上从头训练的评分器,证明了强大的泛化性与迁移性[21] 研究总结与意义 - COIDO提供了一种全新的多模态数据筛选范式,打破了“数据筛选必须昂贵”的刻板印象[23] - 该方法通过耦合优化和小样本学习,以极小的计算代价精准定位高价值视觉指令数据,实现了“以简驭繁”[4][23] - 该研究为资源受限的研究者高效微调多模态大语言模型提供了可能,并为未来大规模多模态数据的自动化清洗与治理提供了新思路[23]
大模型被确诊「视觉文盲」!多校联合提出MILO,为它植入空间想象力
量子位· 2025-12-04 09:55
当前大多数方法采用 "语言描述式调优" ,即通过文本符号让模型学习空间概念,却 从未真正"看见" 这些概念在视觉上的表现,导致模型出 现 "视觉文盲" 现象——即无法在生成回答时关注到正确的视觉区域。 MILO团队 投稿 量子位 | 公众号 QbitAI 大模型总是无法理解空间,就像我们难以想象四维世界。 空间推理是人类理解三维世界结构的核心认知能力 ,也是多模态大语言模型 (MLLMs) 在实际应用中面临的关键挑战之一。 如图,基线模型在回答关于"木椅"的问题时,其视觉注意力并未集中在目标区域,而是分散在无关区域。这反映出当前MLLMs在空间语义与 视觉感知之间 缺乏跨模态对齐 ,无法像人类那样通过心理想象来支撑空间推理。 MILO:为模型植入"空间想象力" 为解决上述问题,由多高校、机构组成的研究团队提出了 MILO ( M plicit spat I a L w O rld modeling) ,一种隐式空间世界建模范 式,通过引入视觉生成反馈,将符号推理与感知经验隐式地结合起来。 语言调优阶段: 在视觉生成调优之后,继续使用空间指令数据对模型进行语言层面的微调。 通过这种方式,MILO使MLLMs能够 ...
腾讯广告算法大赛圆满结束,多位选手现场获得腾讯Offer意向书
搜狐财经· 2025-11-28 04:16
赛事概况 - 2025腾讯算法大赛决赛于11月26-27日在深圳腾讯全球总部成功举办,赛事历时5个多月,全球超过2800支队伍参与,最终20支队伍进入决赛 [1] - 冠军队伍“Echoch”成员来自华中科技大学、北京大学、中国科学技术大学,亚军“leejt”队和季军“也许明天”队成员分别来自中山大学和香港大学 [1] - 前三甲队伍均获得腾讯的offer意向书及奖金,大赛另设20万元人民币的技术创新奖授予中国科学院计算技术研究所的队伍 [1] 赛事规模与影响力 - 本届大赛吸引全球近30个国家超过8400人报名,海外报名人数创历史新高,赛事奖金池达360万元人民币 [5] - 公司副总裁表示,超过8000人的报名是一个强烈信号,表明AI正吸引新一代年轻人,并印证了公司在技术生态上的凝聚力 [3] - 大赛为中国数据规模最大的全模态生成式推荐算法大赛,提供腾讯直通offer机会及真实广告业务场景实战机会 [5] 技术焦点与创新 - 赛题为“全模态生成式推荐”,选手在比赛中主动应用并创新升级LLM(大语言模型)、MLLM(多模态大语言模型)及推荐前沿技术 [3] - 决赛方案在生成式模型结构、多模态embedding应用及算法工程codesign等方面体现创新和突破 [3] - 该技术能综合运用各种形式的数据(全模态),采用生成式算法推荐个性化广告,对提升广告精准度和优化用户体验具有重要探索价值 [5] 业务应用与战略方向 - “全模态生成式推荐”是广告AI的发展方向,有助于广告系统优化推荐效率,提升广告转化率 [5] - 公司Q3财报中首次亮相“腾讯广告AIM+”智能投放产品矩阵,支持广告主自动配置定向、出价、版位及优化广告创意 [6] - 腾讯广告妙系列AI产品正逐步形成“陪伴—策略—内容—执行—优化”的Business Agent联动生态,并在实际业务中持续探索生成式推荐技术 [6] 产学结合与生态建设 - 大赛决赛评委由全球知名高校学者、技术专家及腾讯技术专家组成,赛后赛题数据集将开源以促进产学技术交流 [3][5] - 公司希望通过比赛让学界、业界结合,助力AI人才浮现,让技术创新想法有机会落地于业务并呈现真正价值 [3] - 经过长期深耕,腾讯广告已基于坚实的AI技术底座形成智能化营销体系,为商家降本增效、提升转化效果 [5]
李飞飞长文火爆硅谷
投资界· 2025-11-14 08:01
文章核心观点 - 空间智能是人工智能发展的下一个前沿领域,将推动大语言模型实现下一次质的飞跃 [4][6] - 构建具备空间智能的“世界模型”是解锁AI在创造力、机器人、科学、医疗和教育等领域潜力的关键技术路径 [8][16][18] - 世界模型需具备生成性、多模态和交互性三大核心能力,其技术挑战远超以往,但应用前景将深刻重塑人类与物理及虚拟世界的交互方式 [4][18][21] 空间智能的定义与重要性 - 空间智能是人类认知的脚手架,支撑着从日常动作到科学发现等一系列与物理世界互动的基础能力 [11][14] - 当前AI(如多模态大语言模型)的空间能力远未接近人类水平,在估计距离、方向、大小及预测物理规律等任务上存在根本性局限 [14][15] - 缺乏空间智能导致AI与物理现实脱节,无法安全驾驶汽车、引导家庭与医院中的机器人,或创造全新的沉浸式学习与娱乐体验 [16] 世界模型的核心能力与技术挑战 - 生成性:模型需能生成遵守物理定律、空间一致的虚拟世界,并保持世界状态的连贯性 [4][18][19] - 多模态:模型需能处理从图像、视频、深度图到文本指令、手势、动作等多种形式的输入 [4][19][20] - 交互性:模型需能根据输入的动作或目标,预测并输出世界的下一个状态 [4][20] - 技术挑战规模超越以往,需克服在通用训练任务函数、大规模多模态训练数据以及新型模型架构与表征学习等方面的巨大壁垒 [21][22][23] 世界模型的应用潜力 - 创造力:赋能电影人、游戏设计师、建筑师等创作者快速构建、迭代和探索三维世界,变革叙事与沉浸体验 [26][28][29] - 机器人:通过生成高质量仿真数据,扩展机器人学习,实现具备空间感知能力的人机协作伙伴及多样化的具身形态 [30][31][32] - 科学、医疗与教育:在科学研究中模拟实验、在医疗领域加速药物研发与辅助诊断、在教育领域实现沉浸式学习,增强人类专长与发现能力 [33][34][35] 行业发展趋势与公司进展 - World Labs公司成立于2024年初,致力于世界模型的基础性突破,其开发的Marble平台是全球首个可通过多模态输入生成一致性3D环境的世界模型 [8][23][26] - 行业共识认为,下一代世界模型将使机器在空间智能上达到新层次,开启AI理解与创造世界的时代,需要整个AI生态系统的集体努力 [24][26][27]
破解多模态大模型“选择困难症”!内部决策机制首次揭秘:在冲突信息间疯狂"振荡"
量子位· 2025-11-14 05:38
研究核心观点 - 多模态大语言模型的模态跟随行为并非静态属性,而是由案例特定的相对推理不确定性和模型稳定的固有模态偏好共同作用的动态过程[1] - 传统的宏观模态跟随统计数据具有误导性,因其混淆了模型的能力和偏好[1] - 模型跟随某一模态的概率会随着该模态相对推理不确定性的增加而单调递减,这一法则在测试的六个模型中普遍存在[5][19] 研究团队与贡献 - 主要作者来自北京大学、华南理工大学、佐治亚大学、KAUST和MBZUAI等机构[3] - 核心贡献包括构建新的可控玩具数据集,以及提出将模态跟随行为解耦为相对推理不确定性和固有模态偏好的分析框架[4] 框架设计:可控数据集与不确定性度量 - 构建了可通过视觉难度和文本难度两个独立设计等级系统控制模态推理复杂性的数据集[9][10] - 采用输出熵作为以模型为中心的不确定性度量指标,熵值随设计难度增加而一致上升[11] - 引入相对单模态不确定性指标,通过(文本熵减视觉熵)除以(两者之和)并归一化来计算,量化模型在每个冲突案例中的置信度差距[12] 传统指标的局限性 - 使用传统宏观指标(如文本跟随率TFR和视觉跟随率VFR)测试6个MLLM时,发现了令人困惑的组合模式,暴露了宏观指标的局限性[14] - 相似的难度感知下,模型可能表现出相反的宏观偏好;而宏观偏好相似的模型,其难度感知可能相反,这共同指向传统指标混淆了数据集伪影和固有模态偏好[15][16] 实验新范式与主要发现 - 设计新实验范式,以相对不确定性为横轴,文本跟随概率为纵轴绘制偏好曲线,成功解耦能力与偏好[18] - 所有被测试模型都展现出文本跟随概率随文本相对不确定性增加而单调递减的统一法则[19][21] - 将曲线穿过50%概率线的点定义为平衡点,作为量化固有模态偏好的原则性指标[22] - 平衡点框架成功解释了宏观指标下的矛盾:LLaVA和Qwen2.5-VL的固有偏好不同,而Qwen2-VL和Qwen2.5-VL的差异揭示了数据集伪影的影响[23][24] 内部决策机制 - 当相对不确定性接近模型的平衡点时(模糊区域),模型内部的逐层预测会在冲突答案间表现出强烈的振荡,而在清晰区域则迅速确定答案[29][30][34] - 模糊区域内冲突输入的振荡次数显著高于清晰区域和无关冲突情况,为模型外部的犹豫不决行为提供了机制性解释[33][34]
破解多模态大模型“选择困难症”!内部决策机制首次揭秘:在冲突信息间疯狂"振荡"
量子位· 2025-11-14 02:04
多模态大语言模型模态跟随行为研究框架 - 提出全新分析框架将模态跟随行为分解为相对推理不确定性和固有模态偏好两个核心组成部分[4] - 框架旨在将模型单模态能力与内在偏见清晰解耦以解决传统宏观统计指标的混淆问题[4][16] - 核心论点是宏观模态跟随统计数据具有误导性因为它混淆了模型能力和偏好[1] 可控数据集与不确定性度量方法 - 构建新颖可控玩具数据集通过视觉难度和文本难度两个独立设计等级系统控制模态推理复杂性[9][10] - 采用输出熵作为以模型为中心的不确定性度量指标熵值随设计难度增加而一致上升[11][13] - 引入相对单模态不确定性指标量化模型在每个冲突案例中的置信度差距构成分析核心[12] 传统宏观指标的局限性 - 传统文本跟随率TFR和视觉跟随率VFR等宏观指标将模型单模态能力和固有偏好混为一谈[14][16] - 实验发现相似难度感知下模型宏观偏好相反以及相似宏观偏好下难度感知相反的矛盾现象[15] - 宏观指标无法区分数据集伪影和固有模态偏好导致无法看清模型决策的真正动机[15][16] 实验新范式与核心发现 - 设计新实验范式以相对不确定性为横轴文本跟随概率为纵轴绘制模型偏好动态曲线[18][19] - 所有被测模型均展现统一单调法则文本跟随概率随其相对不确定性增加而严格单调递减[19][21] - 定义平衡点作为量化固有模态偏好的原则性指标平衡点位置揭示模型内在稳定偏向[22][24] 内部决策机制分析 - 采用类似LogitLens技术逐层探查模型预测发现模糊区域内部存在显著答案振荡现象[29][34] - 模糊区域内冲突答案的置信度差异在多层中保持零附近表明模型处于高度不确定状态[34][36] - 内部振荡机制为模型在外部表现出的犹豫不决和平均化选择行为提供了解释[33][34] 框架解释力与验证 - 平衡点框架成功解释LLaVA和Qwen2.5-VL在相似难度感知下偏好相反的现象源于固有偏好差异[23] - 揭示Qwen2-VL和Qwen2.5-VL宏观偏好相似但难度感知相反的现象源于数据集伪影和固有偏好共同作用[24] - 该框架在本文构造数据集和现有MC^2数据集颜色识别子集上均验证了单调关系的稳健性[26][28]
李飞飞万字长文爆了!定义AI下一个十年
创业邦· 2025-11-12 03:08
文章核心观点 - 空间智能是人工智能的下一个前沿领域,其核心是构建能够理解、推理并与复杂物理世界互动的“世界模型” [8][16][26] - 世界模型需具备生成式、多模态和互动性三大核心能力,以解锁超越当前大语言模型的机器空间智能 [27][29][30] - 空间智能的应用将重塑创意产业、机器人技术和科学研究,其发展需要整个AI生态系统的集体努力 [38][44][48] 空间智能的定义与重要性 - 空间智能是人类认知的基石,使我们能够通过感知与行动的循环来理解和互动物理世界 [18][21] - 该能力驱动着从日常活动(如停车)到专业领域(如科学发现)的推理与规划 [18][21] - 当前AI在空间任务上表现不佳,例如估算距离或心理旋转物体,其能力远未达到人类水平 [22] 构建世界模型的技术框架 - 世界模型必须能生成遵循物理定律且在几何和动态上保持一致的世界 [27] - 模型需处理多模态输入,如图像、视频、文本指令和动作,并预测完整的世界状态 [29] - 当给定动作或目标时,模型应能输出与之协调的世界下一个状态 [30] - 技术挑战包括定义新的通用训练任务函数、利用互联网规模的数据以及开发新的模型架构 [32][33][34] 当前进展与案例 - World Labs已开发出名为Marble的平台,能通过多模态提示生成并维持一致的三维环境 [37][40] - 该平台展示了实时生成性帧基模型等创新架构,旨在实现高效生成和空间持久性 [35][37] 应用领域与前景 创意产业 - 空间智能将变革故事叙述和设计,使创作者能快速构建可探索的三维世界,不受预算或地理限制 [40][42] - 应用包括为电影、游戏、建筑和工业设计提供新的叙事维度和沉浸式体验 [42][43] 机器人技术 - 世界模型将通过模拟数据弥合训练差距,规模化机器人学习,以理解、导航和互动物理世界 [44] - 未来机器人可作为人类协作者,在实验室或家庭等场景中扩展劳动力,但需与人类目标对齐 [45] 科学、医疗与教育 - 在科学研究中,空间智能可模拟实验、测试假设并探索人类无法触及的环境 [48] - 医疗健康领域有望通过分子相互作用建模和医学影像分析加速药物发现与诊断 [48] - 教育将受益于沉浸式学习体验,使抽象概念触手可及,并支持安全的技能练习 [49]
年度服务时长首破万亿分钟,声网乘对话式AI东风
搜狐财经· 2025-11-03 13:17
公司战略与产品动态 - 公司年度服务分钟数首次突破1万亿分钟,并发布多款对话式AI新品 [1] - 公司将对话式AI作为长期战略投入,OpenAI推出实时交互API是重要风向标 [3] - 公司推出对话式AI引擎2.0,能分辨讲话时机和讲话人,支持更多ASR和TTS供应商,并允许用户自定义语种和音色 [4] - 公司发布对话式AI Studio编排平台和开发套件,旨在帮助客户和开发者快速集成对话式AI能力 [4] - 2025年第二季度公司营收3430万美元,同比增长0.5%,净利润150万美元,实现同比扭亏 [5] 行业趋势与市场机遇 - 多模态大语言模型使计算机具备类人实时语音对话能力,67%的企业已将语音AI智能体置于战略核心位置,84%的企业计划在未来一年增加相关投入 [1] - 对话式AI的典型技术框架包括声音代理、自动语音识别、大语言模型处理和文本转语音等环节,每个环节都存在技术升级空间 [3] - AI语音助手、AI社交和陪伴、AI潮玩是当前对话式AI应用排名前三的热门场景 [4] - 人类对话中超过90%的信息感知依赖于语调、表情等非语言要素,实现真正的“类人对话”需攻克低延迟、自然打断、情感理解等挑战 [5] - 对话式AI被视为下一代AI基础设施的重要组成部分,以AI陪伴为例,其市场规模预测将从3000万美元增长至700亿-1500亿美元 [5] - 公司对话式AI相关用量在2025年第三季度实现151%的环比增长 [5]
超越英伟达Describe Anything!中科院 & 字节联合提出「GAR」,为DeepSeek-OCR添砖加瓦
量子位· 2025-10-28 05:12
文章核心观点 - 中科院与字节联合提出的Grasp Any Region (GAR) 模型,通过创新的“细粒度+全局上下文”架构设计,在区域级多模态大模型领域实现了突破性进展,为构建自然图像的Dense Caption和视觉信息压缩提供了新的可行路径 [2][4][39][80] 技术能力与创新 - GAR模型具备三种核心能力:精准描述用户指定区域、建模多个区域间关系、进行复杂的组合推理(如非实体判别)[5][7] - 模型采用两大创新组件:简洁高效的提示编码方案,以及RoI-Aligned Feature Replay机制,实现了局部细节与全局上下文的平衡 [39][40][42][43][48][53] - 该技术方案有效解决了传统Region MLLMs在局部细节与全局信息之间的两难困境,避免了如Osprey模型的局部细节丢失和DAM模型的全局信息丢失问题 [15][16][18] 性能表现与基准测试 - 在GAR-Bench-VQA测试集上,GAR-8B模型取得59.9分的综合成绩,表现超过GPT-4o,直逼最强推理模型o3和Gemini-2.5-Pro [70][71] - GAR-1B模型以50.6分的综合得分,在参数量远小于其他模型的情况下,性能超过了InternVL3-78B等大规模公开模型,凸显了方法在效率与效果上的优势 [71][72] - 在GAR-Bench-Cap测试集上,GAR-1B与GAR-8B分别取得57.5分和62.2分的最高综合成绩,表现超过Gemini-2.5-Pro等性能强劲的私有模型 [73][74] - 在Ferret-Bench与MDVP-Bench的零样本测试中,GAR模型在所有细分类别均位列第一,其中GAR-8B在自然图像任务中取得178.6分,大幅领先竞品 [75][76] 应用潜力与迁移能力 - GAR的能力可zero-shot迁移至视频任务,在VideoRefer-Bench测试中,GAR-8B性能超过DAM-8B,甚至优于in-domain训练的VideoRefer-7B模型 [78][79] - 该模型可作为Data-engine工具,为多模态理解模型提供精细的图像/视频描述用于预训练,提升文生图/视频模型对复杂指令的遵循能力,并为细粒度编辑模型提供精准的区域描述 [81][82][83] - GAR可天然作为Reward Model,在多模态理解任务的post-training阶段提供准确的区域理解奖励信号 [84]
首个地球科学智能体Earth-Agent来了,解锁地球观测数据分析新范式
机器之心· 2025-10-27 08:44
项目核心与创新点 - 由上海人工智能实验室与中山大学联合研发的Earth-Agent,旨在解决多模态大语言模型在地球科学应用中的核心瓶颈,目标是打造能够自主规划并执行复杂地球科学任务的“AI科学家”[3] - 项目创新性地模拟了人类专家“知识工具化”与“流程自动化”的能力构建逻辑,将领域知识封装为可调用的工具,并由大语言模型担任“大脑”进行智能规划与调度[5][6][10] - 核心框架包含两大关键构建:1)领域知识工具封装化,集成了104个专用工具;2)基于LLM的智能规划与调度,采用ReAct机制自主完成从数据预处理到复杂时空分析的全链路工作流[8][10] 基准评估体系 - 为解决评估难题,研究团队构建了Earth-Bench基准,包含248个专家标注的任务,覆盖13,729张图像,平均每个题目需处理55张影像,平均每个问题需要5.4步才能完成[12][13] - 该基准涵盖三大模态数据:RGB图像、原始光谱数据和地球产品数据,核心是评估智能体执行完整地球科学分析工作流的能力,而非简单的单步任务[12][14] - 评估协议采用双层次设计,不仅关注最终结果的端到端评估,还引入了专家推理轨迹进行逐步评估,认为推理过程与结论本身同样重要[17] 性能表现与对比分析 - 在不同LLM骨干网络的测试中,进行过工具调用预训练的模型表现大幅领先,其中DeepSeek-V3.1和Kimik2在推理过程中的工具使用准确率上超越了GPT-5[19] - 与通用Agent架构的对比显示,Earth-Agent在Spectrum、Products、RGB三个模态上的平均效果(GPT-5版为55.83)显著领先于GPT-Agent(40.42)等其他方法[22] - 与多模态大语言模型方法的对比中,Earth-Agent在经典遥感任务上表现优异,例如在AID数据集分类准确率达93.42%,在DOTA数据集检测任务上达60.88%,均领先于对比模型[22] 技术验证与未来展望 - 消融实验证实了工具调用的关键作用:在不使用工具的情况下,不同LLM的准确率均约为37%,而允许调用工具后,GPT-5的准确率提升至65%,其他模型也均有显著提升[25] - 项目提出了一个与MLLM不同的新范式,将能力外化为结构化工具库,而非全部编码到模型参数中,这种范式更接近人类的学习和工作方式[26] - 未来发展路线明确:从基石到生态,工具库可方便扩展;从评估到训练,为解决“工具幻觉”等问题提供指导;从语言到视觉,视觉语义的工具感知可能是下一个突破点[26]