Workflow
多模态大语言模型
icon
搜索文档
6大基准全面碾压!TW-GRPO刷新视频推理天花板,CLEVRER准确率突破50.4%!
机器人大讲堂· 2025-07-06 05:23
多模态大语言模型(MLLMs)与强化学习(RL)的融合 - 多模态大语言模型在视频推理等任务中快速进化,强化学习作为关键引擎显著提升模型推理能力 [1] - DeepSeek-R1通过纯RL优化实现推理能力质的飞跃,VideoR1引入T-GRPO增强视频时空逻辑拆解能力,VideoChat-R1通过多任务联合微调提升视频理解与多步推理表现 [1] - 当前RL优化面临思维链推理在多模态任务中效率低下、稀疏二元奖励信号忽略部分正确答案两大挑战 [1] TW-GRPO框架的创新设计 - TW-GRPO框架由多所高校联合提出,通过聚焦思维和密集奖励粒度增强视觉推理,解决传统GRPO的推理质量与奖励粒度问题 [2][7] - 动态加权机制通过分析token信息熵优先处理高信息密度内容,规避冗余干扰,提升推理精度与效率 [4] - 多层次奖励机制将单选题QA拓展为多选任务,结合视频定位IoU软奖励机制,对部分正确答案给予梯度反馈,改善训练稳定性 [5][9] - 问答反转(QAI)技术通过否定问题与反转答案扩充多选训练数据,解决数据稀缺问题 [6][9] TW-GRPO的性能表现 - 在CLEVRER、NExT-GQA和MMVU基准测试中,TW-GRPO分别以50.4%、76.1%和65.8%准确率超越Video-R1达18.8%、1.8%和1.6% [15][16] - 通用视频理解任务中,TW-GRPO在MVBench和TempCompass基准分别保持63.3%和73.3%的领先准确率,较基线模型最高提升0.4% [16] - 训练动态显示TW-GRPO奖励标准差收敛更快,输出序列长度缩短17%-23%,验证其推理简洁性与稳定性 [17][18][20] 技术实现细节 - Token重要性加权采用KL散度量化分布差异,通过最小-最大归一化与超参数α控制权重缩放,实现位置敏感优化 [8] - 多选软奖励设计借鉴视频定位IoU机制,依据预测与真实答案重叠度赋予分数,显著降低奖励波动 [9][10] - 实验基于Qwen2.5-VL-7B模型,使用NVIDIA H800 GPU处理128×28×28分辨率视频帧,推理时提升至256×28×28 [12] 定性分析案例 - 在MMVU密度估计任务中,TW-GRPO精准提取视频关键数值并正确应用阿基米德原理,而T-GRPO因错误假设体积导致计算结果偏差 [19][21][22] - 对比显示TW-GRPO在因果推理、定量推理和动态视觉线索处理方面具有显著优势 [22][24]
刚刚,CVPR 2025奖项出炉:牛津&Meta博士生王建元获最佳论文,谢赛宁摘年轻研究者奖
机器之心· 2025-06-13 15:45
CVPR 2025大会概况 - 本届CVPR共收到13008份论文投稿,同比增长13%,最终接收2872篇,接收率22.1% [3] - 大会现场参会学者超过9000人,来自70余个国家和地区 [7] - 图像与视频生成领域论文接收数量最多,基于多视角和单图像的3D领域接收率最高 [8] 最佳论文及荣誉提名 - 最佳论文VGGT由牛津大学和Meta AI联合提出,采用纯前馈Transformer架构实现通用3D视觉模型,推理速度达秒级 [14][17] - 荣誉提名论文MegaSaM来自Google DeepMind等机构,提出深度视觉SLAM框架,在动态场景中实现快速准确的相机姿态估计 [27][30] - 另一篇荣誉提名论文Navigation World Models由LeCun团队提出,采用条件扩散Transformer实现最先进视觉导航性能 [33] 3D视觉技术进展 - 3D Student Splatting and Scooping(SSS)改进了3D高斯泼溅技术,在质量和参数效率上优于现有方法 [37][40] - 论文实验数据显示,SSS方法在Mip-NeRF360数据集上PSNR达29.90,LPIPS为0.145,表现最优 [42] 视觉语言模型创新 - Molmo和PixMo论文提出开源视觉语言模型,72B参数模型在多项基准测试中超越Claude 3.5 Sonnet等商业模型 [46] - 该方法创新性地使用PixMo数据集,无需依赖专有VLM合成数据 [46] 学生论文亮点 - 最佳学生论文提出首个基于物理的多视角动态光传播神经逆渲染系统,实现强间接光条件下的3D重建 [55] - 荣誉提名学生论文创新性地利用扩散时间步构建视觉语言,统一多模态理解和生成 [63][66] 行业重要奖项 - 年轻研究者奖授予Hao Su和谢赛宁,两人论文被引量分别超过12万和7.5万 [68][72][74] - Longuet-Higgins奖授予Inception架构和全卷积网络两篇开创性论文,引用量分别达6.7万和4.9万 [76][79][80][83] - Thomas S. Huang纪念奖授予德克萨斯大学Kristen Grauman教授,表彰其在计算机视觉领域的贡献 [86]
科学家证实大模型能像人类一样“理解”事物
科技日报· 2025-06-10 22:45
人工智能理解能力研究 - 科研人员首次证实多模态大语言模型在训练过程中自主学会"理解"事物 且理解方式与人类高度相似 这一发现为探索AI"思考"机制开辟新路径 并为开发类人理解能力的AI系统奠定基础 [1] - 研究借鉴人脑认知原理设计实验 通过470万次判断数据分析 首次绘制出大模型的"概念地图" 揭示其内部表征方式 [2] - 从实验数据总结出66个代表AI理解事物的关键角度 这些角度可解释性强 且与人脑物体加工神经活动模式高度一致 [2] 多模态模型优势 - 能同时处理文字和图片的多模态模型 其决策方式比其他单一模态模型更接近人类思维模式 [2] - 研究发现人类判断依赖视觉特征(形状/颜色)和语义含义 而大模型更侧重文字标签和抽象概念 但仍发展出类人理解机制 [2] 研究突破意义 - 成果发表于《自然·机器智能》杂志 突破传统AI仅关注识别准确率的局限 首次系统揭示模型对物体含义的理解机制 [1][2] - 实验采用1854种常见物品概念 通过"找不同"游戏范式量化比较AI与人类认知差异 方法论具有创新性 [2]
中国科研团队研究发现:人工智能可以自发形成人类级认知
新京报· 2025-06-09 13:01
多模态大语言模型研究突破 - 中国科学院自动化研究所科研人员首次证实多模态大语言模型(MLLMs)能自发形成与人类高度相似的物体概念表征系统 [1] - 研究成果发表于《自然·机器智能》期刊 为构建类人认知结构AI系统提供理论框架 [1] - 研究结合行为实验与神经影像分析 涉及470万次行为判断数据 [2] 人类与AI概念表征对比 - 人类认知具备多维度概念表征能力 包括物理特征 功能 情感价值和文化意义 [1] - AI大模型内部存在类似人类的概念理解 但决策时更依赖语义标签和抽象概念而非视觉特征 [2] - 研究提取出66个"心智维度" 这些维度高度可解释且与大脑神经活动模式相关 [2] 研究方法创新 - 采用融合计算建模 行为实验与脑科学的创新范式 [2] - 首次构建AI大模型的"概念地图" 为心智维度赋予语义标签 [2] - 突破传统AI研究局限 从认知神经科学角度探讨模型对物体含义的"理解" [2]
人工智能可自发形成人类级认知?中国团队最新研究首次证实
环球网资讯· 2025-06-09 12:57
人工智能认知研究 - 中国科学家团队首次证实多模态大语言模型能自发形成与人类高度相似的物体概念表征系统,实现人工智能人类级认知[1] - 研究由中国科学院自动化所神经计算与脑机交互团队联合脑科学与智能技术卓越创新中心完成,成果发表于《自然·机器智能》[1] - 该研究为AI认知科学开辟新路径,并为构建类人认知结构的AI系统提供理论框架[1] 研究实验设计 - 采用认知心理学经典"三选一异类识别任务",测试大模型与人类对1854种日常概念组合的识别差异[3][4] - 通过分析470万次行为判断数据构建AI大模型的"概念地图",并提取出66个可解释的"心智维度"[4] - 研究发现这些维度与大脑类别选择区域(如处理面孔、场景等信息的区域)神经活动模式显著相关[4] 模型与人类认知对比 - 多模态大模型在行为选择模式上与人类一致性更高,但人类决策更依赖视觉特征+语义信息,而大模型倾向语义标签+抽象概念[4] - 研究证实大语言模型内部存在类似人类对现实世界的概念理解,其"心智维度"与人类认知殊途同归[4] - 传统AI研究聚焦识别准确率,而本研究揭示AI"识别"与人类"理解"的本质区别仍需深入探索[3]
研究显示多模态大模型可自发形成类人的物体概念表征
快讯· 2025-06-09 10:40
人工智能研究突破 - 中国科学院自动化研究所神经计算与脑机交互课题组与中国科学院脑科学与智能技术卓越创新中心联合团队首次证实多模态大语言模型(MLLMs)能够自发形成与人类高度相似的物体概念表征系统 [1] - 该研究为人工智能认知科学开辟了新路径 [1] - 研究成果为构建类人认知结构的人工智能系统提供了理论框架 [1] - 相关研究成果于北京时间6月9日发表在国际学术期刊《自然·机器智能》(Nature Machine Intelligence) [1]
舍弃自回归!国内团队打造纯扩散多模态大模型LLaDA-V,理解任务新SOTA
机器之心· 2025-05-27 03:23
核心观点 - 中国人民大学高瓴人工智能学院与蚂蚁集团合作推出LLaDA-V,这是首个纯扩散多模态大语言模型(MLLM),挑战了自回归模型在多模态领域的主导地位 [1] - LLaDA-V基于前期发布的LLaDA扩散模型拓展至多模态,采用视觉编码器(SigLIP 2)和MLP连接器实现多模态对齐,全程采用离散扩散机制 [2] - 模型在11项多模态任务中超越自回归基线LLaMA3-V,并在MMMU等多学科知识基准上展现更强数据可扩展性 [5] - 纯扩散架构性能达到SOTA,显著缩小与顶尖自回归模型Qwen2-VL的差距(MMStar基准60.1 vs 60.7) [8][10] 技术架构 - 采用"视觉编码器+MLP投影器+语言模型"经典架构,视觉特征通过SigLIP 2提取并映射至LLaDA嵌入空间 [15] - 创新性使用双向注意力机制,消融实验证明其优于对话因果注意力机制 [15] - 训练时仅对回复部分随机掩码,损失函数聚焦掩码区域;推理采用反向去噪过程,结合低置信度重掩码策略提升生成质量 [15] 性能表现 - 多模态理解任务中超越混合架构(如MetaMorph、Show-o)和纯扩散模型,达到当前最佳性能 [8] - 尽管LLaDA-8B纯文本能力弱于LLaMA3-8B,但LLaDA-V在多模态任务中反超,证明扩散架构的独特优势 [5] - 在MMMU等需要复杂推理的基准上,数据可扩展性显著优于自回归模型 [5] 应用场景 - 成功实现复杂视觉场景理解,如精准描述阿尔卑斯山景的层次感与空间关系(绿色小路、行人、教堂、薄雾群山等细节) [13] - 支持多轮多模态对话,通过掩码扩散机制生成连贯回复 [15] 开源计划 - 团队预计近期开源训练推理代码及模型权重 [3] - 项目已发布论文(arXiv:2505.16933)和代码仓库(GitHub/ML-GSAI/LLaDA-V) [6]
字节跳动&清华大学开源多模态时序大模型ChatTS,可实现时序数据对话与推理
机器之心· 2025-05-22 10:25
该工作由字节跳动 ByteBrain 团队 × 清华大学合作完成。第一作者为清华大学三年级博士生谢哲,主要研究方向为时序多模态 LLM、异常检测和根因定 位。第二作者和第三作者分别为李则言和何晓,均来自字节跳动。通讯作者分别为字节跳动研究科学家张铁赢和清华大学计算机系副教授裴丹。 近年来,多模态大语言模型(MLLM)发展迅速,并在图像、视频、音频等领域取得了突破性成果。然而,相较于这些研究较为成熟的模态,时间序列这一 类型的数据与大模型结合的系统研究却较为匮乏。 尽管已经有 TimeLLM 等工作尝试将 LLM 应用于时序任务,但这些研究大多局限于预测类任务,无法满足更复杂的理解与推理需求。随着 LLM 在 AIOps、金融等需要处理时序数据的应用场景中应用愈发广泛,时序问答、推理的能力已成为多模态智能系统的一项基础能力需求。 为此,我们提出了 ChatTS,一种 原生支持多变量时序问答与推理的多模态 LLM 。ChatTS 引来了 HuggingFace 产品负责人 Victor Mustar,以及 SparkNLP 项目负责人 Maziyar Panahi 等人的转发和点赞: ChatTS 论文已经成功入 ...
ICML 2025 Spotlight | 多模态大模型暴露短板?EMMA基准深度揭秘多模态推理能力
机器之心· 2025-05-20 04:58
EMMA基准的核心观点 - EMMA基准揭示了当前多模态大语言模型(MLLMs)在深度视觉与文本融合推理上的重大缺陷,即使最先进模型如GPT-4o、Gemini-2.5-pro-exp-03-25等表现仍落后人类专家超20%[3][4][13] - 该基准通过数学、物理、化学、代码四大领域任务,要求模型必须同时深度依赖视觉和文本信息才能解决问题,突破了传统文本主导或浅层视觉感知的测试局限[9][13] - 核心发现包括:思维链(CoT)提示对视觉密集型任务效果有限甚至负面、测试时计算扩展难以弥补视觉推理短板、视觉空间模拟错误占比高达52.83%[13][18][21] 模型性能表现 - 人类专家在EMMA-mini上的整体准确率达77.75%,显著高于所有模型,其中化学领域表现最佳(86%)[17] - 闭源模型中Gemini-2.0-Flash-Thinking-0121以48%准确率领先,开源模型Qwen2-VL-72B-Instruct达37.25%,均未突破50%门槛[17] - GPT-4o在物理领域表现最佳(44%),但在化学领域仅33%,显示跨学科能力不均衡[17] 数据集构建特点 - 包含2,788个问题,其中1,796个为专家新构建,覆盖数学(892题)、物理(156题)、化学(1,176题)、代码(564题)四大领域[16] - 采用严格筛选机制,排除仅凭文本或简单图文描述可解决的问题,确保必须进行真多模态推理[16] - 每个问题标注细粒度技能标签(如2D变换、3D场模拟等),支持模型能力画像分析[13][16] 技术瓶颈分析 - 视觉推理错误占比超50%,显著高于感知错误(30.19%)和文本推理错误,成为核心瓶颈[21] - 模型依赖结构化文本步骤推理,缺乏人类式视觉化思考和空间模拟能力[6][13] - 模态间信息密度差异导致预训练阶段特征对齐不足,且缺乏视觉状态动态更新机制[23] 未来发展方向 - 需开发视觉动作推理能力,实现跨模态动态协作而非当前语言主导模式[23] - 应突破传统CoT范式,建立新型视觉推理机制以解决空间模拟缺陷[13][18] - 开源社区已发布完整代码、数据和基准(含HuggingFace数据集),加速技术迭代[4]
鹅厂放大招,混元图像2.0「边说边画」:描述完,图也生成好了
量子位· 2025-05-16 03:39
腾讯混元图像2.0模型发布 - 腾讯发布混元图像2.0模型(Hunyuan Image 2.0),首次实现毫秒级响应,支持边说边画实时生成,用户描述与绘制过程同步进行,体验流畅[1] - 模型支持实时绘画板功能,用户可手绘元素并辅以文字说明,系统根据草图实时生成图像[2][3] - 提供多种交互方式包括语音输入(中英文)和上传参考图,参考图可提取主体或轮廓特征并调整约束强度[18][19][21] 模型性能特点 - 模型参数相比HunyuanDiT提升一个数量级,更大模型尺寸保障性能上限[37] - 采用自研超高压缩倍率图像编解码器,优化信息瓶颈层并强化对抗训练,显著降低生图时耗[38] - 适配多模态大语言模型(MLLM)作为文本编码器,语义遵从能力大幅提升,在GenEval测试中指标远超竞品[39][40] 技术创新点 - 通过强化学习后训练(包括通用后训练与美学后训练)提升图像生成真实感[41] - 采用自研对抗蒸馏方案,基于隐空间一致性模型实现少步高质量生成[42] - 模型经过全尺度多维度强化学习训练,在多轮图像生成和实时交互方面表现突出[36][46] 应用功能展示 - 支持16:9比例生图效果更佳,保持角色一致性能力优秀,输入补充描述时主体特征稳定[12][13] - 可处理多种风格包括真实场景、动漫风、编织风等,提供画面优化功能自动调整构图、景深和光影[14][16][27] - 示例显示上传简笔画可一键上色,上传蛋糕照片可结合文本指令生成新图像[22][25] 行业动态 - 腾讯混元团队预告将发布原生多模态图像生成大模型,重点关注多轮生成和实时交互体验[45] - 模型技术细节将通过后续技术报告披露,官网已开放访问[43][47]