多模态推理 - 财报，业绩电话会，研报，新闻 - Reportify

多模态推理

搜索文档

高考数学斩获139分！小米7B模型比肩Qwen3-235B、OpenAI o3

机器之心· 2025-06-16 05:16

大模型数学能力评测 - 七个大模型参与2025年数学新课标I卷测试，Gemini 2.5 Pro以145分位列第一，Doubao和DeepSeek R1以144分并列第二 [2] - 小米7B参数小模型MiMo-VL表现突出，总分139分与Qwen3-235B持平，仅比OpenAI o3低1分 [4] - MiMo-VL在7B参数多模态模型中优势显著，较同类Qwen2.5-VL-7B高出56分 [5] 细分题型表现 - 客观题部分（73分）：MiMo-VL单选题得35分（总分40），多选题和填空题均获满分 [8][10][11] - 解答题部分（77分）：MiMo-VL得71分位列第五，超越hunyuan-t1-latest和文心X1 Turbo [12] - 测试方法差异：MiMo-VL和Qwen2.5-VL-7B采用截图输入，其他模型使用文本Latex输入 [6] 小米MiMo-VL技术突破 - 模型基于MiMo-7B升级，在数学推理和代码竞赛中超越OpenAI o1-mini和阿里QwQ-32B-Preview [15] - 通过RL训练后，MiMo-7B-RL-0530版本达到与DeepSeek R1和OpenAI o3-mini相近水平 [16] - 多模态能力显著：在OlympiadBench等数学竞赛中领先10倍参数的Qwen-2.5-VL-72B和GPT-4o [20] 技术实现路径 - 采用混合在线强化学习算法（MORL），整合文本推理与多模态感知反馈信号 [27][29] - 预训练数据达2.4T tokens，涵盖图片-文本对、视频-文本对等多元数据类型 [28] - 模型已全面开源，包括技术报告、权重和评估框架 [32][33] 行业竞争格局 - 开源模型MiMo-VL-7B在内部评测中超越GPT-4o成为开源模型第一 [24] - 参数效率突破：7B模型性能比肩235B参数的Qwen3和闭源o3模型 [13][16] - 多模态赛道创新：GUI Grounding任务表现媲美专用模型 [18]

小米集团(HK:01810)

多模态推理

Artificial Intelligence

多模态推理

Artificial Intelligence

专访张祥雨：多模态推理和自主学习是未来的 2 个「GPT-4」时刻

海外独角兽· 2025-06-09 04:23

多模态大模型技术发展 - 阶跃星辰发布中国首个千亿参数原生多模态大模型Step-1V，基于DreamLLM框架实现图文生成理解一体化 [3] - 多模态领域预计未来2-3年将迎来两个GPT-4时刻：多模态推理和自主学习 [3] - 当前多模态生成理解一体化面临四大挑战：语言对视觉控制能力弱、图文对齐不精确、数据质量有限、生成模块无法反向影响理解模块 [3] 模型规模与能力关系 - 模型参数扩展到万亿级别时出现能力分化：文本生成和知识问答增强，但数学推理能力随规模增长反而下降 [3] - 大模型推理能力下降的核心原因是next token prediction框架更关注压缩率而非推理精度，导致思维跳步现象 [4][37] - Rule-based RL可通过直接优化任务目标来抑制跳步、强化稳定思维路径，显著提升大模型推理能力 [4] 计算机视觉领域挑战 - CV领域难以仅靠视觉数据实现GPT时刻，因静态图像数据中生成、理解与人类对齐三者割裂 [23] - 对比学习和MIM等方法在小模型有效但缺乏scale up特性，因依赖人工设计的不变性而非数据驱动 [15][16] - 视频数据可能成为突破口，因其蕴含更丰富的时空信息和自然对齐关系 [24] 生成理解一体化难题 - 语言模型通过next token prediction天然实现生成理解一体化，但该范式在多模态领域效果有限 [17] - 实验显示外挂生成模块对理解性能无影响，生成模块可控性差，常产生违反物理常识的输出 [29][31] - 复杂度问题是核心障碍：视觉生成需要考虑的因素远超单步推理能力上限 [52] o1范式突破 - o1范式通过引入Meta CoT实现思维链网状结构，允许模型在关键节点反悔重试 [5] - 该范式成功关键在于预训练语料中已存在多样化思维pattern，RL仅需强化而非创造 [51] - 相比传统RL，语言模型预训练大幅压缩action space，使复杂问题可解 [45] 多模态发展路径 - 短期解决方案是利用图文对齐数据，通过语言模态带动视觉智能 [24] - 长期需突破视频数据利用难题，教学视频中的教学行为可提供丰富action space [63] - 高可控生成技术突破将解开生成与推理的相互依赖死锁，目前OpenAI 4o已展现显著进展 [63][64] 模型架构演进 - 当前transformer架构处理long context存在根本缺陷，需建立分层记忆系统 [67] - multi-agent协作架构可有效解决上下文干扰问题，实现情景隔离式推理 [70] - 架构设计应服务于算法需求，如FFA算法可能彻底改变现有训练范式 [74] 自主学习方向 - 当前rule-based RL面临environment scaling瓶颈，需建立内生学习机制 [76] - 从自然语言反馈中提取多维评价信息是实现自主学习的关键技术难点 [78] - 无限长上下文建模和动态环境交互能力是自主智能体的基础要求 [79]

多模态推理

生成理解一体化

next token prediction

多模态推理

生成理解一体化

next token prediction

专访张祥雨：多模态推理和自主学习是未来的 2 个「GPT-4」时刻

海外独角兽· 2025-06-08 04:51

多模态大模型发展现状 - 阶跃星辰发布中国首个千亿参数原生多模态大模型Step-1V 基于业内最早的图文生成理解一体化框架DreamLLM [3] - 多模态领域预计未来2-3年将迎来两个GPT-4时刻：多模态推理和自主学习 [3] - 当前多模态生成理解一体化面临四大挑战：语言对视觉控制能力弱图文对齐不精确数据质量有限生成模块无法反向影响理解模块 [3] 计算机视觉领域瓶颈 - CV领域长期缺乏类似NLP的GPT时刻主要受限于数据标注依赖和自监督方法局限性 [13][15] - 对比学习和MIM等方法在小模型有效但缺乏scale up特性因其学习的不变性来自人工设计而非数据驱动 [16][18][19] - 静态图像数据存在本质缺陷：生成理解与人类对齐三者割裂难以实现智能质变 [24][25][26] 多模态技术突破方向 - 短期解决方案是利用图文对齐数据通过文字的自闭环特性赋予模型智能能力 [27] - 长期需探索视频和具身系统视频数据蕴含更丰富信息但利用难度更高 [27] - 生成理解一体化需先解决视觉空间CoT问题当前action space过于受限 [55][56] 大模型训练范式演进 - Next Token Prediction存在本质缺陷：更大模型在数学等推理任务上表现反降因倾向跳步且优化目标与任务目标存在gap [38][40][42] - Rule-based RL通过直接优化任务目标可抑制跳步并强化稳定思维路径 [44] - o1范式突破在于激发Meta CoT 允许模型在关键节点反悔重试使推理从单线变为图状结构 [44][53] 多模态数据影响 - 图文混排训练中生成模块产生的gradient噪声大且信息量低可能破坏语义理解 [62] - 高质量多模态数据应确保图文强相关避免无关数据导致模型confuse [63][64] - 视频数据蕴含丰富思维过程但清洗难度大是扩展action space的重要方向 [65][66] 未来技术趋势 - 多模态GPT时刻预计1年内到来需解决生成可控性和视觉空间推理问题 [68][69] - 当前long context方案存在注意力涣散问题未来可能采用multi-agent分层记忆架构 [69][73][74] - 模型自主学习是ASI关键路径需解决环境scaling和自然语言反馈利用问题 [78][80][82]

多模态推理

next token prediction

多模态推理

next token prediction

多模态推理新基准！最强Gemini 2.5 Pro仅得60分，复旦港中文上海AILab等出品

量子位· 2025-06-06 13:45

多模态大模型推理能力评估 - 复旦大学、香港中文大学MMLab及上海人工智能实验室联合推出MME-Reasoning基准，全面评估多模态大模型(MLLMs)的推理能力，涵盖演绎、归纳和溯因三种推理类型[1][3][4] - 基准包含1188道题目，其中84.85%为新增题目，15.15%为抽样题目，题型包括选择题(58.50%)、自由形式问题(31.57%)和基于规则的题目(9.93%)[9] - 题目设计弱化学科知识依赖，聚焦K12以下难度，避免知识盲区干扰推理能力测试[11] 推理类型与评估维度 - 演绎推理通过规则和前提推导结论，归纳推理从大量案例学习规则，溯因推理通过结论反推前提[5] - 评估维度包括五种能力：模式分析、规划与探索、空间与时间、计算、因果链分析，每道题目标注1-5种能力[11] - 题目难度分为三级，图像类型包含单图(58.50%)和多图(31.57%)问题，学科类题目占比31.48%[8][9] 模型表现分析 - 30余个模型评测显示最优成绩仅60.2%(Gemini-2.5-Pro-T)，显示基准挑战性极强[2][18] - 模型表现存在显著偏差：演绎推理平均得分最高(如Gemini-2.5-Pro-T达64.0)，溯因推理最弱(如开源模型R1-VL-7B仅15.8)[18][19] - 闭源"思考模式"模型普遍优于基础版，如Gemini-2.5-Pro-T比Gemini-2.5-Flash-T高35个百分点[18] 技术瓶颈与发现 - 开放式问题表现最差，规划与探索类任务平均得分最低(如Mulberry仅13.3)[18][20] - 规则强化学习在7B规模模型上效果有限，可能降低泛化能力(如R1-VL-7B得分21.1)[18][20] - 推理过程存在边际效应：输出token超1k时准确率提升趋缓，o4-mini案例达24.6k token但效率下降[22][25] 模型行为特征 - 案例显示模型存在结构化规划行为，包含假设生成-验证-反思的多次迭代(最高达7次)[25][26] - 开源模型表现显著落后闭源模型，Qwen2.5-VL-72B最高34.1分，仅为闭源头部模型的56%[18] - 多图像问题(占比31.57%)和学科类问题(占比31.48%)构成主要挑战点[9][11]

多模态推理

大语言模型

多模态推理

大语言模型

首个多模态专用慢思考框架！超GPT-o1近7个百分点，强化学习教会VLM「三思而后行」

量子位· 2025-06-06 13:45

多模态推理模型的挑战与突破 - 在文本推理领域，"慢思考"模型（如GPT-o1、DeepSeek-R1）凭借显式反思机制，在数学和科学任务上显著优于"快思考"模型（如GPT-4o）[1] - 但在多模态推理场景中，这些模型表现平平，甚至被Qwen2.5-VL-72B超越，在MathVista、MathVerse等基准上与快思考模型持平[1] 多模态慢思考的两大核心障碍 - **优势消失问题**：在GRPO算法训练多模态模型时，随着训练推进，零优势信号样本比例显著增加，导致有效训练样本锐减[3][10] - **反思惰性问题**：现有视觉语言模型（VLM）受限于视觉模态特性，倾向于"快思考"，缺乏主动审视与修正能力[5][6] VL-Rethinker的创新解决方案 - **优势样本回放（SSR）**：动态存储非零优势样本，优先复用绝对优势值较大的关键样本，提升训练效率[19][23] - **强制反思机制**：通过追加"反思触发"文本强制模型二次推理，引导多样化反思行为，已在Pixel Reasoner、SkyR1V2中应用[21][25] 训练数据集与模型性能 - 研究团队精编ViRL39K数据集，包含38,870条高质量多模态推理问题，覆盖八大主题（逻辑推理、图表推理等）[7][8][9] - VL-Rethinker-72B在MathVista上提升5.6%（达80.4%），MathVerse提升6.3%（达63.5%），超越GPT-o1（73.4%、57.0%）[27][29] - 在多学科测试中，MMMU-Pro成绩55.9%，EMMA成绩38.5%，接近OpenAI-o1水平[28]

多模态推理

慢思考框架

优势样本回放

多模态推理

慢思考框架

优势样本回放

券商晨会精华：低估值具身智能应用标的和红利资产继续受青睐

新浪财经· 2025-06-03 00:49

市场表现 - 上周五市场全天震荡调整创业板指领跌沪指跌0.47% 深成指跌0.85% 创业板指跌0.96% [1] - 板块方面猪肉创新药银行 CRO等板块涨幅居前黄金草甘膦可控核聚变人形机器人环保设备消费电子等板块跌幅居前 [1] 券商观点中信建投 - 人形机器人板块继续分化市场聚焦低估值具身智能应用标的中长期建议挖掘AI+机器人投资机会包括传感器灵巧手机器狗外骨骼机器人方向 [2] - 降息背景下高股息率的红利资产继续受市场青睐 [2] - 出海板块H股发行计划增多创业公司赴港上市数量增加预计H股高端制造板块将吸引更多全球资金 [2] 中金公司 - 多模态推理是提升智能驾驶能力的重要途径正成为头部企业算法演进重点 [2] - 蔚来世界模型NVM首个版本具备全量理解想象重构和推理能力在ETC车道通行停车场寻路等场景性能提升显著 [2] - 理想自研VLA大模型具备思维链推理能力模拟人类驾驶员思维运作方式 [2] 华泰证券 - A50产业巨头消费大金融等核心资产有望从重估韧性切换至重估增长在ROE企稳回升周期中充当先锋手 [3] - A50非金融ROE已于2024年报起先于全A非金融筑底企稳 [3] - 当前估值隐含股权成本高于市场平均水平若重新定价增长韧性风险溢价存在可观下修空间 [3]

多模态推理

A50核心资产

多模态推理

A50核心资产

中金：多模态推理助力智能驾驶能力升阶，相关主线值得关注

快讯· 2025-06-03 00:32

多模态技术进展 - 3月Google Gemini2.5发布，实现多模态融合推理 [1] - 4-5月阶跃星辰、商汤、MiniMax先后发布多模态推理成果 [1] - 多模态思维链的加入推动多模态与推理模型架构统一 [1] - 多模态理解能力显著提升 [1] 行业应用场景 - 理想、蔚来等车企已在车端交互中实现多模态推理落地 [1] - 技术架构融合创新将持续拓展应用场景 [1] - 多模态推理主线成为行业关注焦点 [1]

多模态推理

Artificial Intelligence

Google Gemini2.5

多模态推理

Artificial Intelligence

Google Gemini2.5

中金 | AI智道（9）：多模态推理技术突破，向车端场景延伸

中金点睛· 2025-06-02 23:45

多模态推理技术进展 - 2025年3月Google发布Gemini 2.5模型，原生支持文本、图像、音频、视频、代码库等多模态输入，并在LMArena排行榜超越GPT-4.5和Claude 3.7 [1][2] - 2025年4月阶跃星辰发布多模态推理模型Step-R1-V-Mini，商汤发布SenseNova V6模型，后者实现10分钟长视频理解能力 [2] - 2025年5月MiniMax开源视觉RL统一框架V-Triune，使VLM掌握视觉推理和感知的统一能力 [2] 技术架构创新 - MiniMax V-Triune框架采用三层组件架构：多模态样本数据格式化、异步客户端-服务器架构的验证器奖励计算、数据源级指标监控 [3] - 通过动态IoU奖励机制和冻结ViT参数等优化，Orsta 32B模型在MEGA-Bench Core基准测试性能提升14.1% [3][6] - 商汤SenseNova V6采用多模态长思维链构建、多模态强化学习和多模态全局记忆技术创新 [2] 智能驾驶应用 - 蔚来NVM世界模型具备全量理解、想象重构和推理能力，在ETC车道通行和停车场寻路等场景性能显著提升 [3][7] - 理想自研VLA大模型通过多模态推理模拟人类驾驶员思维运作方式 [3] - 多模态推理技术可增强道路交通标志识别判断能力，提升复杂场景泛化性 [3] 性能对比 - Orsta 7B模型在MEGA-Bench Core测试中相比骨干模型提升3.2个百分点 [6] - Orsta 32B模型在知识、数学、感知等多项指标上实现5.9-20.2个百分点的提升 [6] - 在32B+模型对比中，Orsta 32B-0326版本相比骨干模型在核心指标提升2.1个百分点 [6]

多模态推理

Artificial Intelligence

蔚来世界模型NVM

理想VLA大模型

Google Gemini 2.5

MiniMax V-Triune

多模态推理

Artificial Intelligence

蔚来世界模型NVM

理想VLA大模型

Google Gemini 2.5

MiniMax V-Triune

SFT在帮倒忙？新研究：直接进行强化学习，模型多模态推理上限更高

机器之心· 2025-06-01 03:30

核心观点 - 研究发现监督微调（SFT）在多模态推理中可能阻碍学习，导致伪推理路径，而强化学习（RL）则促进真正的多模态推理 [3][9] - 传统两阶段训练范式（SFT+RL）在视觉语言模型（LVLM）中可能导致性能下降，7B模型相对性能下降47% [11][13] - 纯RL训练方案更具优势，VLAA-Thinker-Qwen2.5VL-3B模型在Open LMM推理榜单4B量级模型中位列第一，以1.8%优势刷新纪录 [15] 数据集构建 - 研究者构建了首个支持SFT与RL的全方位高质量图文推理数据集VLAA-Thinking，包含203,182条原始数据和144,895条处理后的数据 [4][5] - 数据集包含基于R1模型"先思考后回答"范式生成的完整推理链条，SFT分支包含多模态思维链样本，RL分支筛选更具挑战性的样本 [5] - 数据处理流程分为六阶段：元数据收集→图像描述生成→基于R1的知识蒸馏→答案重写→人工验证→数据划分 [6] SFT与RL对比研究 - SFT提高了模型在标准任务中的性能，但在增强复杂推理方面能力欠缺，可能诱发"伪推理路径"和"伪aha moment" [9] - 对已对齐模型使用SFT+GRPO会导致平均12.7%的性能下降，且模型规模差异影响甚微 [13] - SFT虽可帮助未对齐模型遵循指令，但其模仿式推理会限制RL阶段的探索空间 [15] GRPO训练优势 - 强化学习在增强推理能力方面表现出色，GRPO在文本数学推理任务中比其他方法更有效、更高效 [17] - 研究者提出了混合奖励框架，包含五种可验证的奖励类型，涵盖视觉感知和视觉推理任务 [19] - 直接使用GRPO训练的模型在视觉语言推理任务中显著优于其基础模型 [31] SFT对GRPO的影响 - SFT与多模态推理中的GRPO不兼容，在GRPO训练前进行SFT的模型性能比仅使用GRPO训练的模型更差，平均下降8.9% [21] - SFT对指令模型的性能损害比对没有指令跟随能力的基础模型更大，Qwen2VL-Inst性能比Qwen2VL-Base下降7.7% [21] - 较小的SFT数据集仍然会影响GRPO的性能 [23] 模型性能分析 - 响应长度、奖励分数与性能表现无显著相关性，SFT模型虽能获得更高初始奖励和更长响应，但实际表现逊于纯RL训练模型 [15][24] - SFT仅提供了RL训练的一个更高的"下限"，但可能会降低"上限"，限制了模型的探索路径 [26] - 经过更好指令调优的模型在GRPO训练后表现更佳，说明高质量的指令调优能够增强模型在强化学习后的推理能力 [31]

监督微调（SFT）

强化学习（RL）

多模态推理

视觉 - 语言大模型（LVLM）

VLAA-Thinking数据集

VLAA-Thinker-Qwen2.5VL-3B模型

监督微调（SFT）

强化学习（RL）

多模态推理

视觉 - 语言大模型（LVLM）

VLAA-Thinking数据集

VLAA-Thinker-Qwen2.5VL-3B模型

ICML 2025 Spotlight | 多模态大模型暴露短板？EMMA基准深度揭秘多模态推理能力

机器之心· 2025-05-20 04:58

EMMA基准的核心观点 - EMMA基准揭示了当前多模态大语言模型(MLLMs)在深度视觉与文本融合推理上的重大缺陷，即使最先进模型如GPT-4o、Gemini-2.5-pro-exp-03-25等表现仍落后人类专家超20%[3][4][13] - 该基准通过数学、物理、化学、代码四大领域任务，要求模型必须同时深度依赖视觉和文本信息才能解决问题，突破了传统文本主导或浅层视觉感知的测试局限[9][13] - 核心发现包括：思维链(CoT)提示对视觉密集型任务效果有限甚至负面、测试时计算扩展难以弥补视觉推理短板、视觉空间模拟错误占比高达52.83%[13][18][21] 模型性能表现 - 人类专家在EMMA-mini上的整体准确率达77.75%，显著高于所有模型，其中化学领域表现最佳(86%)[17] - 闭源模型中Gemini-2.0-Flash-Thinking-0121以48%准确率领先，开源模型Qwen2-VL-72B-Instruct达37.25%，均未突破50%门槛[17] - GPT-4o在物理领域表现最佳(44%)，但在化学领域仅33%，显示跨学科能力不均衡[17] 数据集构建特点 - 包含2,788个问题，其中1,796个为专家新构建，覆盖数学(892题)、物理(156题)、化学(1,176题)、代码(564题)四大领域[16] - 采用严格筛选机制，排除仅凭文本或简单图文描述可解决的问题，确保必须进行真多模态推理[16] - 每个问题标注细粒度技能标签(如2D变换、3D场模拟等)，支持模型能力画像分析[13][16] 技术瓶颈分析 - 视觉推理错误占比超50%，显著高于感知错误(30.19%)和文本推理错误，成为核心瓶颈[21] - 模型依赖结构化文本步骤推理，缺乏人类式视觉化思考和空间模拟能力[6][13] - 模态间信息密度差异导致预训练阶段特征对齐不足，且缺乏视觉状态动态更新机制[23] 未来发展方向 - 需开发视觉动作推理能力，实现跨模态动态协作而非当前语言主导模式[23] - 应突破传统CoT范式，建立新型视觉推理机制以解决空间模拟缺陷[13][18] - 开源社区已发布完整代码、数据和基准(含HuggingFace数据集)，加速技术迭代[4]

多模态大语言模型

多模态推理

EMMA基准测试

Gemini-2.5-pro-exp-03-25

多模态大语言模型

多模态推理

EMMA基准测试

Gemini-2.5-pro-exp-03-25