多模态大语言模型(MLLMs)

搜索文档
给几何图片写标题就能让AI更聪明,UIUC发布高质量可泛化几何数据集
机器之心· 2025-09-25 23:54
多模态大语言模型几何推理研究突破 - 多模态大语言模型在视觉问答和图像描述任务中广泛应用,但现有方法依赖模板生成图像-文本对,存在泛化能力有限和视觉-文本信息不对齐问题 [1] - UIUC团队提出基于强化学习与可验证奖励(RLVR)的数据生成框架Geo-Image-Textualization,并发布首个完全对齐的高质量几何图像-文本数据集GeoReasoning-10K,包含1万对精心构建的图像与描述 [2] - 该框架具有强泛化性,训练后的模型不仅能处理几何任务,还能泛化至算术、代数、数值推理等非几何任务,甚至处理非几何图像输入 [8] 数据集与代码开源 - 研究团队已公开GeoReasoning-10K数据集及相关代码,数据集地址为https://huggingface.co/datasets/ScaleMath/GeoReasoning,代码地址为https://github.com/MachinePhoenix/GeoReasoning [3][5] - 论文标题为"Generalizable Geometric Image Caption Synthesis",论文链接为https://arxiv.org/abs/2509.15217 [5] 框架核心优势 - 生成样本由模板集字句组合而成,可以组合出任意复杂度的几何题,展现出卓越的可扩展性 [8] - 经过GeoReasoning训练过的模型在下游任务上性能超过其他同类型数据集,并且具有良好的缩放性质,体现高质量特性 [8] 实验验证结果 - 在MathVista和MathVers数学推理基准测试中,GeoReasoning-10K在相同数据量下均取得最优效果,展现出卓越的数据质量与扩展性 [12] - 使用GeoReasoning-10K微调后的Gemma3-4B模型在MMMU测评基准上显著提升多项能力 [14] - 具体样例显示模型能成功解决几何问题(如圆的角度计算)和算术问题(如车辆数量比较) [17][19] 研究意义与应用前景 - 该框架通过确保视觉和文本信息的完全对齐,不仅提升了模型在几何问题上的表现,还实现了向更广泛数学领域的泛化 [21] - 给几何图片写标题能增强AI的整体数学推理能力,为多模态AI在教育、科学计算等领域的应用铺平道路 [21]
西交利物浦&港科最新!轨迹预测基座大模型综述
自动驾驶之心· 2025-09-24 23:33
摘要与引言 这篇综述探讨了将大语言模型(LLMs)和多模态大语言模型(MLLMs)等大型基础模型应用于自动驾驶轨迹预测的新范式 。这种方法通过整合语言 和情境知识,使自动驾驶系统能更深入地理解复杂的交通场景,从而提升安全性和效率。文章回顾了从传统方法到由 LFM 引入的范式转变,涵盖了车 辆和行人的预测任务、常用的评估指标和相关数据集 。它详细介绍了LLM的三种关键应用方法: 轨迹-语言映射、多模态融合和基于约束的推理 ,这 些方法显著提高了预测的可解释性和在长尾场景中的鲁棒性 。尽管LLM有诸多优势,但也面临计算延迟、数据稀缺和真实世界鲁棒性等挑战 。 图1展示了自动驾驶中"感知-预测-规划与控制"的闭环过程,突出了LFM如何帮助自动驾驶车辆预测其他交通参与者的轨迹 。 论文链接:https://www.arxiv.org/abs/2509.10570 作者单位:西交利物浦大学,澳门大学,利物浦大学,香港科技大学(广州) 图2则以时间线形式展示了轨迹预测方法的演变,从基于物理模型、机器学习、深度学习到最新的LFM方法 。 轨迹预测概述 轨迹预测是自动驾驶的核心技术,它利用历史数据(如位置和速度)以及上下文信 ...
ICCV 2025 | ECD:高质量合成图表数据集,提升开源MLLM图表理解能力
机器之心· 2025-08-21 13:08
数据集核心创新 - 提出ECD合成图表数据集 包含10,000+图表和321.5k问答对 规模与多样性超越同类数据集[6][10][12] - 采用模块化五阶段数据合成流水线 涵盖单图生成、多子图组合、视觉多样化等环节 确保数据真实性与复杂性[15][16] - 实现252种子图组合和29种图表类型 覆盖经济学/天文学/医学等25个学科主题 为当前最广覆盖范围[12] 性能表现 - 在6个测试集评估中 ECD训练使开源MLLM模型性能显著提升:LLaVA-Next推理准确率从4.74%升至16.50% Phi-3-Vision平均准确率从31.41%提升至44.40%[17][23] - ECDBench基准测试显示 GPT-4o mini达到最高平均准确率67.24% 显著优于Claude-3.5-Sonnet(55.07%)和GPT-4o(52.90%)[22][23] - 合成数据质量指标突出:最低FID得分表明与真实图表分布最接近 最高像素熵反映更高信息复杂度[13] 技术优势 - 问答对由GPT-4o自动生成并经过置信度过滤 包含描述类与推理类问题 例如差异比较问题(如"数字广告收入差异300M")[10][11] - 多子图组合采用条件顺序生成机制 保证语义一致性 支持2行3列/3行3列等复杂布局[12][16] - 视觉多样化引入Seaborn绘图库 添加注释/阴影/Zoom-in视窗等元素 提升视觉丰富度[16] 行业应用价值 - 解决现有合成数据集风格单一/缺乏真实性/数据模式受限三大痛点 为科研/新闻报道领域提供高真实性图表数据[4] - ECDBench基准包含1,224张图表和2,448对QA 为多模态推理和科学AI助手提供标准化评估体系[21][24] - 显著提升开源MLLM在ChartQA/ReachQA/ChartX等基准测试表现 推动图表自动化生成技术发展[17][25]
X-SAM:从「分割一切」到「任意分割」:统一图像分割多模态大模型,在20+个图像分割数据集上均达SoTA
机器之心· 2025-08-19 06:33
核心观点 - X-SAM是首个统一的分割多模态大语言模型,将分割范式从「分割万物」扩展到「任意分割」,实现了像素级视觉理解能力的突破 [4] - 通过创新的视觉定位分割(VGS)任务和统一架构设计,X-SAM在20+数据集上达到最先进性能,覆盖7种分割任务 [4][19] - 模型采用三阶段渐进式训练策略和数据集平衡重采样技术,显著提升少样本数据集的性能 [16][17] 背景与动机 - Segment Anything Model (SAM)依赖单一视觉提示输入,多模态大语言模型(MLLMs)无法处理像素级任务,限制了通用模型发展 [4] - X-SAM通过赋予MLLMs像素级理解能力,解决了传统模型在开放场景视觉感知中的根本性限制 [4] 方法设计 架构设计 - 采用双编码器设计:SigLIP2-so400m提取全局特征,SAM-L提取细粒度特征,通过像素重排和MLP投影实现特征融合 [14] - 分割连接器提供多尺度信息(1/32、1/16、1/8尺度),Mask2Former解码器替换SAM原始解码器 [12][15] - 输入支持文本查询(通用/指代/推理分割)和视觉查询(点/涂鸦/边界框),输出采用<SEG>标记统一表示 [7][8][13] 训练策略 - 三阶段训练:1)分割器微调(COCO-Panoptic数据集) 2)对齐预训练(LLaVA-558K数据集) 3)混合微调(多数据集协同) [16] - 数据集平衡重采样策略:通过超参数t控制过采样比例,改善少样本数据集(0.2K样本)性能 [17] 实验结果 性能对比 - 指代分割任务:RefCOCO/+/g测试集达到85.1/78.0/83.8,超越GLaMM(79.5/72.6/74.2)和PSALM(83.6/72.9/73.8) [23] - 对话生成分割:mIoU指标达69.4(Val)/69.0(Test),显著优于GLaMM-7BT(65.8/64.6) [23] - 视觉定位分割:点提示AP50达72.5,较PSALM(3.3)提升20倍 [23] 多模态能力 - 图文理解任务:SEED-Bench(69.3)、POPE(89.3)、AI2D(62.6)分数全面领先LLaVA-1.5等基线模型 [23] 未来方向 - 视频领域扩展:与SAM2集成实现图像/视频统一分割,引入时序信息构建视频分割新任务 [27] - 技术应用前景:为通用视觉理解系统奠定基础,开辟开放场景感知研究新方向 [27]
穆尧团队最新!RoboTwin 2.0:用于鲁棒双臂操作的可扩展数据基准
自动驾驶之心· 2025-06-24 12:41
核心观点 - RoboTwin 2.0是一个可扩展的仿真框架,旨在解决双臂机器人操作中数据生成和仿真环境简化两大挑战,通过自动生成多样化且逼真的数据提升策略鲁棒性[2] - 该框架引入五个维度的结构化域随机化(杂乱程度、光照、背景、桌面高度和语言指令),显著增强数据多样性和策略泛化能力[4] - 在50个双臂任务中预收集超过10万条域随机化专家轨迹,覆盖五种机器人实体,实证显示代码生成成功率提高10.9%,真实任务性能提升367%[4] 方法创新 自动专家代码生成 - 结合多模态大语言模型(MLLMs)与仿真闭环优化,通过代码生成agent和视觉-语言模型观察者的双AI agent架构实现迭代优化[10] - 在10项任务评估中,RoboTwin 2.0+MM FB配置达到71.3%的成功率,较基础版本提升23.9个百分点[27] 域随机化设计 - 场景杂乱:基于147类别731个标注物体的RoboTwin-OD库生成语义丰富的干扰场景[12] - 光照变化:随机化色温、光源类型(点光源/区域光源)等参数模拟现实光照条件[13] - 语言指令:通过MLLMs自动生成多样化任务指令和物体描述,覆盖几何/外观/部件级属性[13] 实体感知适应 - 为不同自由度机器人(7-DoF/6-DoF)定制抓取策略,使低自由度平台成功率提升13.5%-22.7%[29] - 通过标注物体关键点轴信息(抓取点/功能点)支持跨实体部署,平均任务成功率提高8.3%[16][31] 数据集与基准 RoboTwin-OD物体库 - 包含147类别731个实例,其中534个通过RGB到3D重建生成,均标注语义和操作相关标签(放置点/抓取轴)[18] 预收集数据集 - 覆盖50项双臂任务和5种机器人实体,包含10万+轨迹(每任务100条干净轨迹+400条随机化轨迹)[24] 性能验证 - 仿真到现实迁移:添加1,000条RoboTwin 2.0合成轨迹使现实任务成功率最高提升33个百分点[36] - 基准测试显示预训练模型(如RDT)在Hard条件下保持优势,非预训练模型性能下降显著[37]
细粒度视觉推理链引入数学领域,准确率暴涨32%,港中文MMLab打破多模态数学推理瓶颈
量子位· 2025-06-16 10:30
多模态数学推理的挑战与突破 传统方法的局限性 - 传统思维链推理方法在视觉与数学结合场景下表现不佳,易忽略视觉输入中的数学细节导致推理错误[2] - 现有视觉CoT方法存在三大瓶颈:粗粒度图像区域选择破坏数学元素关联性[4]、通用视觉编码器对数学图像感知力不足[5]、过度依赖外部工具导致高成本低通用性[6] MINT-CoT的创新设计 - 提出动态Interleave Token机制,通过计算隐藏层相似度实时选取最相关视觉token,实现文本与数学图像元素的细粒度融合[9] - 突破传统矩形区域限制,可灵活捕捉几何图形、坐标轴等结构化数学元素,支持任意形状视觉区域选择[9] - 采用轻量化架构设计,无需依赖外部工具即可完成端到端训练与推理[9] 数据与训练体系 - 构建5.4万条视觉交错推理样本数据集,通过四步流程实现token级图文对齐标注:网格划分→OCR文本映射→关键词提取→MLLM关联匹配[11] - 设计三阶段渐进训练策略:文本CoT微调→双损失监督的交错模态微调→强化学习优化视觉选择策略[13] 性能表现 - 在Qwen-VL-7B模型上应用MINT-CoT框架后,MathVista/GeoQA/MMStar三大基准分别提升32.59%/26.92%/23.2%[16] - 可视化结果显示模型能自主选择相关视觉token并与文本推理链动态交互,推理逻辑显著优于基线[15] 行业影响 - 该技术首次实现数学场景下视觉与思维链的深度融合,为结构化视觉推理建立新范式[17] - 方法论具备扩展性,未来可迁移至科学图表解析、工程图纸理解等专业领域[17]
ICML 2025 Spotlight|南洋理工陶大程教授团队等提出基于RAG的高分辨率图像感知框架,准确率提高20%
机器之心· 2025-05-16 16:31
多模态大语言模型高分辨率图像感知技术 核心观点 - 提出无需训练的Retrieval-Augmented Perception (RAP)框架,通过检索增强技术解决MLLMs处理高分辨率图像时的信息损失问题,显著提升视觉问答和推理性能 [3][16][29] - 关键创新包括:Spatial-Awareness Layout算法维持图像块空间关系,RE-Search自适应选择最优图像块数量 [16][18][19] - 在HR-Bench 4K/8K数据集上实现最大21.7%准确率提升,吞吐量达4.2倍优于现有方法 [25][26][27] 技术方案细节 现有方法局限性 - 基于裁剪的方法需处理300K视觉token,超出LLMs上下文长度限制 [2] - 高分视觉编码器仍需降采样,导致信息损失 [2] - 基于搜索的方法易受初始分辨率干扰,推理延迟增加 [2][15] RAP核心组件 1. **视觉检索增强** - 通过VisualRAG计算图像块与问题的相似度,筛选top-K关键块 [18] - 仅检索相关块可使输入分辨率降低6.5% [27] 2. **空间感知布局** - 三种布局策略对比显示:维持相对位置关系使FCP任务性能提升30% [7][10] - 通过0-1矩阵压缩非关键行列,保留空间信息 [18] 3. **自适应搜索算法** - RE-Search结合相似度分数(g(t))和模型置信度(h(t))动态调整权重 [19][20] - 超参数b=0.2时最优,深度d增加时h(t)权重非线性增长 [22][23] 性能验证 基准测试结果 - **开源模型提升**:LLaVA-v1.5-7B结合RAP在HR-Bench 8K上FSP任务从33%提升至72.3% [26] - **闭源模型对比**:超越GPT-4o在V*Bench的66%准确率,达91.1% [26] - **吞吐量优势**:4.2倍于DC2方法(2.1),准确率提高8.6个百分点 [27] 任务敏感性分析 - FSP任务需较少图像块(K小),FCP任务需更多视觉信息(K大) [12][14] - 8K分辨率下,FCP任务最佳K值使性能提升44.8% vs baseline 40.8% [9][14] 行业应用价值 - 突破性解决8K图像处理瓶颈,为医疗影像、卫星遥感等领域提供技术路径 [1][16] - 无需微调即可适配LLaVA/InternVL等主流MLLMs,降低部署成本 [25][26] - ICML 2025 Spotlight论文(top 2.6%)验证学术影响力 [3]
征稿倒计时!CVPR 2025 Workshop共话“基础模型+X”的鲁棒性挑战
量子位· 2025-03-08 03:35
会议概况 - IEEE/CVF国际计算机视觉与模式识别会议(CVPR 2025)将于2025年6月11日至6月15日在美国田纳西州举行 [1] - 第五届对抗机器学习Workshop由北京航空航天大学、中关村实验室、南洋理工大学等全球知名学术机构联合举办 [1] - Workshop主题为"基础模型+X",聚焦基础模型(FM)及其在特定领域应用(XFM)中的鲁棒性挑战 [1][2] 主题聚焦 - 基础模型(FM)凭借强大生成能力彻底改变计算机视觉等多个领域 [2] - 领域特定基础模型(XFM)如自动驾驶FM、医疗FM通过精选数据集训练和任务架构修改提升专业任务性能 [2] - XFM在安全关键型应用中暴露对抗性攻击脆弱性,可能导致错误分类或生成恶意输出 [2] 论文征稿 - 征稿主题包括:XFM鲁棒性、计算机视觉对抗攻击、深度学习系统鲁棒性改进、FM鲁棒性解释、对抗攻击社会应用、FM鲁棒性评估数据集 [4] - 重要时间节点:摘要提交截止2025年3月15日 论文提交截止2025年3月20日 录用通知2025年3月31日 [3] 竞赛活动 - 竞赛主题为针对多模态大语言模型(MLLMs)的对抗攻击 [7] - 初赛要求设计对抗图文对触发MLLM产生有害输出 复赛挑战更高难度风险类别 [7] - 竞赛官网将后续公布详情 由Challenge Chair负责 [7][8] 组织信息 - 论文提交入口为OpenReview平台特定链接 [9] - 研讨会官网提供完整信息 https://cvpr25-advml.github.io/ [9]