Workflow
多模态大模型(MLLMs)
icon
搜索文档
PixelRefer :让AI从“看大图”走向“看懂每个对象”
机器之心· 2025-11-10 23:47
技术突破与核心创新 - 提出PixelRefer统一时空像素级区域级理解框架,实现任意粒度下的精细视觉指代与推理,解决了现有模型在细粒度、对象级理解上的不足[2] - 框架包含两种设计:Vision-Object Framework保留场景语境并进行对象级精细推理,Object-Only Framework通过对象中心信息融合模块提升效率[15][16][22] - 核心创新是尺度自适应对象分词器,通过动态尺度处理、位置感知掩码特征抽取和冗余聚合三步,生成精确紧凑语义丰富的对象表示[16][17][20] 性能优势与效率表现 - 在多项图像理解基准测试中达到SOTA水平,PixelRefer-7B在PACO数据集上SSim达90.5,在Ferret基准推理任务得分83.1,显著领先于DAM-8B和SPHINX-V-13B等模型[26][28] - 视频理解性能领先,PixelRefer-7B在VideoRefer-Bench上平均得分达79.4,超越GPT-4o的71.3和VideoRefer-7B的71.9[29] - 效率显著提升,PixelRefer-Lite-2B模型推理时间比DAM-3B加快约4倍,显存占用减半,在HC-STVG基准上推理时间仅0.68秒,显存占用5.2GB[2][32][33] 技术原理与设计洞察 - 基于分析发现高质量像素级物体表征至关重要,且全局视觉信息在LLM深层作用减弱可提前融合,从而优化计算开销[11][15] - 对象中心信息融合模块通过Local-to-Object和Global-to-Object Attention将全局特征前处理融合入对象表示,实现细节感知与全局语义的统一[22][23] - 消融实验证明尺度自适应对象分词器相比简单maskpooling方法有显著提升,特别是在小目标理解上提升十几个点[34][36] 应用前景与行业意义 - 技术应用前景广阔,涵盖自动驾驶时序场景识别、医疗影像病灶级理解、智能视频剪辑与监控以及多模态对话与人机交互[38][40] - 标志着AI视觉理解从整体场景级迈向细粒度对象级动态理解,为多模态大模型的精细化视觉理解提供了新方向[2][38] - 联合开源了用于训练的两类数据集:基础物体感知数据集包含140万样本,视觉指令调优数据集包含80万样本,覆盖区域QA、视频QA等多类任务[25]
语言先验「基础过强」,MLLMs 视觉衰减有何解?
机器之心· 2025-11-01 02:30
MLLMs存在文本主导的注意力偏差 - 多模态大模型存在模态失衡问题,其内在注意力分配机制存在系统性偏差,过度依赖语言先验并系统性地轻视或忽略同时输入的视觉信息[5] - 在复杂推理场景中,模型经常倾向于仅基于文本上下文生成输出,即使图像中包含丰富的、与文本相关甚至矛盾的关键信息[5] - 这种现象普遍存在于以大规模预训练语言模型为核心骨干的各类MLLMs中,包括视觉-语言、音频-语言等多种模态对[5] 视觉信息在长推理链中衰减 - 随着推理链的延长,模型对图像内容的关注显著下降,而对指令等语言token的注意力显著增强,导致生成过程越来越依赖语言线索而非图像内容[5] - 相较于非推理模型,R1类推理模型在生成过程中显著减少了对视觉token的关注,将大量注意力分配给指令token与语言上下文[6] - 这种“注意力迁移”随着推理链条的延展而逐层加剧,即越往后层,模型越倾向于忽略图像输入,而完全依赖语言信号进行推理[6] 模态失衡问题的根源 - MLLMs的模态失衡问题主要源于基础模型的不平衡和训练目标的失衡,其核心是经过万亿级预训练的文本数据,赋予了模型强大的语言先验[8] - 尽管视觉特征通过视觉编码器进行了高维表示,但与语言特征空间相比其代表性不充足,在跨模态注意力过程中容易被忽略或抑制[8] - 模型训练时倾向于采用偏向语言的“捷径学习”策略,通过学习文本中的统计模式而非依赖复杂的视觉信息来预测答案[9]
真实科研水平集体不及格!全新基准SFE给主流多模态LLM来了波暴击
机器之心· 2025-07-09 09:52
核心观点 - 当前AI4S在单点取得进展,但需采用"通专融合AGI"方式成为革命性工具,大模型的突破性能力正改变科研模式,但需科学评测支撑[1] - 现有科学评测存在两大痛点:聚焦知识记忆而非全链条能力;多模态数据分析需求未充分开发[2] - 上海AI实验室推出SFE评测基准,首创"信号感知-属性理解-对比推理"三级体系,涵盖5大领域66项高价值任务,揭示主流模型在高阶科学任务上表现不佳(SOTA仅30分左右)[3][4] 评测体系设计 - SFE构建三层认知框架:科学信号感知(L1)、科学属性理解(L2)、科学比较推理(L3),覆盖从数据感知到高阶推理的全链条能力[7][10] - 数据集包含830个VQA、66项科学任务,涉及202个L1、503个L2、125个L3任务,平均问题长度88(英)/86(中)token,答案长度100(英)/106(中)token[14] - 开发流程分三步:与专家确定高价值方向→细化任务设计→精选原始数据构建VQA样本,涉及18个科学方向和17种数据格式[15][17] 模型表现分析 - 闭源模型整体优于开源模型6-8%,GPT-o3与Gemini-2.5-Pro差距达26%,因后者存在冗余思考导致token消耗过快[20] - 材料科学表现最佳(GPT-o3达63.44%),因任务结构化明显;天文学最弱(平均约20%),因数据噪声大且直观性弱[22][23] - 高阶推理(L3)能力进步显著(如GPT-o3从26.64%提升至36.48%),但知识理解(L2)进步有限,显示模型提升主要来自推理架构创新[25][26] 技术趋势洞察 - 闭源模型在Pass@k测试中扩展性更好(37.75% vs 27.33%),可能因训练数据更丰富且平衡探索与利用[29][30] - 模型规模与科学能力非正比关系,如Qwen2.5-VL-72B表现反低于7B版本,显示需同步扩充科学数据以避免过拟合[31][32] - 推出"棱镜"科学评测平台,包含模型能力/学科多样性等5大模块,覆盖AI for Innovation/Computation/Data三层评估维度[33][35][36]
GPT-Kline:MCoT与技术分析
华泰证券· 2025-05-31 10:25
报告行业投资评级 未提及 报告的核心观点 - 多模态思维链(MCoT)将大模型的多模态与推理能力相结合,提升其应对复杂多模态任务的表现 [1][121] - 尝试将 MCoT 应用于 K 线技术分析场景,构建智能化、自动化技术分析平台 GPT - Kline,实现技术分析全流程自动化 [1][121] - GPT - Kline 能基于 K 线图像准确识别和深入推理,实现可靠走势分析、精准指标及形态标注、逻辑连贯报告输出 [1][121] 根据相关目录分别进行总结 大模型如何基于图片思考 - 多模态协同是大模型通往通用人工智能的必经之路,多模态大模型致力于将智能从文本单模态泛化至多模态领域 [17] - 早期多模态大模型仅增加图像输入,未充分挖掘多模态潜力,MCoT 可让大模型从“感知理解图片”到“通过图片思考” [12] - 计算机视觉底层技术突破和大语言模型能力迭代促成多模态大模型飞速发展 [18] 多模态思维链:从 CoT 到 MCoT - CoT 方法通过提示引导模型“一步一步思考”,提升其在复杂任务上的表现,与 TTS 方法结合让“思考”成为内生能力 [21] - TTS 为大模型测试阶段分配更多计算资源,如 DeepSeek - R1 模型通过强化学习提升推理表现 [23] - MCoT 是 CoT 在多模态领域的扩展,让大模型在图像问答任务中表现提升,扩展多模态大模型能力边界 [27][31] O3:从 Think Over Image 到 Think By Image - 2025 年 4 月 OpenAI 上线“满血版”O3 模型,展现惊艳图像推理能力,实现真正的“多模态推理” [37] - O3 模型在推理中调用工具应对复杂多模态任务,无需用户提示,自主规划流程 [37] - O3 在多模态推理和工具调用方面表现优异,但在文本写作、编码领域较弱,幻觉现象严重,未达通用人工智能标准 [39] MCoT 在投研中的应用初探:自动化技术分析 - 股票 K 线图与技术分析符合多模态、逻辑推理特征,是 MCoT 能力圈的应用场景,可构建大模型自动化技术分析应用 [42] O3 在技术分析任务中的表现 - O3 模型接收技术分析任务后,对图像建立感知,估算尺寸和坐标,裁剪图像,建立对应关系,规划标注内容 [46][50] - O3 调用 Python 工具在图像上绘制支撑/压力线和趋势线,标注较清晰完整,写代码规范可运行 [54][60] - O3 最终生成的技术分析报告结构清晰,分析有理有据,与标注呼应,给出走势判断和操作建议 [63] GPT - Kline:全自动技术分析流程的手动实现 模型选择 - O3 模型存在输出不稳定、内容有限、使用门槛高的问题,需构建专业版 O3 模型 GPT - Kline [65][69] - 选用的大模型需具备多模态输入和工具调用能力,截至 2025 年 5 月,GPT - 4o、GPT - 4.1、Gemini - 2.5 - Pro 等模型符合要求 [66][69] 工具调用 - 为大模型设计与图像交互的工具,让其具备画图、标注能力,工具调用流程包括用户提供工具、模型决定调用、用户执行代码等步骤 [70][73] 流程设计 - 为大模型设计指令输入、读取数据、绘制图像、图像分析、图像标注、输出报告的技术分析全流程,实时反馈结果并保留对话记忆 [79] 应用封装 - 基于 Gradio 设计网页端应用,提供手动选择和自然语言指令两种分析模式,界面左右两栏分别显示标注 K 线图和分析过程 [83] 结果 - 模型对比发现,OpenAI 模型标注“消极”且位置偏差,豆包系列模型标注丰富但内容偏差大,指令跟随效果不稳定 [95] - 以 Gemini 2.5 Flash 模型为例展示全自动技术分析流程,包括绘制 K 线、初步分析、技术指标标注、生成技术分析报告 [96] 总结 - 研究深入探索多模态大模型推理能力及其在投研中的应用,构建 GPT - Kline 平台 [121] - 研究存在支持资产品类有限、长周期 K 线分析能力待探索、投研其他场景应用潜力待挖掘等未尽之处 [125]
让GPT-4o准确率大降,这个文档理解新基准揭秘大模型短板
机器之心· 2025-05-24 04:07
多模态大模型在文档理解领域的现状 - 当前多模态大模型(MLLMs)在文档理解基准测试(如DocVQA、ChartQA)中表现优异,但现有基准存在两大核心缺陷:脱离真实场景和无法评估鲁棒性[1] - 真实场景中文档多为手机/相机拍摄的纸质文件或屏幕截图,面临光照不均、物理扭曲、拍摄视角多变等复杂干扰[5] - 现有基准未模拟真实环境的复杂性和多样性,导致模型在实际应用中表现存疑[5] WildDoc数据集的构建与特点 - WildDoc是首个真实世界场景文档理解的基准数据集,由字节跳动OCR团队联合华中科技大学打造[3] - 数据集包含超过12,000张手动拍摄的图片,覆盖环境、光照、视角、扭曲和拍摄效果等五个影响因素[3] - 数据采集过程包括场景多样化、基准对齐和多条件拍摄,确保覆盖多维度干扰因素[11] - 对图像中的文本、布局等关键信息进行人工验证,并通过一致性分数评估模型在不同条件下的稳定性[11] 实验结果与发现 - 主流MLLMs在WildDoc上性能显著下降,例如GPT-4o平均准确率下降35.3,ChartQA子集下降达56.4[12] - 开源模型Qwen2.5-VL-72B平均准确率70.6,为开源最佳,但仍低于原始基准约15%[12] - 闭源模型Doubao-1.5-pro表现最优(平均准确率73.7%),但一致性分数仅55.0[12] - 物理扭曲最具挑战性,导致模型性能下降最显著(如GPT-4o下降34.1-34.7)[13] - 非正面视角与图像质量对性能影响较大,但屏幕捕获图像因数据增强算法成熟,性能下降较小[13] - 大参数量模型在WildDoc上表现略优,但未完全克服真实场景挑战[13] 未来改进方向 - 数据增强:通过更多增强技术模拟真实世界条件,如变化的光照、阴影等[19] - 鲁棒特征学习:让模型学会提取对真实世界变化不敏感的特征[19] - 真实数据引入:收集更多真实世界文档图像,丰富训练数据集[19]