理想MindGPT-4o-Vision技术报告压缩版
理想TOP2·2025-12-22 12:28

通用多模态大模型垂直应用面临的挑战 - 将通用多模态大模型迁移至垂直应用面临两大主要矛盾:灾难性遗忘,即注入领域知识会导致模型原有通用理解能力退化;以及缺乏系统的后训练方法论,现有方法往往在优化领域能力时牺牲了基础能力和用户体验[2] - 当前多模态模型训练存在三个关键低效与偏差现象:资源分配粗放,对所有数据均等处理导致高价值数据挖掘不足;奖励机制导致单一化,传统Pass@1机制使模型收敛到少数安全回复模式,牺牲输出多样性;单模态虚假相关,模型过度依赖语言先验而非视觉证据,导致幻觉风险[3] MindGPT-4ov后训练范式的核心模块 - 数据构建模块基于信息密度评分进行数据合成,IDS从主体多样性、场景空间关系、OCR文本丰富度、世界知识相关性四个维度量化图像数据,并依据分数动态调整生成问答对的数量,实现资源高效配置[4] - 数据构建模块采用双维标签系统,构建领域加能力的树状标签体系,确保合成数据既覆盖垂直领域知识,又兼顾通用视觉能力[5] - 监督微调模块采用三阶段协同课程学习:第一阶段跨域知识学习,重点注入垂直领域知识;第二阶段能力修复,使用通用数据集恢复可能下降的通用能力;第三阶段偏好对齐,使用高质量偏好数据优化响应格式并减少幻觉[6] - 强化学习模块采用混合奖励机制,引入多种奖励信号以平衡准确性、多样性与简洁性,包括鼓励探索不同推理路径的Pass@k奖励、惩罚语义相似回答的多样性奖励、强制输出简洁响应的长度奖励,以及惩罚知识泄漏的对抗性幻觉数据[7] - 基础设施模块采用5D并行训练,在3D并行框架上引入序列并行和专家并行,并对推理过程中的模型适配、流式推理和高并发场景进行优化[4] 后训练与部署的具体流程 - 标签构建由专家定义一级标签,再利用MLLM扩展生成二级及三级细粒度Topic,形成覆盖广泛的知识树[8] - 数据合成过程对图像进行粗粒度(Top-3)和细粒度(Top-5)Topic匹配,结合IDS分数生成问答对,并通过多模型投票机制过滤低质数据[8] - SFT训练执行三阶段课程学习,期间穿插数据准入与拒绝采样机制,动态调整数据配比[8] - 强化学习分为两个阶段:第一阶段在线RL使用GSPO算法,结合Pass@k和多样性奖励,重点提升多模态逻辑推理和STEM能力;第二阶段离线RL使用DPO算法,利用人类偏好数据和对抗性幻觉数据进行领域能力对齐和幻觉抑制[8] - 推理部署采用分块预填充和视觉编码缓存策略,在用户输入阶段并行处理图像,以降低首字延迟[8] 模型性能表现 - 在垂直领域知识掌握方面,MindGPT-4ov能准确识别理想汽车特定车型的设计特征及定位,而基座模型Qwen3-VL出现知识缺失或幻觉[8] - 在响应简洁性方面,在MathVista等基准测试中,MindGPT-4ov的平均响应长度显著短于对比模型,同时保持了更高的准确率(83.3% vs 80.1%),验证了长度奖励机制的有效性[9]