多模态LLM对齐算法

搜索文档
中科院领衔万字长文,全面系统梳理多模态LLM对齐算法
量子位· 2025-03-23 11:12
多模态大语言模型对齐算法应用场景 - 减少幻觉现象是MLLM对齐算法的核心应用场景 例如Fact-RLHF使用10K个人工标注样本训练奖励模型并引入token级KL惩罚和事实校准机制[14] DPO优化方法如DDPO通过提高更正数据权重来增强效果[15] HA-DPO利用GPT-4验证幻觉并加入辅助因果语言建模损失[16] mDPO引入视觉损失函数解决视觉信息忽视问题[17] - 提升模型综合能力包括对话、推理和安全性 Silkie通过GPT-4V评估响应生成偏好数据[18] CLIP-DPO利用CLIP分数标注数据同时提升幻觉减缓和零样本分类[18] SIMA通过自我评估响应构建偏好对提升多图像任务表现[19] MM-RLHF通过多样性数据进一步提升对齐效果[20] - 扩展应用覆盖医学、数学和安全领域 3D-CT-GPT++优化医学影像分析达到临床级准确性[31] MAVIS改进视觉数学问题解决框架[31] AdPO和VLGuard通过优化训练数据提高模型对抗攻击鲁棒性[31] INTERACTIVECOT和EMMOE通过动态推理优化嵌入式智能表现[31] 多模态对齐数据集构建 - 引入外部知识的数据集依赖人工注释和闭源模型 LLaVA-RLHF通过人工选择正负响应收集10k样本[40] RLHF-V通过人工修正幻觉响应收集1.4k样本[40] LRV-Instruction通过GPT-4生成400k视觉指令覆盖16个任务[40] - 自我标注数据集包括文本和图像模态 SQuBa通过微调模型生成负样本进行DPO对比[42] Image DPO通过对图像高斯模糊或像素化构建偏好对[43] AdPO通过原始/对抗图像差异构建混合模态偏好数据[44] - 数据质量与规模存在平衡挑战 自我标注方法受限于MLLM性能导致质量较低和分布偏移[45] 自动化数据增强技术有望提升未来数据多样性和可信度[45] 对齐算法评估基准 - 通用知识评估依赖高质量人工数据集 MME-RealWorld包含13K图像和29K问答对[49] MMMU包含11.5K学术来源问题[49] MMStar通过减少数据泄漏增强可靠性[49] MMBench采用双语评估与CircularEval框架[49] - 幻觉评估系统化分类对象和关联偏差 Object HalBench识别对象幻觉[51] VideoHallucer区分内在和外在幻觉[51] VALOR-Eval分析关联偏差[51] POPE采用基于投票查询[51] HaELM使用LLM驱动评分[51] - 安全性评估涵盖对抗攻击和红队测试 AdvDiffVLM采用扩散对抗攻击[54] RTVLM红队框架提升抗干扰能力[54] MultiTrust通过多维度统一可信度评估[55] VLLM-safety-bench测试OOD泛化[55] 未来发展方向与挑战 - 数据挑战包括质量有限和覆盖不足 多模态数据注释复杂度高于文本[68] 现有数据集缺乏光学字符识别和数学任务覆盖[68] 目前无完全人工注释多模态数据集样本量超过200,000个[69] - 视觉信息利用存在效率与成本权衡 破损图像作为负样本可提高鲁棒性但缺乏质量度量[73] 基于破损图像生成新问答增加计算开销[75] CLIP相似度度量受模型偏见影响[76] - MLLM推理增强借鉴LLM经验 数据规模从OpenMathInstruct小模型重采样发展到Qwen-2.5-MATH百万样本规模[87] 优化框架采用在线强化学习缓解分布偏移[88] 多阶段协作优化成为主流如Llama 3六轮DPO迭代[88] - 智能体发展需解决多模态协作与安全 多智能体协作缺乏成熟解决方案[95] 开放环境鲁棒性需对抗性测试验证[95] 复杂组件增加安全风险需保护机制[95]