视觉指令微调
搜索文档
NeurIPS 2025 | 告别全量扫描!浙大提出COIDO:破解多模态数据选择「高耗」难题
机器之心· 2025-12-13 08:31
研究背景与动机 - 多模态大语言模型的能力高度依赖高质量的视觉指令微调,但数据集规模爆炸式增长导致全量微调计算开销巨大且存在冗余[8] - 现有数据筛选方法普遍存在两大痛点:筛选成本高昂,需要目标模型对全量数据进行反向传播;优化目标解耦,将重要性与多样性割裂处理,导致次优权衡[12] 方法论核心创新 - 引入轻量级插件评分器,仅需随机采样一小部分数据(例如20%)进行训练,即可学习整个数据集的分布特征并对剩余数据泛化评分,无需遍历全集[14] - 提出重要性与多样性的耦合优化框架,将两者统一在联合训练中,而非分阶段进行[14] - 重要性损失基于交叉熵损失的重加权,使评分器隐式学习样本重要性;多样性损失基于谱聚类的方差最小化,保证数据多样性分布[14] - 引入基于同方差不确定性的自动加权机制,通过动态调整损失权重,实现重要性与多样性的自适应平衡[15][18] 实验性能与效率 - 在多项基准测试中,仅利用20%的数据进行训练和筛选,即可达到全量数据微调98.2%的平均性能[20] - 与现有先进方法相比,COIDO拥有最低的总计算量,仅为4.2E FLOPs,计算效率最高[20][24] - 在相同数据留存率下,COIDO在各个基准测试上均取得了极具竞争力的结果,筛选质量最优[24] - 在LLaVA-665K上训练好的评分器,可直接应用于Vision-Flan数据集,其零样本迁移表现优于在该数据集上从头训练的评分器,证明了强大的泛化性与迁移性[21] 研究总结与意义 - COIDO提供了一种全新的多模态数据筛选范式,打破了“数据筛选必须昂贵”的刻板印象[23] - 该方法通过耦合优化和小样本学习,以极小的计算代价精准定位高价值视觉指令数据,实现了“以简驭繁”[4][23] - 该研究为资源受限的研究者高效微调多模态大语言模型提供了可能,并为未来大规模多模态数据的自动化清洗与治理提供了新思路[23]