Workflow
统一模型
icon
搜索文档
视觉强化学习最新综述:全领域梳理(新加坡国立&浙大&港中文)
自动驾驶之心· 2025-08-16 00:03
研究背景与综述定位 - 视觉强化学习(Visual RL)的爆发源于强化学习在大语言模型(LLM)中的成功迁移,特别是RLHF(人类反馈强化学习)显著提升了LLM的人类偏好对齐与复杂推理能力[7] - 当前领域面临三大核心挑战:复杂奖励信号下的策略优化稳定性、高维视觉输入的高效处理、长周期决策场景的可扩展奖励函数设计[7] - 综述核心目标包括形式化视觉RL问题、分类200+研究为四大支柱(多模态LLM/视觉生成/统一模型/VLA模型)、分析算法设计与评估体系[8] 视觉强化学习的理论基础 - 问题建模采用马尔可夫决策过程(MDP),将文本/图像/视频生成统一为episodic MDP框架,状态包含用户prompt和已生成动作序列[15] - 三大对齐范式:RLHF(三阶段流程:SFT→奖励模型→PPO优化)、DPO(直接优化偏好数据)、RLVR(可验证奖励替代主观偏好)[18][19][20] - 策略优化算法PPO(带价值网络与KL惩罚)和GRPO(组相对优势+移除价值网络)分别适用于通用场景和内存密集型任务[26][27] 四大核心应用领域 多模态大语言模型(MLLM) - 常规RL驱动型MLLM使用可验证奖励(如精确匹配/IoU)优化VLM骨干,代表模型包括RePIC、GoalLadder、GRPO-CARE[32] - 空间感知方向分为2D(Omni-R1双系统GRPO优化情感识别)和3D(MetaSpatial用渲染深度奖励优化AR场景生成)[34] - 图像推理分为"基于图像思考"(SVQA-R1用视图一致性奖励)和"用图像思考"(GRIT优化答案正确性+框精度)[35] 视觉生成 - 图像生成三大奖励范式:人类中心偏好优化(ImageReward)、多模态推理对齐(UnifiedReward)、Metric驱动优化(DDPO最小化FID)[37][40] - 视频生成通过偏好模型优化(InstructVideo)、组相对优化(DanceGRPO)、领域特定奖励(Phys-AR惩罚物理定律违反)提升时序一致性[41] - 3D生成采用RL优化文本-网格生成(DreamCS融合轮廓IoU与CLIP对齐)、交互式编辑(Nabla-R2D3用实时渲染验证奖励)[41] 视觉-语言-动作模型(VLA) - GUI自动化分桌面(GUI-R1映射点击成功为稠密奖励)和移动场景(AgentCPM-GUI压缩动作空间适配设备)[42] - 视觉导航采用端到端RL(VLN-R1时间衰减奖励处理轨迹)和仿真微调(Flare实现家居场景泛化)[45] - 机器人操纵通过任务接地奖励(TGRPO)、课程式RL(RLVLA提升重排成功率)优化长周期规划[45] 评估指标与未来方向 - 分层评估框架包含集合级(FID/FVD)、样本级(人类偏好分数)、状态级(KL散度监控策略漂移)[46][48][49] - 开放挑战包括有效推理平衡(自适应周期策略)、VLA长周期RL(分层子目标发现)、视觉思考RL(混合动作空间设计)[50][51][52] - 奖励模型设计需融合低阶信号(几何一致性)与高阶偏好,并实现跨模态泛化与动态更新[53][56]
VLM与扩散模型深度整合,图像理解生成编辑三合一模型登场,权重数据训练流程全开源
量子位· 2025-08-01 04:23
核心观点 - ModelScope团队发布Nexus-Gen V2模型,整合了视觉语言模型(VLM)和扩散模型,实现图像理解、生成和编辑的统一架构,并开源模型权重、训练流程及2600万样本数据集[1][3][30] - 模型通过多任务协同优化解决V1版本的理解能力退化、生成鲁棒性不足和编辑细节丢失问题,采用81个token的平衡方案提升性能[17][19][22] - 在图像理解、生成和编辑三大任务的评测中,Nexus-Gen V2达到第一梯队水平,尤其在中文支持方面仅需2.5M标注数据即可实现能力[34][36][39][42] 模型架构 - 核心设计将扩散模型作为自回归语言模型的视觉解码器,使用统一图像编码空间连接两者,输入图像通过视觉编码器处理后由自回归模型预测特征向量[10][12] - 自回归模型基于Qwen2.5-VL-7B-Instruct的语言模块,视觉解码器采用Flux-1-Dev,训练时固定输出81个token以平衡语义保持与生成质量[13][15][19] - 创新性提出预填充自回归策略,通过可学习特殊token解决连续特征预测的误差累积问题,保持训练与推理行为一致性[25][28] 训练优化 - 采用三阶段训练:自回归模型大规模预训练(26M样本)、美学微调(4.3M高质量样本)、视觉解码器条件适配(生成2M样本/编辑专用数据)[13][15][29] - 关键参数包括学习率1e-5、余弦调度器、512批量大小,图像生成数据采用长短描述混合标注策略提升鲁棒性[3][29][33] - 数据集构建上,对Cambrian-7M理解数据重标注答案,合成数据占比超50%,并创建高质量编辑数据集ImagePulse解决开源数据质量缺陷[33][34] 性能表现 - 图像理解能力接近基线模型Qwen2.5-VL-7B,MME-C得分637.5(基线640.3),SEED指标达77.1(基线77.4)[36][37] - 图像生成在GenEval评测总分0.77,经指令微调后提升至0.81,中文生成仅需2.5M标注数据实现[34][39] - 图像编辑CLIP-T得分0.324优于同类模型,编辑解码器使CLIP-O指标达0.909,显著改善细节保持[41][42] 行业意义 - 验证了VLM与扩散模型整合的技术路线可行性,与GPT-4o、Gemini等大厂方案形成竞争,推动统一模型发展[1][43] - 开源全链路资源(模型/数据/训练流程)降低行业门槛,2600万数据集包含580万理解/1330万生成/630万编辑样本[3][30][44] - 多任务统一训练展现协同效应,为构建具备多模态推理能力的下一代世界模型提供实践基础[43]