计算机视觉与图形学
搜索文档
NeurIPS 2025 | UniLumos: 引入物理反馈的统一图像视频重打光框架,实现20倍加速的真实光影重塑!
机器之心· 2025-11-24 09:30
研究背景与现有方案的局限性 - 重光照技术旨在编辑图像或视频中的光照效果,在电影、游戏、虚拟现实和增强现实等领域具有重要应用价值[11] - 当前基于扩散模型的方法存在物理一致性缺失的问题,常导致阴影错位、高光过曝和遮挡关系错误等不合理现象[11][15] - 现有评估体系不完善,通用图像评价指标无法针对性衡量光照属性的准确性,制约了模型在光照可控性方面的优化[12] UniLumos框架的核心创新 - 引入来自RGB空间的几何反馈机制,采用深度图与表面法线图作为监督信号,强制模型学习光影与三维场景结构的对齐关系,显著提升物理一致性[22] - 采用路径一致性学习,在少步训练条件下保持有效监督,使推理速度较现有SOTA方法提升达20倍[3][22][33] - 构建了细粒度光影评估基准LumosBench,基于视觉语言模型实现自动化、可解释的评估,覆盖方向、光源类型、强度等六个光照维度[4][22] 高质量训练数据构建 - 构建了高质量光影训练数据集LumosData,包含11万视频样本与120万图像样本的大规模高质量光影数据对[23] - 数据构建流程包含四个阶段,用于从真实场景数据生成多样化的重光照样本对,并引入结构化的六维光照标注协议[20][21][22] 模型架构与训练策略 - 模型基于视频生成模型Wan 2.1构建,将对齐后的视频输入经由Wan-VAE编码器处理得到语义潜表示[24] - 训练目标融合了流匹配损失、路径一致性损失和物理引导损失三种互补的损失函数,以权衡外观保真度、几何一致性与推理速度[24] - 采用选择性优化策略,在每轮训练迭代中按80/20比例划分批次,平衡物理监督与训练效率[24] 实验结果与性能表现 - 在定量结果中,UniLumos在所有关键指标上均取得最优性能,PSNR达26.719(图像)和25.031(视频),SSIM达0.913(图像)和0.891(视频)[27][28] - 在LumosBench细粒度可控性评估中,UniLumos平均可控性得分达0.773,显著高于其他专有重光照模型和通用视频生成模型[29][30] - 在生成49帧480p视频的任务中,UniLumos仅需12秒,而IC-Light需277秒,Light-A-Video需756秒,实现了显著的推理效率提升[33] 消融实验与模块分析 - 物理引导反馈模块对性能至关重要,移除深度与法向反馈会导致图像质量与物理一致性显著下降,其中法向监督的作用尤为关键[35] - 路径一致性模块在几乎不牺牲生成性能的前提下,为少步生成场景带来了可观的效率优势[35] - 统一训练方法在图像和视频两类输入上均取得了高质量的重光照结果,实现了最优的时序一致性平衡[35]