文章核心观点 - 由港科大、港中文、清华大学和快手可灵团队提出的统一多模态多任务视频生成模型UnityVideo,通过联合训练多种视觉模态(如深度图、光流、骨骼、分割掩码等),显著提升了模型对物理世界的理解能力、生成视频的质量与可控性,并展现出强大的零样本泛化能力 [1][4][10][13] 模型动机与核心观察 - 现有视频生成模型大多局限于单一RGB视频学习,限制了模型对物理世界的全面理解 [9] - 核心观察:当模型同时学习多种视觉模态时,其在RGB视频生成任务上的收敛速度显著加快,最终性能也明显提升 [10] - 不同视觉模态提供了互补的监督信号,联合学习使模型能真正开始“理解”物理世界的运作规律 [12] 技术创新 - 动态任务路由:在单个架构中无缝统一支持三种训练范式:条件生成、模态估计和联合生成 [16][17][18] - 动态噪声调度策略:每个训练迭代随机选择一种训练模式并对相应token施加不同噪声,避免了灾难性遗忘,并设置了不同任务的采样概率以平衡学习进度 [20][21] - 模态切换器:包含两个互补设计 - 上下文学习器:通过为不同模态注入特定文本提示,让模型在语义层面理解当前处理的模态 [23] - 模态自适应切换器:在架构层面为每种模态学习独立的调制参数,实现即插即用的模态选择能力 [25][26][27] - 渐进式课程学习策略:采用两阶段训练,先在单人场景数据上训练像素对齐的模态建立基础,再引入所有模态和多样化场景数据 [29] 数据集与评估基准 - 构建了包含130万个多模态视频样本的OpenUni数据集以支持统一训练范式 [31] - 构建了包含3万个样本的UniBench评估基准,其中200个高质量样本来自Unreal Engine渲染,提供了ground truth深度和光流 [31] 实验结果:定量性能 - 文本生成视频:在所有指标上均获得最佳结果,背景一致性达97.44%,美学质量达64.12% [33][35] - 可控生成:在动态程度上表现卓越,达到64.42%,远超其他方法 [33][35] - 模态估计:在视频分割任务上mIoU达到68.82%,在深度估计上Abs Rel仅为0.022,显著优于专门的单任务模型 [33][35] 实验结果:定性优势与消融验证 - 定性优势:在物理现象理解、可控生成质量、模态估计精度和泛化能力上均展现出优势 [38][39][40] - 多模态互补性验证:相比单模态训练,统一多模态训练在成像质量和整体一致性上获得更大增益,证明了互补监督信号的相互增强作用 [41][42][43] - 多任务训练必要性:统一多任务训练能够恢复并超越单独训练可控生成任务导致的性能下降,证实了任务间的协同效应 [44][46] - 架构设计有效性:上下文学习器和模态切换器各自都能有效提升性能,结合使用时能获得额外的显著增益 [47] 用户研究与泛化能力 - 用户研究:在物理质量、语义质量和整体偏好三个维度上均获得最高评分,物理质量得分达到38.50%,显著超过商业模型Kling1.6的10.15%和HunyuanVideo的24.15% [49][50] - 零样本泛化:模型在“two persons”的分割任务上训练后,能够自然地泛化到未见过的“two objects”场景 [52][55] - 跨模态知识迁移:随着模型学习更多模态,RGB视频中的运动理解和语义响应都得到了改善,跨模态注意力交互逐渐增强 [56][58][62] 行业意义与启示 - 提升模型能力不仅仅依赖于增大参数量和数据量,更重要的是如何组织和利用多样化的学习信号 [62] - 视觉模型可以通过统一多种模态和任务来涌现更强的世界理解能力,正如LLMs通过统一多种文本任务涌现出推理能力 [62] - 简单堆叠不同模态不够,需要精心设计的机制来让不同模态真正互相促进 [63] - 评估需要多维度,更关键的是模型获得了跨任务、跨模态的泛化能力和更深层的世界理解 [63] - 为构建真正理解物理世界的视觉大模型奠定了坚实基础,展示了AI向通用智能演进的清晰路径 [64][65]
统一视觉多模态!港科大团队发布视频生成模型,加速真实世界理解
具身智能之心·2025-12-17 00:05