Workflow
WorldLens
icon
搜索文档
当世界模型不止「视频」该如何评估?WorldLens提出实用化评估新框架
机器之心· 2025-12-23 09:36
世界模型评估的现状与挑战 - 当前世界模型研究正从“能生成”走向“能用”,但评估体系滞后,传统视频质量指标(如LPIPS、FVD)无法衡量几何自洽、多视角一致、时序稳定、行为可执行等决定模型能否服务于仿真、规划、数据合成和闭环决策的关键世界属性[2] - 评估体系的不统一导致不同模型结论难以对齐,失败模式难以复现与归因,已成为制约世界模型规模化推进的瓶颈[8][10] WorldLens评测框架概述 - WorldLens是领域内首个体系化的世界模型评测框架,从生成、重建、指令跟随、下游任务和人类偏好五个互补维度进行综合评估[3] - 该框架旨在将评估对象从“视频”升级为“世界”,提供一套能覆盖世界属性、诊断失败来源、并在不同模型间公平对比的评测协议[10] - 评测工具包(EvalKit)已公开,包括论文、项目主页、开源代码库和官方排行榜[5][6] 评估维度一:生成 - 评估重点超越“帧级真实”,拆解到更贴近世界属性的层面,包括检查关键参与者(如车辆、行人)的外观与语义是否对齐[15] - 在时序层面检查对象身份稳定性,避免纹理闪烁、形状漂移等异常[15] - 将几何与多视角一致性置于中心,通过估计深度观察几何平滑演化,并通过跨视角匹配检验生成多视角世界的能力[15] 评估维度二:重建 - 核心是检验生成序列能否被还原成一个稳定的4D场景,并在新视角下仍然成立[12] - 方法是将生成视频统一提升为4D Gaussian Field,检验其空间与时间一致性[16] - 新视角评测能暴露典型失效模式,如“floaters”(悬浮、不连续的几何碎片),揭示感知真实不等于几何真实[16] 评估维度三:指令跟随 - 评估目的是测试生成世界是否为规划器提供了足够稳定、可信的可行动线索,而非给规划器打分[19] - 同时进行开环与闭环评测,闭环评测会显著放大生成世界中肉眼难以察觉的不一致,导致碰撞、越界、漂移等问题[19] - 对于服务决策与控制的世界模型,闭环评测是“必要条件”而非“可选项”[19] 评估维度四:下游任务 - 评估世界模型作为数据引擎的实用性,检验其生成数据对真实感知与预测模型的帮助或负迁移效应[12][20] - 直接将生成数据用于评测多个真实下游任务,包括BEV地图分割、3D检测、3D跟踪与语义Occupancy预测等[20] - 研究发现,一些画面漂亮的模型在下游任务上可能出现显著退化,性能降幅可达30–50%,表明纹理质量提升不能替代结构与时间层面的对齐[20] 评估维度五:人类偏好 - 构建了大规模人类偏好数据集WorldLens-26K,包含26808条样本,每条均有数值评分和解释异常的自然语言[22] - 利用该数据集训练自动评估代理WorldLens-Agent,使其能输出与人类偏好一致的评分及可解释理由,实现可扩展的主观评估[22] - 这一步将主观判断转化为可学习、可迭代的信号,为未来用偏好对齐优化世界模型提供了路径[23] 核心评测发现与洞察 - 不同评估维度间存在明显能力断层,生成指标领先的模型未必能在重建与新视角上表现良好,开环表现尚可的模型在闭环中往往迅速失稳[26] - 几何与时序稳定性是贯穿多个维度的“共同瓶颈”,几何不稳会表现为新视角下的floaters,并在闭环中放大为事故,进而拖累下游任务表现[27][28] - 闭环评测会放大缺陷,任何微小的不一致都会持续积累,最终导致碰撞、偏航与路线失败,这对用于仿真与安全测试的模型是直接提醒[29] - 人类偏好与自动指标既相关又不完全一致,人类解释能直接指出几何异常、物理违背等关键失败原因,为自动评估提供了训练依据[31] 行业发展趋势与意义 - 世界模型的发展正从“生成好看的片段”走向“构建可交互的世界”,相应的评估必须从“视频质量”升级为“世界属性”[34] - WorldLens的贡献在于提供了一套可执行的共同语言和协议,覆盖从视觉到几何、从功能到偏好的完整链路,为世界模型发展的“下半场”奠定了基础[34] - 未来世界模型的竞争将更侧重于能否生成一个在几何、物理、行为与人类判断上都经得起检验的世界[34]
十余所机构联合提出WorldLens:评测了所有开源自驾世界模型(中科院&新国立等)
自动驾驶之心· 2025-12-16 00:03
点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近30个 方向 学习 路线 >>自动驾驶前沿信息获取 → 自动驾驶之心知识星球 论文作者 | WorldBench 编辑 | 自动驾驶之心 现有世界模型在视觉生成上已经相当逼真,但在几何一致性、时序稳定性和行为合理性上仍存在明显缺陷,而这些问题往往难以通过传统的视频质量指标被发现。针 对这个问题 WorldBech团队提出了WorldLens。 这一全方位基准用于评估模型构建、理解其生成世界并在其中行为的能力。它涵盖五个核心维度: 生成质量、重建性能、指令跟随、下游任务适配性和人类偏好 ,全 面覆盖视觉真实性、几何一致性、物理合理性和功能可靠性。评估结果显示,现有世界模型均无法实现全维度最优:部分模型纹理表现出色但违背物理规律,而几何 稳定的模型则缺乏行为可信度。为使客观指标与人类对齐,WorldLens进一步构建了WorldLens-26K数据集——包含大规模人类标注视频,附带量化评分和文本说明, 并开发了WorldLens-Agent评估模型,通过蒸馏这些标注数据实现可扩展、可解释的评分。基准、数据集与智能评估代理共同构成统一生态系 ...