世界模型评估 - 财报，业绩电话会，研报，新闻

世界模型评估

搜索文档

机器之心· 2025-12-23 09:36

世界模型评估的现状与挑战 - 当前世界模型研究正从“能生成”走向“能用”，但评估体系滞后，传统视频质量指标（如LPIPS、FVD）无法衡量几何自洽、多视角一致、时序稳定、行为可执行等决定模型能否服务于仿真、规划、数据合成和闭环决策的关键世界属性[2] - 评估体系的不统一导致不同模型结论难以对齐，失败模式难以复现与归因，已成为制约世界模型规模化推进的瓶颈[8][10] WorldLens评测框架概述 - WorldLens是领域内首个体系化的世界模型评测框架，从生成、重建、指令跟随、下游任务和人类偏好五个互补维度进行综合评估[3] - 该框架旨在将评估对象从“视频”升级为“世界”，提供一套能覆盖世界属性、诊断失败来源、并在不同模型间公平对比的评测协议[10] - 评测工具包（EvalKit）已公开，包括论文、项目主页、开源代码库和官方排行榜[5][6] 评估维度一：生成 - 评估重点超越“帧级真实”，拆解到更贴近世界属性的层面，包括检查关键参与者（如车辆、行人）的外观与语义是否对齐[15] - 在时序层面检查对象身份稳定性，避免纹理闪烁、形状漂移等异常[15] - 将几何与多视角一致性置于中心，通过估计深度观察几何平滑演化，并通过跨视角匹配检验生成多视角世界的能力[15] 评估维度二：重建 - 核心是检验生成序列能否被还原成一个稳定的4D场景，并在新视角下仍然成立[12] - 方法是将生成视频统一提升为4D Gaussian Field，检验其空间与时间一致性[16] - 新视角评测能暴露典型失效模式，如“floaters”（悬浮、不连续的几何碎片），揭示感知真实不等于几何真实[16] 评估维度三：指令跟随 - 评估目的是测试生成世界是否为规划器提供了足够稳定、可信的可行动线索，而非给规划器打分[19] - 同时进行开环与闭环评测，闭环评测会显著放大生成世界中肉眼难以察觉的不一致，导致碰撞、越界、漂移等问题[19] - 对于服务决策与控制的世界模型，闭环评测是“必要条件”而非“可选项”[19] 评估维度四：下游任务 - 评估世界模型作为数据引擎的实用性，检验其生成数据对真实感知与预测模型的帮助或负迁移效应[12][20] - 直接将生成数据用于评测多个真实下游任务，包括BEV地图分割、3D检测、3D跟踪与语义Occupancy预测等[20] - 研究发现，一些画面漂亮的模型在下游任务上可能出现显著退化，性能降幅可达30–50%，表明纹理质量提升不能替代结构与时间层面的对齐[20] 评估维度五：人类偏好 - 构建了大规模人类偏好数据集WorldLens-26K，包含26808条样本，每条均有数值评分和解释异常的自然语言[22] - 利用该数据集训练自动评估代理WorldLens-Agent，使其能输出与人类偏好一致的评分及可解释理由，实现可扩展的主观评估[22] - 这一步将主观判断转化为可学习、可迭代的信号，为未来用偏好对齐优化世界模型提供了路径[23] 核心评测发现与洞察 - 不同评估维度间存在明显能力断层，生成指标领先的模型未必能在重建与新视角上表现良好，开环表现尚可的模型在闭环中往往迅速失稳[26] - 几何与时序稳定性是贯穿多个维度的“共同瓶颈”，几何不稳会表现为新视角下的floaters，并在闭环中放大为事故，进而拖累下游任务表现[27][28] - 闭环评测会放大缺陷，任何微小的不一致都会持续积累，最终导致碰撞、偏航与路线失败，这对用于仿真与安全测试的模型是直接提醒[29] - 人类偏好与自动指标既相关又不完全一致，人类解释能直接指出几何异常、物理违背等关键失败原因，为自动评估提供了训练依据[31] 行业发展趋势与意义 - 世界模型的发展正从“生成好看的片段”走向“构建可交互的世界”，相应的评估必须从“视频质量”升级为“世界属性”[34] - WorldLens的贡献在于提供了一套可执行的共同语言和协议，覆盖从视觉到几何、从功能到偏好的完整链路，为世界模型发展的“下半场”奠定了基础[34] - 未来世界模型的竞争将更侧重于能否生成一个在几何、物理、行为与人类判断上都经得起检验的世界[34]