文章核心观点 - 公司发布了一项名为“SparseWorld-TC: Trajectory-Conditioned Sparse Occupancy World Model”的创新技术,其核心在于“去结构化”思维,旨在移除人为设计的中间约束,让数据和算力直接驱动模型,实现真正的“Think different” [1] - 该技术的哲学内核与“the bitter lesson”一致,认为依赖人类先验知识的辅助从长期看会成为性能瓶颈,而利用大规模算力的通用方法才能最终胜出 [4] - 公司学习GPT的“神”而非“形”,即借鉴其通过注意力机制理解复杂关系的通用能力,而非机械复制其离散token预测的形式,从而让Transformer架构直接理解3D空间的物理法则 [5] 技术架构创新:去量化结构 - 主流世界模型将连续3D世界离散化为有限token,存在固有的表征容量限制 [2] - 公司解决方案采用稀疏占据表征,直接在连续3D坐标空间中操作,使用稀疏锚点和可学习特征向量回归预测几何偏移量 [2] - 该方法通过注意力机制对随机初始化的3D点云进行去噪与迭代精炼,使其精准匹配物体表面,避免了空白区域的无效计算,在提升推理速度的同时实现了高保真场景重建 [2] 技术架构创新:去空间中介结构 - 现有端到端方案依赖鸟瞰图作为中间介质,将3D特征投影到固定2D网格,引入了显式的人为几何约束并成为信息流动瓶颈 [3] - 公司采用轨迹条件下的稀疏查询,去掉BEV网格,将未来驾驶轨迹作为条件注入,引导稀疏锚点通过可变形注意力直接抓取原始多视角图像特征 [3] - 该方法不预设网格,而是让注意力机制根据目标轨迹自主决定关注何处,实现了更高效的信息利用 [3] 技术架构创新:去时间串行结构 - 现有预测工作多沿用LLM的自回归模式串行生成未来帧,导致误差累积且推理速度慢 [4] - 公司采用全注意力前馈架构,通过单次前向推理并行输出未来多帧,并利用时间注意力模块让不同时间步的预测能相互看见,进行全局联合优化 [4] - 该模型在nuScenes榜单上不仅精度大幅领先,推理速度也达到了同类基于摄像头的SOTA模型的2倍以上 [4] 技术理念与优势 - 公司技术通过稀疏锚点创造了一种既能保留连续物理属性(不丢失精度),又能像token一样高效参与注意力计算的新表征方式 [5] - 该技术路径的核心是发挥通用架构对海量数据的吞吐能力,这是GPT能够实现规模扩展的关键,也是公司学习的方向 [5]
理想砍掉BEV与token化直接用OCC稀疏注意力进行4D世界模型预测