港科广LiSTAR:自动驾驶4D LiDAR世界模型!
自动驾驶之心·2025-11-23 02:04

研究背景与挑战 - 4D LiDAR数据的高保真、可控合成是构建可扩展自动驾驶仿真环境的核心需求[2] - 任务面临三大固有挑战:LiDAR的球形采样几何与传统笛卡尔网格不兼容导致量化失真和结构扭曲[2];点云的时间稀疏性导致动态场景时间连贯性难以维持,常出现表面闪烁或目标对齐不一致[8];现有方法依赖2D BEV布局作为条件输入,扁平化3D空间信息,无法精准控制3D场景结构和目标操纵[8] - 现有LiDAR生成方法受限于笛卡尔体素化的几何失真、时间连贯性不足和可控性薄弱等问题,难以满足自动驾驶仿真对真实性和精准性的要求[4] 核心创新设计 - 提出混合圆柱-球面坐标体素化,通过固定角分辨率的离散化保留所有距离下的几何细节,避免笛卡尔网格的稀疏性和量化误差,实现紧凑高效的4D数据编码[9] - 设计射线中心时空注意力模块,包含空间射线中心注意力和循环移位时间因果注意力两个核心组件,专门用于建模LiDAR序列的时空依赖[10][14] - 提出MaskSTART可控生成框架,通过4D点云对齐体素布局作为条件输入和迭代掩码生成机制,实现高效、高分辨率的布局引导生成,支持复杂场景结构的精细操控[12] 技术细节拆解 - HCS-based 4D VQ-VAE作为框架基础实现4D LiDAR序列的离散表征学习,编码器通过体素合并和START块提取时空特征,解码器从量化token恢复特征并重建点云[13][15] - 空间射线中心注意力将特征沿射线维度展开,通过自注意力聚合所有射线的全局上下文,精准捕捉视线方向上的遮挡关系和空间关联[14] - 循环移位时间因果注意力解决球形坐标展开后的方位角边界不连续性问题,通过严格的时间因果约束确保预测仅依赖历史和当前信息,维持动态场景的时间连贯性[14][16] 实验验证与性能表现 - 重建任务相较于OpenDWM基线,IoU相对提升32%至0.583,MMD降低60%至0.061,Chamfer距离减少41%至0.017[21][22] - 预测任务在1秒未来预测中Chamfer距离降低17%,L1中位数误差减少50%,在2秒长时域预测中仍能保持静态背景和动态目标的清晰结构[25] - 生成任务MMD大幅降低76%至9.94,不同距离范围的Chamfer距离均减少50%以上,生成的点云分布与真实数据高度一致且能严格遵循4D布局约束[28][29] 消融实验验证 - 坐标系统对比显示HCS显著优于笛卡尔和极坐标,IoU比极坐标提升16%至0.554,验证其对LiDAR几何特性的适配优势[30] - START模块有效性验证显示SRA单独使用可将IoU从0.503提升至0.554,加入CSTA后进一步优化至0.583,证明空间射线注意力和时空因果注意力的协同价值[30][31]