3D Gaussian
搜索文档
FSD v14很有可能是VLA!ICCV'25 Ashok技术分享解析......
自动驾驶之心· 2025-10-24 00:04
FSD V14技术进展 - Tesla FSD V14系列在两周内连续迭代4个小版本,从14.1到14.1.3,展现了快速进化节奏[4] - 初始版本14.1在驾驶AI能力上实现显著突破,后续版本分别优化刹车顿挫问题、引入Mad Max模式、扩大对Model S/X车型支持[4] - 这种高速版本迭代表明自动驾驶技术在融入其他AI领域进展后,正进入加速演化新阶段[4] 端到端架构优势 - 从V12版本开始,Tesla FSD转向全面端到端架构,实现从传感器像素输入到车辆控制信号输出的单一神经网络模型完成[7] - 端到端架构减少中间规则处理环节,使模型训练梯度能够从输出端无缝反向传播至感知端,实现模型各部分整体协同优化[7] - 该架构能更好地编码人类价值判断复杂性,通过大量学习人类驾驶数据掌握细微价值权衡[9] - 解决感知与决策规划间接口定义难题,神经网络间直接信息传递能最大程度减少信息损失[11] - 具备同构计算带来的确定性延迟优势,神经网络固定结构和参数量保证单帧计算延迟确定性[11] 端到端系统技术挑战 - 端到端模型面临维度诅咒挑战,输入信息维度相当于20亿token,而输出仅为2个token,需要解决从极高维度到极低维度映射问题[16] - Tesla通过强大数据引擎应对挑战,车队每日产生相当于500年驾驶时长数据,采用复杂触发机制回传长尾场景数据[18] - 公司采用VLA架构保障可解释性和安全性,系统输出驾驶控制指令同时输出多种中间结果,包括3D占据网格、动态障碍物、静态物体等[20] 技术创新与应用 - Tesla FSD V14很可能采用基于VLA的端到端技术方案,与国内头部自动驾驶团队技术路线不谋而合[22] - 自然语言决策实现慢系统思考,在复杂场景中展现逻辑推理能力,例如识别道路封路标志并通过推理做出左转决策[24][26] - Feedforward 3D Gaussian提供丰富监督信号和空间理解能力,相比点云或多边形表达更高效可微,相比NeRF等隐式表达几何信息更明确[28] - 3D高斯表征利用神经网络模型泛化能力,通过重建模型前向推理推导场景几何信息和颜色属性,不需要点云初始化[29] 评测体系与仿真系统 - 完善评测体系是端到端系统核心壁垒,训练Loss不能代表模型性能,开环指标不能保证闭环性能[32][34] - Tesla评测体系核心是基于神经网络闭环仿真系统,可利用大量廉价离线状态-动作数据对进行训练[36] - 闭环仿真系统具有三大作用:验证端到端Policy正确性、利用场景编辑生成能力生成对抗样本检验模型能力、在闭环仿真系统中获取人驾真值[36][38][42] - 丰富多样真实数据是自动驾驶核心资源,训练数据多样性和质量决定世界模型性能[40]