行业技术趋势与话语权竞争 - 自动驾驶行业出现大量技术“黑话”,如VLA(视觉语言动作模型)和“世界模型”,这反映了车企在硬件同质化后围绕下一代技术话语权的争夺战 [1] - 智驾能力成为新势力最关键的身份标签,抢先定义未来意味着抢占用户认知与技术品牌高度 [1] - 存在“期货式”技术发布现象,有车企高管坦言团队常在技术未成熟时被推至台前发布,导致交付节点压力巨大 [2] 技术演进路径:从规则到特斯拉引领 - 2022年前行业技术路径由特斯拉和Waymo定义,早期辅助驾驶基于工程师编写的规则,分为感知、规划、控制三大模块 [3] - 特斯拉自2016年起引领行业从规则时代走向AI,并在2021年AI DAY公布BEV+Transformer架构,将多摄像头2D图像统一投射形成360°鸟瞰图,实现跨摄像头特征“前融合” [3] - BEV+Transformer使特斯拉摆脱对高精地图依赖,仅凭传感器实现广泛场景泛化,并在FSD Beta V11将NOA功能从高速扩展到城市道路 [4] - 2022-2023年,小鹏XNGP、蔚来NOP+、理想AD Max 3.0、华为ADS2.0相继实现自研BEV+Transformer方案量产,并展开无图NOA“开城”竞速 [4] 范式转移:端到端技术 - 特斯拉在2022年AI DAY推动以“端到端”为核心的范式转移,用庞大神经网络同时处理感知、规划,取代30万行代码 [5][6] - 中国新势力集体转向端到端架构,小鹏和华为早期采用保守的“多段式”端到端,将感知和规划模块分别用模型取代 [6] - 小鹏在2024年中向所有扶摇架构车型推送“一段式”端到端系统,华为ADS 3.0宣布升级为“端到端”架构 [6][7] - 地平线将端到端系统演化分为三代:第一代两段式、第二代一段式加重后处理、第三代更彻底的端到端 [8] - 地平线CEO余凯在2024年4月坦言,当时国内还没有真正的一段式端到端 [8] 新范式:VLA模型的应用与竞赛 - VLA模型最初用于让机器人理解人类语言指令并执行动作,自动驾驶汽车被视为“轮式机器人” [9][10] - 特斯拉的端到端系统架构被认为应用了VLA理念,元戎启行是首个公开宣称将VLA技术应用于自动驾驶的公司 [10] - 理想在2025年3月将其双系统方案切换为VLA方案,并于2025年8月在理想i8上率先实现量产 [10] - 小鹏计划2025年三季度推送其VLA方案,在车端堆了2200 Tops算力,其中约1200 Tops用于辅助驾驶 [11] 算力竞赛:云端与车端 - 算力竞赛蔓延到云端,特斯拉2025年预计累计储备8.5万颗英伟达H100,小鹏云端算力规模为10 EFlops,理想超过13 EFlops [11] - 小鹏和理想用云端算力研发大参数量基座模型,小鹏基座模型参数量为720亿,是主流VLA模型的35倍 [12] 世界模型:从仿真到车端控制 - 世界模型研究始于2018年,让AI智能体通过“想象”进行规划学习,特斯拉通过占用网络构建3D空间的做法应用了此思路 [13] - 理想和小鹏将世界模型用于仿真测试和云端训练,理想用其搭建“考试系统”,小鹏用其训练720亿参数基座模型 [13] - 蔚来和华为更激进地将世界模型直接部署于车端,蔚来命名NWM,能在行驶中每0.1秒生成216种可能轨迹并选优 [14] - 华为2025年4月发布WEWA架构,同样将世界模型用于实时控车,并视其为“通向自动驾驶的终极方案” [15] 关键技术术语解析 - BEV+Transformer:特斯拉提出的视觉感知技术,将多摄像头2D图像投射到统一3D俯视坐标系形成360°环境感知 [18] - 占用网络:用于3D环境感知的AI模型,将周围空间划分为微小体素来识别未知物体,特斯拉提出后国内车企跟进自研 [19] - 端到端:系统接收传感器信号后直接输出行驶轨迹控制车辆,特斯拉FSD V12首次应用 [29] - VLA:视觉-语言-动作模型,通过海量“图像-文本-动作”数据协同训练,使机器能根据语言指令或视觉理解执行动作 [31] - 世界模型:让智能体内部对真实世界动态规律建模模拟的模型,用于预测未来状态序列 [39]
自动驾驶“黑话”使用手册:新势力造车又“造词”