视觉语言模型（VLM） - 财报，业绩电话会，研报，新闻

视觉语言模型（VLM）

搜索文档

自动驾驶之心· 2025-12-11 03:35

文章核心观点 - 自动驾驶领域的技术路线正在融合，视觉语言模型与世界模型的结合是通往更强通用具身智能的关键方向 [3][4] - 自动驾驶之心知识星球是一个综合性的技术社区，旨在为行业人士提供学习、交流和求职的平台，已汇聚超过4000名成员 [10][28] 技术发展趋势 - 视觉语言模型与世界模型正走向融合统一，前者负责抽象推理，后者负责物理感知，结合是通往通用具身智能的答案 [3][4] - 学术界已有多个探索VLA与WM融合的工作，例如VLA-RFT、WorldVLA、Unified Vision-Language-Action Model以及DriveVLA-W0 [4] - 未来L4级自动驾驶的训练链路将是视觉语言模型、强化学习和世界模型三者的结合 [5] - 行业内的技术路线争论多与宣传口径有关，实际技术发展多有相互参考，未来结合形式仍需探索 [7] 知识星球社区概况 - 社区是一个集视频、图文、学习路线、问答、求职交流为一体的综合类自动驾驶社区 [10] - 社区成员超过4000人，目标在未来2年内发展到近万人规模 [10] - 社区成员背景多元，来自上海交大、北京大学、CMU、清华大学、蔚小理、地平线、华为等国内外顶尖高校和头部公司 [28] - 社区整理了近40个技术方向的学习路线，并邀请了数十位活跃在一线的产业界和学术界嘉宾进行分享和答疑 [12][16] 社区内容与资源 - 社区汇总了超过40个开源项目、近60个自动驾驶相关数据集以及行业主流仿真平台 [29] - 技术方向覆盖全面，包括但不限于：自动驾驶感知、规划控制、仿真、端到端学习、VLA、世界模型、多模态大模型、BEV感知、3D目标检测等 [17][29][36][39] - 提供“自动驾驶100问”系列实战内容，涵盖TensorRT模型部署、毫米波雷达融合、车道线检测、规划控制面试、BEV感知、相机标定等主题 [17] - 社区内部有专属学习视频教程，涵盖世界模型、自动驾驶大模型、Transformer、3D目标检测、毫米波感知等主题 [98] - 不定期举办线上直播分享，目前已超过一百场，由行业专家分享最新研究成果 [101] 社区提供的服务与支持 - 为初学者提供全栈方向的学习课程和完备的入门技术栈路线图 [18][24] - 为从业者提供产业体系、项目方案以及最新的学术与工业应用进展 [26][32] - 建立了与多家自动驾驶公司的岗位内推机制，可协助成员投递简历 [22] - 社区内部有活跃的问答交流，成员可就技术入门、学习路线、就业跳槽、研究方向选择等各类问题进行提问并获得解答 [13][32][103]

上交最新！端到端&VLA综述：广义范式下的统一视角

自动驾驶之心· 2025-12-11 00:05

文章核心观点 - 上海交通大学AutoLab团队与滴滴联合发布综述《广义端到端自动驾驶的综述：统一视角》，旨在为当前看似割裂的自动驾驶技术路线提供一个统一的分析框架 [3] - 文章提出“广义端到端（GE2E）”概念，将传统端到端、以VLM为中心的端到端和混合端到端三大范式统一起来，认为它们都是解决“从原始传感器输入到最终驾驶决策”这一共同问题的不同表现形式 [4][14] - 行业技术正从传统的模块化架构向数据驱动的端到端范式演进，核心目标是实现“传感器信息输入，动作输出” [2][5] 技术范式统一与定义 - **广义端到端（GE2E）定义**：任何一种通过整体模型将原始传感器输入处理为规划轨迹或控制动作的模式，无论架构中是否包含视觉语言基础大模型（VLM） [4][14] - **三大统一范式**：基于GE2E定义，将现有技术路线归纳为传统端到端、以VLM为中心的端到端和混合端到端 [4][5] - **核心差异**：三种范式在场景表征方式、推理深度以及计算效率的权衡上侧重点不同，但并非割裂的技术路线 [14] 传统端到端范式 - **核心特点**：基于3D场景表征（如BEV或Occupancy），利用对场景的结构化理解进行精确轨迹规划，系统集成度高、执行效率快，是目前车企落地最广泛的实战派 [9][17] - **主要分支**： - **纯规划端到端**：直接从图像/LiDAR映射到规划控制信号，近期研究重点包括多模态融合、生成式建模（如扩散模型）和高效性优化（如轻量化网络、Mamba架构） [18] - **多任务端到端**：引入感知和预测等中间任务，提供更丰富的监督信号，以强化对场景动态的理解，促使更安全鲁棒的规划 [19] - **优势与局限**：优势在于减少模块间信息丢失和误差累积，在结构化场景下稳定性强；局限在于依赖预定义的几何先验且缺乏通用世界知识，面对未见过的长尾场景时泛化能力受限 [9][10] 以VLM为中心的端到端范式 - **核心特点**：利用在大规模互联网数据上预训练的视觉-语言模型作为核心，将驾驶任务转化为多模态理解与推理问题 [11] - **优势**：得益于模型内部丰富的世界知识和强大的推理能力，在开放世界场景中展现出卓越的泛化性与逻辑可解释性，是解决自动驾驶长尾场景的一条可能路径 [11] - **挑战**：相比于传统端到端模型，在生成轨迹的物理精度上存在局限；巨量参数导致高额推理延迟，难以部署到高实时要求的真实驾驶场景 [11] - **研究重点**：包括视觉-语言对齐与时空理解、推理能力（如思维链、RAG）、规划与动作策略落地、以及学习策略与效率优化（如知识蒸馏、强化学习） [30][33][34][35][36][37] 混合端到端范式 - **设计理念**：结合传统端到端的“快直觉”（执行效率高、轨迹精度高）与VLM的“慢推理”（认知能力强），实现优势互补，是当前平衡性能与效率的有效路径 [12][13][38] - **实现方式**： - **在线分层协同**：在推理阶段，VLM作为高层推理引擎指导传统E2E模型，可在感知级或规划级进行融合 [38][39][40] - **离线知识迁移**：在训练阶段利用VLM作为教师模型，通过蒸馏技术将知识注入轻量级E2E学生模型，实现零推理成本增量 [42][43][44] 数据集演进趋势 - **语义化革命**：新一代数据集包含大量自然语言描述和问答对，旨在教会模型理解复杂的交通语境、因果逻辑及人类驾驶意图 [46] - **思维链引入**：数据集转向包含思维链的详细标注，要求不仅给出驾驶动作，还要给出完整的逻辑推导过程 [47] - **生态爆发**：基于nuScenes等经典数据集进行二次开发的图文对数据成为主流，社区正爆发式构建各类带有推理标注的Benchmark [48] - **数据规模示例**：DriveLM-CARLA数据集包含183K帧图像和3.7M个问答对；LMDrive数据集包含3M帧图像和528K个问答对 [50] 不同范式的性能表现 - **开环性能**：在nuScenes、NAVSIM等开环测试中，混合端到端范式表现最佳，证明了VLM带来的世界知识对处理长尾场景、提升规划上限的关键作用；传统端到端算法在数值轨迹预测精确度上依然占据统治地位，在nuScenes前十名中占绝大多数席位；顶尖算法在NAVSIM上的评分甚至超过了人类驾驶员 [54] - **闭环性能**：在Bench2Drive、CARLA Town05 Long等更接近真实驾驶的闭环测试中，传统端到端范式占据绝对主导地位；在Bench2Drive中，最高的路线完成率仍未突破70%，表明长程多样化驾驶任务仍是系统瓶颈 [55] - **VLA范式短板**：在闭环测试中表现稍逊，主要原因是缺乏对细粒度轨迹控制的精确理解能力，难以把握其生成轨迹对环境产生的连续影响 [56] 行业面临的核心挑战 - **长尾数据难题**：现实驾驶场景呈极端长尾分布，决定系统安全的1%稀缺Corner Case（如极端天气、异形车辆）数据获取与消化效率低下；AI模拟数据存在“虚实鸿沟”，VLM微调时易出现“灾难性遗忘” [61][62] - **可解释性信任危机**：传统E2E模型是“黑盒”，缺乏中间可解释性；引入VLM后可能出现思维链推理与规划动作“言行不一”的问题 [63] - **安全与效率平衡**：为兜底安全而外挂基于规则的后处理模块，破坏了端到端的纯粹性，可能导致车辆行为过度保守 [64][65] - **实时性效率焦虑**：VLM参数量庞大，自回归生成机制导致巨大推理延迟；现有优化手段（如蒸馏、剪枝）往往以牺牲模型鲁棒性为代价 [66][67][68] 未来技术发展方向 - **强化学习进阶**：模仿学习预训练结合强化学习后训练将成为主流，使AI能在虚拟环境中通过试错探索，学会在陌生场景中做出最优决策 [70] - **基础模型应用**：基于海量通用数据预训练的VLM基础模型，将为车辆注入世界知识和常识推理能力，成为处理长尾场景的终极武器 [71][72] - **智能体分层架构**：构建类人的分层系统，LLM/VLM作为“大脑”负责慢思考与复杂推理，专用小模型作为“身体”负责快直觉与毫秒级控制执行 [73][74] - **世界模型发展**：让AI具备基于当前状态“预演”未来环境演变的能力，可用于零成本虚拟试错和利用无标签视频进行自监督学习 [75] - **跨模态深度融合**：下一代模型将深度融合LiDAR/深度信息与RGB视觉，兼具语义理解力和3D几何感知精度 [76] - **自动化数据引擎**：构建问题驱动的自动化数据闭环，自动挖掘模型失败的Corner Case、生成场景并训练迭代，从“堆量”转向“提质” [77]