自动驾驶之心
搜索文档
哈工大提出LAP:潜在空间上的规划让自动驾驶决策更高效、更强大!
自动驾驶之心· 2025-12-03 00:04
文章核心观点 - 提出了一种名为LAP的自动驾驶规划新方法,其核心设计哲学是去除冗余的动力学细节,让模型在高层语义化的潜在空间进行规划,从而提升对复杂、多模态驾驶策略的建模能力并大幅提高推理速度 [1] - 该方法通过引入轨迹变分自编码器、初始状态注入、无分类器引导和细粒度特征蒸馏等关键技术,在nuPlan基准测试中实现了最先进的性能,尤其在最具挑战性的Test14-hard数据集上,闭环评测分数达到78.52,并以十倍的推理速度超越前SOTA方法 [1][22][23] 背景与问题定义 - 自动驾驶运动规划领域的发展面临挑战:基于规则的系统难以扩展,模仿学习方法易受“模式平均”影响,而现有扩散模型方法直接在原始轨迹路点上操作,导致计算效率低且模型容量浪费于底层运动学细节 [9] - LAP方法旨在解决上述问题,通过将高层意图与底层运动学解耦,在解耦得到的潜在空间中进行规划 [2][9] 方法论详解 - **轨迹潜在表示**:设计了一个基于Transformer的轨迹变分自编码器,将原始轨迹压缩到低维、语义化的潜在空间,训练目标包含重建损失、KL散度和差分损失 [10][11][14] - **潜在空间规划**:在VAE训练完成后,训练一个潜在扩散模型来预测轨迹对应的潜在向量,模型采用DiT结构,并引入初始状态注入模块为预测提供明确的先验“锚点” [12][15][19] - **导航引导增强**:在训练中随机丢弃导航信息,并在推理时使用无分类器引导技术来强化导航约束,以缓解模型在闭环规划中出现的“因果混淆”现象 [6][7][16] - **细粒度特征蒸馏**:引入特征蒸馏模块,使用像素空间规划器作为教师模型,将其中间层特征作为目标来指导学生模型,以弥合高度抽象的规划空间与细粒度条件输入之间的信息交互鸿沟 [21][24] 实验结果与分析 - **性能对比**:在nuPlan基准上,LAP在所有基于学习的方法中实现了SOTA性能,在最具挑战性的Test14-hard数据集上,LAP (o1s2)的闭环评测分数达到78.52,大幅超越先前SOTA方法约3.1分 [22][23] - **推理速度**:受益于潜在空间的紧凑性,LAP仅需2步采样即可生成高质量轨迹,推理时间低至18.81-21.69毫秒,相比需要迭代10步采样的Diffusion Planner实现了最高10倍的推理加速 [23][27] - **多模态能力**:潜在空间规划能更好地捕捉多样化的高级驾驶策略,如不同的转弯半径和速度,避免了模式坍缩问题 [28][29] - **潜在空间分析**:潜在空间具有光滑性,线性插值能产生平滑的轨迹过渡;通过降维可视化与聚类分析,证明其学到的语义空间是高度结构化的,并与驾驶意图良好对齐 [30][32][33][34][36] 消融实验与模块影响 - **初始状态注入**:提升了模型在非反应性环境下的性能,但在反应性环境中因“因果混淆”问题可能导致性能下降 [36][38] - **特征蒸馏**:显著提升了模型在非反应性和反应性两种环境下的表现,证明了其有效性 [36][38] - **导航增强**:大幅缓解了反应性环境中的“因果混淆”问题 [36][38] - **采样步数**:1步或2步采样效果最佳,增加步数反而可能导致性能下降,因过于精确的解码可能无法应对闭环规划中的分布外场景 [38] 核心贡献总结 - 利用变分自编码器实现了高层驾驶语义与底层运动学细节的解耦 [40][42] - 引入细粒度特征蒸馏模块,有效弥合了潜在规划空间与向量化场景上下文之间的交互鸿沟 [40][42] - 在nuPlan基准上实现了最先进的闭环性能,同时将推理速度提升了10倍 [40][42]
Feed-forward 3DGS,正在吸引业内更多的关注......
自动驾驶之心· 2025-12-02 00:03
3D高斯泼溅技术趋势与行业动态 - 特斯拉在ICCV的分享引发了行业对3D高斯泼溅技术的广泛关注,其引入被视为一大亮点[2] - 行业普遍共识是引入前馈式3DGS来重建场景并利用生成技术生成新视角,多家公司已开放相关招聘[2] - 3DGS技术迭代速度极快,已从静态重建3DGS发展到动态重建4DGS、表面重建2DGS以及前馈式3DGS[4] 3D高斯泼溅技术课程核心内容 - 课程旨在提供从原理到实战的完整3DGS学习路线图,覆盖点云处理、深度学习理论及实时渲染、代码实战[4] - 课程由工业界算法专家设计,历时两个月,目标是帮助学员全面掌握3DGS技术栈[4] 课程讲师背景 - 讲师Chris拥有QS20高校硕士学位,现任某Tier1厂商算法专家[5] - 其研究方向包括端到端仿真、多模态大模型、世界模型等前沿算法的预研与量产[5] - 曾参与全球顶级主机厂的仿真引擎及工具链开发,具备丰富的三维重建实战经验[5] 课程大纲详解 - **第一章:背景知识**:概述计算机图形学基础,包括三维空间的隐式与显式表达、渲染管线、光线追踪、辐射场渲染,并解释其与3DGS的联系,介绍COLMAP、Gsplat等开发工具,设置基于3D Real Car训练模型及使用SuperSplat移除杂点的作业[8] - **第二章:原理和算法**:详细梳理3DGS原理及核心伪代码,讲解动态重建、表面重建、鱼眼重建和光线追踪的经典与最新算法,实战选用英伟达开源的3DGRUT框架[9] - **第三章:自动驾驶应用**:聚焦自动驾驶仿真重建,重点讲解浙大Street Gaussian、上交OmniRe和浙大Hierarchy UGP三篇工作,实战选用学术界与工业界广泛使用的DriveStudio框架[10] - **第四章:重要研究方向**:探讨COLMAP扩展、深度估计及Relighting等3DGS重要研究方向,分享其在工业界的应用价值与学术探索前景[11] - **第五章:前馈式3DGS**:梳理前馈式3DGS的发展历程与算法原理,讲解最新的AnySplat和WorldSplat算法工作[12] - **第六章:答疑讨论**:通过线上交流形式,组织VIP群内答疑,讨论3DGS岗位需求、行业痛点及开放性问题[13] 课程安排与面向人群 - 课程开课时间为12月1日,预计两个半月结课,采用离线视频教学,辅以VIP群答疑及三次线上答疑[15] - 课程章节按计划解锁:第一章于12月1日,第二章于12月7日,第三章于1月7日,第四章于1月21日,第五章于2月4日[15] - 课程面向具备一定计算机图形学、视觉重建、NeRF、3DGS技术基础,以及概率论、线性代数、Python和PyTorch语言基础的学员[17] - 学员需自备GPU,推荐算力在RTX 4090及以上[17] 学员预期收获 - 掌握3DGS完善的理论知识及相关技术栈[17] - 掌握3DGS算法开发框架,能够训练开源模型[17] - 获得与学术界及工业界同行持续交流的机会[17] - 所学知识对实习、校招、社招均有助益[17]
导师布置了任务:三个月手搓自动驾驶小车
自动驾驶之心· 2025-12-02 00:03
产品发布与定位 - 自动驾驶之心团队正式开售面向科研与教学场景的自动驾驶全栈小车“黑武士系列001”,定位为教研一体轻量级解决方案 [1][2] - 产品原价为36999元,预售期间下单赠送模型部署、点云3D检测及多传感器融合三门课程,并可优先锁定组装发货安排 [1] 产品核心功能与适用场景 - 产品支持感知、定位、融合、导航、规划等多个自动驾驶功能平台,并基于阿克曼底盘 [2] - 产品支持二次开发和改装,预留了丰富的安装位置和接口,便于用户加装相机、毫米波雷达等传感器 [3] - 产品明确适用于本科生学习与竞赛、研究生科研与求职项目、高校实验室及职业培训机构教具等多种场景 [5] 硬件配置详情 - 主要传感器包括:Mid 360 3D激光雷达、镭神智能2D激光雷达、奥比中光带IMU的深度相机 [22] - 核心主控芯片采用NVIDIA Jetson Orin NX,配备16GB RAM,AI算力达100 TOPS [22][32] - 结构系统采用钣金件,经过硬铝及发黑处理 [23] - 车体尺寸为长620mm x 宽400mm x 高320mm,自重30kg,最大载荷30kg [25][26] - 采用24V供电,电池功率50W,续航时间大于4小时,最大运动速度可达2m/s [25] 软件与功能说明 - 软件基于ROS框架,支持C++和Python语言开发,提供一键启动的开发环境 [28] - 支持丰富的软件功能,包括2D/3D目标检测与分割、多种SLAM方案(如视觉、激光、惯性及其融合)、点云处理、车辆导航与避障等 [29] - 提供了详细的功能启动与调试说明,例如通过脚本启动激光雷达和深度相机驱动,并支持通过手柄进行手动遥控 [41][43][44] 效果展示与测试 - 产品在室内、室外、地下车库等多种复杂场景下进行了功能测试,展示了其感知、定位、融合、导航规划等能力 [6] - 具体测试场景包括户外公园行驶、点云3D目标检测、室内地库2D/3D激光建图、上下坡测试、室外大场景3D建图以及夜间行驶等 [8][10][12][14][16][18][20] 售后与支持 - 产品提供1年非人为损坏的售后支持,但邮费需用户自理 [51] - 保修期内,因操作失误或修改代码等个人原因导致的损坏,公司提供免费维修服务 [51]
超越ORION!CoT4AD:显式思维链推理VLA模型(北大最新)
自动驾驶之心· 2025-12-02 00:03
文章核心观点 - 提出一种名为CoT4AD的新型视觉-语言-动作模型,该模型将思维链推理引入端到端自动驾驶领域,旨在解决现有VLA模型数值推理能力有限和输入-输出映射过于简化的问题 [1] - 该框架通过整合视觉观测和语言指令,实现语义推理、场景理解与轨迹规划,在训练阶段构建“感知-提问-预测-动作”的显式思维链,推理阶段则通过隐式思维链实现稳健决策 [1][3] - 在真实世界数据集nuScenes和仿真数据集Bench2Drive上的实验表明,CoT4AD在开环和闭环评估中均取得了最先进的性能,验证了其有效性 [1][6][10] 技术背景与挑战 - 传统模块化自动驾驶系统面临误差累积、跨模块优化困难及泛化能力有限等问题,端到端自动驾驶范式应运而生,旨在利用统一学习框架直接从传感器输入预测驾驶信号 [2] - 随着大规模视觉-语言模型的发展,视觉-语言-动作模型展现出处理多模态输入和更强可解释性的潜力,但其继承了VLMs的固有缺陷,即在复杂环境中数值推理能力较弱 [2][3] - 现有方法将大语言模型视为从感知到数值输出的单一映射器,忽视了其多步推理能力,导致在需要逐步因果推理的复杂驾驶场景中性能一般 [1][3] CoT4AD框架核心设计 - 框架整合了环境感知、语言推理、未来预测和轨迹规划,通过多阶段训练过程培养适用于自动驾驶的思维链推理能力 [6] - 在3D环境感知方面,采用以特征为中心的感知训练方式,通过多视图图像输入和BEV空间投影,生成包含静态元素和动态目标的全面环境表示 [7][8] - 提出视觉-语言提示微调方法,引入跨阶段无关token作为可学习的离散化token,用于编码视觉细节并贯穿思维链推理的不同阶段,以提升多模态感知与语言推理的融合效果 [11] - 采用VLM条件潜在扩散模型进行未来场景预测,通过在潜在空间进行扩散建模避免高维像素空间的计算负担,使模型能学习未来场景预测并增强对场景语义和物理规律的理解 [12] - 思维链轨迹规划阶段直接在动作空间进行扩散,利用扩散Transformer以带噪声动作和条件嵌入为输入,预测去噪后的轨迹,实现高效规划 [13] 实验结果与性能 - 在nuScenes数据集的开环评估中,CoT4AD在1秒、2秒、3秒时域下的L2距离误差分别为0.12米、0.24米、0.53米(平均0.29米),平均碰撞率为0.10%,性能显著优于OpenDriveVLA、EMMA等最新VLM方法 [17] - 在Bench2Drive数据集的闭环评估中,CoT4AD-CoT版本的驾驶得分高达81.22,成功率达55.78%,超过ORION、DriveTransformer-Large等基线方法,且在效率和舒适性方面实现平衡 [18][19] - 与UniAD的定性对比显示,CoT4AD在避障变道和超车机动等复杂场景下能生成更平滑、连续的轨迹,并更早识别驾驶意图,展现出更强的时序推理和高层语义理解能力 [21][23][25] 消融研究与关键发现 - 感知Tokenizer的有效性研究表明,结合基于感知标签的Tokenizer和基于视觉特征的Tokenizer能取得最优闭环指标,表明感知标签提供环境指导,而图像特征保留更完整语义,二者结合可增强整体性能 [26][27] - 思维链设计的消融实验证明,感知模块、VQA模块和未来扩散模块三者相辅相成,结合所有模块的模型取得最优性能(驾驶得分80.24,成功率55.22%),其中未来预测模块对性能提升贡献最大 [28] - 未来场景预测数量的研究表明,预测4个未来场景时模型性能达到峰值(成功率55.78%),超过此阈值则因信息过载导致性能下降,表明需在信息量与模型负担间找到平衡 [29] 总结与意义 - CoT4AD通过“感知-视觉问答-扩散-规划”的多步推理流程,在视觉空间、推理空间与动作空间间实现了更好的对齐,能够为驾驶任务提供更平滑、更精准的规划 [30] - 该工作为自动驾驶领域引入了量身定制的思维链推理机制,显著提升了模型在动态、大规模且安全关键环境中的数值推理、长时域规划和稳健泛化能力 [3][10]
特斯拉为什么现在不选择VLA?
自动驾驶之心· 2025-12-02 00:03
特斯拉FSD技术架构分析 - 特斯拉在ICCV分享的最新FSD技术架构仍属于大号端到端模型[3] - 行业前沿的VLA架构在机器人领域流行但特斯拉未采用引发技术路线讨论[3] 机器人与自动驾驶任务目标差异 - 机器人需理解通用语言指令完成任务目标而自动驾驶核心是导航任务[4] - 自动驾驶可直接获取高德或百度导航地图底层数据实现精确路径规划比语言表征更高效[4] 机器人与自动驾驶作业环境差异 - 自动驾驶在规则明确的道路上行驶场景相对单一复杂任务拆解需求少[4] - 驾驶操作多为本能反应无需语言分析仅在特殊场景调用VLM模型类似人类大小脑协作机制[4] 硬件限制对技术选择的影响 - 端侧硬件算力普遍低于1000 TOPS无法支持几B参数语言模型确保安全[5] - 视觉到语言再到动作的转换流程会浪费算力增加延迟百公里车速下0.1秒偏差即可导致车辆偏离车道[5] 特斯拉技术路径的优化策略 - 采用快慢思考逻辑端到端模型与VLM协同工作[5] - 绝大部分场景由端到端模型处理仅交规或非结构化道路等少数场景减速调用VLM[5]
扩散模型走了十年弯路!何恺明重磅新作JiT:回归真正“去噪”本质
自动驾驶之心· 2025-12-01 00:04
文章核心观点 - MIT何恺明团队提出极简扩散模型架构JiT,让模型直接预测干净图像本身,而非预测噪声或混合噪声 [10] - 该方法在高维像素空间中表现更强、更稳、更简单,无需潜在空间、分词器、预训练或额外损失函数 [11][13] - 直接预测干净图像的任务更简单,因为自然图像位于低维流形上,而噪声是高维乱流,网络容量有限时预测噪声会导致模型崩溃 [14][15][17] 技术原理与创新 - 核心思想是让网络预测干净数据,而非噪声或混合噪声,通过数学推导证明直接输出干净图像可使任务更简单 [18][19] - 即使在高维场景如3072维patch(32×32×3)中,只有直接预测干净图像的方式不会崩溃 [20] - 框架仅使用Vision Transformer直接在原始像素patch上操作,输入输出均为像素patch,结构极简 [17] 模型性能与实验结果 - 在ImageNet 256×256分辨率上,JiT-L/16模型FID达到2.36,JiT-G/16模型FID达到1.82,与依赖复杂潜在空间的大型扩散模型性能相当 [30] - 在512×512分辨率下,JiT-H/32模型FID为1.94,JiT-G/32模型FID为1.78,证明在3072维高维patch下仍能稳定训练 [31] - 在1024×1024超高分辨率下,JiT-B/64模型FID为4.82,且计算成本几乎不随分辨率增加而上升,序列长度保持恒定 [32] 架构优势与反直觉发现 - 即使将patch embedding压缩至低维瓶颈(如32维甚至16维),模型不仅未崩溃,FID指标反而显著提升,与低维流形假设一致 [27][28][35] - 模型可处理高达12288维的patch(64×64×3),完全摆脱潜在空间,在原生像素空间自洽工作 [24][25] - 该方法特别适合需要处理原始高维数据的领域,如具身智能和科学计算,有望成为更通用的生成基础方式 [34]
大模型Post-training的范式已经发生改变......
自动驾驶之心· 2025-12-01 00:04
大模型后训练范式转变 - 行业认为大模型后训练范式可能已从SFT+RLHF两阶段转变为RL Scaling+RL Alignment两阶段[3][4] - 新范式中RL Scaling阶段专注于在数学、代码等可验证任务上提升模型自我反思和推理能力,无需考虑指令跟随和可读性[4] - RL Alignment阶段负责轻微调整模型,在最小化推理能力损失的基础上实现与人类对齐的目标,包括指令跟随和可读性[4] 新范式技术优势 - 新范式基于结果奖励在可验证任务上进行强化学习,较好解决了传统后训练中奖励上升但性能下降的奖励黑客问题[5] - 新范式下token搜索自由度更大,并能激发大模型的自我反思能力,从而获得超强推理能力[5] - 数学、代码任务上的性能表现能很好地泛化到其他各类任务,显示出强大的可迁移性[5] 新范式带来的机遇与挑战 - 新范式使得后训练阶段能通过增加算力来提升模型表现,而旧的SFT+RLHF范式主要依赖数据,堆算力效果有限[5] - 行业面临如何利用无明确答案数据做RL Scaling、RL Scaling数据难度选择、RL Alignment阶段能力与安全权衡等机遇[7] - 新范式引发对模型安全的担忧,RL Scaling获得的能力可能涌现有害且隐蔽的推理,而人类数据比重减少可能增加安全隐患[5][6] - 尽管推理能力增强,但模型在准确理解用户意图、指令跟随和可读性方面仍有不足,影响实际使用效率[7]
转具身最好的机会在昨天,其次是现在...
自动驾驶之心· 2025-12-01 00:04
文章核心观点 - 文章介绍了一个名为“具身智能之心”的社区,该社区致力于为具身智能领域的研究者、学生和从业者提供技术交流、资源汇总和学习平台 [1] - 社区已汇集近3000名成员,包括来自国内外知名高校和200多家具身相关公司与机构的专业人士 [17][85] - 社区内容覆盖行业研究、技术路线、算法、部署方案、求职内推等多个方面,旨在构建产业、学术、求职的闭环生态 [1][9][17] 行业资源汇总 - 社区汇总了行业内在具身大脑和本体研发方面活跃的公司及实验室,并包含行业研报以判断发展周期 [1] - 汇总了国内外具身智能领域的知名高校实验室,为升学和研究提供参考 [20] - 汇总了涉及教育、宠物、工业、救援、物流、交互、医疗等方向的国内外各类具身相关机器人公司 [23] - 汇总了大模型、人形机器人等行业的研报,以了解行业发展和工业落地情况 [25][26] - 汇总了机器人行业知名的零部件制造厂商,涉及芯片、激光雷达、相机、IMU、底盘等 [31] 技术内容与学习路线 - 社区收拢了VLA(视觉语言动作)模型的多方向路线,包括训练、无需训练方式、VLA+RL、VLA+世界模型、轻量化及部署等 [9] - 社区收拢了VLN(视觉语言导航)模型的方向,如时间语言、目标导航、点导航等 [9] - 社区汇总了近40+开源项目、近60+具身智能相关数据集、行业主流仿真平台及各类技术学习路线 [18] - 技术学习路线涵盖感知、交互、强化学习、VLN、VA/VLA、多模态大模型、Diffusion Policy、导航、规划控制、触觉感知、Sim2Real等近20个方向 [18][43][46][48][50][52][54][56][58][60][62][64][66][68][71][73][75] - 社区提供机器人导航、概率机器人、动力学与运动学、路径规划、视觉控制等多个方向的PDF书籍供基础学习 [28][29] 算法与部署方案 - 算法层面还涉及运控(强化学习、MPC、WBC)和仿真(通用、真实)等方向 [9] - 部署层面目前大多集中在云端推理,边缘侧基于索尔的VLA模型方案已逐渐落地 [9] - 小鹏等公司基于自研芯片已完成VLM/VLA的部署,但100T以下算力平台的部署方案较少 [9] 社区活动与平台功能 - 社区通过直播、圆桌论坛分享具身行业动态,主题覆盖数据采集、灵巧手、VLA模型、VLN模型、多传感器融合、操作系统、世界模型等前沿领域 [11][12] - 社区提供产业与项目相关的方案,并为求职者与多家公司建立岗位内推机制 [15][17] - 社区内部设有问答交流板块,成员可自由提问并获得来自产业界和学术界专家的解答 [77]
英伟达又一新作!MPA:基于模型的闭环端到端自适应策略新框架(CMU&斯坦福等)
自动驾驶之心· 2025-12-01 00:04
文章核心观点 - 英伟达、CMU和斯坦福团队提出了一种名为基于模型的策略自适应(Model-based Policy Adaptation, MPA)的新型框架,旨在解决端到端(E2E)自动驾驶模型在闭环评估中面临的性能下降问题 [1][2] - MPA框架通过利用高保真3D高斯溅射(3DGS)仿真引擎生成反事实数据,并训练基于扩散模型的策略适配器和多步Q值模型,显著提升了预训练E2E驾驶智能体在部署阶段的鲁棒性、安全性和泛化能力 [2][7][11] - 在nuScenes基准数据集上的实验结果表明,MPA在域内场景、域外场景及安全关键场景中均显著优于多种基线模型,尤其在路线完成率和综合驾驶评分等关键指标上提升显著 [33][34][35] 技术背景与问题定义 - 端到端自动驾驶模型在开环评估中表现出色,但在闭环环境中会因微小偏差累积导致的级联误差和分布偏移而出现性能下降,核心挑战在于离线训练的经验风险最小化与在线部署的累积奖励最大化目标不一致 [3][6] - 现有闭环评估方法存在局限性,例如缺乏闭环评估结果、仅在非照片级真实感仿真器中进行评估,或训练成本高且未充分利用价值评判器,且尚无工作在训练阶段纳入经过筛选的反事实数据 [5] - 性能下降的根本原因被归结为观测不匹配(训练与部署阶段的传感器输入差异)和目标不匹配(离线模仿学习缺乏有意义的长期奖励反馈) [6][9] MPA方法框架 - MPA框架包含三个核心组成部分:基于世界模型的反事实数据生成、基于扩散模型的策略自适应以及Q值引导的推理时间采样 [14][16][24] - 反事实数据生成流程利用几何一致的3DGS仿真器,对预训练E2E策略的预测动作进行随机增强(旋转角度范围[-10, 10]度,扭曲比例范围[0.1, 1.0],随机高斯噪声标准差0.05),并通过类似波束搜索的算法筛选出奖励最高的候选轨迹 [16][18] - 策略适配器采用基于潜扩散过程的1D U-Net结构,以预训练基础策略的输出为条件,预测残差轨迹进行优化,推理阶段使用DDIM采样器生成多模态(例如8个模态)的适配后轨迹 [21][22][39] - 多步动作价值模型(Q值模型)基于四个可解释原则(碰撞、距离、路线、速度)独立训练,综合Q值为各单原则Q值的加权和,用于在推理阶段选择期望效用最高的动作 [25][26] 实验结果与分析 - 实验在nuScenes数据集和HUGSIM仿真基准上进行,评估分为域内场景(70个)、域外场景(70个)和安全关键场景(10个)三类设置 [27][30] - 主要评估指标包括路线完成率(RC)、无碰撞率(NC)、可行驶区域合规率(DAC)、碰撞时间合规率(TTC)、舒适性(COM)和综合HUGSIM驾驶评分(HDScore) [29][31][32] - 在域内场景中,基于MPA的智能体(如MPA(UniAD))的路线完成率(RC)达到93.6%,HDScore为66.4,显著优于其预训练基础版本UniAD(RC 39.4%,HDScore 19.4)及其他基线模型 [33] - 在安全关键场景中,MPA(VAD)的路线完成率(RC)达到96.6%,HDScore高达74.7,远超预训练VAD的RC(25.4)和HDScore(16.0),证明了其在对抗性挑战下的有效性 [35][36] 消融研究与组件分析 - 消融实验表明,反事实数据生成的轨迹推演步数规模对性能有正面影响,更长的推演步数能为价值函数训练提供更丰富的未来步监督信号,帮助Q值模型更准确地评估长时域收益 [38] - 策略适配器的模态数量从1增加到8时,性能显著提升,超过8后提升趋于平缓,表明适当增加模态数量能有效覆盖更多反事实行为模式 [39] - 移除Q值模型的不同组件(如路径跟随Qc、车道距离Qd、避撞Qcol、速度合规Qspeed)会导致相关指标急剧下降,验证了各组件对保障闭环安全与性能的必要性 [40][42] 结论与未来方向 - MPA框架通过系统性的反事实数据生成、策略适配和价值引导,成功地将预训练开环E2E驾驶智能体适配为安全且具有泛化能力的闭环智能体 [41][43] - 当前工作的局限性包括对3DGS渲染质量的依赖、价值与策略模型的解耦设计以及实验场景覆盖范围有限(仅基于nuScenes数据集) [44] - 未来工作方向包括将MPA应用于更多多样化驾驶数据集、探索在线强化学习以实现价值模型与策略适配器的联合训练,以及将MPA部署到多模态基础模型中以增强对严重分布偏移场景的推理能力 [44][46]
被遗忘的商汤绝影
自动驾驶之心· 2025-11-30 02:02
文章核心观点 - 商汤科技旗下的智能驾驶业务单元“绝影”正寻求外部大额融资,这标志着其独立发展进入关键阶段,但面临严峻的融资环境和市场竞争[4] - 绝影在智能驾驶领域的发展面临多重挑战,包括技术理想主义与商业现实的错位、业务线庞杂且未能在主流平台成为首选、核心人才流失与频繁换帅、以及关键战略客户流失,导致其在智驾决赛圈中明显掉队[6][10][23][33] - 尽管在学术研究和前沿技术(如UniAD模型、“开悟”世界模型)上保有实力,但绝影在工程化落地、量产交付和商业变现方面能力不足,收入主要依赖低附加值的座舱产品(如DMS/OMS),高附加值智驾方案量产遇阻[14][19][24][31] - 绝影的未来可能在于转型,例如依托商汤在AI大模型和视觉算法的基础,向智能座舱多模态交互、AI基础设施或L4业务等新叙事方向寻找出路[32][35] 中国智能驾驶行业竞争格局 - 行业玩家主要分为三类:科技大厂孵化的事业部(如华为引望、大疆卓驭、百度阿波罗、商汤绝影)、汽车大厂孵化或整合的子公司(如长城毫末、奇瑞大卓、吉利千里)、以及大厂明星背景的创业公司(如地平线、Momenta)[6] - 科技大厂拥有技术底蕴和论文刷榜能力,汽车大厂拥有工程师资源和量产订单优势,而创业公司则在团队组建、融资和获取客户信任上面临更多挑战[6][7] - 行业融资环境明显收窄,市场上可获得的资金屈指可数,随着标志性融资事件(如卓驭获36亿融资)和公司动荡(如毫末停工),智驾战场进入“伤停补时”阶段,留给剩余玩家的时间不多[4][5] 商汤绝影的发展困境与挑战 - **组织文化与基因**:商汤是研究型组织,有浓厚的“科学家理想国”氛围,重科研成就、轻商业落地,这种基因深刻影响了绝影,使其业务出发点常是挑战性技术课题而非严密商业论证[12][13][16] - **业务布局与战略摇摆**:业务线一度非常庞杂,覆盖智能座舱、智能驾驶(多平台布局)、AI云服务,但资源无法与华为等大厂相比[14][15];在智驾方案上被动收敛,早期布局的TI TDA4、地平线J5方案均因成本、性能或交付问题被放弃或边缘化,未能卡位主流供应链[24][26] - **人才与交付问题**:智驾VP层频繁换帅,原副总裁石建萍调岗,接任者王伟宝空降后离职,后续加入的王俊平负责的东风项目也迟迟未落地[27];内部存在算法团队与工程团队的“高墙”,工程化能力不足,量产交付屡受考验[27][31] - **客户与市场边缘化**:客户虽多但多为“二供”或“三供”,唯一的核心“一供”客户哪吒汽车因经营危机进入重组[28];尝试向一汽、广汽、东风、奇瑞等主机厂推进项目,但或因感知不达标、或因合作方解散等原因未能成功,接连退守[28][29] 绝影的财务状况与融资努力 - 商汤科技自上市以来累计亏损超过500亿元[31] - 绝影收入达“小数亿元”级别,但绝大部分来自单价百元左右的DMS/OMS系统,而非高附加值的中高阶智驾方案[10][31] - 曾尝试向北方某央企主机厂和南方某国资主机厂融资,但均告失败:北方主机厂选择战略入股其他头部算法供应商;南方主机厂则因绝影估值过高、量产实力不强以及附加返投条件等原因未能达成[34] 绝影的潜在价值与转型可能 - 商汤在视觉算法与大模型上的积累,使绝影在智能座舱多模态交互、AI大平台等前沿领域仍保有竞争力[32] - 绝影负责人王晓刚认为,未来核心壁垒不在算法本身,而在AI基础设施建设,只要AI不断演进,绝影对主机厂就有价值[35] - 商汤集团已开启“1+X”架构,旗下业务单元独立融资,除绝影外,商汤医疗、零售、服务机器人及最新剥离的AI推理芯片业务“曦望”均已获得融资,其中曦望获得10亿元量级融资[35] - 绝影正在尝试通过L4业务(如小巴、清扫车)和AI基座(大模型和算力卡)构建新的发展叙事[35]