自动驾驶之心
搜索文档
跨越“仿真到实车”的鸿沟:如何构建端到端高置信度验证体系?
自动驾驶之心· 2025-11-20 00:05
▍文章来源于 康谋自动驾驶 >> 白皮书免费获取→ 3DGS与4DGS的核心应用实践与技术突破! 01 引言 随着自动驾驶功能复杂度的指数级增长, 单纯依赖道路测试 进行验证的成本高昂、周期漫长且 无法穷尽 所有可能的 边缘场景 。 仿真测试 因此成为研发流程中不可或缺的一环,它能够以低成本、高效率的方式 大规模生成 和 复现高风 险 的" 边缘案例 "与" 关键场景 ",从而加速算法的迭代与验证。 然而,仿真的价值完全取决于其结果的 置信度 。一个高置信度的仿真平台,其输出应在统计意义上与真实世界的传感 器数据、车辆行为和环境交互 保持一致 。若仿真与现实存在显著偏差,那么基于仿真得出的结论将失去意义,甚至产 生误导。 因此,建立一套能够 量化 和缩小这一差距的体系,是当前自动驾驶研发面临的关键挑战。本文将从 工程实践 出发, 系统性地剖析仿真置信度的 三大核心挑战 :传感器模型偏差、静态场景失真和动态场景还原误差,深入分析误差来 源,提出 可量化指标 和 对齐流程 ,为构建 高置信度仿真 提供参考。 02 仿真技术置信度三大核心挑战 传感器模型偏差 传感器是连接虚拟世界与感知算法的桥梁,其模型的 保真度 ...
端到端和VLA的岗位,薪资高的离谱......
自动驾驶之心· 2025-11-19 00:03
行业人才需求与市场状况 - 端到端和视觉语言动作模型技术人才需求旺盛,多家主机厂和供应商积极寻求引荐 [1] - 某招聘网站上3-5年经验的专家岗位月薪高达70k [1] 核心技术栈与趋势 - 技术发展路径从模块化量产算法演进至端到端,再到当前的视觉语言动作模型 [2] - 核心算法涉及BEV感知、视觉语言模型、扩散模型、强化学习、世界模型等前沿领域 [2] - 掌握端到端与视觉语言动作模型技术意味着掌握学术界和工业界最前沿的技术方向 [2] 自动驾驶VLA与大模型实战课程 - 课程聚焦视觉语言动作模型领域,涵盖从视觉语言模型作为解释器到模块化、一体化及推理增强视觉语言动作模型的三大方向 [2] - 配套理论基础包括视觉、语言、动作三大模块,以及强化学习、扩散模型等,并设有大作业章节指导学员从零搭建模型及数据集 [2] - 授课老师包括清华大学硕士生,在ICCV/IROS/EMNLP等顶级会议发表多篇论文,拥有多模态感知、视觉语言动作模型、大模型Agent等前沿算法预研经验 [7] - 授课老师包括QS30高校博士在读,在EMNLP/IROS/ICCV等会议发表论文,研究方向涵盖多模态大模型与视觉语言动作模型,其GitHub开源项目总Star数超2k [7] - 授课老师包括清华大学硕士生,在RAL/IROS/EMNLP发表论文,从事在线建图感知、视觉语言动作模型、大模型Agent等算法预研 [10] 端到端与VLA自动驾驶课程 - 课程聚焦端到端自动驾驶宏观领域,梳理一段式/两段式方向的重点算法和理论基础,详细讲解BEV感知、大语言模型、扩散模型和强化学习 [11] - 课程设计两大实战项目:基于扩散模型的Diffusion Planner和基于视觉语言动作模型的ORION算法 [11] - 授课老师为C9本科+QS50博士,已发表CCF-A论文2篇,现任国内顶级主机厂算法专家,从事端到端、大模型、世界模型等算法的预研和量产,并完成多项产品量产交付 [13] 课程面向人群要求 - 学员需自备GPU,推荐算力在4090及以上 [14] - 需具备一定的自动驾驶领域基础,熟悉基本模块,了解transformer大模型、强化学习、BEV感知等技术概念 [15] - 需具备一定的概率论和线性代数基础,熟悉常用数学运算,并具备一定的Python和PyTorch语言基础 [15]
AI Day直播 | WorldSplat:用于自动驾驶的高斯中心前馈4D场景生成
自动驾驶之心· 2025-11-19 00:03
文章核心观点 - 南开大学等研究团队提出了一种名为WorldSplat的全新前馈式4D驾驶场景生成框架,该框架旨在破解场景生成与重建之间的困境,能够高效生成高保真、时空一致的多轨迹新视角驾驶视频,以支持自动驾驶系统的训练数据扩展 [3][8] 技术背景与现有方法局限 - 现有驾驶场景生成方法大多聚焦于合成多样化、高保真的驾驶视频,但受限于3D一致性不足且视角覆盖稀疏,难以支持便捷且高质量的新视角合成 [3] - 近期的3D/4D重建类方法虽大幅改进了真实驾驶场景的新视角合成效果,但本质上缺乏生成能力 [3] WorldSplat框架概述 - WorldSplat是一个结合生成与重建能力的4D驾驶场景生成框架 [8] - 该方法通过两个关键步骤高效生成具备一致性的多轨迹视频 [3] - 第一步是引入融合多模态信息的4D感知潜在扩散模型,以前馈方式生成像素对齐的4D高斯分布 [3] - 第二步是利用增强型视频扩散模型,对基于这些高斯分布渲染出的新视角视频进行优化 [3] - 该框架可一次性生成多视角、时间空间一致的动态驾驶场景,并支持任意轨迹的新视角视频合成 [8] 技术优势与实验效果 - 在基准数据集上开展的大量实验表明,WorldSplat能够有效生成高保真、时空一致的多轨迹新视角驾驶视频 [3] - 该技术让世界模型具备几何一致性,并实现可控的多视角/多轨迹驾驶场景生成 [10] 相关活动与资源 - 文章预告了由WorldSplat第一作者、南开大学博士生朱子悦主讲的直播,直播时间为11月19日19:30-20:30 [4][8] - 相关论文标题为“WorldSplat: Gaussian-Centric Feed-Forward 4D Scene Generation for Autonomous Driving”,并提供了论文链接与项目主页 [5]
Physical Intelligence团队正式发布π*0.6
自动驾驶之心· 2025-11-19 00:03
文章核心观点 - Physical Intelligence团队发布了一种名为RECAP的通用强化学习方法,旨在使视觉语言动作模型能够通过从部署经验中学习来实现自我改进 [2][4] - RECAP方法通过整合演示数据、自主收集数据及专家干预数据,采用优势条件机制进行训练,显著提升了VLA模型在复杂现实任务中的性能和鲁棒性 [4][7] - 实验证明,采用RECAP方法训练的模型在衣物折叠、纸箱组装和咖啡制作等高难度任务上,任务吞吐量提升超过两倍,同时任务失败率降低约50% [4][10][28][30] RECAP方法概述 - RECAP是一种基于经验与校正的优势条件策略强化学习方法,其核心流程包括数据采集、价值函数训练和优势条件训练三个步骤 [7][11] - 该方法首先通过离线强化学习在多样化多任务数据集上预训练通用VLA模型,随后利用机器人现场收集的数据进行下游任务的持续优化 [4][7][13] - 方法通过价值函数估算动作的优势值,并让策略基于此优势值进行条件化训练,从而能从次优数据中提取更优策略 [7][13][16] 模型架构与技术细节 - 研究基于VLA模型PiStar 实例化RECAP,该模型是在Star 基础上的升级版本,采用了更大型的主干网络和更多样化的条件机制 [8][14] - 模型新增了基于二值化优势值的条件调控能力,使其能够通过价值函数来优化策略,模型架构包含860M参数的动作专家 [8][14][18] - 价值函数采用670M参数的视觉-语言模型作为骨干网络,从Gemma 3 4B模型初始化,用于预测任务成功的剩余步数 [14][19] 实验任务与性能评估 - 评估任务包括三大类:衣物折叠(简单T恤/短裤、多样化11种物品)、使用商用意式咖啡机制作饮品、以及真实工厂场景的纸箱组装 [23][24][25] - 在最具挑战性的多样化衣物整理和咖啡制作任务中,RECAP使任务吞吐量提升超过两倍,故障率降低两倍或更多 [28][30] - 经过RECAP训练的策略展示了卓越的鲁棒性,例如连续制作浓缩咖啡达13小时,在新环境中折叠陌生衣物持续运转超过两小时无中断 [10] 训练流程与数据整合 - 训练流程包含预训练、基于演示数据的监督微调、以及多轮自主数据收集与强化学习优化的迭代循环 [21][22] - 数据整合策略独特,既包含完全自主收集的片段,也包含由专家遥操作员监控并可进行修正干预的片段,用于克服探索挑战和修正重大错误 [22] - 价值函数和策略在每轮迭代中均从预训练检查点进行微调,而非持续微调上一轮模型,这有助于避免多轮迭代中的性能漂移 [22] 方法比较与优势 - 在衣物整理任务中,采用RECAP方法的模型实现的吞吐量远超AWR和PPO等传统策略提取方法,展现出显著优势 [35] - RECAP方法能有效消除在严格成功标准下被视为失败的特定故障模式,仅需相对较少数据即可有效调整策略行为 [35] - 尽管构建于已有研究中的独立算法模块之上,但RECAP独特的组合方式具有创新性,首次证明了通用强化学习方案能显著提升VLA模型的实战性能 [10]
自动驾驶之心企业服务与咨询正式推出啦!
自动驾驶之心· 2025-11-19 00:03
点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近30个 方向 学习 路线 自动驾驶之心企业服务与咨询正式推出啦! 创业前两年,团队一直在专注C端市场,为领域研发了近50门自驾&具身课程。虽谈不上完美,但也提供了很 多学习、求职和工作的资源。今年初始,我们陆续收到了很多企业的业务需求,特别是品牌宣传、技术咨询、 培训、团队升级等服务。 目前自动驾驶之心已经积累了近3年的行业咨询、培训经验,储备了大量的专家人才库,全平台粉丝近40w。 现正式对外推出企业服务,包括但不限于: 我们将助力技术路线的升级、团队人员的升级、提供更多决策参考。 合作客户 平台目前已经和国内多个高校、职业院校、Tier1、主机厂、具身机器人公司建立了企业合作,我们期望能够 触达更多需要升级的公司,推动领域的进步。 联系我们 欢迎添加负责人微信oooops-life,做进一步咨询。 品牌宣传; 产业咨询; 技术培训; 团队升级; ...
做自动驾驶VLA的这一年
自动驾驶之心· 2025-11-19 00:03
文章核心观点 - 视觉-语言-动作模型是一种整合视觉、语言和动作输出的多模态基础模型,旨在实现从感知到控制的端到端自动驾驶 [4][5][7] - VLA模型被视为继模块化流水线、端到端模型和视觉语言模型之后的下一代自动驾驶范式,能够解决传统方法在可解释性、泛化能力和行动执行方面的不足 [9][10][11] - 行业主流算法供应商和主机厂均在积极布局VLA技术,理想汽车和小鹏汽车已实现VLA模型的量产上车,标志着该技术从学术研究走向工业应用 [3][60][67] VLA定义与概念 - VLA模型被定义为"多模态大脑",能够处理图像或视频输入、语音或文字指令,并直接输出低层机器人动作或高层决策 [4][5][7] - 模型输入包括视觉画面、传感器数据和语言指令,输出可分为低阶控制信号和高阶轨迹规划两类 [13][16][18] - 以自动驾驶车辆为例,VLA不仅能执行驾驶任务,还能解释行为原因并理解人类自然语言指令,实现"看、想、做"的统一 [8] VLA出现背景与发展阶段 - 自动驾驶技术演进分为四个阶段:模块化流水线、端到端模型、视觉语言模型和VLA模型,VLA的出现旨在解决前代技术死板、黑箱或缺乏直接行动能力的问题 [9][10][11] - VLA模型继承大模型语义先验,能够借助常识推理处理罕见长尾场景,提升系统在复杂环境下的适应性和安全性 [10] VLA架构拆解 输入端 - 视觉输入包括前向和环视摄像头图像,常转换为BEV或体素表示以理解空间关系 [13] - 传感器输入涵盖LiDAR、RADAR、IMU和GPS,与视觉数据互补提升系统鲁棒性,部分企业如小鹏采用纯视觉方案 [13] - 语言输入支持导航指令、问答交互和规则约束,未来可能扩展至车内自然对话 [13] 中间层 - 视觉编码器使用DINOv2、ConvNeXt-V2、CLIP等预训练模型提取特征,部分模型进行跨模态对齐 [14] - 语言处理器基于LLaMA、GPT等LLM变体,通过指令微调、LoRA、RAG等技术适配驾驶场景,具备链式思维推理能力 [14] - 动作解码器采用序列预测、扩散模型或分层控制结构生成轨迹或控制信号 [14][15] 输出端 - 低层输出直接控制油门、刹车、方向角等执行器,保证即时反应速度 [18] - 高层输出规划未来2-5秒连续路径,便于与现有自动驾驶系统融合 [18] VLA发展编年史 LINGO系列(Wayve) - LINGO-1(2023年9月)首次将自然语言引入自动驾驶,具备可解释驾驶、视觉问答和驾驶知识推理能力,但功能以评论动作为主 [20][21][22][23] - LINGO-2(2024年10月)实现指令跟随和交互式驾驶,能理解并执行"在下一个路口右转"等自然语言指令,标志语言与驾驶深度结合 [35][36][37] CarLLaVA(2024年6月) - 基于视觉语言模型的端到端系统,仅使用摄像头输入,在CARLA挑战赛中获得第一名,为纯视觉方案提供实践基础 [25][26][27] CoVLA(2024年8月) - 提出包含超过80小时驾驶场景的大规模多模态数据集,通过自动化流程生成视觉、语言和行动标注,解决数据稀缺问题 [31][32] SimLingo(2025年3月) - 强调语言与行动对齐,通过"Action Dreaming"任务确保指令理解直接影响决策,在CARLA仿真器中达到顶尖性能 [39][40][42][46] OpenDriveVLA(2025年3月) - 融合多视角图像、3D环境信息和驾驶指令,采用分层特征对齐和交互建模,在nuScenes数据集上实现最优轨迹预测 [44][48][51] DriveMoE(2025年5月) - 引入混合专家模型,动态选择摄像头视图和驾驶技能专家,提升计算效率和复杂场景处理能力 [52][53] AutoVLA(2025年5月) - 结合自适应推理与强化微调,支持"快速思维"和"慢速思维"双模式,在多个数据集上实现优越的推理与轨迹生成性能 [55][56][57] 主机厂VLA方案 理想汽车MindAVLA - 采用MoE架构和3D高斯表达,具备思维链推理和扩散轨迹生成能力,通过三阶段训练模拟人类学习过程 [60][62][63][65] - 已实现量产上车,依托自研推理引擎和INT4量化技术完成车端部署 [65] 小鹏汽车VLA 2.0 - 实现端到端直连,跳过语言转译环节直接生成驾驶动作,建立统一智能基底支持多设备驱动 [69] - 训练数据接近1亿段真实驾驶视频,基础模型参数量达720亿,每5天完成一次全链路更新 [69]
研二多发几篇论文,也不至于到现在这个地步……
自动驾驶之心· 2025-11-18 00:05
文章核心观点 - 当前研究生面临严峻的就业与申博压力 需要高质量科研成果作为核心竞争力 而许多学生因导师指导不足在论文产出上遇到困难 为此 自动驾驶之心平台推出了专业的论文辅导服务 旨在帮助学生高效产出高质量论文 从而提升其学业与职业发展前景 [1][4][7] 服务提供方背景与资源 - 服务提供方为国内最大的AI类技术自媒体平台 旗下拥有自动驾驶之心 具身智能之心 3D视觉之心等多个IP [4] - 平台深耕自动驾驶 具身智能 机器人等交叉学科领域多年 深刻理解相关挑战与机遇 [4] - 平台拥有国内顶尖的学术资源 师资团队超过300名专职老师 均来自全球QS排名前100的院校 并发表过多篇顶会或子刊论文 [6] - 平台近3年已辅导学员超过400名 声称中稿率高达96% [6] 服务内容与流程 - 提供从选题到中稿的一站式科研辅导服务 目标期刊覆盖CCF-A/B/C SCI1-4区及EI会议等 [14] - 标准辅导流程为期约12周 具体包括 第1周确定3个备选课题 第2-3周完成文献综述与框架搭建 第4-6周进行实验设计与数据收集 第7-8周完成初稿 第9-10周修改润色 第11-12周选刊投稿 [5] - 服务形式包括腾讯会议在线1对1授课 日常微信群沟通答疑 并提供录播无限次回看与免费课后答疑 [14][19] - 配备班主任进行全程督学 跟进学习进度 [17] - 对于零基础学员 平台提供基础课程供自主学习 声称跟随导师节奏6个月可完成一篇小论文 [20] 服务解决的问题与目标客户 - 主要解决导师放养 无人指导 科研知识体系零散 缺乏科研思维与流程经验等问题 [11] - 旨在帮助学生系统掌握经典与前沿算法 将模型理论与代码实践结合 并将基线模型深化拓展以形成自己的论文 [11] - 目标客户包括 在读计算机相关专业硕博生 有科研需求以提升职称或学术成就的人员 人工智能领域希望升职加薪的从业者 以及计划考研 申博 留学需要提升简历含金量的学生 [12] 服务附加价值与保障 - 除论文辅导外 优秀学员有机会获得清北 MIT等名校推荐信 或被推荐至相关实验室实习 表现突出者可获内推至阿里达摩院 华为诺亚方舟等企业研发岗位 [21] - 提供导师精准匹配系统 根据学员研究方向 目标期刊和基础水平 从300多名导师中筛选3至5位供学员选择 [20] - 提供预付费试听机制 承诺试听不满意可免费更换老师或退款 [21]
具身界影响力最大的两位博士创业了!
自动驾驶之心· 2025-11-18 00:05
创业团队核心成员 - Tony Z Zhao担任公司CEO 为斯坦福大学计算机科学专业三年级博士生(已辍学) 在校期间主导提出ALOHA ALOHA2 Mobile ALOHA等一系列具身智能领域有影响力的工作方案 [2][4][5] - Cheng Chi担任公司CTO 为哥伦比亚大学博士及斯坦福大学新教师奖学金获得者 师从Shuran Song教授 提出通用操作接口UMI(获RSS 2024最佳系统论文决赛奖)及Diffusion Policy方案 [2][4][10] 行业背景与影响力 - 创业团队两位成员被描述为具身界影响力最大的博士 其技术背景与研究成果在行业内具有显著知名度 [2][4] - 公司技术基础建立在ALOHA系列方案 UMI通用操作接口及Diffusion Policy等前沿研究之上 这些工作对机器人操作与具身智能发展有重要贡献 [4][5][10]
谁偷走了斑马智行的梦想?
自动驾驶之心· 2025-11-18 00:05
文章核心观点 - 斑马智行面临业绩压力、市场格局挑战和核心业务流失等多重问题,独立上市被视为解决股东退出压力和资金需求的唯一出路,但其业务模式可持续性和估值真实性存在重大疑问 [6][7][37] 公司财务状况与股东压力 - 截至2025年3月底,公司总负债达到25.7亿元,每季度需承担巨额研发投入,现金流压力显著 [7] - 累计完成多轮融资超50亿元,2023年9月投后估值达210亿元,但最新估值已大幅下调至约100亿元 [8][11] - 阿里巴巴持有44.72%股权,上汽集团持有34.34%股权,双方不愿继续投入,中小股东要求退出,上市成为唯一选择 [7][10] 业务数据真实性与市场接受度 - 宣称智能座舱解决方案搭载于60家主机厂的超800万辆汽车,2022-2024年搭载量从83.5万台增至233.4万台,复合年增长率达67.2% [12] - 实际AliOS系统真实搭载量仅约400万台,其余400万为"小程序"应用,与座舱系统概念差异较大,数据存在水分 [13] - 汽车行业对AliOS接受程度低,系统级操作系统解决方案占营收80%以上,但客户集中度高,前五大客户营收占比连续三年超88% [16][19][20] 核心业务风险与人才流失 - 大众油车平台订单于2026年结束后不再搭载AliOS系统,下一代GP平台改用大众自研系统,该风险未在招股书中披露 [14][17][18] - 原大众业务事业部总经理姜可和核心商务杨帆近期离职,业务连续性受挑战 [17] - 2025年7月公司启动裁员,比例约10%-30%,主要因斑马智行7.0系统开发受阻 [33] 战略调整与行业竞争 - 现任CEO戴玮削减OS研发投入,转向AI Agent和重庆算力中心等固采项目,被质疑算力转租业务可能虚增AI收入预测 [23][33] - 华为鸿蒙系统与主流车厂合作加剧竞争,上汽加速切换至鸿蒙与安卓方案,主机厂自研操作系统趋势蚕食第三方供应商份额 [35][36] - 公司十年内更换4位CEO,早期技术红利消退后,产品未能形成代际优势,智能座舱领域从蓝海转为红海 [27][31]
做了一份端到端进阶路线图,面向落地求职......
自动驾驶之心· 2025-11-18 00:05
文章核心观点 - 市场对端到端和视觉语言动作模型技术人才需求旺盛,主机厂和供应商积极寻求相关专家,3-5年经验的专家岗位月薪高达70k [1] - 为满足行业学习需求,公司联合工业界和学术界专家推出两门实战课程,分别聚焦VLA大模型和端到端自动驾驶技术 [1][10] 课程内容与技术方向 - 自动驾驶VLA与大模型实战课程由学术界团队主导,课程体系覆盖从视觉语言模型作为解释器到模块化VLA、一体化VLA及推理增强VLA的全链路技术 [1] - 课程配套理论基础模块,包括Vision/Language/Action三大组件、强化学习、扩散模型等,并通过大作业指导学员从零搭建VLA模型及数据集 [1] - 端到端与VLA自动驾驶课程由工业界专家带队,重点讲解一段式/两段式端到端算法,核心技术点包括BEV感知、大语言模型、扩散模型和强化学习 [10] - 端到端课程设计两大实战项目:基于扩散模型的Diffusion Planner和基于VLA的ORION算法,紧密结合工业界量产实践 [10] 师资力量与团队背景 - 课程讲师团队由清华大学硕士、QS30高校博士等顶尖学术背景人才组成,在ICCV、IROS、EMNLP、Nature Communications等顶级会议和期刊发表多篇论文 [6][9] - 工业界讲师具备C9本科和QS50博士学历,现任国内顶级主机厂算法专家,拥有端到端算法和大模型预研及量产交付经验,已发表多篇CCF-A/B类论文 [12] - 讲师团队长期维护GitHub开源项目,总Star数超过2k,具备扎实的多模态大模型研发能力和丰富的自动驾驶实战经验 [6] 目标学员与技术要求 - 课程面向具备一定自动驾驶领域基础的学习者,要求熟悉自动驾驶基本模块和transformer大模型、强化学习、BEV感知等技术概念 [14] - 学员需具备概率论、线性代数基础和常用的数学运算能力,同时要求掌握一定的Python和PyTorch编程语言基础 [14] - 硬件方面要求学员自备GPU,推荐算力在4090及以上级别以满足课程实战需求 [13]