Workflow
VLA
icon
搜索文档
扩散模如何重塑自动驾驶轨迹规划?
自动驾驶之心· 2025-09-11 23:33
扩散模型技术原理 - 扩散模型是一种生成式模型 本质是通过去噪过程学习数据分布 噪声符合特定分布 [1] - 原理基于正向扩散和反向生成两个过程 模拟墨水在清水中扩散和恢复的物理过程 [2] - 通过神经网络学习分布规律 从纯噪声中恢复原始数据 [2] - 自2020年提出后已获得超过2万次学术引用 [2] 自动驾驶领域应用 - 应用于数据生成 场景预测 感知增强和路径规划等多个自动驾驶关键环节 [11] - 可处理连续分布噪声和离散分布噪声 适用于决策规划等离散问题 [11] - 在端到端和VLA(Vision-Language-Action)架构中发挥重要作用 [11] - 扩散模型在多模轨迹预测中应用广泛 能更好适应自动驾驶环境的不确定性 [28] 端到端自动驾驶课程体系 - 课程涵盖端到端自动驾驶发展历史 技术范式演变及业界动态 [22] - 重点技术栈包括多模态大模型 BEV感知 强化学习 视觉Transformer和扩散模型 [15][29] - 第二章聚焦背景知识 包含视觉Transformer BEV感知 扩散模型理论和VLM强化学习等核心内容 [29] - 课程设置四大核心章节:端到端算法介绍 背景知识 二段式端到端 一段式端到端与VLA [22][23][24] 技术模块深度解析 - 一段式端到端包含基于感知(UniAD/VAD/PARA-Drive) 世界模型(Drive-OccWorld/OccLLaMA) 扩散模型(DiffusionDrive/Diffusion Planner/DiffE2E)和VLA四大方向 [24][26][28] - 世界模型技术可应用于场景生成 端到端控制和闭环仿真 是近年热门研究方向 [26] - VLA架构融合视觉大语言模型 BEV 扩散模型和强化学习 代表端到端自动驾驶最高技术形态 [31] - 课程配备Diffusion Planner和ORION(小米VLA系统)两大实战项目 [28][31] 课程特色与收益 - 采用Just-in-Time Learning理念 通过案例教学快速掌握核心技术栈 [17] - 帮助构建领域知识框架 提升论文分类和创新点提取能力 [18] - 通过RLHF微调大作业实现理论到实践的完整闭环 [33] - 学员需具备4090及以上GPU算力 及Python/PyTorch 概率论 线性代数基础 [38] - 完成课程可达到1年左右端到端算法工程师水平 掌握主流算法框架并具备项目应用能力 [38][39]
2025年,盘一盘中国智驾的自动驾驶一号位都有谁?
自动驾驶之心· 2025-09-10 23:33
行业技术趋势 - 2023年起自动驾驶领域迎来以端到端为主导的技术转向 2024年成为行业公认的新一代量产主流方案 2025年VLA和世界模型成为下一代量产突破方向[1] - 技术架构迭代伴随研发路径 人才结构与竞争格局重新洗牌 领军人物技术判断决定团队在重构期能否站稳脚跟甚至超车领先[1] - 端到端架构正逐步成为智能驾驶新基座 大模型 世界模型 VLM方案等技术加速从学术界走向工业界[53] 理想汽车 - 郎咸朋2018年加入理想汽车担任自动驾驶负责人 职位从自动驾驶业务总经理转变为自动驾驶副总裁[5] - 2023年年底全场景NOA推送标志理想辅助驾驶从高速向城市场景延展 2024年7月15日推送无图NOA功能首次实现对先验信息依赖突破[5] - 去年E2E+VLM双系统成为业界智驾方案标杆 今年主攻VLA司机大模型已量产[5] 小米汽车 - 叶航军2021年初被雷军点将主持小米自动驾驶业务 小米SU7爆火后智能技术能力快速提升[7][8] - 1000万Clips版小米端到端辅助驾驶系统出厂即搭载 学术界推出VLA 强化学习 世界模型 3DGS等前沿工作[9] - 小米不惜代价做好辅助驾驶 正努力跻身智驾第一梯度[9] 蔚来汽车 - 任少卿2020年8月加入蔚来担任智能驾驶研发副总裁 曾担任Momenta研发总监兼联合创始人[11] - 大力推动蔚来智能驾驶技术发展 特别在城区NOA规模铺开和全域领航辅助NOP+功能发布做出重要贡献[11] - 今年主推世界行为WA自动驾驶路线 核心思路是海量使用云端仿真数据让大模型理解世界而学会驾驶[11] 小鹏汽车 - 李力耘2019年6月加入小鹏汽车 2023年8月2日接班吴新宙成为小鹏智驾总负责人[14][15] - 负责小鹏汽车高速和城市自主导航辅助驾驶系统NGP研发 是国内为数不多纯视觉方案拥簇[14][15] - 算力算法数据域控制器线控底盘全链路布局 传感器以外采为主坚持纯视觉方案[15] - 近期小鹏G7 Ultra将迎来OTA升级 AI智能辅助驾驶系统融入全场景VLA大模型[16] 比亚迪 - 杨冬生现任比亚迪副总裁兼产品规划及汽车新技术研究院院长 2005年加入比亚迪[18] - 作为DM-i超级混动系统总设计师 主导研发技术助力比亚迪新能源销量自2022年起多次夺取月度销量冠军[18] - 2024年比亚迪全系车型都将搭载天神之眼高阶智驾系统 开启全民智驾新时代[20] 地平线 - 苏箐2022年加入地平线担任高阶智能驾驶项目总负责人 曾任华为汽车BU智能驾驶产品线总裁[22] - 地平线端到端HSD方案搭载J6P量产上车 自研芯片+智驾方案双管齐下[22] - 大众汽车与地平线成立合资企业 苏箐担任CTO[22] Momenta - 曹旭东2016年创办Momenta 提出一个飞轮两条腿战略 飞轮是数据驱动 两条腿是量产自动驾驶L2和完全无人驾驶L4[25] - 战略核心理念是通过L2量产车收集数据反哺L4技术迭代 形成数据→算法→产品→数据正向循环[25] - 技术路线选择端到端大模型和无图方案 2025年已跻身智驾第一梯队成为全球品牌共同选择[26] - R6飞轮大模型频繁现身公众视野 2019年把核心精力投入数据领域布局进入成果初现阶段[26] 大疆车载(卓驭) - 沈劭劼担任大疆车载总负责人 香港科技大学电子和计算机工程系副教授 科大-DJI联合创新实验室主任[30] - 截至2025年5月卓驭已与9家主流车企达成合作 包括大众汽车 上汽通用五菱 比亚迪等[31] - 已有20余款车型量产 还有30多款车型即将量产落地 预计2025年有200万台车型搭载大疆车载智驾系统上路[31] 英伟达 - 吴新宙2023年加入英伟达现任自动驾驶团队总负责人 曾担任小鹏汽车自动驾驶副总裁[35][36] - 在小鹏汽车期间带领团队完成高速NGP和城市NGP量产落地 推动小鹏汽车在智能驾驶领域发展[35] - 英伟达自动驾驶推出覆盖从数据 感知到大模型智能体的全栈技术[36] 百度 - 王亮现任百度智能驾驶事业群组首席研发架构师 IDG技术委员会主席 阿波罗智能技术董事[40] - 2024年主导VTA基础大模型和纯视觉智驾路线在极越01车型实现量产应用[40] - 带领团队推出支持全国300城覆盖的领航辅助驾驶方案[40] 博世中国 - 吴永桥2024年1月出任博世智能驾驶与控制系统事业部中国区总裁 推动博世城市NOA产品落地[42] - 2024年5月发布首款城市NOA产品并计划年底覆盖24个城市[42] - 主张主机厂聚焦用户体验而供应商承担标准配置开发 提出智能驾驶技术趋同 特斯拉算法领先等观点[42] - 博世坚定推进一段式端到端技术 与文远知行联合基于英伟达Orin Y打造一段式端到端方案8月底在奇瑞高端车型量产[43] 小马智行 - 楼天城小马智行联合创始人兼首席技术官 中国公认大学生计算机编程第一人 算法领域卓越成就[45] - 主导开发世界模型技术 使小马智行在L4级自动驾驶领域建立独特技术优势[45] 元戎启行 - 周光2021年正式任职元戎启行CEO 公司完成阿里巴巴战略领投3亿美元B轮融资[48] - 近日发布最新一代搭载VLA模型的辅助驾驶平台DeepRoute IO 2.0[49]
自动驾驶中有“纯血VLA"吗?盘点自动驾驶VLM到底能起到哪些作用~
自动驾驶之心· 2025-09-06 16:05
视觉语言自动驾驶模型技术实现 - 模型支持不同数量相机输入 无需明确指定相机数量[2] - 轨迹输出采用文本形式 通过Prompt限制为XY坐标格式[4] - 输出坐标为车辆坐标系相对值 原点为(0,0) 非图像坐标[6] - 使用Python编程进行轨迹格式规范化处理 确保输出符合预期[8] - 通过JSON格式和关键词约束优化未经训练模型的输出效果[9] 数据集构建与处理 - 遇到坐标异常问题 连续多帧坐标相同后出现突变[14] - 不同数据集存在坐标格式差异 包括经纬度与相对坐标[14] - 通过规则化方法剔除不合理轨迹数据[14] - 统一转换为自车坐标系下的相对位移进行数据对齐[18] - 输入为图像和前1.5秒轨迹点 输出未来5秒轨迹点[20] 模型训练与性能 - 经过数据训练后模型输出格式符合性显著提升[8] - 通过QA训练获得多模态轨迹预测和场景理解能力[11] - 具备动态物体轨迹预测能力 包括车辆行人运动预测[11] - 新增端到端预测任务确保数据完整性[20] 社区资源与技术覆盖 - 知识星球涵盖40+技术方向包括多模态大模型和端到端自动驾驶[22] - 社区成员来自头部自驾公司和高校实验室 超4000人规模[24] - 提供近40个技术路线图和学习入门路线[24] - 包含自动驾驶数据集汇总与仿真工具资源[27] - 建立与多家自动驾驶公司的岗位内推机制[29]
谈谈Diffusion扩散模型 -- 从图像生成到端到端轨迹规划~
自动驾驶之心· 2025-09-06 11:59
扩散模型技术原理 - 扩散模型是一种生成式模型 本质是通过去噪过程学习数据分布 噪音符合特定分布 [1] - 模型原理基于对数据分布的学习和模拟 包含正向扩散过程和反向生成过程 [2] - 开山之作自2020年提出 目前引用量已超过20000次 [2] 扩散模型在自动驾驶领域的应用 - 应用主要集中在数据生成 场景预测 感知增强和路径规划等方面 [11] - 可对连续分布噪音和离散分布噪音进行去噪 适用于决策规划等离散问题 [11] - 在端到端和VLA架构中都发挥重要作用 [11] 端到端自动驾驶课程技术体系 - 课程涵盖多模态大模型 BEV感知 强化学习 视觉Transformer 扩散模型等核心技术 [21] - 第二章包含大语言模型 BEV感知 扩散模型理论 强化学习与RLHF等关键技术栈 [18][27] - 扩散模型多模轨迹预测成为学术界和工业界追捧的热点 多家公司尝试落地 [33][34] 课程章节内容设计 - 第一章介绍端到端自动驾驶发展历史 技术范式演变及业界动态 [27] - 第二章重点讲解端到端涉及的背景知识 为后续章节奠定基础 [27] - 第三章聚焦二段式端到端 分析PLUTO CarPlanner和Plan-R1等经典与前沿工作 [28] - 第四章深入一段式端到端子领域 包括基于感知 世界模型 扩散模型和VLA的方法 [29] - 第五章设置RLHF微调大作业 提供预训练和强化学习模块的实战指导 [38] 实战项目安排 - 包含Diffusion Planner实战项目 适用于求职应用场景 [33] - 基于小米ORION的VLA实战 揭开自动驾驶VLA神秘面纱 [36] - RLHF微调作业具有良好延展性 可迁移到VLA相关算法中 [38] 技术人才市场需求 - VLA/VLM大模型算法专家薪资达40-70K-15薪 [19] - 多模态VLA大模型方向顶尖技术人才薪资达90-120K-16薪 [19] - VLM/VLA大模型算法工程师薪资35-65K [19] - VLM实习生日薪220-400元 [19] 课程特色与目标 - 基于Just-in-Time Learning理念 帮助学员快速掌握核心技术栈 [22] - 构建端到端自动驾驶研究框架 提升论文分类和创新点提取能力 [23] - 学完可达1年左右端到端自动驾驶算法工程师水平 [43] - 可复现扩散模型 VLA等主流算法框架 应用于实际项目 [46]
锦秋基金被投地瓜机器人:从VGGT到数据闭环,具身智能的突破与探索
锦秋集· 2025-09-03 04:30
文章核心观点 - 人工智能正经历从自动驾驶向具身智能的范式转变 机器人行业处于早期发展阶段 硬件形态和算法框架尚未统一 但技术迁移和VGGT等新模型带来突破机遇[5][6][7] - 地瓜机器人作为行业代表 承接自动驾驶技术经验 横跨机器人1 0到3 0代际 通过差异化路径探索通用人形机器人的未来[6][18][19] - VGGT模型可能改变未来十年3D视觉技术架构 其视觉几何基础能力可提升机器人定位 避障和操作任务的泛化性 并降低硬件成本[51][62][64] 从自动驾驶到机器人:技术迁移与挑战 - 自动驾驶技术栈已进入工程收敛期 端到端成为主流 后续更多是工程优化 而机器人处于早期未解之地 硬件形态和算法框架尚未统一 数据规模远小于汽车行业[5][8][10] - 机器人硬件缺乏统一标准 存在轮式 双足 双臂 灵巧手等多种形态 自由度从7到20+不等 导致无法形成大规模保有量和数据积累[10][14] - 算法尚未完全收敛 VLA模型不一定是未来技术框架 模型和数据都未达到ready状态 具身智能需要通用性 当前工厂封闭环境下的搬运等应用不算真正具身[11][12][13] - 自动驾驶经验正迁移至机器人 包括芯片 视觉 标注与数据闭环能力 但最大挑战是硬件不确定性导致难以积累数据和快速迭代算法[14][17][21] 自动驾驶算法的演进:从BEV到Transformer - 2019年前自动驾驶采用模块化方法 图像感知用AI完成 后续跟踪 预测 决策等几乎都是规则化方式 适应能力不强 工程难度大[25][26] - 2019年后BEV发展 通过传感器数据特征融合直接输出3D空间目标 减少后处理环节 使系统更加端到端 Transformer在其中发挥特征融合作用 实现空间转换和时序融合[26][27] - Transformer适合跨传感器融合 可将自车位姿 GPS IMU 激光雷达等数据token化后与图像特征融合 简化系统并避免信息损失[27][28] - 4D标注系统(3D加时序)帮助生成训练数据提升BEV模型 数据闭环通过双系统设计快速回传bad case 高效提升模型性能[29][30] 机器人落地的现实困境与技术路径选择 - 当前VLA主要处于"秀肌肉"的验证阶段 离真正落地还有距离 需要稳定性 成功率和成本控制 封闭场景仍多用规则算法[33][34][35] - 务实路线是端到端模型提proposal后用规则化方法选最优方案 模型方法上限高但下限低 需规则兜底 类似自动驾驶发展路径[35][48] - 现阶段的1 0和2 0机器人承接不住自动驾驶算法 因缺乏舒适性要求(如割草机 扫地机) 唯一需要模型协助的是脱困等特殊场景[36][37][38] - 特斯拉是人形机器人方向旗手 其纯视觉方案体验最好 得益于数据闭环和模型积累 关键看如何搭建数据闭环并提升出货量规模[39][40][42] VGGT模型的技术突破与行业影响 - VGGT是视觉几何基础模型 基于Transformer架构 用大数据和大模型方法解决传统3D几何问题 可能改变未来十年3D视觉技术架构[51][56][67] - 在公开数据集上表现接近或超过传统方法最佳水平(如COLMAP) 重建精度高 其backbone具备空间感知能力 可提升下游任务泛化性[62][69][82] - 使纯视觉方案有望替代深度相机 普通RGB相机价格仅十几到几十元 深度相机则需几百到几千元 可显著降低机器人BOM成本[64][65] - 目前处于早期预研阶段 未形成共识 训练用了17个公开数据集 数据量估计百万到千万级 模型大小1 2B 算力需求可控[72][73][74] - 最先受益的是封闭空间机器人 如工业搬运或自动驾驶地库场景 因主要依赖视觉定位和避障 无GPS[75] - 主要不足是尺度问题和时序问题 需要多传感器融合提供尺度信息 且需改造为时序化SLAM方案以适应实时需求[81] 行业生态与人才培养 - 地瓜机器人与全国200多所高校合作 甚至延伸至中学 通过开发者套件和可视化编程培养年轻开发者 12岁初中生已能开发机器人[93][95][96] - 生态建设是长期战略 类似英伟达培养开发者习惯 从学校阶段开始使用工具 未来进入公司会倾向继续使用相关开发工具和芯片[97] - 在具身智能方向主要竞争对手是英伟达 已推出RDK S100和S600产品 其中RDK S100已上市 凭借智能驾驶技术积累快速响应需求[98]
Tier 1一哥博世端到端终于走到量产,还是一段式!
自动驾驶之心· 2025-08-30 16:03
文远知行一段式端到端ADAS解决方案 - 文远知行发布一段式端到端ADAS解决方案WePilot AiDrive 年内量产上车[5][9] - 方案采用单一模型从传感器数据输入端直接输出行车轨迹 实现更短路径、更快反应和更高容错率[10][24] - 与博世合作量产 目标是将高阶智能辅助驾驶能力普及到各价位车型[8][41][44] 技术优势与实测表现 - 在广州城区道路实测中 系统在城中村复杂场景(行人、电动车、临时修路)下表现稳定[11][12] - 夜间逆光环境下成功识别横穿马路行人并及时避让[14] - 变道路线规划平顺 无保护转弯场景下能兼顾行车效率与安全性[16][19][21] - 隧道光照不佳时保持安全跟车距离的同时快速超越慢车[23] 与传统端到端方案差异 - 传统方案采用感知与规控分离的双模型架构 存在数据传递损失和规则依赖问题[27][29][30] - 新方案直接学习输入数据与输出轨迹的映射关系 通过强化学习迭代提升性能[33] - 摆脱规则依赖 避免系统泛化性低和驾驶逻辑不一致的问题[32] 技术实现与行业意义 - 采用通用AI司机基座大模型 复用L4级Robotaxi算法和数据训练架构[33] - 系统延迟需满足10Hz实时性要求 当前VLA方案在1000TOPS算力下延迟达530ms(约2Hz)[39][40] - 中国市场标配高阶智驾车型占比不足20% 方案旨在推动L2+越过价值拐点[42][44] - 技术目标为实现L4与L2架构统一 消除地理围栏限制[35]
华为坚定不走VLA路线,WA才是自动驾驶终极方案?
自动驾驶之心· 2025-08-29 16:03
华为汽车业务成绩与规模 - 截至7月搭载华为乾崑智驾车辆达100万辆 激光雷达发货量超100万台 辅助驾驶累计里程40亿公里 [3] - 截至8月底共有28款合作车型上市 涵盖五个界及阿维塔 深蓝 岚图 猛士 传褀 方程豹 奥迪等品牌 [3] - 车BU从2014年开始投资 历时超十年投入大量研发资源后实现当期盈利 [4] 技术路线战略 - 坚持WA(世界行为模型)技术路线 认为VLA(感知语言行为模型)非自动驾驶终极方案 [4][13] - WA通过vision等直接信息输入控车 无需转换为语言token 可能整合视觉 声音 触觉等多模态数据 [5][14] - 基于WA架构推出WEWA模型(云端世界引擎+世界行为模型) 将于ADS4.0部署 [6] - 辅助驾驶依赖数据驱动 算力与算法 未来行业需公共智能化平台 [15] 商业化与收费模式 - 辅助驾驶收费合理 因需持续迭代维护OTA投入成本 [8][17] - 免费辅助驾驶实为支付方式转移 或限时免费 或成本包含在车价中 或功能不完善 [7][17] - 采用全生命周期管理理念 用户初期购买成本高但长期体验更优 折算后成本不高 [8][18] 产品开发与用户体验 - 匹配新车型最快需6-9个月 [17] - 坚持全栈模式 软硬件充分耦合 保障鸿蒙座舱与乾崑智驾体验及维护升级 [10] - 鸿蒙座舱基于MoLA架构横向打通垂域 纵向打通应用生态与硬件设备 [10] 技术配置与安全理念 - 增加激光雷达等传感器配置为提升安全性 追求零伤亡事故 [19][22] - 例如尊界S800增加侧向与后向固态激光雷达 使系统精度达厘米级 避免泊车事故 [19][20] - 配置增加由用户场景驱动 如识别坑洼农田等复杂环境 [21][22] 未来发展规划 - 2026年辅助驾驶目标具备高速L3能力及城区L4试点能力 [11] - 2027年目标无人干线物流试点及城区L4规模化商用 [11] - 2028年目标无人干线物流规模化商用 [11] - 智能座舱方向发展为"数字保姆"与AI Agent [11]
车展季·大咖说丨VLA计划9月“上车” 何小鹏谈与特斯拉市值差距:智能化能力尚未完全体现
每日经济新闻· 2025-08-28 15:18
全新小鹏P7上市与定位 - 全新小鹏P7推出4款Ultra版本车型,售价区间21.98万~30.18万元,全系无低配配置 [1] - 公司定位P7为图腾车型,目标重回20万元以上纯电轿车市场销量前三,与小米SU7、特斯拉Model 3等竞争 [1][2][5] - 上市7分钟内获得超1万辆大定订单,产能爬产节奏为历史最快,已有上千辆车发往全国 [5] 市场竞争与销量目标 - 20万~25万元纯电轿车市场1~7月累计销售34.1万辆,同比增长60%,其中小米SU7和特斯拉Model 3占据79%份额 [2] - 进入细分市场前三需月销达4200辆左右 [5] - 公司预计第四季度实现首次季度盈利,P7有望提升整体毛利率 [5] 技术投入与智能化布局 - 全新P7搭载3颗图灵AI芯片,其中2颗用于VLA全场景智能辅助驾驶系统,计划9月通过OTA上线 [6] - 公司今年在VLA领域投入接近50亿元,预计未来年研发费用达500亿元,其中300多亿元投向AI领域 [10] - 年底VLA更新后辅助驾驶能力预计比现有第一阵营强10倍以上 [7] 战略方向与行业观点 - 公司强化车型颜值与智驾能力,目标覆盖10万~200万元市场,明年后年为新产
具身智能之心技术交流群成立了!
具身智能之心· 2025-08-28 08:36
具身智能技术社群成立 - 行业成立具身智能之心技术交流群 重点关注视觉语言导航 视觉语言动作 遥操作 扩散策略 强化学习 仿真到现实迁移 多模态大模型 运动控制 目标导航 建图定位等技术方向[1] - 行业社群面向机构及学校研究人员开放 需通过指定联系方式备注机构名称 个人姓名及研究方向完成入群申请[2][3]
自动驾驶之心业务合伙人招募来啦!模型部署/VLA/端到端方向~
自动驾驶之心· 2025-08-28 08:17
业务拓展计划 - 公司计划在国内外招募10名业务合伙人[2] - 合伙人将负责自动驾驶相关课程研发、论文辅导业务开发及硬件研发[2] 技术研究方向 - 重点招募方向包括大模型/多模态大模型、扩散模型、VLA、端到端自动驾驶[3] - 涵盖具身交互、联合预测、SLAM及3D目标检测领域专家[3] - 需要世界模型、闭环仿真3DGS、大模型部署与量化感知推理等专业人才[3] 人才资质要求 - 要求应聘者来自QS200以内高校且具有硕士及以上学历[4] - 优先考虑拥有顶会论文发表记录的候选人[4] 合作激励机制 - 提供自动驾驶行业资源共享包括求职、读博及出国留学推荐[5] - 设立丰厚的现金激励方案[5] - 开放创业项目合作与推荐机会[5]