自动驾驶之心

搜索文档
不管VLA还是WM世界模型,都需要世界引擎
自动驾驶之心· 2025-09-13 16:04
端到端自动驾驶定义 - 学习单一模型直接将原始传感器输入映射到驾驶场景并输出控制指令 取代传统模块化管道 [3] - 训练流程包括监督学习 模仿学习或强化学习 通过大量标注数据或奖励设计实现 [3] - 涵盖当前VLA和世界模型等技术方向 属于自动驾驶算法最广概念 [6] 技术发展路线 - 从20多年前黑白图像输入起步 经历条件模仿学习 泛化 可解释性网络等阶段 [8] - 当前处于1.5代端到端自动驾驶阶段 基于基础模型解决长尾问题 [10] - 分化出两大分支:世界模型分支(扩散管道/视频生成模型)和VLA分支(大型语言模型应用) [11] 世界模型分支技术 - 包含Drive Dreamer Cosmos Predict One和导航世界模型等具体应用 [11] - Gaia 2作为视频生成模型 利用多视图图像预测不同类型视频 提升驾驶安全性与自动化 [11] - 通过多模态动作预测实现真实感和多样性生成 [11] VLA分支技术 - Java LM采用"草图维基"方式增强驾驶场景理解 [11] - Lingo Tool和Job VRM利用基础模型提升准确性 但存在延迟较高问题 [11] - 通过大小模型协同工作预测多数情况 优化系统性能 [11] 部署挑战与数据需求 - 需要处理大量生产问题和工程工作 进入第二代发展阶段 [14] - 特斯拉FSD追踪器显示MPI指标年度增长 数据量增加使模型持续优化 [18] - 剩余20%长尾问题需海量数据 危险案例收集成本昂贵且可能危及生命 [18] 世界引擎解决方案 - 通过极端情况生成和安全关键场景构建 大幅降低数据收集成本 [21] - 包含数据引擎和算法引擎 生成大量训练场景并改进端到端算法 [24] - 通过环境交互与行为建模 实现从失败中学习并优化规划器 [21] 技术路径对比 - 世界模型概念覆盖范围更广但实施存在不确定性 [25] - VLA被视为更切合实际的技术路径 世界模型为终极目标 [25] - 需警惕概念包装与实际技术内容不符的情况 [25]
如何准备RL面试相关的问题?
自动驾驶之心· 2025-09-12 16:03
GRPO策略类型分析 - GRPO最初设计和常用实现是在线策略(on-policy)方法 其优势估计依赖于当前策略生成的样本[3][6] - 通过重要性采样等技术可扩展为离线策略(off-policy)版本 已有工作研究这种扩展在样本效率和稳定性方面的权衡[3][4] - 原始GRPO使用当前策略生成的一组候选完成来计算组内相对优势 并在此批次上构造类似PPO的代理目标更新策略[5][6] 重要性采样技术 - 重要性采样是离线策略评估的核心方法 通过行为策略数据评估目标策略价值[8] - 核心公式使用重要性权重修正分布差异 单步权重为$w_t=\frac{\pi_t(a_t|s_t)}{\pi_b(a_t|s_t)}$ 轨迹权重为$W_T=\prod_{t=0}^T w_t$[12][13] - 加权重要性采样通过归一化权重降低方差 公式为${\hat{V}}^{\pi_t}(s_0)=\sum_{i=1}^N\left(\frac{W_T^{(i)}}{\sum_{j=1}^N W_T^{(j)}}\right)\cdot G_0^{(i)}$[16] GSPO与DAPO算法改进 - GSPO解决GRPO/PPO在长序列训练中的高方差问题 将重要性比率提升到序列级并做长度归一化[18][22] - DAPO针对长思维链训练提出四项工程技术:非对称裁剪 动态采样 token级策略梯度损失和过长奖励整形[20][24] - GSPO目标函数为$J_{\mathrm{GSPO}}(\theta)=\mathbb{E}_{x\sim D,\{y_i\}\sim\pi_{\mathrm{id}}}\left[\frac{1}{G}\sum_{i=1}^G\operatorname*{min}\Bigl(s_i(\theta)\hat{A}_i,\mathrm{clip}(s_i(\theta),1-\varepsilon,1+\varepsilon)\hat{A}_i\Bigr)\right]$[23] 熵崩溃问题与解决方案 - 熵崩溃指策略熵急速下降导致确定性输出 在训练阶段需要避免以保持探索能力[27][33] - 解决方案包括熵正则化 KL约束 非对称裁剪 动态采样和序列级重要性比率[32][37] - 监控指标包括策略熵曲线 KL距离变化和奖励分布特征[35][36] 奖励劫持与熵崩溃关系 - 奖励劫持是目标错位问题 熵崩溃是策略行为失衡症状 二者常相互强化形成恶性循环[41][51] - 奖励劫持导致策略快速确定化 熵崩溃使系统难以跳出奖励劫持的局部最优[43][44] - 解决方案需从奖励设计和训练稳定性两端入手 包括修正奖励函数 增加惩罚项和使用多样化评价信号[47][51] MLA加速推理技术 - MLA通过低秩潜在向量压缩Key/Value 只缓存潜在向量而非完整K/V[52][55] - 在内存带宽受限场景可减少45% KV缓存内存 实现1.3-1.8倍推理加速[52][64] - 技术实现包括潜在向量压缩和实时上投影计算 公式为$C_t = X_t W_C$ $K = C W_{K\_up}$ $V = C W_{V\_up}$[54][61]
AI Agents与Agentic AI的范式之争?
自动驾驶之心· 2025-09-12 16:03
AI智能体发展演进 - ChatGPT于2022年11月发布彻底改写AI发展轨迹 AI Agents与Agentic AI搜索热度自2022年底起持续飙升 [2][4] - 早期智能体如20世纪70年代MYCIN系统依赖符号推理和预设规则 缺乏学习能力和自主适应性 [10] - 多智能体系统MAS与BDI架构在1999年后发展 智能体被定义为具备自主性 感知力与通信能力的实体 但仍受预编程限制 [11] - 2023年AutoGPT BabyAGI等框架标志AI Agents落地 结合LLM与外部工具自主完成多步骤任务 [12] - 2023年底CrewAI MetaGPT系统推动进入Agentic AI阶段 多专业智能体协同分工 [12] - 谷歌2025年提出Agent-to-AgentA2A协议 制定五大核心原则 包括发挥智能体能力 保障交互安全 支持长期任务等 [12] AI Agents核心定义与特征 - AI Agents是由LLM和LIM驱动的模块化系统 用于特定任务自动化 填补生成式AI只会说不会做的空白 [13] - 具备三大核心特征 自主性无需持续人工干预 任务特异性聚焦单一明确领域 反应性能响应动态环境变化 [16][17] - 技术基石为LLM与LIM双引擎驱动 LLM承担推理与决策中枢角色 LIM延伸视觉感知能力 [21] - 工具集成解决LLM静态知识和幻觉问题 过程分为调用-结果整合两步 ReAct框架实现推理与行动交替 [19] - Anthropic的Computer Use项目让Claude模型操作电脑 通过目标-行动-观察循环完成任务 [18] - AutoGPT处理产品市场分析时依次调用网页搜索 Excel 报告生成工具 GPT-Engineer自动生成代码并测试运行 [20] Agentic AI系统级突破 - Agentic AI是多智能体协作革命 核心在于通过多智能体协作解决复杂任务 实现从孤立执行到协同决策的范式转变 [24][27] - 与AI Agents的本质区别在于引入系统级智能 具备动态任务分解 多智能体分工 协同与适应三大能力 [33] - 架构依赖协调层与共享记忆双支柱 协调层由元智能体担任 共享记忆分为情景记忆 语义记忆和向量记忆 [36] - 多智能体科研助手如AutoGen框架自动分配检索 总结 整合 写作 引用智能体协作撰写综述 [37] - 智能机器人协调在果园采摘场景中 包含无人机测绘 采摘机器人 运输机器人和路径规划智能体 [37] - 医疗决策支持在ICU场景中 由监测 病史 治疗和协调智能体构成 减少医生认知负担和误判风险 [38] 应用场景对比 - AI Agents适用于客户服务聊天机器人 虚拟助手 自动化工作流程等单一明确任务 [28][30] - Agentic AI适用于供应链管理 业务流程优化 虚拟项目经理等复杂多步骤任务 [28][30] - AI Agents在企业场景中应用于客户支持 电子邮件筛选 个性化内容推荐 自主日程助手等模块化任务 [41] - Agentic AI在科学 农业 医疗 信息技术安全等领域实现可扩展自主化任务协同 如自动化基金申请 果园采摘 ICU临床决策 网络安全事件响应 [43] 技术挑战与解决方案 - AI Agents面临因果推理缺失 LLM固有缺陷幻觉 知识滞后 提示敏感性 长期规划能力弱等痛点 [50] - Agentic AI新增误差传递 协调瓶颈 涌现行为不可预测 可解释性差等挑战 [50] - 十大核心解决方案包括检索增强生成RAG ReAct框架 因果建模 共享记忆架构 元智能体协调 工具验证机制 程序式提示工程 反思机制 监控与审计pipeline 治理架构 [49][52][53] 未来发展路线 - AI Agents进化重点包括提升主动推理能力 深化工具集成 强化因果推理与持续学习 [57] - Agentic AI突破方向包括规模化多智能体协作 领域定制化 伦理治理 [57] - 颠覆性探索如Absolute ZeroAZR框架实现零数据学习 智能体自主生成任务并验证优化 [57] - 终极方向是从自动化工具进化为人类协同伙伴 需突破因果推理深度化 可解释性透明化 伦理安全体系化三大瓶颈 [58][59]
迎来生死线拐点的蔚来,又拿了70亿......
自动驾驶之心· 2025-09-12 16:03
融资概况 - 蔚来近期成功完成一次大规模股权融资,发行1.818亿股A类普通股及ADS,融资总额达10亿美元(约71.2亿元人民币)[11][12] - 融资由摩根士丹利、瑞银证券、德意志银行等国际顶级投行承销,并在公告当日迅速完成认购[11][12] - 参与机构包括来自美国、英国、瑞士、挪威及亚洲的知名长线投资机构[6][15] 资金用途 - 资金将主要用于智能电动汽车核心技术研发,包括辅助驾驶技术、智能座舱和下一代电驱系统[17] - 部分资金将用于开发新一代技术平台与车型,并扩大充换电网络[18] - 另有部分资金用于优化财务状况和强化资产负债表,以支撑长期战略投入[18] 财务状况分析 - 公司上半年末总资产1000.46亿元,总负债934.3亿元,资产负债率达93.4%,较上年同期79.4%上升14个百分点[23] - 流动负债622.82亿元,高于流动资产525.08亿元,应付贸易款与票据达349.51亿元[24] - 现金储备为272亿元,较2024年末419亿元显著下降,短期偿债能力承压[26][27] 经营表现与目标 - 第二季度交付车辆72,056辆,同比增长25.6%,环比增长71.2%,创历史同期新高[36] - 综合毛利率从Q1的7.6%回升至Q2的10.0%,净亏损49.95亿元,但同比和环比均收窄[37] - 公司目标在第四季度实现盈利,需将毛利率从10%提升至16%-17%,并依赖销量持续攀升[32][34] 历史融资能力 - 公司成立11年来累计进行至少18次融资,加上多地IPO,累计筹资接近千亿元[43] - 2024年内融资总额已超百亿元,包括半年前以每股29.46港元配售股份融资35亿港元[43] - 对比其他新势力,蔚来在融资次数和规模上均处于行业前列,超过小鹏(约750亿元)和理想(约830亿元)[45][46] 市场与资本信心 - 资本看好蔚来的长期故事,将其类比为新能源领域的"亚马逊",注重基建与用户体验[49][51] - 融资能力得益于创始人圈内资源积累及机构对技术路线和战略布局的认可[47][48]
想跳槽去具身,还在犹豫...
自动驾驶之心· 2025-09-12 16:03
自动驾驶技术方向与职业发展 - 研一学生在感知背景下面临端到端VLA、具身智能或自动驾驶方向选择 需考虑本科电子通信背景及2-3年后就业前景[1] - 行业关注智驾与具身智能的转换可行性 以及持续学习方向的发展潜力[2] - 技术转型涉及从基于规则到端到端的组织与人员调整过程[2] 行业领先企业与成功要素 - 新势力公司存在裁员情况[1] - 行业关注Momenta等智能驾驶企业的成功关键因素[2] - 传统主机厂如长安、东风、比亚迪、吉利、蔚来在智驾领域的发展受关注[2] 技术发展趋势与就业选择 - 行业讨论L2+L3与L4发展方向的前景比较[2] - 端到端VLA算法主机岗与L4 Robotaxi决策规划岗位的就业选择[2] - 感知迭代快速导致部分从业者考虑转向相对稳定的部署岗位[2] 关键技术应用与仿真 - 3DGS在自动驾驶和具身智能中的应用程度受关注[2] - 各家公司的闭环仿真发展状况被讨论[2] - 感知后处理与多目标融合技术仍具应用价值[2] 社区资源与学习体系 - 自动驾驶之心知识星球拥有超过4000名成员 覆盖近40+技术方向学习路线[5][8] - 社区提供端到端入门、多模态大模型、数据闭环工程实践等实用问题解答[5] - 与近300家机构及自动驾驶公司建立内推机制 提供岗位对接服务[11] 技术领域细分与资源整合 - 汇总国内外自动驾驶高校实验室及企业资源 包括RoboTaxi、重卡、新势力等领域[26] - 整理自动驾驶与CV相关书籍、开源项目及数据集 涵盖3D检测、BEV感知、世界模型等方向[27][28] - 端到端自动驾驶技术梳理兼顾学术界与工业界 包含一段式、二段式及量产方案[29] 前沿技术聚焦 - 3DGS与NeRF技术应用于自动驾驶场景重建与闭环仿真[30] - 自动驾驶世界模型作为学术界与工业界热点 涵盖技术前沿与业界应用[31] - 视觉语言模型(VLM)汇总最新综述、开源数据集及量产方案如DriveVLM[32][33] 量产技术与核心模块 - 自动驾驶VLA技术梳理涵盖2025年最新综述、开源数据集及量产讨论[34] - 在线高精地图作为无图NOA量产方案核心 受学术界与工业界重点关注[41] - BEV感知作为量产基石 覆盖纯视觉、多模态融合及工程部署方案[38] 行业活动与专家交流 - 社区举办超过100场专业技术直播 分享VLA、世界模型、3D检测等前沿工作[55] - 邀请学术界与工业界大佬探讨自动驾驶发展趋势及量产痛点[6] - 会员可获取独享福利视频教程 涵盖世界模型、自动驾驶大模型等技术领域[52]
死磕技术的自动驾驶黄埔军校,三年了!
自动驾驶之心· 2025-09-12 10:28
能让学习变得有趣,一定是件了不起的事情。能推动行业发展,成为企业和高校沟通的桥梁,就更伟大 了!1个月前,在和朋友聊天的时候说过,我们的愿景是让AI与自动驾驶走进每个有需要的同学。 自动驾驶之心知识星球,截止到目前已经完成了产业、学术、求职、问答交流等多个领域的闭环。几个运 营的小伙伴每天都在复盘,什么样的社区才是大家需要的?我们有没有什么地方没有考虑到?花拳绣腿的 不行、没人交流的也不行、找不到工作的更不行。于是我们就给大家准备了学术领域最前沿的内容、工业 界大佬级别圆桌、开源的代码方案、最及时的求职信息... 星球内部为大家梳理了近40+技术路线,无论你是咨询行业应用、还是要找最新的VLA benchmark、综述和 学习入门路线,都能极大缩短检索时间。星球还为大家邀请了数十位自动驾驶领域嘉宾,都是活跃在一线 产业界和工业界的大佬(经常出现的顶会和各类访谈中哦)。欢迎随时提问,他们将会为大家答疑解惑。 我们是一个认真做内容的社区,一个培养未来领袖的地方。 『自动驾驶之心知识星球』目前集视频 + 图文 + 学习路线 + 问答 + 求职交流为一体,是一个综合类的自驾 社区,已经超过4000人了。我们期望未来2 ...
万字长文!首篇智能体自进化综述:迈向超级人工智能之路
自动驾驶之心· 2025-09-11 23:33
自进化智能体综述核心观点 - 大语言模型本质上是静态的 无法在面对新任务 不断进化的知识领域或动态交互环境时调整其内部参数 这已成为开放交互式环境部署的关键瓶颈[2][3] - 自进化智能体代表人工智能领域的范式转变 从扩展静态模型转向开发能够从数据 交互和经验中持续学习与适应的系统 这是通往人工超级智能(ASI)的关键路径[3][4] - 综述首次系统性地围绕三个基础维度组织该领域:进化对象(what) 进化时机(when)和进化机制(how) 为理解与设计自进化智能体提供结构化框架[3][6] 进化对象(What to Evolve) - 智能体系统可分解为四个基本进化支柱:模型(推理和行为参数) 上下文(指令和长期记忆) 工具集(外部技能创建和管理) 以及架构(系统协作结构)[19] - 进化机制涵盖策略 经验 提示 记忆 工具创建与掌握 架构选择等多个维度 不同方法在各维度有不同侧重 例如Mem0在7个维度均有进化 MAS-Zero侧重模型和经验进化[20] 进化时机(When to Evolve) - 按时间阶段分为测试时内自进化(任务执行期间实时适应)和测试时外自进化(任务完成间利用积累经验提升未来表现)[22] - 测试时内进化具有在线性 学习数据动态产生且直接针对当前问题 测试时外进化具有回顾性 作用于历史数据旨在提高任务分布预期性能[23] - 进化依赖三种基本学习范式:上下文学习(ICL) 监督微调(SFT)和强化学习(RL) 在不同时间背景下数据可用性和学习目标存在差异[23] 进化机制(How to Evolve) - 主要方法家族包括基于奖励的进化(标量奖励 自然语言反馈 外部信号) 模仿与示范学习(高质量范例学习) 以及基于群体和进化的方法(选择 变异 交叉等机制)[27] - 不同方法在反馈类型 数据源 奖励粒度 样本效率 稳定性和可扩展性等方面存在显著差异 例如基于奖励的方法对奖励设计敏感 模仿学习受示范质量影响大 群体方法资源密集但可扩展性好[29] 应用场景(Where to Evolve) - 应用系统分为通用领域进化(数字领域各种任务能力扩展)和专用领域进化(特定领域专业知识深化) 前者侧重经验迁移 后者侧重领域深化[31] - 关键应用领域包括自主软件工程 个性化教育 医疗保健和智能虚拟助手等 持续适应和进化在这些领域至关重要[10][38] 评估体系(Evaluation) - 评估需超越传统静态系统 涵盖随时间推移的适应能力 知识积累与保留 长期泛化能力以及技能迁移 同时减轻灾难性遗忘[34] - 现有基准如ScienceAgentBench(102任务) SWE-bench(2,294任务) WebShop(12,087任务)等 在任务领域 核心指标和时空范围上各有侧重[36] - 个性化评估需开发更轻量级 适应性指标和动态基准 传统ROUGE和BLEU等指标无法充分捕捉动态进化特性[39] 技术挑战与研究方向 - 泛化能力面临专业化与广泛适应性矛盾 需可扩展架构设计 跨领域适应技术(测试时扩展 推理时适应)以及持续学习与灾难性遗忘解决方案[40][42] - 安全与可控性需应对用户相关风险和环境风险 通过智能体宪法 安全训练算法和隐私保护措施实现平衡部署[43][44] - 多智能体生态系统需平衡个体与集体推理 开发高效算法和自适应框架 并建立动态评估基准反映持续适应和演变交互[45]
自动驾驶世界模型技术交流群成立了
自动驾驶之心· 2025-09-11 23:33
行业动态 - 自动驾驶行业成立世界模型技术交流群 旨在促进技术交流和合作 [1] - 技术交流群专注于世界模型相关内容的讨论和研究 [1]
华为坚定要走的世界模型路线,到底是什么?
自动驾驶之心· 2025-09-11 23:33
世界模型技术路线概述 - 华为、蔚来等公司坚持世界-行为流派(WA),认为世界模型是实现自动驾驶的终极方案,与视觉语言行为模型(VLA)路线形成技术分歧 [2] - 世界模型使智能体能够理解、表示并预测动态环境,研究重点从2D图像转向利用RGB-D图像、占用网格和激光雷达点云等原生3D/4D表示 [5] - 原生3D/4D信号在物理坐标系中编码度量几何、可见性和运动信息,为安全关键系统提供多视图一致性、刚体运动学和场景级遮挡推理等能力 [9] 3D/4D表示方法 - 视频流表示为多帧序列,强调几何一致性和时间连贯性以确保物理合理的仿真 [19] - 占用网格使用体素指示空间占用状态,时序占用网格扩展到4D捕捉场景演变,能强制执行空间约束 [20] - 激光雷达点云直接捕捉几何信息且不受纹理、光照或天气变化影响,时序激光雷达记录时间戳实现对运动的精确建模 [22] - 神经表示如神经辐射场(NeRF)和高斯溅射(GS)对连续体素场或显式高斯基元进行建模,时间扩展版本添加动态组件实现4D重建 [23] 世界模型功能分类 - 数据引擎在几何和语义条件下生成多样化场景,用于大规模数据增强和场景创建 [29][33] - 动作解释器基于历史观测和动作条件预测未来世界状态,实现动作感知的预测 [30][33] - 神经仿真器通过生成连续场景状态迭代仿真智能体与环境的闭环交互 [31][33] - 场景重建器从部分观测中恢复完整连贯的3D/4D场景,用于高保真建图和数字孪生修复 [34][35] 生成模型技术 - 变分自编码器(VAEs)通过概率编码和解码学习结构化latent空间,训练稳定但生成样本较模糊 [37] - 生成对抗网络(GANs)通过生成器和判别器的极小极大博弈生成数据,能产生高保真样本但训练不稳定 [38] - 扩散模型通过学习逆转逐步加噪过程实现生成,具有较强的稳定性和样本质量但推理速度较慢 [39][40] - 自回归模型将联合分布分解为条件概率乘积,适合序列生成但计算复杂度高 [41] 视频生成世界模型 - 基于视频的生成模型通过提供视觉线索和时间动态建模复杂场景,分为数据引擎、动作解释器和神经仿真器三类 [44] - 感知数据增强方法如BEVGen采用自回归Transformer生成与BEV布局空间对齐的环境图像,MagicDrive结合3D几何和语义描述生成高保真图像 [47] - 动作引导的视频生成如GAIA-1融合视频、文本和动作输入合成真实驾驶场景,GAIA-2扩展框架纳入智能体配置和环境因素 [50] - 闭环仿真器如DriveArena构建包含交通合成和自回归场景生成的框架,DreamForge通过物体级位置编码增强长时程建模能力 [54] 占用生成世界模型 - 基于占用的生成模型提供以几何为中心的表示,对3D世界的语义和结构细节进行编码,分为场景表示器、占用预测器和自回归仿真器 [56] - 3D感知鲁棒性增强方法如SSD采用离散和latent扩散模型生成场景级3D分类数据,SemCity通过扩散过程提升几何和语义保真度 [59] - 4D占用预测模型基于自车动作和历史观测预测未来占用状态,EmergentOcc引入可微渲染实现自监督训练,UniWorld结合图像和激光雷达数据学习基础占用模型 [61] - 自回归仿真器生成大规模时间连贯的4D占用,PDD提出尺度可变扩散框架从粗布局到精细细节生成户外场景,XCube采用分层体素latent扩散实现多分辨率生成 [64] 激光雷达生成世界模型 - 基于激光雷达的生成模型提供几何感知且外观不变的表示,在几何保真度和环境鲁棒性方面具有优势,分为数据引擎、动作预测器和自回归仿真器 [67] - 感知数据增强方法如DUSty通过GAN框架合成真实激光雷达扫描,LiDARGen将朗之万动力学应用于点云生成,R2DM利用DDPM过程实现更高精度生成 [70] - 场景补全方法如UltraLiDAR利用VQ-VAE引入离散体素表示实现稀疏到密集补全,LiDiff利用去噪过程重新定位重复点补全遮挡区域 [73] - 时序建模方法如Copilot4D通过VQ-VAE对点云token化并重构为离散扩散模型,以历史帧和未来动作为输入预测未来激光雷达帧 [75] 数据集与评估体系 - 行业采用多模态数据集如nuScenes包含1000个场景140万帧图像和40万帧激光雷达数据,Waymo Open包含1150个场景100万帧图像和23万帧激光雷达数据 [79] - 评估指标包括生成质量指标(FID、FVD)、预测准确性指标(L1 Error、IoU)、规划质量指标(ADE、FDE)和重建质量指标(PSNR)等 [81][83][84] - 感知保真度指标如FPD评估点云几何真实性,FRD评估激光雷达距离图像分布保真度,FSVD评估体素结构保真度 [81] - 时空一致性指标如VCS评估多视角几何一致性,CTC评估CLIP特征时间稳定性,TTCE评估点云运动对齐 [81][83]
扩散模如何重塑自动驾驶轨迹规划?
自动驾驶之心· 2025-09-11 23:33
扩散模型技术原理 - 扩散模型是一种生成式模型 本质是通过去噪过程学习数据分布 噪声符合特定分布 [1] - 原理基于正向扩散和反向生成两个过程 模拟墨水在清水中扩散和恢复的物理过程 [2] - 通过神经网络学习分布规律 从纯噪声中恢复原始数据 [2] - 自2020年提出后已获得超过2万次学术引用 [2] 自动驾驶领域应用 - 应用于数据生成 场景预测 感知增强和路径规划等多个自动驾驶关键环节 [11] - 可处理连续分布噪声和离散分布噪声 适用于决策规划等离散问题 [11] - 在端到端和VLA(Vision-Language-Action)架构中发挥重要作用 [11] - 扩散模型在多模轨迹预测中应用广泛 能更好适应自动驾驶环境的不确定性 [28] 端到端自动驾驶课程体系 - 课程涵盖端到端自动驾驶发展历史 技术范式演变及业界动态 [22] - 重点技术栈包括多模态大模型 BEV感知 强化学习 视觉Transformer和扩散模型 [15][29] - 第二章聚焦背景知识 包含视觉Transformer BEV感知 扩散模型理论和VLM强化学习等核心内容 [29] - 课程设置四大核心章节:端到端算法介绍 背景知识 二段式端到端 一段式端到端与VLA [22][23][24] 技术模块深度解析 - 一段式端到端包含基于感知(UniAD/VAD/PARA-Drive) 世界模型(Drive-OccWorld/OccLLaMA) 扩散模型(DiffusionDrive/Diffusion Planner/DiffE2E)和VLA四大方向 [24][26][28] - 世界模型技术可应用于场景生成 端到端控制和闭环仿真 是近年热门研究方向 [26] - VLA架构融合视觉大语言模型 BEV 扩散模型和强化学习 代表端到端自动驾驶最高技术形态 [31] - 课程配备Diffusion Planner和ORION(小米VLA系统)两大实战项目 [28][31] 课程特色与收益 - 采用Just-in-Time Learning理念 通过案例教学快速掌握核心技术栈 [17] - 帮助构建领域知识框架 提升论文分类和创新点提取能力 [18] - 通过RLHF微调大作业实现理论到实践的完整闭环 [33] - 学员需具备4090及以上GPU算力 及Python/PyTorch 概率论 线性代数基础 [38] - 完成课程可达到1年左右端到端算法工程师水平 掌握主流算法框架并具备项目应用能力 [38][39]