Workflow
自动驾驶之心
icon
搜索文档
刚做了一份VLA学习路线图,面向初学者......
自动驾驶之心· 2025-11-07 16:04
自动驾驶VLA行业趋势 - 自动驾驶VLA是端到端技术之后学术界和工业界聚焦的核心方向,提供了类人思考能力并通过思维链形式展现车辆决策过程,旨在实现更可靠安全的自动驾驶能力 [1] - 传统BEV感知、车道线、Occupancy等方向已相对成熟,行业关注度逐渐下降,自动驾驶VLA成为各家企业急需攻克的主流方案 [4] - 主流自动驾驶企业,包括智驾方案供应商和车企,均在发力自研自动驾驶VLA [4] 自动驾驶VLA技术分类 - 自动驾驶VLA目前可分为三个子领域:模块化VLA、一体化VLA和推理增强VLA [1] - 模块化VLA强调多阶段pipeline(感知→语言→规划→控制),语言模型为规划决策提供信息 [17] - 一体化VLA实现感知→控制的端到端映射,通过单次前向传播直接将传感器输入映射为控制动作,消除模块间耦合延迟 [17] - 推理增强VLA将VLM/LLM置于控制中心,新增推理模块(如Chain-of-Thought、记忆体、工具调用),同步输出控制信号和自然语言解释 [18] 自动驾驶VLA核心技术栈 - 核心内容包括视觉感知、大语言模型、Action建模、大模型部署、数据集制作等 [7] - 涉及最前沿算法包括CoT、MoE、RAG、强化学习等 [7] - 视觉感知涉及BEV感知/动静态检测/OCC及轨迹预测 [18] - 语言模型涉及序列建模/Transformer及vision-language模态对齐算法 [18] - 动作模块包括判别式解码器和生成式解码器如何输出action [18] 行业代表性算法与模型 - 模块化&一体化VLA领域重点讲解华科和小米最新提出的ReCogDrive,其包含预训练、模仿学习训练和强化学习训练三个阶段 [17] - 推理增强VLA领域重点讲解华科&小米ICCV2025中稿的ORION、慕尼黑工大的OpenDriveVLA、上海交通大学的DriveMoE、博世和清华AIR的DiffVLA、UC Berkeley和Waymo中稿CVPR2025的S4-Driver等算法 [18][19][24] - 其他重要算法包括阿里&西交的FutureSightDrive、UCLA的AutoVLA、中科院和华为诺亚的Drive-R1等 [24] 行业实践与部署 - 以Qwen 2.5VL-72为例,讲解如何使用transformers或ms-swift本地部署大模型 [15] - 第五章配套实战选取清华AIR和博世提出的Impromptu VLA,基于开源Qwen2.5 VL进行数据集制作、训练和推理 [20] - 课程大作业要求基于ms-swift框架,自定义数据集和加载模型,开启训练任务并进行微调 [21]
李飞飞团队25年研究大盘点:从视觉理解到具身智能的全景图谱
自动驾驶之心· 2025-11-07 00:05
以下文章来源于深蓝AI ,作者深蓝学院 深蓝AI . 专注于人工智能、机器人与自动驾驶的学习平台。 作者 | 深蓝学院 来源 | 深蓝AI 点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近30个 方向 学习 路线 >>自动驾驶前沿信息获取 → 自动驾驶之心知识星球 本文只做学术分享,如有侵权,联系删文 导读 斯坦福大学 HAI 研究院(Stanford Institute for Human-Centered AI, HAI)由李飞飞教授领衔,是全球人工智能基础研究与社会治理的重要引领力量。 李飞飞现任斯坦福大学首位红杉讲席教授,美国国家工程院、国家医学院及艺术与科学院三院院士,长期专注于计算机视觉、机器学习、认知神经科学 与环境智能系统等方向。她创建的 ImageNet 数据集及相关研究奠定了深度学习在视觉理解领域的核心基础,并推动了"数据驱动 + 认知启发"的研究范式 在全球范围的普及。 在研究思路上,李飞飞团队始终强调"从算法到系统"的全链路创新,致力于通过多模态融合、可解释学习与跨域感知,实现面向真实世界的智能体建模。近年 来,团队的工作从视觉表征学习延伸至多模态生成、具身 ...
理想ICCV'25分享了世界模型:从数据闭环到训练闭环
自动驾驶之心· 2025-11-07 00:05
公司智能驾驶技术发展路线 - 公司智能驾驶发展经历了从规则时代的轻图和无图方案 到基于人工智能的端到端+视觉语言模型快慢双系统和视觉语言自动驾驶方案 导航模块在四个方案中均为重点 [6] - 公司端到端量产版本的MPI已达到220+ 相比2024年7月底的版本提升了约19倍 [13] 数据闭环流程与规模 - 完整的数据闭环流程包括:影子模式验证、数据触发回传至云端、数据挖掘、有效样本自动标注、生成训练集训练模型、模型下发验证性能 [9] - 数据回传过程可在一分钟内完成 [10] - 公司已积累15亿公里的驾驶数据 通过200多个触发器生产时长15至45秒的片段数据 [11] 自动驾驶下半场:从数据闭环到训练闭环 - 行业观点认为自动驾驶进入下半场 核心玩法从数据闭环转向训练闭环 [18][21] - L4级训练循环的核心技术栈为视觉语言自动驾驶+强化学习+世界模型 轨迹由视觉语言自动驾驶的扩散模型和基于世界模型的强化学习共同优化 强化学习包括RLHF、RLVR和RLAIF [23] - 训练闭环关键技术栈包括区域级别仿真、合成数据和强化学习 [24] 训练闭环关键技术细节 - 仿真依赖场景重建技术 包括视觉/激光雷达重建、区域重建、多趟重建、场景编辑和风格迁移 [26] - 合成数据依赖多模态生成技术 包括视频/点云生成和神经渲染 [26] - 强化学习依赖智能体、3D资产以及评测与奖励模型 [26] - 可交互的智能体是训练闭环的关键挑战 [40] - 系统能力是世界模型增强引擎的关键 包括仿真环境、3D资产构建多样化场景、交互式行为建模、奖励模型反馈泛化能力及GPU工程加速推理 [41] 公司在重建与生成领域的进展 - 公司在重建领域已有两篇顶会论文成果 [28] - 公司技术方案从重建发展到生成 其中Feedforward 3DGS方案无需点云初始化 可直接由视觉输入得到结果 [29] - 公司在联合重建与生成领域有一篇顶会论文 [32] - 公司在生成领域有三篇顶会论文成果 [34] - 生成技术的应用包括场景编辑、场景迁移和场景生成 [36]
特斯拉的场景重建值得国内重视,前馈GS才是未来方向......
自动驾驶之心· 2025-11-07 00:05
特斯拉世界模型技术分析 - 特斯拉基于FeedForward Gaussian Splatting实现闭环仿真或世界模型 其算法输入包含视觉视频、导航地图、车辆运动学及音频 输出包含全景分割、3D OCC、3D Gaussian和语言等 这些内容共同推理出行动[2] - 采用FeedForward GS技术后 可直接从视觉输入建模出3D场景 优化时间从传统GS的30分钟大幅减少至220毫秒 且不再依赖点云初始化[4] - 与传统GS相比 特斯拉生成式GS在新视角下的重建效果显著提升 动态目标模糊和伪影问题得到极大优化 车身结构、地面及车辆的重建质量有明显改善[4] - 目前国内尚无公司能达到与特斯拉相媲美的效果 预计国内新势力厂商将对此技术方向加大重视 相关岗位需求可能增多[4][6] 3D Gaussian Splatting技术演进与行业应用 - 3DGS技术迭代迅速 已从静态重建3DGS发展到动态重建4DGS、表面重建2DGS 乃至目前的前馈式3DGS 该技术在学术界和工业界均受到高度重视[7] - 技术领域存在学习门槛 需同时掌握点云处理、深度学习理论、实时渲染及代码实战等多方面知识[7] 专业课程内容概述 - 课程第一章涵盖计算机图形学基础 包括三维空间的隐式与显式表达、渲染管线、光线追踪及辐射场渲染 并介绍3DGS常用开发工具如COLMAP和Gsplat 附带基于3D Real Car训练模型的小作业[11] - 第二章深入讲解3DGS原理算法及核心伪代码 涵盖动态重建、表面重建、鱼眼重建和光线追踪的经典与最新算法 实战部分采用英伟达开源3DGRUT框架[12] - 第三章聚焦自动驾驶仿真重建 重点解析浙大Street Gaussian、上交OmniRe和浙大Hierarchy UGP三篇工作 实战使用DriveStudio框架[13] - 第四章探讨3DGS重要研究方向 包括COLMAP扩展、深度估计及Relighting 并分析其工业界应用与学术前景[14] - 第五章专述前馈3DGS 梳理其发展历程与算法原理 讲解AnySplat和WorldSplat等最新算法工作[15] - 课程采用离线视频教学 配合VIP群答疑及三次线上答疑 开课时间为12月1日 预计两个半月完成全部章节学习[18] 课程面向人群与要求 - 课程面向具备一定计算机图形学基础 了解视觉重建、NeRF、3DGS等技术 并拥有概率论、线性代数及Python、PyTorch语言基础的学员 推荐自备算力在4090及以上的GPU[20] - 学员通过学习可掌握3DGS完善的理论知识及相关技术栈 熟悉算法开发框架并训练开源模型 并能与学术界、工业界同行持续交流 对实习、校招和社招均有助益[20]
需要撕衣验证?全网都吵疯了!小鹏的人形机器人,是不是真人
自动驾驶之心· 2025-11-07 00:05
公司战略转型 - 小鹏汽车在AI Day 2025上正式宣布从造车公司转型为AI公司[10] - 公司基于自研的Xpeng VLA 2.0大模型衍生出一整套AI定义的应用[10] - 小鹏在机器人领域已深耕7年,从四足形态进化到完全类人阶段[11] 人形机器人IRON技术规格 - IRON身高约1.78米,体重70kg,比1X的NEO等机器人更高[12] - 双手拥有22个自由度,仅比人类少5个,能完成叠衣服、擦桌子等精细任务[14] - 全身共有65个自由度,具备类人脊柱运动能力,比NEO多出10个自由度[15] - 机器人采用全新的类人骨骼结构、仿生肌肉系统和全覆盖柔性皮肤,机械感大幅降低[11] - 头部采用3D曲面显示屏作为交互界面,实现更自然的人机交流[25] - 使用全固态电池,但未公布容量或续航数据[27] 人工智能与动力系统 - IRON的灵魂来自小鹏自研的AI大脑,由三颗图灵AI芯片驱动,总算力高达2,250 TOPS[24] - 系统整合了VLT+VLA+VLM三大认知模型,实现视觉感知、语言理解与动作决策的一体化[24] - 机器人背后有运动"小脑"支持,虽然官方未给出更多信息[17] 外观设计与定制化 - IRON外观可定制男性或女性特征,通过柔性3D网格结构与软质皮肤材料实现拟人身体曲线与触感[21] - 采用3D打印的蜂窝网格织物,既提供结构强度又具备柔韧性,触感温柔[22] 商业化计划与应用场景 - 官方计划2026年实现IRON量产,但只会在自有商业场景中使用,如展厅导览员、接待员或销售顾问[31] - 明年在全球小鹏展厅就能看到IRON作为门店员工上岗[33] - 公司将推出IRON SDK,开放开发接口,邀请第三方共创应用场景,首批合作方包括宝钢集团等大型企业[33] - 此前尝试让IRON上生产线拧螺丝,但发现效率低、维护贵、易损坏,暂时不适合规模化生产[31] 行业发展趋势 - 相比特斯拉、1X等公司喊出2026年量产口号,小鹏显得更为克制[31] - 人形机器人进入工厂预计需要3-5年,家庭普及约需5-10年[32]
阿里新研究:统一了VLA和世界模型
自动驾驶之心· 2025-11-06 08:43
WorldVLA模型框架概述 - 提出WorldVLA统一框架,融合视觉语言动作模型与世界模型,旨在让AI理解世界 [1] - 该框架由阿里巴巴达摩院、湖畔实验室和浙江大学共同提出 [1] - 实验结果表明,WorldVLA表现显著优于独立的动作模型与世界模型,体现二者相互增强效应 [2] 技术架构与实现细节 - 基于Chameleon模型初始化,使用三套独立分词器对图像、文本和动作进行编码 [8] - 图像分词器采用VQ-GAN模型,压缩比为16,码本大小为8192 [8] - 对于256×256图像生成256个token,对于512×512图像生成1024个token [8] - 动作分词器将连续机器人动作每个维度离散化为256个区间,动作由7个token表示 [8] - 提出针对动作生成的替代注意力掩码,使自回归框架能并行生成多个动作 [11][12] 模型性能评估 - 在无预训练情况下,WorldVLA(256×256)平均成功率为79.1%,优于OpenVLA的76.5% [19][21] - WorldVLA(512×512)平均成功率提升至81.8%,显示模型性能与图像分辨率呈正相关 [21][22][23] - 引入世界模型后,动作模型平均成功率从62.8%提升至78.1% [25][26] - 在视频生成质量上,WorldVLA在50帧序列的FVD指标为674.1,优于纯世界模型的718.6 [32] 技术优势与应用前景 - 世界模型通过预测未来图像学习环境物理规律,提升动作生成准确性 [5][25] - 动作模型基于图像观测生成后续动作,反向促进世界模型视觉生成能力 [5][17] - 框架结合VLA抽象思考与世界模型物理感知,被视为通往具身智能的路径 [36][37]
智驾将往何处去?第一次自动驾驶圆桌纪实
自动驾驶之心· 2025-11-06 00:04
智驾技术发展回顾 - 行业早期普遍采用深度学习驱动、caffe、ROS、Faster RCNN等技术,所有公司均大举投资并扩张团队,宣称五年内实现自动驾驶,行业朝气蓬勃 [4] - 技术演进经历了从特斯拉HydraNet、BEV、端到端到VLA的各个阶段,其中机器人学建模坐标系的变化和数据驱动的变化带来了巨大变革 [5] - 商业化路径从早期聚焦RoboTaxi转向L2量产,L2技术也经历了模块化、端到端等阶段,目前L4已在无人驾驶小车领域落地,RoboTaxi热潮再起 [5][6] 行业经验与关键成功因素 - 智驾行业经历了三次主要阵痛:放弃robotaxi、保证L2安全以及将系统转化为量产交付 [7] - 公司成功的关键在于人工智能能力、一号位的战略与执行力,以及能否覆盖从数据采集到系统集成的长交付链条,执行力差异导致结果显著不同 [7] - 行业竞争已从“有长板就能活”转变为“没有短板才能活”,公司需在技术基建、适配能力、人才密度、战略规划与工程实践协同上均无短板,成为六边形战士 [7] - 智驾作为复杂系统,其安全性、合规标准及对管理层和组织架构的高要求构成了重要门槛 [7] VLA与世界模型的技术路径 - VLA架构旨在解决快慢系统难以训练的问题,具体实施方案多样,包括渐进式耦合方案、混合架构方案以及激进端到端方案,目前尚无定论 [8] - VLA路线侧重于解决语义理解与交互问题,通过语言模态实现环境认知升级;世界模型路线则旨在突破数据局限性,通过生成式建模拓展系统认知边界,两者高度互补 [10] - VLA具备良好的人机交互能力,但其工程化需平衡创新性、算力、安全性,并面临渐进式与颠覆式创新的战略选择 [10] - 对于投资决策,技术细节并非唯一评估标准,技术能力与市场能力的匹配度以及新技术带来的资源消耗是否值得更为关键 [10] 行业未来展望与机遇 - 智驾行业积累的系统理解能力、AI研发能力以及对学术素养和工程落地能力的要求,可无缝对接到具身智能领域 [11] - 产业层面,城市NOA等功能尚不完善,融合VLA与世界模型等学术成果落地存在大量机会,行业远未成熟,发展空间广阔 [11] - 在学术界技术路线趋同的背景下,研究者更应将根本性革命作为目标,而非对现有方法小修小补,系统性技术跃迁将带来重大成果 [11] - AI coding工具不会削弱从业者核心竞争力,反而能使其更聚焦于算法等核心问题 [11]
小鹏刚刚发布了VLA 2.0,但去掉了语言转译......
自动驾驶之心· 2025-11-06 00:04
小鹏VLA技术进展 - 小鹏发布VLA 2.0,采用两套方案并行研发:传统V→L→A路径和新型V/L→A路径,后者与特斯拉ICCV分享的技术思路类似,语言输入与视觉输入并行而非作为中间件[2][3][6] - V/L→A方案去除了语言转译环节,但仍以视觉为核心,是世界首个量产物理世界大模型,最高有效算力达2250 TOPS[6] - 技术框架参考开源算法如ORION,可同步输出感知结果、自车轨迹及思维链,世界模型参与未来场景预测[5] - 公司计划入局Robotaxi领域,配置四颗图灵AI芯片,算力提升至3000 TOPS[8] 自动驾驶技术趋势与行业动态 - 行业正加速解析特斯拉公开的新技术信息,VLA与V/LA被视为L3技术突破的关键路径,世界模型与VLA的路线竞争尚未定论[10] - 业内技术思路趋同,重点在于工程优化效果,例如ORION框架通过潜在标记与世界仿真器交互实现强化学习[5] 自动驾驶社区资源与生态 - 自动驾驶之心知识星球社区规模超4000人,覆盖近40项技术方向,包括VLA、BEV感知、世界模型等,目标两年内扩至近万人[14][20][31] - 社区整合超60个数据集、40个开源项目及仿真平台,提供技术路线图、求职内推与行业大佬直播,如小米汽车云端大模型算法工程师岗位内推[17][23][26][31] - 学习资源涵盖全栈课程、7大福利视频教程及超100场专业直播,内容涉及端到端自动驾驶、3DGS闭环仿真等热门领域[23][31][95][98]
Kimi Linear一作张宇:关于模型训练的一些感想
自动驾驶之心· 2025-11-06 00:04
模型架构创新 - 模型采用混合专家架构 将MoE稀疏度从8提升至32 显著增强模型容量[4] - 核心设计原则为线性注意力 具体实现为KDA方法 在GDN基础上融入GLA的细粒度门控[4] - 采用混合模型方案 KDA与MLA的层混合比例为3:1 该比例经消融实验证实为效率与性能最优解[5] - 循环公式中关键部分为Decay机制 通过数学表达式实现状态更新[4] 性能表现 - 在5.7T训练token和3B激活参数条件下 模型效果实现巨大提升 多项基准测试呈现显著优势[7] - 解码方面因KDA的KV缓存占用小 批量大小补偿后加速比达到6倍[8] - 在数学/代码类基准测试上受参数规模限制 但模型个性表现突出 具有小K2模型特质[8] - 实际使用体验与榜单成绩达成平衡 避免为追求分数牺牲用户体验[13] 训练过程 - 模型规模达48B MoE 训练量5.7T 采用分阶段扩展策略 从1B参数开始逐步验证性能[10][11] - 训练过程中发现关键参数需保持fp32精度 中途切换精度可能影响训练效果[12] - 后训练方案经过数十种数据配方尝试 最终形成成熟方案[13] - 采用严格的内科监控机制 任何明显性能差异都会触发回退至上一阶段[11] 技术路线定位 - 本次技术报告定位为技术验证 主要战场放在1T公平比较实验 为下一代K3模型铺垫[14] - 线性注意力技术路线逐渐收敛至Delta变体 同时稀疏注意力路线如NSA也受到关注[18] - 模型开源旨在推动混合模型实际落地 为行业提供新的技术启发[19] - 当前时间窗口适合线性注意力发展 因智能体应用需要32k+长上下文支持[17]
寻找散落在世界各地的自动驾驶热爱者(产品/4D标注/世界模型等)
自动驾驶之心· 2025-11-06 00:04
公司业务拓展 - 公司收到来自业内企业和个人的多样化需求 包括企业技术培训 发布会方案解读 行业总结以及求职辅导等 [2] - 为满足市场需求 公司正面向全球招募自动驾驶领域从业者 计划在技术服务 培训 课程开发与科研辅导等多个领域展开合作 [4] - 合作将提供高额酬金与丰富行业资源 主要面向B端企业 高校 研究院所以及C端学生和求职人群 [5][6] 合作方向与岗位 - 合作技术方向涵盖自动驾驶产品经理 4D标注/数据闭环 世界模型 VLA 自动驾驶大模型 强化学习 端到端等多个前沿领域 [5] - 岗位职责主要包括自动驾驶培训合作 课程开发以及原创文章创作 [6]