自动驾驶之心

搜索文档
VLA和World Model世界模型,哪种自动驾驶路线会胜出?
自动驾驶之心· 2025-09-04 23:33
自动驾驶技术路线对比 - 目前95%以上的世界模型用于生成视频以训练自动驾驶系统而非直接控制车辆 VLA技术已实现量产上车[3] - VLA本质属于模仿学习 依赖语言作为中间转换层 世界模型则采用类脑学习机制 跳过语言层直接输出动作 实现真正端到端控制[3] - 世界模型基于抽象层级理解与预测物理现实 具备因果推理和零样本学习能力 无需标注数据即可学习[4] 技术理论框架演进 - 世界模型理论可追溯至1994年 核心架构包含Vision Model、Memory RNN和Controller三大模块 采用VAE进行视觉特征提取[11] - 2019年演进为RSSM架构 结合确定性与随机性组件 在防止模型随意发挥的同时提升容错性[13][15] - 2023年提出JEPA架构 通过自我监督学习预测抽象状态而非像素细节 大幅降低计算需求 V-JEPA2于2025年6月发布[17] 模型训练与数据特性 - V-JEPA2预训练使用超100万小时无标注网络视频 仅用62小时机器人影片进行微调即可实现零样本任务执行[19] - 世界模型优势在于非逐像素计算降低运算资源需求 且训练完全无需标注数据 可直接利用网络资源[19] - 极端场景数据稀缺问题可通过虚拟仿真生成补充样本 结合域适应技术减少模拟到真实的性能差距[19] 技术瓶颈与挑战 - 传感器信息局限导致物理世界表达不完整 当前摄像头与激光雷达无法模拟人眼事件相机式的高效信息捕捉机制[20] - 表征崩溃现象使模型生成无意义向量 需通过正则化技术控制模型复杂度 但会限制因果关系学习能力[21] - 长期预测存在误差累积问题 多步预测可能导致严重偏离 需采用半监督与教师强制策略结合进行校正[21] - 世界模型缺乏可解释性 决策异常难以溯源 且易受对抗攻击影响 存在安全性隐患[22] 融合发展趋势 - VLA可通过强化学习微调吸收世界模型优点 典型案例如博世IRL-VLA采用逆向强化学习奖励世界模型[22] - 地平线SENNA VLA基于META小羊驼模型 阿里达摩院WorldVLA均体现VLA与世界模型相互增强的趋势[27][28] - 行业判断结合世界模型增强的VLA将成为主流技术路线 纯世界模型因可解释性等问题难以单独量产应用[30]
关于3D/4D 世界模型近期发展的总结和思考
自动驾驶之心· 2025-09-04 23:33
具身智能与3D/4D世界模型研究现状 - 行业前三季度研究重点集中在数据收集和利用效率上 旨在通过视频示例数据训练高性能基础模型 但进展有限且未引起广泛关注[3] - 行业开始重新关注3D/4D世界模型 通过对数据合理性和丰富性进行拓展优化来突破当前瓶颈[3] 隐式与显式世界模型技术路线 - 隐式3D世界模型通过提取3D/4D内容增强视频空间理解能力[7] - 显式3D世界模型需显式提供3D Mesh或结构信息及物理规律来保证系统稳定性[7] - 两种技术路线在应用初期均暴露明显局限性 且行业尚未找到有效解决方案[6] 基于仿真器的物理差异化模拟器 - 当前显式世界模型研究集中于静态3D场景 通过模型构建场景或扫描方式初始化3D环境[8] - Hunyuanworld-1.0和Matrix-3D通过构建全景图及恢复3D Mesh场景完成环境初始化[8] - Discoverse和EmbodiedGen采用前景背景分离构建方案 背景使用全景/扫描3D 前景采用Mujoco物理仿真+3DGS渲染实现动态交互[8] - Genesis通过Taichi对Mujoco素材进行再渲染实现超高清场景重建[8] 3DGS技术挑战与优化方向 - 3DGS对物理表面建模效果存在缺陷 SuGaR和2DGS等结构化改造方案仍存在几何优化粗糙问题[9] - GSDF和Pano2Room将Mesh或SDF作为监督学习中的优化目标 部分解决表面平滑问题但无法保障生成质量[9] - 完全弃用3DGS可能导致图形学问题 如渲染饱和度过高和光照不平衡[9] - 光照优化通过De-lighting技术(如TSGS、GS-ID)推进 表面问题通过Mesh监督结合结构化处理3DGS方案改善[10] 跨平台部署与数据规模化挑战 - 现有方案物理参数基于Mujoco设定 跨平台部署至Isaac或SAPIEN存在兼容性问题[10] - Roboverse设计统一跨物理仿真器平台以优化世界模型的物理表达[10] - Phys-diff-simulator范式面临大规模数据扩展难题 当前数据量远不足支撑模仿学习需求[10] 视频生成与多视角世界模型融合 - 通义万相模型证明规模化数据清洗和标注可提升运动预测能力[11] - Feed forward 3D技术强化3D信息预测 推动3DGS/4DGS与世界模型结合(如GWM和Enerverse)[11] - Dust3R、Mono3R等技术演进至VGGT 实现单/少帧到稠密几何的一站式推理[11] - Robot4DGen开启模仿学习3R时代 通过3R/3DGS技术补足视频中无法学习的3D空间知识[11] 2D转3D技术瓶颈 - 当前技术存在遮挡像素漂移、跨视角一致性不足等核心问题[12] - 视频动作空间不同步问题通过pixel-worldmodel scaling-up思路部分弥补[12] 4D生成技术分类与应用局限 - Template-base:以静态网格/骨架等模板为基础 通过轨迹预测实现4D生成[13] - Generate-base:通过文本/图像生成3D模型 再绑定视频运动数据构建4D模型[19] - 视频反演:从交互视频反演几何与物理参数得到可模拟4D内容[19] - 4D生成技术评价指标局限于重建画质和几何一致性 缺乏物理交互状态变化的量化评估[14] - 视频生成模型难以理解物理变化规律 仅能学习轨迹变化(如篮球运球中的状态不连贯)[14] 物理规律理解与仿真器融合趋势 - 视频生成模型短期内难以从数据反演物理规律 仿真器物理驱动模拟仍不可替代[15] - 未来可能发展仿真器-视频生成组合方案(如RoboTransfer) 但会限制视频生成模型进化为世界模型的潜力[15] 3D/4D世界模型发展定位与方向 - 当前3D/4D工作重点在几何一致性与图像质量 而非世界模型核心的预测能力(对比V-JEPA 2体系)[16] - 未来三年行业将朝外挂/内嵌物理知识方向发展 通过打破数据瓶颈重塑Real2Real具身智能任务[16] - 世界模型可能演变为具身智能基模中的模块化组件 取决于功能简化与定义优化进程[16]
开学了,需要一个报团取暖的自驾学习社区...
自动驾驶之心· 2025-09-04 23:33
自动驾驶行业招聘与求职 - 金九银十为秋招关键期 业内tier 1公司已开始发放测试岗位offer 但部分求职者仍希望冲刺算法岗[1] - 行业招聘需求集中在感知算法、端到端自动驾驶、4D标注、多模态大模型等前沿方向[7][11][14] - 主流车企与科技公司包括理想、地平线、百度、上海人工智能实验室、蔚来、小鹏、华为车BU、大疆等均开放岗位[38] - 课程学员可获得直接推荐至算法开发负责人的机会 绕过官网投递流程[38] 自动驾驶技术发展趋势 - 端到端自动驾驶成为智驾量产核心算法 分为一段式与二段式技术方向 理想汽车已宣布E2E+VLM双系统架构量产[7] - 2024年端到端技术需融合多模态大模型、BEV感知、强化学习、视觉Transformer、扩散模型等多领域知识[8] - 4D自动标注算法需求激增 因端到端训练需时间同步后的传感器统一标注动静态元素、OCC和轨迹等[11] - 多模态大模型与自动驾驶结合成为新兴领域 学术界论文爆发 工业界融资案例快速增长[14] 专业培训课程体系 - 推出299元超级折扣卡 一年期内享受全平台课程七折优惠[4][6] - 开设端到端与VLA自动驾驶小班课 涵盖多模态大模型、BEV感知、强化学习等核心技术[7][8] - 4D自动标注算法就业小班课聚焦数据闭环算法开发与工程化落地[11][12] - 多模态大模型实战课程系统化覆盖从通用模型到端到端自动驾驶应用[14][15] - 感知系列课程包括BEV感知全栈、毫米波雷达视觉融合、激光雷达视觉融合等16个模块[16] - 规划控制与预测课程包含轨迹预测理论与实战、规划控制小班课等[18] - 模型部署课程涵盖CUDA与TensorRT部署、BEV模型部署实战[18] 硬件与科研平台 - 全栈教研平台黑武士001支持全流程开发[4][43] - 足式/强化学习科研平台TRON1针对进阶研究[4][43] - 四足机械狗+机械臂科研平台整合运动控制与操作[4][43] - 桌面级机械臂科研平台适用于轻量级实验[4][43] - 数采夹爪提供单臂与双臂方案 支持数据采集任务[4][43] 学习与交流机制 - 每门课程配备专属VIP交流群 主讲老师每日群内交流并定期直播答疑[26] - 重点解决小白常踩坑问题、工程常见问题及后续研究方向[26] - 实际讨论内容涵盖模型微调(如Florence2)、TensorRT部署、多模态数据标注等实操问题[28][29][32] 工程实践与挑战 - 车端部署需满足低于100毫秒响应时间的理想目标 复杂场景要求成功率99.9%以上[34] - 转向角误差需小于1度(理想目标)或2度(可接受范围)[34] - 加速制动误差需小于0.1 m/s²(理想目标)或0.2 m/s²(可接受范围)[34] - 传感器升级(如相机200万→800万像素)可能需重构数据集与模型重新训练[36] - 多传感器联合标定采用在线标定与优化结合方式 依赖高精地图投影验证精度[36]
自动驾驶超视距VLA如何实现?小鹏NavigScene另辟蹊径!
自动驾驶之心· 2025-09-04 23:33
文章核心观点 - 小鹏汽车团队提出NavigScene系统 旨在解决自动驾驶领域局部感知与全局导航信息脱节的关键瓶颈 通过导航引导的自然语言数据集和三种创新方法实现超越视觉范围的推理能力 显著提升自动驾驶系统的感知、预测和规划性能 [3][4][9] 技术方案 - NavigScene构建导航引导的自然语言数据集 在自动驾驶系统内部仿真类人化驾驶环境 弥合局部传感器数据与全局导航信息之间的差距 [4][5] - 开发导航引导推理范式 通过将导航上下文融入提示方法增强视觉语言模型的推理能力 [5] - 采用导航引导偏好优化方法 扩展直接偏好优化技术 通过建立导航相关信息摘要的偏好关系改进视觉语言模型响应 [5] - 创建导航引导视觉-语言-动作模型(NVLA) 通过特征融合将导航引导和视觉语言模型与传统端到端驾驶模型集成 [5] 应用价值 - 系统显著提升自动驾驶在基于局部视觉信息的问答、感知、预测和规划方面的性能 为构建更可靠的自动驾驶系统奠定基础 [4][9] - 使自动驾驶系统具备"高瞻远瞩"的导航思维 突破当前系统只能"看清"周围却难以"预见"远方道路与决策的限制 [3] - 研究成果以论文形式发布 标题为《NavigScene: Bridging Local Perception and Global Navigation for Beyond-Visual-Range Autonomous Driving》 [6] 内容安排 - 直播将涵盖自动驾驶研究问题简介 导航数据集的视觉生成和文本生成 基于导航数据集的多模态大模型后训练 以及视觉-语言-动作模型等核心内容 [10] - 技术分享由NavigScene论文第一作者Qucheng Peng主讲 深度解析团队如何开创性弥合局部感知与全局导航的鸿沟 [3]
从传统融合迈向端到端融合,多模态感知的出路在哪里?
自动驾驶之心· 2025-09-04 11:54
随着自动驾驶、机器人导航和智能监控等领域的快速发展,单一传感器(如摄像头、激光雷达或毫米波雷达)的感知能力已难 以满足复杂场景的需求。 为了克服这一瓶颈,研究者们开始将激光雷达、毫米波雷达和摄像头等多种传感器的数据进行融合,构建一个更全面、更鲁棒 的环境感知系统。这种融合的核心思想是优势互补。摄像头提供丰富的语义信息和纹理细节,对车道线、交通标志等识别至关 重要;激光雷达则生成高精度的三维点云,提供准确的距离和深度信息,尤其在夜间或光线不足的环境下表现优异;而毫米波 雷达在恶劣天气(如雨、雾、雪)下穿透性强,能稳定探测物体的速度和距离,且成本相对较低。通过融合这些传感器,系统 可以实现全天候、全场景下的可靠感知,显著提高自动驾驶的鲁棒性和安全性。 当前的多模态感知融合技术正在从传统的融合方式,向更深层次的端到端融合和基于Transformer的架构演进。 传统的融合方式主要分为三种:早期融合直接在输入端拼接原始数据,但计算量巨大;中期融合则是在传感器数据经过初步特 征提取后,将不同模态的特征向量进行融合,这是目前的主流方案,例如将所有传感器特征统一到 鸟瞰图(BEV) 视角下进 行处理,这解决了不同传感器数据 ...
自动驾驶秋招大批量开始了(理想/小鹏/小米/地平线/博世/mmt等等)
自动驾驶之心· 2025-09-04 11:54
近期,小鹏、蔚来、理想、地平线、华为车BU、博世中国、小米汽车、Momenta等等公司都宣布了2026届校园招聘启 动的消息~ 好消息,汽车行业秋招大批量开启了! 我们的知识星球也推出最大优惠了,续费5折,新人加入立减88,开学季最好的入手机会。 国内最大的自驾社区,和4000名成员一起交流。 很多同学还在陆续咨询柱哥关于就业、申博方向的问题,自驾领域还有很多问题没有被解决,甚至还没有有效的方 案,所以招聘需求才会持续存在。如果你在工业界,也是一个职业上升的好时机。 自动驾驶之心在此开学季,给大家提供了各类学习教程和科研平台,如果您想自动驾驶方向更上一层楼,或者希望快 速入门,可以来看看我们的教程和平台。诚意满满,是近段时间最大的优惠力度。 课程超级折扣卡 课程超级折扣卡是我们为有需要购买自驾课程同学推荐的。 一年内有效,所有自驾课程7折哦~适合购买2门及以上的 同学,优惠满满! 知识星球 更多硬件和论文辅导活动 咨询我们 更多内容欢迎咨询小助理微信AIDriver005了解更多。 ...
具身领域发生了一件大事,对学术界和工业都利好.......
自动驾驶之心· 2025-09-04 08:42
公司IPO进展 - 宇树科技预计2025年10月至12月提交IPO申报文件 [1] 行业影响 - 具身机器人行业获得市场和资本认可 将带动上下游产业发展 [1] - 行业处于上升期 存在大量未解决问题 适合研究和职业发展 [3] 市场活动 - 提供具身课程7折优惠 有效期一年 [4][10] - 知识星球新人立减66元 续费5折 [6][10] - 社区规模近2000名成员 [7] - 活动时间为9月1日至9月14日 [10]
招聘几位大佬,打算共创平台(模型部署/VLA/端到端)
自动驾驶之心· 2025-09-04 08:42
业务拓展计划 - 公司计划在2024年向国内外招募10名业务合伙人[2] - 合伙人将负责自动驾驶课程研发、论文辅导业务开发及硬件研发[2] 技术研究方向 - 重点招募方向包括大模型/多模态大模型、扩散模型、视觉语言模型(VLA)、端到端自动驾驶系统[3] - 涵盖具身交互、联合预测、SLAM技术、3D目标检测、世界模型等前沿领域[3] - 涉及闭环仿真3D高斯溅射(3DGS)技术及大模型部署与量化感知推理[3] 人才资质要求 - 要求候选人来自QS世界大学排名前200高校[4] - 优先考虑硕士及以上学历且拥有顶级会议论文发表记录的专家[4] 合作激励机制 - 提供自动驾驶行业资源共享包括求职推荐、读博及出国留学支持[5] - 设立具有竞争力的现金激励方案[5] - 开放创业项目合作与推荐渠道[5]
超级折扣卡推出啦,平台所有课程七折优惠!
自动驾驶之心· 2025-09-04 03:35
使用范围 :自动驾驶&具身智能自研课程,包括后续新课程; 有效期 :自购买之日起一年内使用; 超级折扣卡推出啦 不少同学一直吐槽自动驾驶之心的课程太贵了hhh,想买但预算有限。我们也收到了大家的反馈,今年我们陆续推出了《 端到端与 VLA自动驾驶小班课 》、《自动驾驶端到端与规划控制(第三期)》、《 自动驾驶4D标注算法就业小班课 》。反响都还不错,尤其 是 端到端与VLA,大家反馈都很好,Jason老师也很给力。未来还计划推出一些VLA、模型部署等方向的课程。 针对同学们反馈的课程价格问题,团队内部也商量了一下,决定给大家更多的优惠,开学季也到了,我们正式推出 价值 299元 的 『超级折扣卡』! 购买后平台所有课程一律七折优惠! 折扣卡价格 :299元; 活动时间 :9.1-9.14日; 补充说明 :若购买后的一年内您未在平台购买任何课程,超级折扣卡可以全额退款; 扫码购买折扣卡 微信添加小助理咨询 ...