Workflow
自动驾驶之心
icon
搜索文档
理想宣布召回24款11411辆MEGA:免费更换电池,但事故电池爆燃并非电芯问题
自动驾驶之心· 2025-10-31 16:03
理想MEGA召回事件核心信息 - 理想汽车宣布召回11411辆2024款MEGA车型 [4][5][7] - 召回原因为车辆冷却液防腐性能不足 特定条件下可能导致冷却回路中的动力电池和前电机控制器冷却铝板腐蚀渗漏 [9][15] - 此问题极端情况下可能造成动力电池热失控 存在安全隐患 [9][15] - 公司将为召回范围内的车辆免费更换冷却液、动力电池和前电机控制器 [9] 召回具体细节 - 召回涉及车辆的生产日期为2024年2月18日至2024年12月27日 [7] - 2024年12月28日后生产的理想MEGA以及理想汽车其他车型不存在此风险 [11] - 此次召回也是对2024年10月23日晚发生于上海的MEGA起火事故的调查结果与回应 [6][12][13] - 公司确认事故电池爆燃并非电芯问题 [16] 应急处置与用户沟通 - 公司云端预警程序会针对冷却液渗漏导致的动力电池安全隐患进行提前预警 并通过400客服、车机Ecall联系用户安排救援 [9] - 当车辆出现故障时 会通过车机故障灯、文字及报警音提醒用户靠边停车等待救援 [9] - 公司告知用户 若车辆未收到预警和车机故障信息 说明当前车辆状态正常可放心用车 接到邀约后应尽快进店更换 [10]
自动驾驶之心平台双十一活动开始了:课程八折、星球七折
自动驾驶之心· 2025-10-31 16:03
课程产品促销活动 - 活动时间为11月1日至11月11日 [5] - 自动驾驶系列课程提供单门八折或三门七折优惠 [4][5] - 推出超级课程折扣卡 售价299元 购买后可享一年内课程七折优惠 [4][5][7] - 规控与轨迹预测小班课不参与以上折扣活动 [4] 知识星球服务 - 知识星球提供七折优惠 新人加入享受此优惠 续费可享五折 [4][9] - 星球定位为最前沿的自动驾驶技术社区 提供近40多个学习路线 [12] - 社区内容涵盖VLA 世界模型 闭环仿真 扩散模型 BEV感知等前沿技术方向 [12] - 提供与学术界和工业界大佬的面对面交流机会 讨论行业前沿话题 [12] 其他产品与服务 - 提供论文辅导服务 活动期间最高可抵扣10000元 [4] - 自研硬件产品黑武士001在活动期间有限时优惠 [4] - 星球内包含七门精品课程 内容涵盖世界模型 轨迹预测 大模型等 [12]
摇人!寻找散落在各地的自动驾驶热爱者(产品经理/4D标注等)
自动驾驶之心· 2025-10-31 16:03
业务拓展与合作方向 - 公司正面向全球自动驾驶从业者发出合作邀请,旨在技术服务、培训、课程开发与科研辅导等多个领域展开合作 [2] - 合作将提供高额酬金与丰富的行业资源 [3] - 主要合作方向包括自动驾驶产品经理、4D标注/数据闭环、世界模型、VLA、自动驾驶大模型、强化学习、端到端等多个前沿技术领域 [4] 岗位与服务对象 - 合作岗位主要面向自动驾驶培训合作、课程开发和原创文章创作 [5] - 企业培训业务主要面向B端客户,包括企业和高校、研究院所 [5] - 个人培训业务主要面向C端客户,包括大量学生和求职人群 [5]
Feed-Forward 3D综述:3D视觉进入“一步到位”时代
自动驾驶之心· 2025-10-31 16:03
文章核心观点 - 一篇由12所顶尖学术机构联合撰写的综述论文,系统总结了2021至2025年间快速前馈3D重建与视图合成领域的技术进展 [6] - 该领域正经历从传统的、依赖每个场景反复优化的范式,向基于AI的、具备泛化能力的快速前馈范式转变 [2] - 论文首次建立了完整的快速前馈3D方法谱系与时间线,并划分了五类主流架构 [6][8] 技术架构分类与演进 - **基于NeRF的模型**:从PixelNeRF开始,探索“条件式NeRF”,发展出1D、2D和3D特征方法三大技术分支 [8] - **点图模型**:由DUSt3R引领,直接在Transformer中预测像素对齐的3D点云,无需相机姿态输入 [10] - **3D高斯泼溅模型**:将场景表示为高斯点云,通过神经预测器直接输出高斯参数,分为基于图像和基于体积的表示方法 [11][13] - **网格/占用/SDF模型**:结合Transformer与Diffusion模型进行传统几何建模 [14] - **无3D表示模型**:直接学习从多视图到新视角的映射,不再依赖显式三维表示 [14] 多样化任务与应用场景 - 应用覆盖无姿态重建与视图合成、动态4D重建与视频扩散、SLAM与视觉定位、3D感知的图像与视频生成、数字人建模以及机器人操作与世界模型等多个前沿方向 [19] - 这些技术使得“从单张图像生成整个场景”成为可能,极大地拓展了3D技术的应用边界 [15] 基准数据集与评测体系 - 论文收录了超过30个常用3D数据集,涵盖对象级、室内、室外、静态与动态场景,数据规模庞大,例如Objaverse-XL包含10.2M个对象,MVImgNet包含219,188个对象 [20][21] - 总结了PSNR/SSIM/LPIPS(图像质量)、Chamfer Distance(几何精度)、AUC/RTE/RRA(相机姿态)等标准指标体系,为模型比较提供统一基线 [20] 量化性能对比 - 在相机姿态估计任务上,TT方法在Sintel数据集上的绝对轨迹误差低至0.074,在RealEstate10K数据集上的RRA@30指标达到99.99% [22] - 在点图重建任务上,VGGT方法在7-Scenes数据集上的精度均值为0.087,法向一致性中位数达到0.890 [23] - 在视频深度估计任务上,PE-Fields方法在Tanks-and-Temples数据集上的PSNR达到22.12,SSIM达到0.732,LPIPS低至0.174 [24] 未来挑战与发展趋势 - 当前面临四大开放问题:多模态数据不足、重建精度待提升、自由视角渲染难度高以及长上下文推理存在显存瓶颈 [25][26] - 未来趋势将聚焦于Diffusion Transformers与长程注意力结构、可扩展的4D记忆机制、多模态大规模数据集构建以及同时具备生成和重建能力的模型开发 [26]
世界模型和VLA正在逐渐走向融合统一
自动驾驶之心· 2025-10-31 00:06
技术发展趋势 - 视觉语言模型和世界模型正逐渐走向融合统一,VLA+WM结合是通往更强通用具身智能的答案[3][4] - 学术界对VLA和WM融合已进行多项探索,典型工作包括VLA-RFT、WorldVLA、Unified Vision-Language-Action Model和DriveVLA-W0[4] - 未来L4训练链路需要视觉语言模型、强化学习和世界模型三者结合,缺一不可[5] 行业技术路线 - 业内关于视觉语言模型和世界模型的争论更多是宣传口径不同,大的技术路线上多有参考[7] - 特斯拉在ICCV上的分享对国内行业具有参考意义,未来VLA+WA结合形式尚未定论,值得持续探索[7] - 行业技术发展呈现多元化趋势,涵盖端到端自动驾驶、多模态大模型、世界模型等多个前沿方向[12] 自动驾驶技术社区 - 自动驾驶之心知识星球已发展成为超过4000人的综合类自驾社区,集视频、图文、学习路线、问答、求职交流为一体[10] - 社区联合学术界和工业界大佬共同打造,目标未来2年内做到近万人规模[10] - 社区成员来自国内外知名高校和头部公司,包括上海交大、北京大学、CMU、清华大学及蔚小理、地平线、华为等企业[23] 技术资源覆盖 - 社区梳理近40+技术路线,涵盖感知、规划控制、仿真、端到端等多个方向[12][24] - 资源包括近40+开源项目、近60+自动驾驶数据集及行业主流仿真平台[24] - 技术内容覆盖BEV感知、3D目标检测、多传感器融合、Occupancy网络等核心领域[24][58][59][61][65] 行业交流平台 - 社区不定期邀请一线学术界和工业界大佬畅聊技术趋势,已举办超过100场专业技术直播[95] - 建立与多家自动驾驶公司的内推机制,提供岗位内推服务[19] - 平台提供学术界和工业界研究热点梳理,包括端到端自动驾驶、3DGS与NeRF、世界模型等前沿领域[44][46][49]
RAD:通过3DGS结合强化学习的端到端自动驾驶
自动驾驶之心· 2025-10-31 00:06
文章核心观点 - 论文提出了一种名为RAD的新方法,通过结合3D高斯溅射技术和强化学习与模仿学习的协同训练,以解决端到端自动驾驶算法在现实部署中面临的因果混淆和开环差距问题 [1][2][24] - 该方法在逼真的3DGS环境中进行闭环强化学习训练,使自动驾驶策略能通过大规模试错学习处理分布外场景,并在碰撞率等关键安全指标上显著优于现有模仿学习方法 [2][9][15] - RAD框架采用三阶段训练范式,并设计了专门的安全奖励函数和辅助目标,以在提升安全性的同时保持与人类驾驶行为的一致性 [8][9][11] 相关研究背景 - 现有基于模仿学习的端到端自动驾驶算法主要学习状态与动作的相关性,而非因果关系,导致策略难以识别规划决策的真正因果因素,出现“捷径学习”现象 [1][6] - 模仿学习训练数据主要覆盖常见驾驶行为,对长尾分布中的安全关键事件覆盖不足,使得策略在面对碰撞等场景时缺乏敏感性 [6] - 开环训练与闭环部署之间存在差距,模仿学习策略在训练时未见过的场景中表现不佳,存在误差累积问题 [2] 研究方法与技术方案 - 利用3D高斯溅射技术构建真实物理世界的逼真数字副本,为自动驾驶策略提供可进行大规模交互训练的虚拟环境 [2][11] - 设计了由动态碰撞奖励、静态碰撞奖励、位置偏差奖励和航向偏差奖励四部分组成的综合安全奖励函数,以引导策略学习安全驾驶行为 [11] - 将模仿学习作为强化学习训练中的正则化项,使策略在利用强化学习增强因果关系建模和缩小开环差距的同时,保持与人类驾驶行为的一致性 [2][11] - 采用三阶段训练范式:感知预训练、规划预训练和强化后训练,逐步优化自动驾驶策略 [11] 实验设置与评估结果 - 实验基于2000小时的真实世界人类专家驾驶演示数据,并从中选取4305个高碰撞风险的密集交通片段重建为3DGS环境,其中3968个用于训练,337个用于评估 [15] - 使用九个关键指标进行评估,包括动态碰撞比率、静态碰撞比率、位置偏差比率、航向偏差比率、平均偏差距离以及纵向/横向抖动等 [15] - 消融研究表明,当强化学习与模仿学习的训练步骤比例为4:1时,策略在安全性和轨迹一致性之间达到最佳平衡 [15] - 与现有模仿学习方法相比,RAD在碰撞比率指标上实现了3倍的降低,显著提升了安全性 [9][15] 性能优势与定性结果 - 在定性比较中,仅基于模仿学习的策略在动态环境中表现不佳,经常无法避免与移动障碍物的碰撞,而RAD能够持续良好地处理复杂交通情况 [15] - RAD在绕行、密集交通中爬行、交通拥堵和U型转弯等多种驾驶场景下均能生成更平滑的轨迹,并展现出更强的碰撞避免能力 [16] 未来研究方向 - 当前3DGS环境中的其他交通参与者以非交互式日志回放方式运行,未来可开发能实时响应自车行为的高级交互环境 [17][21] - 3DGS技术在渲染非刚体、未观测视图和低光照场景方面仍有改进空间,需研究更先进的渲染技术 [17][21] - 可探索多智能体强化学习或元强化学习来进一步提升训练效率和策略的泛化能力 [18][21] - 通过结合行为克隆、逆强化学习或人类反馈学习,可增强自动驾驶策略与人类驾驶行为的一致性 [19][21]
ICCV 2025 | 高德SeqGrowGraph:一种车道图增量式生成新范式
自动驾驶之心· 2025-10-31 00:06
文章核心观点 - 高德地图视觉技术团队提出了一种名为SeqGrowGraph的全新车道图生成框架,该框架将车道图的构建过程建模为一个链式图扩展过程,颠覆了以往将图视为整体进行处理的思路 [1] - 该方法旨在解决现有技术在处理复杂道路拓扑结构(如环岛、立交桥、双向单车道)时的固有缺陷,通过增量式构建模拟人类绘制地图的直观逻辑 [1][7] - 在nuScenes和Argoverse 2等大规模数据集上的实验表明,SeqGrowGraph在拓扑准确性指标上达到了最优性能,证明了其有效性和优越性 [13][14][18] 技术背景与行业挑战 - 精确、完整的车道级高精地图是实现高级别自动驾驶系统安全可靠路径规划的基石 [1] - 现实世界的道路网络包含非线性复杂结构,给传统车道图构建方法带来巨大挑战,现有方法难以捕捉全局拓扑或无法处理闭环结构 [1] - 行业主流技术路线分为基于检测和基于生成两类,但前者易产生断连、冗余或拓扑错误,后者则受限于有向无环图假设,难以表达闭环和双向道路 [2][5] 核心方法:SeqGrowGraph - 核心思想是将车道图构建分解为一系列原子的图扩展步骤,并利用自回归模型学习这一动态生成过程 [7] - 构建过程包含四个关键步骤:引入新节点、扩展邻接矩阵、更新几何矩阵(采用二次贝塞尔曲线描述形状)、以及序列化与自回归预测 [6][8] - 采用深度优先搜索顺序组织扩展步骤,并利用基于Transformer的解码器自回归地预测序列,将复杂图结构分解为线性序列 [8][10][11] 实验性能与优势 - 在nuScenes数据集的default划分上,SeqGrowGraph在Landmark和Reachability指标上全面领先,例如Landmark-Precision达到63.6,显著优于TopoNet的52.5和LaneGAP的49.9 [14][15] - 在更具挑战性的PON划分(训练测试集场景无重叠)上,该方法也展现出强大泛化能力,Landmark-Precision达到43.5,优于RNTR的39.9和LaneGraph2Seq的21.9 [14][15] - 定性分析显示,该方法能生成拓扑连续、结构完整且几何精确的车道图,有效解决了其他方法存在的断连和路径冗余问题 [16]
哈工大最新一篇长达33页的工业智能体综述
自动驾驶之心· 2025-10-31 00:06
工业智能体技术框架 - 工业智能体的核心能力依赖记忆、规划、工具使用三大技术支柱,三者协同推动系统从简单指令执行者升级为自主决策、协作创新的复杂系统 [5] - 记忆机制演进分为五个阶段:从依赖LLM上下文窗口的瞬时记录(L1),到连接外部知识库的被动检索(L2),再到具备经验内化能力的主动学习(L3),进而发展为多智能体协作的分布式共享(L4),最终实现类似人类文化传承的进化式记忆(L5) [8][9][11] - 规划能力进化路径清晰:从线性推理(L1)、反应式规划(L2)、全局规划(L3)、协同规划(L4)到自主目标规划(L5),决策深度不断提升 [12][14][15] - 工具使用能力实现从被动调用到主动创造的跨越:包括指令驱动(L1)、目标驱动(L2)、工具编排(L3)、协同使用(L4)和工具创造(L5)五个层级 [16][18] 能力成熟度模型 - 论文创新性提出工业智能体五级能力成熟度框架,从L1流程执行系统到L5自适应社会系统,清晰定义各阶段核心价值与应用边界 [2][18] - L1流程执行系统专注于指令翻译和结构化信息提取,典型场景包括数据库查询、工业图纸生成 [18] - L2交互式问题解决系统具备软件交互和知识辅助决策能力,应用于网页自动化、金融市场分析 [18] - L3端到端自主系统实现数字工程、科学发现和具身交互,覆盖软件开发、材料设计等领域 [18] - L4协同智能系统执行多智能体业务和复杂系统仿真,应用于智能制造调度、供应链优化 [18][19] - L5自适应社会系统具备自主目标生成、价值进化能力,支撑去中心化组织运营、智慧城市治理 [18][19] 评估体系与方法 - 评估体系围绕基础能力验证与产业实践适配两大维度展开 [20][22] - 记忆能力评测聚焦信息存储与检索准确性,如MemoryAgentBench测试精准检索、长程理解能力,3DMem-Bench通过2.6万+轨迹评估空间记忆推理,QuALITY数据集以5000字长文档考验文本记忆深度 [23] - 规划能力评测从逻辑推理到动态决策分层考核,基础层使用GSM8K、HotpotQA,进阶层采用TextAtari(10万步游戏决策)、FlowBench(51个跨域工作流) [23] - 工具使用能力评测覆盖API调用、工具组合与容错性,ToolBench、API-Bank覆盖400+真实API,ComplexFuncBench、NESTFUL针对嵌套工具链等复杂场景 [23] - 产业实践评测向场景化、高保真方向发展,金融领域使用FinRL Contests考核风险控制,医疗领域用MedAgentBoard验证诊断准确性,软件领域以SWE-bench(2294个GitHub真实漏洞)评估代码修复能力 [23][27] 行业应用全景 - 数字工程领域:智能体承担从需求分析到部署的全流程任务,AutoDev框架模拟人类开发团队协作,CVDP基准覆盖硬件设计与验证任务 [28] - 科学发现领域:LLMatDesign自主设计新材料晶体结构,AgentDrug实现药物分子优化,AI Scientist-v2生成首篇AI撰写的同行评审论文 [28] - 具身智能领域:PaLM-E实现端到端embodied推理,ECoT框架提升机器人复杂任务泛化性,世界模型生成仿真场景用于自动驾驶训练 [28] - 金融服务领域:TradingAgents模拟多角色协作优化交易策略,Risk-Engineering框架通过三级压力测试评估极端市场稳定性 [28] - 医疗健康领域:MedChain构建交互式临床病例库支持多步诊断推理,ChestAgentBench优化放射科诊断精度,MedSentry通过5000+对抗性提示测试安全性 [26][29] - 复杂系统仿真:CitySim模拟个体行为预测城市动态,InvAgent优化库存管理应对供应链波动 [32] 技术挑战与未来趋势 - 面临四大核心挑战:技术瓶颈(长时序可靠性、跨模态对齐、实时性不足)、评测困境(真实性vs可复现性、成本vs效率、隐私vs数据质量)、落地障碍(系统兼容性、组织信任与转型、安全与伦理) [31][33] - 未来突破方向包括统一范式与跨模态融合、语言与推理深度结合、开放基准与生态构建 [31][33] - 工业智能体本质是AI从感知智能向认知智能的跨越,具备理解业务、规划策略、创造价值的能力 [31][33] - 智能体将作为数据引擎生成合成数据、决策助手提供专业知识支持、协作伙伴提升效率、创新载体突破人类认知局限 [33]
禾赛科技和图达通的专利大战
自动驾驶之心· 2025-10-30 03:31
专利纠纷事件概述 - 禾赛科技正式起诉图达通侵犯其专利权,案件涉及图达通在CES 2025上展示的新品灵雀E1X与禾赛科技的AT系列产品 [3] - 诉讼要求图达通立即停止侵害其多项专利权 [6] 产品与技术相似性 - 灵雀E1X与禾赛ATX在外形和接口上非常相似 [3] - 图达通新品在系统架构上采用了与禾赛AT系列相同的"905nm波长+一维扫描"方案,一改其之前主打的"1550nm波长+二维扫描"方案 [3] 图达通的技术路线转型 - 图达通过去是国内激光雷达公司中对1550nm技术路线为数不多的拥趸 [3] - 由于过去两三年激光雷达市场爆发且放量的是905nm产品,1550nm产品市场遇冷,图达通为摆脱困境进行转型 [3] - 图达通于2024年5月首次提出"1550nm和905nm双线布局的产品策略",并宣布E1X获得一家中国头部车企旗下多个品牌车型定点 [4] 图达通的IPO进程 - 图达通在2024年2月港交所递表失效后,正式选择SPAC模式上市 [4] - 2024年10月14日,图达通赴港IPO获备案,拟通过借壳香港SPAC公司TechStar Acquisition Corporation上市 [4] - 核心专利纠纷可能影响公司IPO上市,案例参考吉利与威马的知识产权纠纷成为威马上市的拦路虎 [4] 禾赛科技的市场地位与产品 - ATX是禾赛于2024年4月正式推出的新一代小巧型远距激光雷达,已获得比亚迪、奇瑞、长城、长安等十多家国内头部车企的几十款车型定点合作,并于2024年第一季度启动大规模量产 [5] - AT系列首款产品AT128于2021年发布,累计获得来自15家主流汽车厂商超过50款车型的前装量产定点 [5] - 禾赛科技2025年度第100万台激光雷达已于2025年9月底正式生产下线,成为全球首个年产量突破百万台的激光雷达企业 [5] 行业竞争态势 - 激光雷达行业过去几年价格战特别激烈,新进入者为拿到项目将价格一降再降 [5] - 业内人士认为价格战非常不利于行业发展,对谁都没好处 [5] - 图达通已拿下零跑汽车主机厂某车型定点 [5] 人员流动情况 - 据透露,禾赛北美的几位员工已加入图达通,包括一位总监级别以上的员工 [3]
理想ICCV'25分享了世界模型:从数据闭环到训练闭环
自动驾驶之心· 2025-10-30 00:56
公司智能驾驶发展路线 - 公司智能驾驶发展经历了从规则时代的轻图和无图,到基于AI的E2E+VLM快慢双系统,再到VLA司机大模型的演进 [6] - 在以上四个方案中,导航模块是重点突出的部分 [6] 数据闭环系统能力 - 公司数据闭环流程包括影子模式验证、数据触发回传、云端数据挖掘、自动标注、生成训练集训练模型及模型下发验证 [9] - 数据回传过程已实现一分钟内完成 [10] - 公司目前拥有15亿公里的驾驶数据,并通过200多个触发器生产15-45秒的片段数据 [10] - 端到端量产版本的MPI已达到220+,相较于24年7月底版本提升了约19倍 [12] 自动驾驶下半场战略转向 - 行业观点认为自动驾驶已进入下半场,需从数据闭环转向训练闭环的新模式 [17][20] - 数据闭环存在局限性,难以完全解决长尾场景收敛问题,例如交通管制、烟花燃放和突然变道等场景 [15] 训练闭环核心技术栈 - L4级训练循环的核心由VLA司机大模型、强化学习和世界模型构成 [22] - 轨迹优化结合了VLA的Diffusion技术和基于世界模型的强化学习 [22] - 强化学习范畴不仅包括RLHF,还涵盖RLVR和RLAIF [22] - 世界模型主要用于场景重建和新视角复原 [22] - 闭环自动驾驶训练关键技术栈包括区域级别仿真、合成数据和强化学习 [24] 仿真与生成技术进展 - 仿真依赖场景重建技术,具体包括视觉/Lidar重建、区域重建、多趟重建、场景编辑和风格迁移 [25] - 合成数据通过多模态生成技术获取,如视频/点云生成和神经渲染 [25] - 强化学习依赖于智能体、3D资产以及评测和奖励机制 [25] - 公司在重建到生成的方案上取得进展,例如Feedforward 3DGS技术可直接由视觉输入得到结果,无需点云初始化 [26] - 公司在重建领域有两篇顶会论文,联合重建与生成领域有一篇顶会论文,生成领域有三篇顶会论文 [26][29][31] - 生成技术的应用涵盖场景编辑、场景迁移和场景生成 [33] - 公司在数据配比方面进行了大量优化工作 [35] 训练闭环关键挑战与系统能力 - 可交互的智能体是实现训练闭环的关键挑战 [37] - 系统能力作为增强引擎,世界模型提供仿真环境,3D资产构建多样化场景,模拟智能体进行交互式行为建模,奖励模型提供准确反馈以增强泛化能力,GPU工程加速推理过程 [38]