自动驾驶之心 - 财报，业绩电话会，研报，新闻

自动驾驶之心

搜索文档

自动驾驶之心· 2025-09-08 09:09

最强性价比3D激光扫描仪面向工业场景和教研场景的超高性价比3D扫描仪来了！GeoScan S1是国内目前最强性价比实景三维激光扫描仪，轻量化设计，一键启动，便可拥有高效实用的三维解决方案。以多模态传感器融合算法为核心，实现厘米级精度的三维场景实时重构。可广泛用于多种作业领域。每秒20万级点云成图，70米测量距离，360°全域覆盖，支持20万平米以上的大场景，扫描可选配3D高斯数据采集模块，实现高保真实景还原。支持跨平台集成，配备高带宽网口及双USB 3.0接口，为科研实验提供灵活扩展空间。降低开发门槛，助力开发者快速掌握研发能力，开启更多可能。 GeoScan S1设备自带手持Ubuntu系统和多种传感器设备，手柄集成了电源，可通过D-TAP转XT30母头输出至 GeoScan S1设备本体，给雷达、摄像头以及主控板提供电源。基础版重建效果一览！使用门槛低：操作简单直观，一键启动即可执行扫描作业扫描结果导出即用：无需复杂部署和繁琐处理，扫描结果导出即用高效率高精度建图：模型精度高，行走之间轻松扫描大场景业内最优惠价格：性价比高，高度集成多传感器，往下翻~ 重磅！3DG ...

理想汽车如何看待VLA里语言部分的作用

自动驾驶之心· 2025-09-08 03:32

来源 | 理想TOP2 点击下方卡片，关注" 自动驾驶之心 "公众号戳我-> 领取自动驾驶近30个方向学习路线语言是认知世界的框架，而不仅是沟通工具。人类所能思考、理解和表达的一切，都被限制在语言的范畴之内。我们所理解的世界，很大程度上是我们所使用的语言的产物，对于无法用语言表述的事物，我们难以形成清晰的思想。而且，不同的语言以其独特的词汇、语法和结构，为使用者提供了不同的认知框架。所以我们会看到，来自于不同语言体系的人，其思维方式是有差别的。在VLA架构里面，V是感知，A是动作，而L承担的是语言能力部分。L对V感知的内容做出认知理解并形成A的行动规划和决策。VLA的L不是用语言做显式的文字推理，而是用人类语言提供的数据学习做隐式的逻辑推理，这才是L真正的核心。很多人以为L就是输出在交互界面的那几行文字以及语音控制命令，这个理解是不对的。其实文字输出和语音输入都是可选的，输不输出都不太关键（看人类想不想要），真正发挥作用的是背后推理的长思维链。如果没有强大的L，再好的V 和A都无法发挥出来。这跟人与动物的区别很相似。论视觉能力人比不过鹰，论行动速度比不过猎豹，但人之所以能够称霸地球， ...

这家倒闭新势力宣布复活！

自动驾驶之心· 2025-09-08 03:32

复活了！9月6日，威马汽车通过官方公众号发布《致供应商白皮书》。目前，深圳翔飞汽车销售有限公司已正式接管威马汽车，正全力推进威马EX5与E5车型在温州基地的快速复产，同时计划未来5年向市场推出10款以上新产品，并挑战年产100万辆的目标。最近，国内汽车行业正在从短暂的低谷走出来。比如蔚来正迎来新的拐点，零跑的增长还在持续，小鹏汽车八月份的销量也同比增长了169%！智能驾驶的道路远未结束，最近行业内也掀起了新一轮的技术探讨： VLA还是WA，L3的技术路线出现了分歧，我们还有很多很多事情可以做。这也是我们一直坚持做自动驾驶社区的原因！三年期间社区内部一直聚焦在自动驾驶最前沿的技术方向，多模态大模型、VLM、VLA、闭环仿真、世界模型、扩散模型、端到端自动驾驶、规划控制、多传感器融合等近40个技术方向的内容。涵盖了目前所有主流的方向，并形成了技术路线，适合入门进阶的同学做进一步提升。社区成员主要分布在头部的自驾/具身/互联网公司、Top高校实验室、还有一些传统的机器人公司。形成工业界+学术界互补的态势。如果您真的有需要，想要做系统提升、和更多的同行业人员交流，欢迎加入。开学季大额优惠， ...

从近1000篇工作中，看具身智能的技术发展路线！

自动驾驶之心· 2025-09-07 23:34

机器人操作 - 机器人操作从机械编程演进至具身智能阶段聚焦多指灵巧手与AI赋能的数据采集和技能学习框架[6] - 灵巧操作依赖模拟器人类演示和遥操作三种数据采集范式结合模仿学习和强化学习框架[6] - 面临三大关键挑战包括高质量数据集缺乏静态学习框架鲁棒性不足端到端学习泛化性受限[6][13] 具身导航与操作 - 导航任务从显式记忆转向隐式记忆操作任务从强化学习拓展至模仿学习扩散策略及VLA模型[13] - 物理模拟器分为室内型 Habitat AI2-THOR 室外型 CARLA AirSim 和通用型 ThreeDWorld Isaac Sim[12][13] - 操作模拟器包括经典物理引擎 MuJoCo PyBullet 和可微分物理引擎 Dojo Genesis[13] - 评估指标采用成功率 SR 和路径效率 SPL 操作任务使用SO(3)/SE(3)等变表示[13] 具身多模态大模型 - 由具身智能体大语言模型 GPT系列大视觉模型 ViT 和视觉语言模型 CLIP 构成基础架构[17] - 覆盖具身感知导航交互仿真四大核心任务感知分为GPT与非GPT模型导航分通用与专用模型[17] - 使用Open X-Embodiment和HM3D等数据集面临跨模态对齐难计算资源消耗大领域泛化性弱等挑战[17] 强化学习应用 - 采用RLHF DPO RLVR三种对齐范式结合PPO和GRPO策略优化算法通过KL正则约束政策偏移[24][26] - 应用于多模态大语言模型视觉生成统一模型和视觉-语言-动作模型四大方向[26] - 评估体系包含集合级 FID 样本级 RLHF奖励和状态级 KL监控配套SEED-Bench-R1等基准[26] 遥操作技术 - 系统架构包含人类状态测量运动重定向机器人控制和多模态反馈支持单向或双向操作[30][32] - 运动重定向采用完整动力学模型与简化模型 LIPM 通过ZMP/DCM保证平衡[30] - 应用远程存在和危险作业场景面临非专家操作门槛高动态环境适应难长延迟稳定性差等挑战[33] 视觉-语言-动作模型 - 涵盖80多个近三年发布的VLA模型涉及架构创新参数高效训练和实时推理加速等进展[31][34] - 按架构分为单体模型 Monolithic 与分层模型 Hierarchical 从结构与功能双维度分析[39] - 发展历程划分为萌芽探索和快速发展三阶段使用互联网图文视频仿真和真实机器人数据训练[36] - 应用于类人机器人自动驾驶医疗与工业机器人精准农业和增强现实导航等领域[31]

不及预期的diffusion多模态轨迹输出，能否胜任自动驾驶VLA的角色？

自动驾驶之心· 2025-09-07 23:34

自动驾驶范式演进 - 行业主流从端到端转向VLA（Vision-Language-Action）和世界模型-行为（World Action）两大流派，理想和小鹏完成VLA范式转变，华为和蔚来聚焦直接建模视觉信息到Action输出 [2][3] - 端到端网络通过原始传感器输入直接映射控制量，省去传统感知-预测-规划-控制级联链路，采用高并行低耦合设计，通过数据采集→模型训练→仿真/实车验证闭环实现 [4][5] - 特斯拉提出"日更模型"解决迭代痛点：每日筛选bad case转为训练样本，轻量级微调上一版本模型，实现7×24持续进化，核心挑战是保持既有能力同时无缝注入新知识 [9] 技术融合与创新 - 2023年端到端+VLM（Vision-Language Model）双系统方案兴起，受LLM Scaling Law启示，参数量与数据量放大带来zero-shot/few-shot泛化能力 [11] - VLM早期解决特殊语义识别（如OCR识别公交车道文字、潮汐车道箭头），EMMA架构引入链式推理，用自然语言思考过程辅助控车，推动VLA发展 [12] - VLA+Diffusion融合DiffusionDrive与GoalFlow思想，VLA显式输出Driving Command作为Diffusion初始噪声和条件，最终生成安全平滑车辆轨迹 [14][15][16] 当前挑战与问题 - Diffusion多模态轨迹输出不及预期，开放道路环境数据稀疏且分布不均衡，可控性远逊预期，难以覆盖万景万态 [6][18] - VLA和Diffusion双系统存在脑裂问题，两个大脑学习人驾轨迹可能产生矛盾，虽联合训练但仍存在VLA错误时Diffusion自行弥补导致分歧 [18] - 生成加打分范式对生成器效率要求高，单模态轨迹质量不佳，有限计算资源难以生成覆盖全场景的安全合理轨迹 [18] - 语言模态（L）价值未定，可能产生不可接受幻觉，LA对齐挑战大，需将抽象语言精准映射到三维空间关系 [18] 未来发展方向 - 需要能够scaling的系统方案，双系统不适合scaling，应充分发挥数据优势触发模型scaling能力 [22] - 强化学习需加强基础模型能力，连续空间内自由度太高难调优，轨迹模型建模形式需重新设计 [22] - 生成+打分范式需让轨迹自我反思，DiffusionPlanner用奖励场函数二次优化只是起点，需迭代更多反思手段提升单条轨迹质量 [22]

VLA（Vision - Language - Action）

VLA（Vision - Language - Action）

当导师让我去看多模态感知研究方向后......

自动驾驶之心· 2025-09-07 23:34

自动驾驶多模态感知融合技术发展现状 - 激光雷达在自动驾驶感知中具有核心优势：提供超长感知距离的安全冗余、高帧率实时感知、恶劣环境抗干扰保障和三维空间认知能力 [1] - 多传感器融合是国内高端智能驾驶量产的主流范式激光雷达与视觉感知结合构成可靠工作能力 [1] - 多模态感知融合技术正从传统融合向端到端融合和Transformer架构演进 [1] 多模态融合技术架构演进 - 传统融合分为三种方式：早期融合（输入端拼接原始数据计算量巨大）中期融合（传感器特征提取后融合当前主流方案）后融合（决策层结果融合可解释性强但难以解决信息冲突） [2] - 基于Transformer的端到端融合成为最前沿方向：通过跨模态注意力机制学习不同模态深层关系实现高效鲁棒的特征交互 [2] - 端到端训练减少中间模块误差累积直接从原始传感器数据输出3D目标框提升动态信息捕捉能力和整体性能 [2] 多模态融合科研培训课程体系 - 课程设计为期14周：包含12周在线小组科研 2周论文指导和10周论文维护期 [10][21] - 招生规模为6人/期至多8人采用"2+1"式师资配置（名校教授+行业导师+科研班主任） [5][11] - 硬件要求最低2张4090显卡推荐4张4090或以上性能设备支持云服务器租赁 [11] 课程技术内容体系 - 覆盖多模态融合全技术栈：从传统模块化感知系统到BEV视角融合再到基于Transformer的端到端融合 [15] - 提供完整科研支持：包括公开数据集（nuScenes、KITTI、Waymo Open Dataset）、Baseline代码和论文idea [12][13][14] - 重点讲解激光-视觉深度融合和雷达-视觉-激光三元融合技术涵盖多任务多传感器融合方案 [15][16] 学术产出与培养目标 - 学员将产出论文初稿获得结业证书和推荐信（根据优秀程度） [11] - 培养体系解决三大问题：知识体系碎片化动手能力不足论文写作投稿困难 [5] - 课程包含完整论文方法论：从选题方法、实验方法到写作方法和投稿建议 [4][10]

TrackAny3D：一个模型通吃所有3D单目标跟踪！

自动驾驶之心· 2025-09-07 23:34

核心观点 - TrackAny3D首次将大规模预训练3D点云模型迁移至单目标跟踪任务通过轻量适配器与几何专家混合网络实现无需类别微调即可统一处理汽车、行人、自行车等多类目标[3] 在KITTI、NuScenes、Waymo数据集上刷新类别统一设定的最佳性能[3][27][28][30] 方法设计 - 采用轻量级双路径适配器动态对齐预训练特征与跟踪任务保留几何先验并提升学习效率[10][16] - 引入几何专家混合模块（MoGE）由多个专家子网络根据物体几何特性自适应激活解决跨类别几何冲突[10][19] - 设计时间上下文优化策略通过可学习时间令牌传播历史状态结合动态掩码权重机制校准输入信息[10][22][24][25] 实验结果 - 在KITTI数据集上平均成功率为67.1% 精确率为85.4% 超越所有类别统一方法[27] - 在NuScenes数据集上平均成功率为54.57% 精确率为66.25% 其中Bus类别成功率61.01%超越单类别模型[28][29] - 在Waymo数据集Vehicle类别上平均成功率达64.0% 精确率达73.3% 直接使用KITTI训练模型即实现最佳泛化性能[30][31] 技术优势 - 仅需5.30M参数推理速度28FPS 在计算效率与性能间取得平衡[27] - 通过预训练模型迁移解决传统方法需为每类别独立训练模型的问题降低部署成本[8][9] - 动态掩码加权机制无需手动调节超参数自适应处理不同类别时空变化[25]

3D单目标跟踪

大规模预训练点云模型

Artificial Intelligence

Artificial Intelligence

TrackAny3D

RECON

自动驾驶黄埔军校，4000人死磕技术的地方~

自动驾驶之心· 2025-09-07 03:08

社区定位与愿景 - 致力于让AI与自动驾驶技术普及化成为连接企业与高校的桥梁 [1] - 构建涵盖产业学术求职技术交流的完整生态闭环 [1] - 目标为培养未来行业领袖的高质量内容社区 [4] 技术资源体系 - 系统梳理超过40种技术路线覆盖感知规划控制 V2X等核心领域 [2][5] - 整合近60个自动驾驶数据集包括多模态大模型专用数据集 [33] - 提供近40个开源项目资源涵盖3D检测 BEV感知端到端方案等 [31] - 汇总数学基础计算机视觉深度学习等6大类入门资料 [5] 专家网络与互动 - 聚集数十位产业界与学术界一线专家包括顶级会议常驻嘉宾 [2] - 已举办超过100场专业直播涵盖VLA 3DGS 大模型等前沿主题 [80] - 支持成员自由提问获得职业发展与技术方向的专业解答 [81] 学习体系设计 - 为初学者提供完整技术栈与学习路线图 [8] - 为进阶者提供产业级项目方案与实战资源 [10] - 设计感知/仿真/规划控制三大学习路线包含BEV 扩散模型等15+子领域 [12][15] 产业覆盖范围 - 成员来自上海交大清华 CMU等顶尖高校及蔚小理华为英伟达等头部企业 [12] - 汇总国内外自动驾驶公司覆盖RoboTaxi 重卡新势力等多类企业 [27] - 持续更新求职信息与岗位机会构建人才与企业的对接平台 [12] 核心技术专题 - 端到端自动驾驶: 整合学术与工业方案涵盖VLA相关算法 [35] - 3DGS与NeRF: 包含场景重建仿真应用及学术前沿分享 [37] - 世界模型: 详细梳理技术前沿与业界应用方案 [39] - VLA技术: 覆盖开源数据集模块化设计量产讨论等全链条 [43] - BEV感知: 包含纯视觉多模态方案及工程部署实践 [48]

理想汽车智驾方案World model + 强化学习重建自动驾驶交互环境

自动驾驶之心· 2025-09-06 16:05

自动驾驶仿真技术突破 - 融合几何先验的生成式闭环仿真框架DrivingSphere构建4D世界表示将静态背景与动态对象融合为占用网格解决开环仿真缺乏动态反馈及传统闭环仿真视觉真实性问题[8] - 首次结合文本提示与BEV地图驱动3D占用生成通过场景扩展机制实现城市级静态场景的无限扩展[8] - 通过OccDreamer扩散模型基于BEV地图与文本提示生成城市级3D静态场景突破传统方法对固定数据集的依赖[17] 多维度仿真能力提升 - 动态环境组成模块通过OccDreamer扩散模型与动作动态管理构建包含静态背景与动态主体的4D驾驶世界[13] - 视觉场景合成模块通过VideoDreamer将4D占用数据转换为高保真多视图视频支持自动驾驶系统感知测试[21] - 采用时空扩散Transformer（ST-DiT）架构集成视图感知空间自注意力机制处理多视图特征空间一致性时间自注意力确保动作连续性[22][26] 闭环反馈机制创新 - 通过自动驾驶代理与模拟环境双向交互形成"代理动作-环境响应"实时循环支持真实场景算法验证[23] - 交通流引擎实现大规模智能体协同支持十字路口通行等复杂场景仿真[23][27] - 支持"仿真-测试-优化"迭代流程通过闭环反馈暴露算法缺陷并指导模型改进[23] 技术整合与论文支撑 - 理想团队在CVPR2025发表四篇论文：StreetCrafter、DrivingSphere、DriveDreamer4D与ReconDreamer 提供自动驾驶场景重建与生成的技术细节[5][30] - 占用标记器使用VQVAE将3D占用数据映射为潜在特征通过组合损失函数优化重建精度[20] - 条件编码机制整合全局几何特征/智能体ID与位置编码/文本描述嵌入确保生成视频的语义准确性与外观一致性[26]

自动驾驶中有“纯血VLA"吗？盘点自动驾驶VLM到底能起到哪些作用~

自动驾驶之心· 2025-09-06 16:05

视觉语言自动驾驶模型技术实现 - 模型支持不同数量相机输入无需明确指定相机数量[2] - 轨迹输出采用文本形式通过Prompt限制为XY坐标格式[4] - 输出坐标为车辆坐标系相对值原点为(0,0) 非图像坐标[6] - 使用Python编程进行轨迹格式规范化处理确保输出符合预期[8] - 通过JSON格式和关键词约束优化未经训练模型的输出效果[9] 数据集构建与处理 - 遇到坐标异常问题连续多帧坐标相同后出现突变[14] - 不同数据集存在坐标格式差异包括经纬度与相对坐标[14] - 通过规则化方法剔除不合理轨迹数据[14] - 统一转换为自车坐标系下的相对位移进行数据对齐[18] - 输入为图像和前1.5秒轨迹点输出未来5秒轨迹点[20] 模型训练与性能 - 经过数据训练后模型输出格式符合性显著提升[8] - 通过QA训练获得多模态轨迹预测和场景理解能力[11] - 具备动态物体轨迹预测能力包括车辆行人运动预测[11] - 新增端到端预测任务确保数据完整性[20] 社区资源与技术覆盖 - 知识星球涵盖40+技术方向包括多模态大模型和端到端自动驾驶[22] - 社区成员来自头部自驾公司和高校实验室超4000人规模[24] - 提供近40个技术路线图和学习入门路线[24] - 包含自动驾驶数据集汇总与仿真工具资源[27] - 建立与多家自动驾驶公司的岗位内推机制[29]