Workflow
自动驾驶之心
icon
搜索文档
Optimus要量产了,特斯拉Q3电话会议(251023)
自动驾驶之心· 2025-10-24 00:04
Optimus发展规划与产能目标 - 公司计划建立年产100万台Optimus的生产线,最终产量目标约1000万台,远期产能或达5000万至1亿台[3][16] - Optimus V3预计将在2026年第一季度或之前发布,第一代生产线目前正在安装,准备进行批量生产[6] - 计划在明年底左右启动年产100万台规模的生产线,明年一季度(2-3月)将推出生产意向展示原型[15] 技术整合与能力展示 - 公司强调其全自动驾驶(FSD)人工智能技术可以直接转移到Optimus机器人上[7] - Optimus机器人现已能在公司总部全天候巡逻,并具备引导访客前往房间的自主导航与对话能力[10] - 为提升智能性,Optimus预计将接入Grok,重点展示自主规划及对话能力[18] 供应链与生产挑战 - 制造人形机器人需从零开始建立全新供应链,公司必须实现垂直一体化并自行设计零部件[13][14] - 硬件设计会在启动生产时冻结,但会持续迭代,因制造难题多在后期显现,Gen3投产后设计仍会滚动式更新[15] - 公司结合了现实世界AI、机械工程和大规模生产三大要素,这在行业内处于几乎独一无二的地位[14] 硬件设计预测与迭代 - 为获得更高精细度,Optimus大概率采用腱绳驱动加连杆的手部与前臂整体方案,手臂合计31个执行器[17] - 由于行星滚柱丝杠的球关节稳定性问题,可能会放弃部分线性执行器,转向旋转传动方式[19] - 灵巧手加前臂的组合方案被强调为目前依然很难的技术挑战[12]
FSD v14很有可能是VLA!ICCV'25 Ashok技术分享解析......
自动驾驶之心· 2025-10-24 00:04
FSD V14技术进展 - Tesla FSD V14系列在两周内连续迭代4个小版本,从14.1到14.1.3,展现了快速进化节奏[4] - 初始版本14.1在驾驶AI能力上实现显著突破,后续版本分别优化刹车顿挫问题、引入Mad Max模式、扩大对Model S/X车型支持[4] - 这种高速版本迭代表明自动驾驶技术在融入其他AI领域进展后,正进入加速演化新阶段[4] 端到端架构优势 - 从V12版本开始,Tesla FSD转向全面端到端架构,实现从传感器像素输入到车辆控制信号输出的单一神经网络模型完成[7] - 端到端架构减少中间规则处理环节,使模型训练梯度能够从输出端无缝反向传播至感知端,实现模型各部分整体协同优化[7] - 该架构能更好地编码人类价值判断复杂性,通过大量学习人类驾驶数据掌握细微价值权衡[9] - 解决感知与决策规划间接口定义难题,神经网络间直接信息传递能最大程度减少信息损失[11] - 具备同构计算带来的确定性延迟优势,神经网络固定结构和参数量保证单帧计算延迟确定性[11] 端到端系统技术挑战 - 端到端模型面临维度诅咒挑战,输入信息维度相当于20亿token,而输出仅为2个token,需要解决从极高维度到极低维度映射问题[16] - Tesla通过强大数据引擎应对挑战,车队每日产生相当于500年驾驶时长数据,采用复杂触发机制回传长尾场景数据[18] - 公司采用VLA架构保障可解释性和安全性,系统输出驾驶控制指令同时输出多种中间结果,包括3D占据网格、动态障碍物、静态物体等[20] 技术创新与应用 - Tesla FSD V14很可能采用基于VLA的端到端技术方案,与国内头部自动驾驶团队技术路线不谋而合[22] - 自然语言决策实现慢系统思考,在复杂场景中展现逻辑推理能力,例如识别道路封路标志并通过推理做出左转决策[24][26] - Feedforward 3D Gaussian提供丰富监督信号和空间理解能力,相比点云或多边形表达更高效可微,相比NeRF等隐式表达几何信息更明确[28] - 3D高斯表征利用神经网络模型泛化能力,通过重建模型前向推理推导场景几何信息和颜色属性,不需要点云初始化[29] 评测体系与仿真系统 - 完善评测体系是端到端系统核心壁垒,训练Loss不能代表模型性能,开环指标不能保证闭环性能[32][34] - Tesla评测体系核心是基于神经网络闭环仿真系统,可利用大量廉价离线状态-动作数据对进行训练[36] - 闭环仿真系统具有三大作用:验证端到端Policy正确性、利用场景编辑生成能力生成对抗样本检验模型能力、在闭环仿真系统中获取人驾真值[36][38][42] - 丰富多样真实数据是自动驾驶核心资源,训练数据多样性和质量决定世界模型性能[40]
做了几期线上交流,我发现大家还是太迷茫
自动驾驶之心· 2025-10-24 00:04
社区概况与规模 - 社区名称为“自动驾驶之心知识星球”,是一个专注于自动驾驶领域的综合类技术社区 [1][3] - 社区集视频、图文、学习路线、问答、求职交流为一体,已运营三年之久 [1][3] - 目前社区成员数量已超过4000人,公司目标是在未来2年内将规模扩张至近万人 [1][3] 社区服务与资源 - 社区联合了众多学术界和工业界专家,为成员提供技术分享和交流渠道 [1][3] - 内部梳理了超过40种自动驾驶技术路线,帮助成员缩短信息检索时间 [5][6] - 提供近40个开源项目、近60个自动驾驶相关数据集以及行业主流仿真平台的汇总资料 [14] - 建立了与多家自动驾驶公司的岗位内推机制,可帮助成员简历直达心仪公司 [10] 技术内容覆盖范围 - 社区内容全面覆盖自动驾驶感知、规划控制、仿真、端到端学习等核心领域 [14][15] - 具体技术方向包括BEV感知、多传感器融合、3D目标检测、VLA、世界模型、扩散模型等近40个细分领域 [8][14][15][20] - 提供“自动驾驶100问”系列实战内容,涵盖TensorRT模型部署、毫米波雷达融合、车道线检测等工程化主题 [8] 学习与交流活动 - 定期举办线上交流活动,单场活动参与人数超过100人 [1] - 社区内部经常解答各类实用技术问题,例如端到端入门、VLA学习路线等 [5][18] - 不定期邀请一线学术界和工业界大佬进行直播分享,目前直播场次已超过一百场 [84] - 成员可在社区内自由提问,获得关于工作选择、研究方向等问题的解答 [87]
京东入局新能源汽车赛道,名称官宣......
自动驾驶之心· 2025-10-23 08:14
合作与产品发布 - 广汽集团联合京东、宁德时代推出新车型,正式命名为“埃安UT super” [1] 核心技术配置 - 新车型率先搭载“广汽华为云车机”技术 [2] - 车型基于宁德时代巧克力换电技术,在同级车中首次配备500公里续航大电池 [2] - 车型支持99秒快速换电 [2]
手持激光雷达即可在线实时重建点云!超高性价比3D扫描仪来了~
自动驾驶之心· 2025-10-23 00:04
产品核心定位与价值主张 - 产品定位为面向工业场景和教研场景的超高性价比3D激光扫描仪,是国内目前最强性价比实景三维激光扫描仪 [1] - 核心价值在于轻量化设计、一键启动、高效实用的三维解决方案,旨在降低开发门槛,助力开发者快速掌握研发能力 [1][5] - 产品以多模态传感器融合算法为核心,实现厘米级精度的三维场景实时重构 [1] 核心技术参数与性能 - 扫描性能达到每秒20万点云成图,测量距离70米,支持360°水平视角全域覆盖 [1][29] - 支持超20万平米以上的大场景扫描,相对精度优于3厘米,绝对精度优于5厘米 [1][22][30] - 采用微秒级同步技术实现多传感器数据融合,搭载高精度多传感器SLAM建图算法,实时输出高精度点云数据 [27][34][35] - 系统支持实时解算和预览,点云数据可输出为pcd、las、plv等多种通用格式 [22] 硬件配置与设计特点 - 设备集成丰富传感器,包括3D激光雷达、9DOF IMU、双广角相机、深度相机及RTK模块,并配备x86计算单元 [13][22][23] - 采用小倾角设计,激光雷达25°倾斜角度安装,兼顾多个方位,无需反复采集 [15] - 硬件尺寸为14.2cm * 9.5cm * 45cm,重量为1.3kg(不含电池),采用航空铝外壳,配备5.5寸触控屏 [22] - 计算单元采用Intel N5095处理器,4核2.0GHz,配备16G内存和256G硬盘(可拓展TF卡) [22] - 供电采用弹夹电池,容量为88.8Wh,续航时间约3-4小时,支持多种输入输出方式 [22][26] 软件功能与易用性 - 设备自带手持Ubuntu系统,支持ROS,软件操作简单直观,一键启动即可执行扫描作业 [3][5][22] - 扫描结果导出即用,无需复杂部署和繁琐处理,支持快速建图、彩色点云建图、数据录制及3D高斯采集等功能 [5][42][43] - 提供3DGS(3D高斯)版本,支持离线渲染和在线渲染两种模式,实现高保真实景还原 [6][7][50] 应用场景与平台适配 - 可广泛用于大型园区、花园场景、老旧街道、市政道路、环形花园、坡道、隧道、森林、矿场等多种复杂室内外场景 [38][39][46][49] - 支持跨平台集成,可适配无人机、无人车、机械狗、人形机器人等多种负载平台,实现无人化作业 [44] - 适用于地理信息数据采集、城市规划、文昌监测、工程数据采集、文化遗产修复研究及虚拟开发等领域 [52][54] 产品版本与定价策略 - 公司推出四种版本:基础版(19800元)、深度相机版(23800元)、3DGS在线版(39800元)、3DGS离线版(67800元) [57][58] - 3DGS在线版包含云服务,续费为5000元/月,并赠送两个月云服务;离线版要求客户自备高性能服务器或由公司另行提供 [58] - 购买后提供为期1年的售后服务,并可根据需求提供专业工程师培训支持服务 [58][60]
上交OccScene:3D OCC生成新框架(TPAMI)
自动驾驶之心· 2025-10-23 00:04
研究背景与核心问题 - 自动驾驶系统研发高度依赖高质量、大规模的标注数据来训练感知模型,但数据获取成本高昂、费时费力[2] - 传统方法将生成模型和感知模型作为两个独立环节处理,导致生成的合成数据可能不符合真实世界的物理规律和几何结构,对下游感知任务价值有限[2] - OccScene旨在解决生成与感知"学用脱节"的问题,实现两者的深度融合[2] 核心创新与贡献 - 首次实现3D场景生成与语义Occupancy感知的深度融合,通过联合扩散框架达到"1+1>2"的效果[3] - 提出范式创新的联合学习框架,感知模型为生成提供精细几何与语义先验,生成的合成数据反哺感知模型,形成良性循环[5] - 设计基于Mamba的双重对齐模块,高效对齐相机轨迹、语义Occupancy与扩散特征,确保生成内容的跨视角一致性和几何精确性[5][14] - 仅需文本提示即可同时生成高质量图像/视频及对应的3D语义占据信息,并能显著提升现有SOTA感知模型性能[5] 技术架构与实现方法 - 采用联合感知-生成扩散框架,将语义Occupancy预测与文本驱动生成统一到单个扩散过程中[8] - 实施两阶段训练策略:第一阶段冻结感知模型权重,训练扩散UNet理解Occupancy几何约束;第二阶段联合优化,同时训练扩散UNet和感知模型实现双向促进[9][10] - 设计动态加权损失函数,通过噪声水平进行动态加权,在去噪早期感知监督权重较低,随着图像变清晰监督权重逐渐增强,确保训练稳定性[11][13] - 推理过程采用独特的闭环自我优化机制,实现"边生成、边感知、边校正",确保最终生成结果的几何一致性和语义准确性[17][19] 性能表现与实验结果 - 在NYUv2室内数据集上,OccScene的FID指标为15.54,显著优于SD的47.82和ControlNet的50.61[21] - 在NuScenes室外数据集上FID为11.87,在SemanticKITTI数据集上FID为19.86,FVD为113.28[21] - 作为数据增强策略可显著提升感知模型性能:在NYUv2数据集上使MonoScene的mIoU从26.94提升至29.78;在SemanticKITTI数据集上使TPVFormer的mIoU从7.8提升至12.2[25] - 消融实验显示联合学习策略相比离线生成,在FID指标上从28.52提升至19.86,mIoU从12.94提升至15.70[27] - Mamba-based MDA模块相比Attention架构推理时间从4.09秒减少至2.76秒,节省32.5%的时间[27] 应用价值与行业影响 - 为自动驾驶仿真生成高保真、多样化的驾驶场景,特别是各种极端场景,以低成本增强系统鲁棒性[32] - 为机器人与AR/VR领域的室内外场景导航、交互提供可控、可编辑的虚拟环境[32] - 作为即插即用的数据生成器,为各类下游3D视觉任务提供高质量训练数据,有效解决数据稀缺问题[32]
关于端侧大模型芯片化的若干趋势思考......
自动驾驶之心· 2025-10-23 00:04
文章核心观点 - 算法、框架和部署技术的演进正深刻影响未来端侧芯片的设计,当前端侧芯片在支持大模型时面临效率未达上限的挑战 [1][2] - 视觉与语言大模型带来的性能飞跃使Transformer架构支持势在必行,但其计算复杂度对端侧设备的算力和带宽提出巨大需求 [4] - 线性注意力、动态稀疏MoE、低比特量化和Token压缩是未来端侧芯片设计需重点关注的四大确定性技术趋势 [5][7][11][14] 注意力机制演进对芯片设计的影响 - Transformer自注意力机制的计算复杂度与序列长度呈平方关系,对prefill阶段算力和decode阶段带宽构成挑战 [4] - 线性注意力机制通过核函数近似将计算复杂度降至线性水平,RWKV、Mamba、DeltaNet等属此路线 [5] - 稀疏注意力通过将序列长度n变小来突破瓶颈,DSA、MoBA等技术是典型代表,今年ACL最佳论文DSA即属此类 [5] - 对端侧芯片而言,注意力机制变体影响有限,只要算子可融合则计算效率依然高,通道数、head数及SRAM容量是更关键瓶颈 [5] 动态稀疏与MoE技术的影响 - MoE技术在推理阶段只激活部分专家,14B稠密模型与30B-A3B稀疏模型相比,后者性能更好且推理时省算力、省带宽 [8] - 单batch场景下MoE优势明显,但多batch decode阶段带宽需求几乎等同于30B稠密模型,此时反而不如稠密模型 [8] - 蚂蚁集团MoE模型(100B-A6.1B及端侧16B-A1.4B)展现出稀疏性加大趋势,未来MoE技术将驱动芯片向大内存、中带宽、中算力方向发展 [9] - MoE模型压缩是工业界需关注的重点,例如MoNE等工作致力于降低内存需求 [9] 低比特量化技术趋势 - Deepseek采用FP8训练开启低比特量化新时代,端侧大模型对4bit及以下量化有更激进需求 [11] - 技术呈现四大特性:权重专用量化(如GPTQ、AWQ)以解决decode带宽瓶颈;低精度浮点与定点数两条技术路线;细粒度量化提升精度;动态与静态量化的权衡 [11][12] - 混合量化是未来趋势,尤其适合处理大模型层内层间数值不平衡问题,在MoE模型上有更大应用潜力 [12] Token压缩技术的影响 - Token维度压缩极大降低端侧大模型应用门槛,视觉Token数量远超文本Token且冗余度高,是压缩重点 [14] - FastV、PyramidDrop、Holov、LightVLM、SpecPrune-VLA等工作近期呈现井喷式发展 [14] - 对芯片设计而言,Token压缩技术是纯收益,能够直接降低计算量 [14]
端到端和VLA,正在吸引更多智驾公司的关注......
自动驾驶之心· 2025-10-23 00:04
端到端与VLA自动驾驶行业需求 - 主机厂和供应商对端到端及VLA技术人才的需求旺盛,反映出行业技术迭代加速 [1] - 端到端自动驾驶算法主要分为一段式和两段式两大技术范式,其中UniAD是一段式的代表性工作 [1] - 基于VLA的端到端算法是当前学术和工业界的热点,相关论文呈爆发式增长并正推动量产落地 [1] 端到端与VLA技术栈 - 核心技术涉及BEV感知、视觉语言模型、扩散模型、强化学习、世界模型等多个前沿领域 [3] - 一段式端到端算法可进一步细分为基于感知、扩散模型、世界模型及VLA等多种实现路径 [1] - 从模块化算法演进至端到端,再发展到VLA,代表了自动驾驶技术发展的主要方向 [3] 自动驾驶VLA与大模型实战课程 - 课程由学术界专家主导,系统梳理从VLM作为解释器到模块化VLA、一体化VLA及推理增强VLA的技术体系 [3] - 课程内容涵盖Vision/Language/Action三大模块,并设有大作业指导学员从零搭建VLA模型及数据集 [3] - 授课教师来自清华大学及QS30高校,在ICCV/IROS/EMNLP等顶级会议发表多篇论文,GitHub项目总Star数超过2k [8][11] 端到端与VLA自动驾驶课程 - 课程由工业界专家主导,重点讲解一段式/两段式端到端算法的核心理论与模型 [12] - 课程设计包括基于扩散模型的Diffusion Planner和基于VLA的ORION算法两大实战项目 [12] - 授课教师为国内顶级主机厂算法专家,拥有端到端及大模型算法的预研和量产交付经验 [14] 课程目标人群要求 - 学员需自备GPU,推荐算力为4090及以上 [15] - 要求学员具备一定的自动驾驶领域基础,并熟悉Transformer、强化学习、BEV感知等基本概念 [16] - 学员需拥有概率论、线性代数基础,并掌握Python和PyTorch编程能力 [16]
某大型Tier 1中阶项目量产不顺......
自动驾驶之心· 2025-10-23 00:04
行业核心动态 - 2024年下半年,部分商务能力强但工程能力不足的Tier 1出现量产交付困难,导致项目被重新分配,工程能力扎实的Tier 1成为受益者[5] - 车企的定点项目出现流动,从量产交付不佳的Tier 1和自研团队流向量产交付能力强的供应商[7] - 智驾行业话语权呈现向头部Tier 1转移的趋势,车企的掌控力减弱,双方博弈加剧[12] 智驾方案的合作模式选择 - 车企过去试图通过要求Tier 1进行白盒交付来掌握算法能力,但效果不佳,例如某头部车企整合三家供应商白盒后算法性能仅达三年前水平[8] - 易航智能提出的联合开发模式能帮助车企建立算法方法论和理解功能开发思路,并提供工具链以提升开发效率[8] - 走通to B to C的模式需要车企与Tier 1联合开发,在功能开发阶段共同进行用户调研和产品定义,使方案更符合目标用户需求[9] - 联合开发模式能使智驾产品具备车企自身的特征和烙印,而非纯粹的供应商感觉[10] 平台化算法与定制化需求的矛盾 - 头部Tier 1普遍采用平台化算法方案以实现利益最大化,但导致C端用户体验不佳,例如某行政商务车型用户对博弈性强的算法不满[9] - 平台化复制交付需解决车型差异化工程问题,投入不足会导致同一版算法在不同车型上性能差异巨大[12] - 头部Tier 1因项目海量、人力有限,在量产交付上可能出现“潦草”情况,对核心与非核心客户的资源投入存在差异[12] 车企的供应商战略选择 - 部分传统车企开始启用知名度一般但务实的Tier 1来制衡头部Tier 1,将中高阶项目转移给更“听话”的供应商[13] - 车企需要建立自己的基石供应商,即技术能力强且合作度高的Tier 1,以增强与头部Tier 1博弈时的话语权[13] - 易航智能因其算法能力、稳健量产及合作态度,被视作潜在的基石供应商,能通过联合开发反哺车企自研团队[14] - 拥有基石供应商可帮助车企避免陷入被动接受头部Tier 1“千篇一律”方案的处境[14]
从地平线自动驾驶2025年的工作,我们看到了HSD的野心......
自动驾驶之心· 2025-10-22 00:03
公司战略与整体进展 - 公司在2025年经历组织调整和资源整合后,在自动驾驶领域双线并进,一方面推动新一代辅助驾驶系统HSD的大规模量产落地,另一方面通过前沿论文重塑自动驾驶的底层逻辑 [2] - 公司正从技术供应商向行业标准定义者跃迁,其全新的HSD系统采用创新的"一段式端到端+强化学习"架构,突破传统感知-决策-控制模块的延迟瓶颈 [2] - 公司集中发力在端到端和世界模型两个最热门的方向上,得益于从UniAD时期就积累的大量学术经验,并已将重点铺在了一段式端到端的量产 [3] - 公司在Diffusion、强化学习、GoalFlow、世界模型等领域颇有建树,未来预计会有更多自动驾驶和具身智能方面的基石工作问世 [4] 端到端自动驾驶技术 - ResAD框架通过归一化残差轨迹建模,将学习目标从直接预测未来轨迹转变为预测轨迹相对于惯性参考的偏差,在NAVSIM基准测试中以88.6的PDMS分数达到最先进性能 [6][8] - CorDriver框架引入"安全走廊"作为中间表示,在nuScenes数据集上相比VAD等方法,与交通参与者的碰撞率降低66.7%,与路缘的碰撞率降低46.5% [9][11] - TTOG框架统一运动预测与路径规划任务,在nuScenes数据集上平均L2误差降低36.06%,在Bench2Drive上驾驶分数提升22%,尤其在少样本场景下表现出强大泛化能力 [12][14][15] - MomAD框架引入轨迹动量和感知动量机制,在nuScenes和Turning-nuScenes数据集上显著降低长时预测和转弯场景中的碰撞率,提升轨迹平滑性和一致性 [16][18][19] - GoalFlow框架采用目标驱动的流匹配,在NavSim基准测试中PDMS分数达到90.3,仅需单步去噪即可达到优异性能,推理速度比传统扩散模型快数十倍 [20][22][24] - RAD框架基于3D高斯泼溅技术构建强化学习环境,相比纯模仿学习方法碰撞率降低3倍,显著提升驾驶安全性 [23][26][29] - DiffusionDrive框架采用截断扩散策略,在NAVSIM数据集上取得88.1 PDMS,在nuScenes上比VAD降低20.8% L2误差和63.6%碰撞率,实现45 FPS的实时性能 [27][30][35] 自动驾驶场景生成与世界模型 - Epona模型实现解耦的时空建模和异步多模态生成,在NuScenes数据集上取得最佳FVD指标,并将最长生成时长从现有方法的15秒大幅提升至2分钟 [31][33][36] - UMGen框架能同时生成自车动作、交通参与者、交通地图和图像四种关键模态,生成长达60秒的多样化、多模态一致的驾驶场景 [34][38][41] - DrivingWorld模型基于GPT风格视频生成框架,在仅使用15帧条件输入的情况下可生成超过40秒的高保真视频,时长是现有最佳模型的2倍以上 [39][42][46] 自动驾驶视觉语言模型 - AlphaDrive框架首次将基于GRPO的强化学习与规划推理相结合,在规划准确率上比仅用监督微调的模型显著提升25.52%,并展现出高效的数据利用能力,仅用20%的训练数据即可超越基线模型35.31% [43][45][47]