自动驾驶之心
搜索文档
和一些人交流后, 更深入的分析地平线HSD
自动驾驶之心· 2025-11-04 00:03
文章核心观点 - 地平线HSD工程版软件在特定场景下体验优异,1.5小时杭州西湖试驾表现明显优于理想L7 VLA截至2025年10月的量产版本,全程除1次三点掉头外0次接管 [3][5] - 自动驾驶技术路径存在差异,地平线采用VA式端到端,理想采用VLA式端到端,两者均为基于各自情况的最优解 [3][9][10] - 单一或几次试驾体验不足以评估辅助驾驶系统的全国泛化能力,网上正面评价可能不够全面 [3][7][8] - 20万元以上市场除华为外,主机厂需具备自研自动驾驶能力才能生存,该能力是区分点而非直接卖点 [3] 地平线人员印象及HSD试驾体验 - 接触到的3位地平线人员均表现诚实、实事求是,主动阐述系统在极端天气、非标场景及复杂博弈下的不足 [3][4] - A车型搭载的地平线HSD工程版软件在安心感、舒适感、丝滑度、时延及堵车启停舒适度方面表现不错,明显优于理想VLA量产版 [3][5] - 不同车型(A车型与B车型)的HSD体验差异显著,与芯片算力及车企配合度有关 [5] - 业内人士D认为HSD在纵向控制上相当不错 [6] 技术路径分析:VA式端到端 vs VLA式端到端 - VA式端到端(地平线采用)有特斯拉FSD作为成功标杆,潜力可挖,现阶段在部分用户体验方面有优势,是地平线基于自身基础与商业方向的最优解 [3][10][12] - VLA式端到端(理想采用)对算力、带宽需求明显更高,缺乏成熟体验参考,是理想做出的有勇气的决策,若成功可带来长期竞争优势 [3][12] - 理想面临架构转化过渡期,2025年11月版本体验或有改善,但长期需解决VLA对算力、带宽的更高需求 [3][12] 行业竞争格局观点 - 20万元以上市场,除华为外,主机厂需自研自动驾驶能力,否则将被淘汰,该能力是综合组织能力的体现 [3] - 自动驾驶本身是能力区分点,其边际成本低的特性将导致行业集中度高 [3]
人形机器人大概要进入第一轮寒冬
自动驾驶之心· 2025-11-03 08:55
行业当前面临的挑战 - 特斯拉Gen2因发热和灵巧手短命问题暂停今年量产计划,Gen3推迟至明年Q1发布[3] - 国外公司表现不及预期,如Figure03被爆出视频多次拍摄剪辑,Meta首席AI科学家LeCun认为机器人行业远未实现真正智能,Google DeepMind负责人称人形机器人进入家庭市场还需5-10年[4] - 国内行业存在虚假繁荣,订单多为左手倒右手、无需交付的框架订单或远期订单[5] - 硬件发展迅速(如宇树通过电驱技术超越波士顿动力液压系统),但过去50年仍未实现机器人大规模普及[7] 技术发展的核心瓶颈 - 当前AI技术能否让人形机器人涌现智能存在重大疑问,截至2025年底尚未出现令人惊叹的通用智能[8][9] - 现有技术(如VLA)仅在特定场景下有效,缺乏泛化能力,无法适应家庭等复杂环境[11][12] - 视频学习技术仍处于大公司预研阶段,尚未落地,例如特斯拉Optimus虽宣称能用视频学习在工厂行走,但无公司能证明通过视频学习实现灵巧手泛化操作[13][15][17] - 技术环节存在多个卡点,如强化学习的奖励函数设计、手部识别精准度、逆动力学模型准确率等,任一问题都可能成为致命伤[15][16] 潜在的超预期因素 - 特斯拉Optimus Gen3被寄予厚望,马斯克称其为“无与伦比的产品”,若明年Q1展示成功可能扭转行业预期,若翻车则可能导致行业进入寒冬[18][19][20][21] - 硬件极致化开辟新市场,宇树通过泛娱乐路线(如售价9998元的小机器人)吸引企业跟进,即使通用AI发展遇阻,泛娱乐领域的研究仍会持续[22][23] 行业长期展望 - 人形机器人当前的不及预期可能类似新能源汽车早期的蛰伏期,是技术迭代蓄力的阶段[24]
端到端和VLA,这些方向还适合搞研究
自动驾驶之心· 2025-11-03 00:04
自动驾驶技术发展路线 - 技术路线从基于规则时期转变为以理想、小鹏等新势力为代表的端到端到VLA范式时期,现阶段进入以蔚来为代表的世界模型时期[1] - 深度学习始终是技术路线的核心组成部分,行业建议学习前沿理论、底层基础理论和代码能力以应对技术快速迭代[1] 课程内容与目标 - 课程涵盖从模块化量产算法到端到端、VLA的技术演进,核心算法包括BEV感知、视觉语言模型VLM、扩散模型、强化学习、世界模型等[5] - 学习目标为掌握端到端技术框架,复现扩散模型、VLA等主流算法,学完后可达1年左右端到端自动驾驶算法工程师水平[5] 导师资质与行业资源 - 主讲导师为C9本科+QS前50 PhD背景,发表CCF-A论文2篇,现任国内TOP主机厂算法专家,主持过多项自动驾驶感知和端到端算法的量产交付[6] - 公司拥有300+专职于自动驾驶/具身智能方向的导师,来自全球QS前100高校,近3年辅导学员超400名,中稿率达96%[8][15] - 优秀学员可获得清北/MIT等名校推荐信或内推至阿里达摩院、华为诺亚方舟等企业研发岗[19] 科研辅导服务 - 辅导覆盖选题、调研、idea验证、代码实现、实验、润色、投稿全流程,目标包括CCF-A/B/C、SCI1-4区、EI会议等[15] - 服务包含班主任全程督学,针对零基础学员提供基础课程,承诺6个月可完成一篇小论文[18] - 通过精准匹配系统从300+导师中筛选3-5位方向契合者,支持试听和退款机制[18][19]
招募自动驾驶产品经理/4D标注方向的合作伙伴
自动驾驶之心· 2025-11-03 00:04
业务拓展计划 - 公司正积极拓展业务范围以响应行业需求计划在B端企业高校和C端学生求职人群的企业培训与求职辅导领域进行赋能[2] - 公司面向全球自动驾驶从业者发出合作邀请寻求在技术服务培训课程开发与科研辅导等多个领域展开合作[2] - 公司将提供高额酬金与丰富行业资源以吸引合作伙伴[3] 重点合作方向 - 合作方向覆盖自动驾驶产品经理4D标注数据闭环世界模型VLA自动驾驶大模型强化学习端到端等多个前沿技术领域[4] 岗位与合作模式 - 合作岗位主要面向自动驾驶培训合作课程开发和原创文章创作[5] - B端培训主要面向企业和高校研究院所C端培训主要面向学生和求职类人群[5] 联系方式 - 感兴趣的从业者可通过添加指定微信进行进一步咨询[6]
对理想25年10月交付31767辆的分析
自动驾驶之心· 2025-11-03 00:04
2025年10月交付表现分析 - 2025年10月公司交付31767辆汽车,被定性为低水平的交付数字[2] - 交付量不佳的原因大致可拆分为L系列订单表现不佳、i68车型产能不足、以及MEGA车型正常发挥[3] - 准确的分车型交付预期需等待11月10日或之后几天公布[2] i8车型产能问题分析 - i8车型面临产能不足的核心原因是其低配版选装率过低,仅为2%左右,导致电池供应商宁德时代难以临时提升产能[4][9] - i8车型的配置选择策略与L78系列不同,其顶配与中配价差更小(2万元对3万元),但配置差距更大[4] - 最终i8的配置选择分布为约2%低配、20%中配、80%高配,这与L78系列(L7低配22%、L8低配37%)的配置选择模式完全不同,是产能问题的直接原因[8][9] i6车型产能问题分析 - i6车型同样面临产能不足,原因是公司主动决定在2025年不交付采用欣旺达电池的版本,而宁德时代也难以临时提升产能[10] - 有推测认为,i6车型7万辆的订单可能超出了公司预期,若公司提前知晓此情况,可能会选择提供2025年交付欣旺达电池版本的选项[11] 电池供应商决策背景分析 - 公司在电池供应商选择上可能面临连续误判的困境,包括L系列焕新销量、i8低配选装率、MEGA销量预期等,同时需应对舆情对选择宁德时代的强烈呼吁[13] - 在连续误判后,坚持非共识看法需承担较大责任,而顺应舆情则属于集体责任,这种氛围下难以主张使用欣旺达电池[13] - 预期公司未来几年在电池问题上的思路可能是采用“宁德时代+理想欣旺达合资公司”并在工信部申报使用理想品牌电池的方案[13] L系列订单不佳原因假说 - L系列订单不佳存在多种解释假说,包括竞品迭代快公司迭代慢、竞品过多、未及早采用大电池、明年换代导致今年购买意愿低、经济大环境不佳、销售管理水平不佳等[14] - 其他假说还包括公司进入阶段性负向循环周期、增程技术落后、理想纯电车型性价比过高、以及组织整体混乱和价值观稀释等[14] - 高维度抽象来看,这些假说核心指向产品力不足、价值传递不佳、以及组织出现问题三个方面[15] 未来季度交付量传闻 - 有未经证实的传闻称,公司在2025年第四季度预计交付约10万辆汽车,2026年第一季度的交付量表现尚可[16]
小米智驾正在迎头赶上......
自动驾驶之心· 2025-11-03 00:04
小米汽车技术进展概述 - 小米汽车自2021年9月成立至2025年6月YU7发布,四年内在新能源领域快速发展[2] - 2025年下半年行业竞争焦点集中在智能驾驶、性价比及座舱体验,小米智驾正迎头赶上,新版本即将发布[2] - 2025年小米汽车团队在学术研究上成果显著,论文工作涉及VLA、世界模型、端到端等多个前沿方向,包括ORION、WorldSplat、EvaDrive、Dream4Drive等,探索生成模型在自动驾驶中的落地应用[2] 视觉语言行动模型与端到端驾驶 - **AdaThinkDrive**:引入"快速应答/慢速思考"双模式推理机制,在NAVSIM基准测试中PDMS达90.3,超越最佳纯视觉基线1.7分,在96%复杂场景使用CoT,84%简单场景直接输出轨迹,推理效率提升14%[6] - **EvaDrive**:采用进化对抗策略优化框架,实现轨迹生成与评估的闭环共进化,在NAVSIM v1上PDMS达94.9,Bench2Drive驾驶分数64.96,超越DiffusionDrive等方法[9] - **MTRDrive**:通过记忆-工具协同推理框架提升决策鲁棒性,在NAVSIM和Roadwork-VLM基准上表现出色,有效缓解幻觉问题[14] - **ReCogDrive**:融合VLM认知推理与强化学习增强的扩散规划器,在NAVSIM基准PDMS达90.8,推理速度较纯文本VLM方法提升7.8倍[18] - **ORION**:通过视觉语言模型指导动作生成,在Bench2Drive数据集驾驶分数77.74,成功率54.62%,较之前最优方法提升14.28分和19.61%[23] - **AgentThink**:将动态工具调用与思维链推理结合,在DriveLMM-o1基准整体推理分数提升53.91%,答案准确率提升33.54%[22] 世界模型与场景生成 - **Dream4Drive**:首创3D感知引导的合成数据生成框架,仅插入420个样本(不足真实数据2%)即可提升感知任务性能,在1×训练轮数下mAP从34.5提升至36.1,NDS从46.9提升至47.8[26] - **WorldSplat**:采用高斯中心化前馈式4D场景生成框架,在nuScenes数据集取得最优FVD与FID指标,支持多视角驾驶视频生成[31] - **ViSE**:通过视觉街景外推框架在ICCV 2025 RealADSim-NVS挑战赛综合得分0.441,PSNR达18.228,SSIM 0.514,LPIPS降至0.288[30] - **ExtraGS**:融合几何先验与生成先验,在Waymo数据集NTA-IoU达0.592,NTL-IoU达58.49,nuScenes外推FID@3m降至77.19[35] - **Genesis**:实现多视角视频与LiDAR点云序列联合生成,在nuScenes基准视频生成FVD 16.95、FID 4.24,LiDAR生成Chamfer距离0.611[41] - **Uni-Gaussians**:统一高斯表示方法结合光栅化与光线追踪,在Waymo数据集实现相机与LiDAR数据高效仿真[42] - **CoGen**:通过3D语义条件生成框架提升视频生成3D一致性,在nuScenes数据集FVD指标最优[44] - **MiLA**:实现长达一分钟多视角高保真视频生成,在nuScenes数据集FID与FVD指标达到最先进水平[48] 运动风险预测与感知增强 - **DriveMRP**:基于BEV运动仿真方法合成高风险运动数据,零样本评估准确率从基线29.42%大幅提升至68.50%,增强VLM在长尾场景的风险预测能力[13][15] 深度估计技术 - **Pixel-Perfect Depth**:采用像素空间扩散生成模型,在NYUv2、KITTI等基准AbsRel最低达4.1%,δ1准确率最高97.7%,边缘感知点云Chamfer距离仅0.08[51]
理想DrivingScene:仅凭两帧图像即可实时重建动态驾驶场景
自动驾驶之心· 2025-11-01 16:04
研究背景与挑战 - 自动驾驶系统的安全性和可靠性高度依赖4D动态场景重建(3D空间+时间维度)[1] - 行业面临传感器成本与效率的平衡挑战:传统多模态方案(如LiDAR、RaDAR)精度高但成本昂贵,纯视觉方案成本优势明显但需解决稀疏视角和动态物体带来的重建难题[3] - 现有渲染技术存在局限:神经渲染方法(如NeRF、3DGS)在静态场景重建中表现出色但受限于逐场景离线优化范式,无法满足实时性需求;动态场景方案(如EmerNeRF)同样存在离线问题,端到端动态建模方法(如Driv3R)则因未解耦静态与动态成分而导致计算负担重和重建细节丢失[3] 核心创新点 - 采用静到动两阶段训练范式:先从大规模数据中学习鲁棒的静态场景先验,冻结静态网络后再训练动态模块,彻底解决端到端训练的不稳定性并降低动态建模复杂度[4] - 设计混合共享架构的残差流网络:采用共享深度编码器+单相机解码器结构,共享编码器学习通用运动先验,轻量化单相机解码器适配不同相机参数,仅预测动态物体的非刚性运动残差[4] - 构建纯视觉在线前馈框架:仅输入两帧连续环视图像即可实时输出3D高斯点云、深度图、场景流等多任务结果,无需离线优化或多模态传感器[4] 技术方案与框架 - 静态场景几何与外观建模以3D高斯溅射(3DGS)为核心,每个高斯基元定义为位置、形状、不透明度和外观参数,通过两个前馈网络直接预测高斯参数[5][9] - 动态建模基于残差场景流,将总运动场分解为刚性运动(由自车运动引发)和非刚性残差运动(由动态物体引发),通过残差流网络预测[6][10] - 采用两阶段训练策略:阶段1仅训练深度网络与高斯参数网络,阶段2冻结静态网络仅训练残差流网络,分别使用不同的损失函数确保视觉保真度和运动渲染一致性[11][12][15] 实验验证与性能 - 在新视角合成任务中,该方法PSNR达28.76,较Driv3R(26.10)提升2.66dB,较DrivingForward(26.06)提升2.7dB;SSIM达0.895,显著高于对比方案[13][20] - 在深度预测任务中,几何准确性优于Driv3R:Abs Rel为0.227 vs 0.234,Sq Rel为2.195 vs 2.279,RMSE为7.254 vs 7.298[17][21] - 效率方面实现推理速度0.21秒/帧(6路环视图像),比DrivingForward(0.34秒)快38%,比Driv3R(0.71秒)快70%;模型参数仅0.117GB,为Driv3R(2.512GB)的4.6%[18] 消融实验与定性分析 - 去除残差流网络后模型退化为静态版,PSNR从28.76降至26.40,SSIM从0.895降至0.780,证明动态建模对真实场景重建的关键作用[19][25] - 替换两阶段训练为端到端训练后,模型渲染质量大幅退化,PSNR降至13.69,SSIM降至0.334,凸显静态先验的基础价值[19][25] - 在动态物体重建方面,该方法可生成边缘清晰、时序一致的结果,而DrivingForward因静态假设会产生明显重影,Driv3R虽能捕捉动态但细节模糊[19]
造车新势力十月销量公布,几家欢喜几家愁......
自动驾驶之心· 2025-11-01 16:04
造车新势力10月交付表现 - 零跑汽车10月全系交付达70,289台,同比增长超84% [2][3] - 小鹏汽车10月交付新车42,013台,单月交付量创历史新高,并连续2个月超过4万台 [2][7] - 理想汽车10月交付新车31,767台,历史累计交付量达1,462,788辆 [2][10][11] - 极氪科技10月销量达61,636台,同比增长9.8%,环比增长20.5%,单月销量首次突破6万台 [2][3] - 小米汽车10月交付新车超过40,000台 [2][5] - 智界汽车10月交付突破10,000台,岚图汽车交付17,218台,北汽新能源销量30,542台(同比增长112%,环比增长48.7%),智己汽车销售13,159台 [3] 行业整体趋势与动态 - 多家公司交付量持续刷新高,零跑再次刷新记录,极氪首次突破六万台 [2] - 理想汽车处于纯电转型阵痛期,可能因L系列订单不佳及i6/i8产能不足导致 [2]
手持激光雷达实时重建点云!超高性价比3D扫描仪
自动驾驶之心· 2025-11-01 16:04
产品核心定位 - 产品定位为国内最强性价比的实景三维激光扫描仪,面向工业场景和教研场景 [2] - 以多模态传感器融合算法为核心,实现厘米级精度的三维场景实时重构 [2] - 旨在降低开发门槛,助力开发者快速掌握研发能力 [2] 核心技术参数 - 扫描性能达到每秒20万点级点云成图,测量距离为70米,支持360°全域覆盖 [2] - 支持扫描面积超过20万平方米的大场景,并可选配3D高斯数据采集模块以实现高保真实景还原 [2] - 系统相对精度优于3厘米,绝对精度优于5厘米 [23] - 采用微秒级同步技术,实现多传感器(激光雷达、相机、IMU、RTK)数据高精度同步 [35][36] - 搭载Intel N5095计算单元,4核2.0GHz处理器,配备16G内存和256G存储 [23] 产品设计与易用性 - 设备采用轻量化设计,重量为1.3kg(不含电池),尺寸为14.2cm * 9.5cm * 45cm [23] - 操作简单直观,具备一键启动功能,扫描结果导出即用,无需复杂部署 [7] - 激光雷达采用25°倾斜角度安装,兼顾多个方位,无需反复采集 [16] - 配备5.5寸触控屏,支持高带宽网口及双USB 3.0接口,提供灵活扩展能力 [13][23] 应用场景与兼容性 - 可广泛应用于写字楼、停车场、工业园区、隧道、森林、矿场等复杂室内外场景 [39][47] - 支持跨平台集成,可适配无人机、无人车、机械狗、人形机器人等多种负载平台,实现无人化作业 [45] - 在地理信息数据采集、城市规划、文物修复研究等领域提供精准基础设施 [53] 版本与定价策略 - 提供基础版本、深度相机版本、3DGS在线版本、3DGS离线版本四种配置 [58] - 产品首发价格从19800元起,深度相机版本23800元,3DGS在线版本39800元 [10][58] - 购买后可提供为期1年的售后服务 [60]
将3DGS嵌入Diffusion - 高速高分辨3D生成框架(ICCV'25)
自动驾驶之心· 2025-11-01 16:04
核心技术:DiffusionGS 算法框架 - 提出一种名为 DiffusionGS 的全新单阶段 3D 生成框架,将 3D Gaussian Splatting 嵌入到 pixel-level 的 Diffusion 模型中,以保持生成结果的 3D 视角一致性 [2] - 该框架在 Diffusion 的每一个时间步都预测一个 3D Gaussian 点云,能够同时用于物体中心化生成和大尺度场景级生成 [2] - 模型在 256x256 和 512x512 分辨率下的生成速度分别为 6 秒和 24 秒,比 Hunyuan-v2.5 快 7.5 倍,参数量仅为 1 个多 G,训练需 16-32 张 A100 显卡 [16] 技术优势与创新点 - 设计了场景-物体混合训练策略,能够将来自不同数据集的物体和场景数据放在一起训练,学习更泛化的三维先验 [32] - 提出新的相机位姿控制条件方法 Reference-Point Plucker Coordinate,通过引入参考点信息增强模型的空间感知能力 [32][37] - 方法在单视角场景重建时无需借助单目深度估计器,本身具备深度感知能力 [32] 性能表现与实验结果 - 在物体级生成任务上,比当前最优方法在 PSNR 指标上高 2.20 dB,FID 分数优 23.25 [32] - 定量实验显示,该方法在不借助 2D 图像扩散先验和单目深度估计器的情况下,达到了更好的测试指标和更快的生成速度 [40] - 视觉对比结果表明,该方法生成的新视角图像更清晰,三维一致性更好,伪影和模糊更少 [44] 应用前景与开源情况 - 该技术可应用于 AR/VR、电影制作、机器人、动画、游戏等领域 [20] - 目前训练、测试、评估代码已经开源,并集成了一行 pipeline 直接运行的代码,未来将包括高斯点云转 mesh 功能 [5][7] - 项目提供了代码、模型、论文链接及项目主页,包含视频和点云交互式渲染结果 [7][8]