自动驾驶之心

搜索文档
港科&地平线&浙大联手开源SAIL-Recon:三分钟重建一座城
自动驾驶之心· 2025-09-02 23:33
文章核心观点 - SAIL-Recon提出一种结合场景回归与定位的大规模运动恢复结构(SfM)方法 通过少量锚图像提取神经场景表征 实现数千张图像的高效精确重建 在精度和效率上均超越传统及学习方法 [5][7][10][34] 技术方法 - 采用锚图像采样策略 通过Transformer提取神经场景表征 并基于此对所有图像执行联合位姿与结构估计 [9][11] - 使用DINOv2提取图像特征 结合相机token与寄存器token 通过自注意力层和DPT头预测深度图及场景坐标图 [13] - 引入注意力掩码机制 使查询图像仅与锚图像表征交互 并通过相机头直接回归位姿 [17][19] - 训练阶段采用多任务损失函数 推理阶段通过KV-Cache缓存键值以节省GPU内存 [11][20] 性能表现 - 在Tanks & Temples数据集上 平均每场景处理300+张图像 FFD版本达到70.4% RRA@5和74.7% RTA@5 误差仅0.008 耗时233秒 [21][26] - 在7-Scenes数据集定位任务中 平均精度达93.8% 与ACE0持平 但训练加定位总耗时仅8分钟 远低于ACE0的2小时 [32] - 新视角合成任务中 PSNR指标全面领先:Mip-NeRF 360数据集平均PSNR达19.5 超越DROID-SLAM的16.9和BARF的18.1 [33] - 锚图像数量从10张降至2张时精度仅缓慢下降 300 token/图像配置实现精度与速度平衡 [32] 效率优势 - 处理数千张图像仅需数分钟 显著快于COLMAP的1977秒和ACE0的5499秒 [21][32] - 无需逐场景训练 支持大规模场景一次性前馈推理 后优化阶段10k次迭代仅需2-10分钟 [7][24] - 在TUM-RGBD数据集实现与SLAM相当的精度 且无需相机内参 [32]
某头部智驾公司最快或11月美股上市,估值或超60亿美金
自动驾驶之心· 2025-09-02 23:33
融资与上市进展 - 公司M于2025年完成两轮融资(C-12及C-13轮),投资方包括中东主权基金和地方国资基金,累计融资金额达数亿美金 [6][10] - C-13轮融资估值约为60亿美元,该轮即将关闭,部分投资人仍希望参与 [10] - 公司M最快可能于2025年11月登陆美股,估值或将突破60亿美元 [6][10] - 2024年中公司M已取得境外上市批文,原计划2024年底IPO,但因故延期 [9] 财务表现与盈利预测 - 公司M连续三年保持营收及毛利高速增长,但目前仍处于亏损状态 [7] - 行业测算显示公司M有望在2026年实现盈亏平衡 [7] - 公司M的毛利快速增长主要来自License业务,该模式毛利最高可达90%以上 [12] - 公司M的收入结构以NRE(量产车型适配费用)为主,License(单车软件授权费用)为辅 [12] 业务布局与战略动向 - 公司M近期对外投资布局重卡等产业链相关企业,其芯片子公司X于2025年8月完成新一轮融资,投资方包括深创投、IDG资本、蔚来资本、均胜电子等机构 [8][12] - 公司M与Uber达成战略合作,计划2026年初在欧洲启动自动驾驶车辆运营 [12] - 公司M累计合作量产车型达130款,并与宝马中国达成合作,集齐BBA三大豪华品牌订单 [12] - 公司M的芯片子公司X首款芯片已成功点亮并进入实车测试,对标英伟达Orin-X与高通8650 [12] 市场地位与交付能力 - 公司M累计交付超过30万辆,预计最快明年突破100万交付大关 [13] - 公司M是唯一证明过跨平台(英伟达和高通)、多客户(同时服务10+车企)交付能力的厂商,新车型适配和交付周期可缩短至3个月 [14] - 公司M满足传统车企智驾上车需求,客户覆盖国资合资、自主品牌三强、德系三强、日系三强 [14] 核心优势与行业评价 - 公司M以平台能力和快速执行见长,能快速跟进新技术并承诺交付量产时间,未出现过食言情况 [13] - 行业认为公司M是确定性最高的企业,其复制化交付能力强,NRE毛利逐步提高 [12][13] - 公司M的盈利路径清晰,主要依靠量产车型增加、高阶方案渗透率提高、License占比提升以及批量复制化交付摊薄研发成本 [15]
拿到offer了,却开心不起来。。。
自动驾驶之心· 2025-09-02 23:33
自动驾驶行业招聘趋势 - 金九银十招聘季开启 业内tier 1公司已开始发放测试岗位offer[1] - 感知算法岗位存在转岗难度 但行业仍存在算法岗机会[1] - 自动驾驶公司开出高薪挖人 大模型相关岗位需求激增[14] 自动驾驶技术发展方向 - 端到端自动驾驶成为智驾量产核心算法 分为一段式和二段式技术方向[7] - 理想汽车宣布E2E+VLM双系统架构量产 通过传感器数据直接输出规划控制信息[7] - 端到端技术需要掌握多模态大模型 BEV感知 强化学习 视觉Transformer 扩散模型等知识[8] - 2024年学术界端到端大模型工作爆发 工业界融资案例快速崛起[14] - 4D自动标注算法重要性凸显 需标注动静态元素 OCC和轨迹等复杂数据[11] 自动驾驶课程体系 - 推出499元超级折扣卡 享受全平台课程七折优惠[4][6] - 开设端到端与VLA自动驾驶小班课 涵盖多模态大模型 BEV感知等技术[7][8] - 推出自动驾驶4D标注算法小班课 聚焦多模态3D感知和数据闭环[12] - 开设多模态大模型与自动驾驶实战课程 涵盖通用多模态大模型到大模型微调[14] - 课程体系包含感知系列 多传感器标定融合 模型部署 规划控制与预测 仿真开发等模块[16][17][18][19][20] 行业人才需求与就业 - 对接理想 地平线 百度 上海人工智能实验室 蔚来 小鹏 华为车BU 大疆等公司[38] - 课程学员可获岗位推荐 绕开官网投递直接对接算法开发负责人[38] - 小班课针对秋招社招需求 解决项目经验不足 简历修改 面试指导等痛点[21] - 提供60小时入门教程和求职100问等会员独家福利[43] 技术实践与工程挑战 - 车端部署需要推理延迟低于200毫秒 理想目标低于100毫秒[34] - 路径规划成功率需保证99%以上 复杂场景需达99.9%[34] - 转向角误差理想目标小于1度 可接受范围小于2度[34] - 加速制动误差理想目标小于0.1 m/s² 可接受范围小于0.2 m/s²[34] - 视觉感知量产需数十万至百万级标注数据量[36] - 传感器升级需重新构建数据集和训练模型[36] - 多传感器联合标定存在精度验证挑战[36]
小米汽车招聘云端大模型算法工程师(BEV/3DGS/OCC等)
自动驾驶之心· 2025-09-02 23:33
小米汽车技术发展方向 - 公司专注于云端大模型算法研发 重点包括4D真值自动化标注和多模态大模型技术 [1][4] - 致力于提升自动驾驶算法的语义理解能力和空间感知能力 基于海量量产数据进行无监督/自监督算法开发 [4] - 构建数据驱动的自动驾驶算法迭代链路 通过自训练pipeline实现高效数据闭环 [4] 人才招聘需求 - 寻求具备C++或Python编程能力及数据结构算法知识的算法工程师 [4] - 优先考虑在BEV感知/3D检测/多传感器融合等自动驾驶感知算法领域有深入研究背景的候选人 [4] - 特别关注具有NeRF技术、3D场景生成和传感器仿真应用经验的专业人才 [4] 技术能力建设重点 - 要求候选人掌握计算机 数学 机器学习或机器人等相关专业领域知识 [4] - 重视自动驾驶相关项目实践经验 包括三维重建和深度估计等具体技术方向 [4] - 通过https://xiaomi.jobs.f.mioffice.cn/index/position/7483098801416421485/detail?spread=W6B69ND渠道接收人才投递 [2]
自动驾驶之心开学季活动来了(超级折扣卡/课程/硬件/论文辅导福利放送)
自动驾驶之心· 2025-09-02 09:57
日月更替,斗转星移。又到了金秋九月的开学季,校园里涌动的青春朝气与实验室里闪烁的代码光标遥相呼应。还记得十年前自己新学期踏进大学校园,看到无 人小巴的震撼,也是那个时候第一次接触到了自动驾驶,现在想想就是那个时候埋下了投身自驾的种子。 从16年开始,自动驾驶踏上了飞速发展的列车,整个世 界都处于人工智能爆发的前夕,有些人因为自身的努力或幸运站在了潮头之上,激昂和困惑交织在每个人的心头。 自动驾驶十年沉浮 这十年,自动驾驶从最开始的瞒珊学步,ImageNet图像分类,到COCO目标检测、分割、跟踪,进化到nuScenes 3D世界感知,再到BEV大一统整个感知模块(3D 检测/OCC/在线地图),又到今天的端到端、VLA。自动驾驶就像一个婴儿一样,终于快长大了。 未来又会是哪个方向呢?VLA和WA会是终局么?L4自动驾驶 还是具身智能抑或虚拟现实? 可能是,也可能不是。但科技总归是朝着智能化的大趋势大踏步前进,保持跟进与学习是重中之重。 自动驾驶的十年征程堪称一部浓缩的产业进化史,十年前我很难想象人工智能会到今天的高度。2015年百度无人车在雾霾中完成城市道路测试时,行业曾天真地 以为 L4 时代近在咫尺。无数 ...
自动驾驶多传感器融合感知1v6小班课来了(视觉/激光雷达/毫米波雷达)
自动驾驶之心· 2025-09-02 06:51
多模态感知融合技术背景与核心优势 - 单一传感器如摄像头、激光雷达或毫米波雷达的感知能力已难以满足自动驾驶、机器人导航和智能监控等复杂场景的需求[1] - 多模态传感器融合通过结合激光雷达、毫米波雷达和摄像头的优势实现优势互补:摄像头提供丰富语义信息和纹理细节 激光雷达生成高精度三维点云并提供准确距离和深度信息 毫米波雷达在恶劣天气下穿透性强且能稳定探测物体速度和距离[1] - 传感器融合系统可实现全天候全场景下的可靠感知 显著提高自动驾驶鲁棒性和安全性[1] 多模态感知融合技术演进路径 - 传统融合方式分为三种:早期融合在输入端拼接原始数据但计算量巨大 中期融合将不同模态特征向量融合并统一到鸟瞰图视角 晚期融合在决策层面进行结果融合但难以解决信息冲突[2] - 基于Transformer的端到端融合成为最前沿方向 通过跨模态注意力机制学习不同模态数据间深层关系 实现更高效鲁棒的特征交互[2] - 端到端训练方式减少中间模块误差累积 直接从原始传感器数据输出感知结果如三维目标框 更好捕捉动态信息并提升整体性能[2] 多模态感知融合应用与挑战 - 技术已广泛应用于L2-L4级自动驾驶系统 包括高精度地图构建、全场景鲁棒感知和自动泊车等领域[2] - 面临三大核心挑战:传感器标定需确保不同传感器空间和时间上的高精度对齐 数据同步需解决传感器帧率不一致和时延不同步 融合算法需更高效处理不同传感器数据的异构性和冗余性[3] 课程体系结构与核心内容 - 课程周期为12周在线小组科研加2周论文指导再加10周论文维护期 总时长24周[4][14] - 课程内容覆盖经典论文与前沿论文分析 代码实现与创新点研究 baseline与数据集应用 选题方法、实验方法、写作方法及投稿建议[4][11] - 采用"2+1"式师资配置与全学习周期服务 配备科学制定的学员守则与表现评估体系[18][21] 技术实践资源与要求 - 提供多模态数据集包括ADUULM-360、nuScenes和KITTI等公开数据集[19][20] - 提供Baseline代码仓库覆盖多模态3D目标检测、BEV视角Transformer融合及点云图像融合等多个方向[23] - 硬件要求最好具备4张4090显卡或以上设备性能 最低不少于2张4090显卡 也可考虑租赁云服务器[15] 学员收获与产出目标 - 学员将获得经典及前沿论文分析方法 理解重点算法与原理 清晰不同算法优劣势[14] - 课程将提供研究idea 每位同学都能获得导师准备的具体idea方向[14] - 最终产出包括论文初稿、项目结业证书 并根据学生优秀程度提供推荐信[21] 课程安排与学习要求 - 详细课程安排包含14周专项主题:从课题概览与科研路径介绍 到BEV视角多模态融合 再到基于Transformer的端到端融合 最后涵盖论文写作方法与投稿意见[23][25] - 学习要求包括具备深度学习基础 熟悉Python语法和PyTorch使用 最好具备Linux系统开发调试能力[15] - 必须完成在线1v1面试 每周上课前按时阅读资料并完成作业 课后自学时长至少1-2小时[21]
业务合伙人招募来啦!模型部署/VLA/端到端方向~
自动驾驶之心· 2025-09-02 03:14
业务拓展计划 - 公司计划在国内外招募10名业务合伙人[2] - 合伙人将负责自动驾驶课程研发、论文辅导业务开发及硬件研发[2] 技术研究方向 - 重点招募方向包括大模型/多模态大模型、扩散模型、VLA、端到端自动驾驶[3] - 涵盖具身交互、联合预测、SLAM、3D目标检测等前沿技术领域[3] - 世界模型、闭环仿真3DGS、大模型部署与量化感知推理等方向也在招募范围内[3] 人才资质要求 - 要求应聘者来自QS200以内高校且具有硕士及以上学历[4] - 拥有顶级会议论文发表经历者将获得优先考虑[4] 合伙人待遇 - 提供自动驾驶行业资源共享包括求职、读博及出国留学推荐[5] - 设置丰厚的现金激励方案[5] - 提供创业项目合作与推荐机会[5]
4000人的自动驾驶社区,开学季招生了!!!
自动驾驶之心· 2025-09-02 03:14
社区定位与规模 - 社区定位为综合类自动驾驶技术交流平台,集视频、图文、学习路线、问答与求职交流于一体,已吸引超过4000名成员,目标在未来2年内达到近万人规模[3] - 社区成员主要来自头部自动驾驶公司、具身智能公司、互联网企业、Top高校实验室及传统机器人公司,形成工业界与学术界互补的生态结构[1] - 社区覆盖近40个前沿技术方向,包括多模态大模型、VLM、VLA、闭环仿真、世界模型、端到端自动驾驶等主流方法论[1][3] 技术资源体系 - 汇总近40+技术路线、近60+自动驾驶数据集、行业主流仿真平台及开源项目,涵盖感知、规划控制、仿真等核心领域[12][23][24][25] - 提供超过100场专业技术直播分享,内容涉及VLA、3D检测、扩散模型等前沿课题,并邀请学术界与工业界专家参与[52] - 整理完备的学习资料库,包括数学基础、计算机视觉、深度学习、编程、经典书籍与课程课件,适配从入门到进阶的学习需求[7][24] 就业与产业链接 - 与近300家机构及自动驾驶公司建立内推合作机制,提供岗位推荐与简历直推服务,覆盖蔚小理、华为、大疆、英伟达等头部企业[8][12][59] - 定期开展行业趋势讨论,聚焦技术走向与量产痛点,并提供企业前景分析、跳槽建议及博士研究方向指导[4][16][57] - 构建求职交流板块,涵盖岗位开放信息、内推渠道及产业机会挖掘,强化社区与产业实践的连接[8][16][59] 内容服务特色 - 提供快速技术答疑服务,针对端到端入门、VLA学习路线、多传感器融合就业前景等实用问题提供解决方案[3][4][16] - 独家梳理自动驾驶100问系列专题,包括TensorRT部署、毫米波雷达融合、车道线检测等工程实践关键问题[7] - 打造多维度学习路径,如感知学习路线、仿真学习路线、规划控制学习路线等,系统性降低学习检索成本[12][13]
ICLR 2025 | SmODE:用于生成平滑控制动作的常微分方程神经网络
自动驾驶之心· 2025-09-01 23:32
研究背景与核心问题 - 深度强化学习已成为解决物理世界最优控制问题的有效方法,在无人机控制和自动驾驶控制等任务中取得显著成果[5] - 控制动作平滑性是深度强化学习技术面临的重要挑战,主要源于输入状态中的高频噪声干扰和神经网络Lipschitz常数缺乏约束[5] - 课题组此前在ICML2023提出的LipsNet从约束神经网络Lipschitz常数角度实现控制平滑,而本研究同时解决导致动作不平滑的两个根本原因[5] 技术创新与解决方案 - 提出使用常微分方程(ODE)的平滑神经元结构替代传统线性激活神经元,构建平滑神经网络(SmODE)作为强化学习策略网络[4][7] - 设计具有低通特性的常微分神经元,通过可学习的状态依赖系统时间常数实现高频噪声动态滤除[7][8] - 构建状态依赖映射函数g,从理论上证明该函数能有效控制常微分神经元的Lipschitz常数[9][10] - 采用仿生建模方式给出平滑常微分神经元具体表达式:$$\frac{\mathrm{d}x_{i}}{\mathrm{d}t}=\sum_{j}\left[-{\frac{w_{i j}}{C_{\mathrm{m}_{i}}}}\sigma_{i}\left(x_{j}\right)x_{i}+{\frac{w_{i j}}{C_{\mathrm{m}_{i}}}}\sigma_{i}\left(x_{j}\right)\cdot\operatorname{tanh}(h\left(x_{j},\theta\right))\right]+x_{\mathrm{leak}_{i}}$$[11] 网络架构设计 - SmODE网络结构包含输入模块(多层感知器MLP)、平滑常微分模块和输出模块(线性变换层+谱归一化)[14] - 平滑ODE模块由三层组成,每层神经元数量可根据任务复杂度灵活选择[14] - 作为通用策略网络可与各类经典深度强化学习算法结合,本工作与DSAC算法相结合[16] - 策略损失函数在基本策略损失基础上添加限制时间常数和Lipschitz常数的损失项:$$\operatorname*{min}{\mathcal{L}}_{\pi}^{\prime}(\theta)={\mathcal{L}}_{\pi}(\theta)+\lambda_{1}\mathbb{E}_{s\sim{\mathcal{R}}}\left[\sum_{i=0}^{N}f(\cdot)\right]+\lambda_{2}\mathbb{E}_{s\sim{\mathcal{R}}}\left[\sum_{i=0}^{N}h^{2}(\cdot)\right]$$[16][17] 实验验证结果 - 在高斯噪声方差0.05条件下,SmODE在正弦曲线和双车道变换曲线跟踪任务中比MLP表现出更低动作波动率和更小横向速度变化[19] - 在MuJoCo基准测试中采用DSAC算法,策略网络配置为MLP、LipsNet、LTC和SmODE进行对比[21] - 在八项MuJoCo任务中设置两种高斯噪声水平(level 1:0.005-0.150,level 2:0.015-0.250)[21] - SmODE在大多数任务中表现最佳:InvertedDoublePendulum-v3获得9357±2分(动作波动0.15),Reacher-v2获得-5.67±1分(波动0.22)[22] - Humanoid-v3任务中SmODE获得10819±81分(波动0.45),显著优于LTC的10626±128分(波动0.60)和MLP的10892±342分(波动0.62)[22] - Walker2d-v3任务中SmODE获得6039±112分(波动0.73),而LTC为5861±482分(波动1.10),MLP为5663±508分(波动1.21)[22] 技术优势与应用前景 - SmODE网络将常微分方程作为神经元核心组件,实现自适应低通滤波和Lipschitz常数有效控制[23] - 该方法在训练过程中无需引入动作变化惩罚项,推理过程中无需附加滤波处理[7] - 能够有效抑制动作输出震荡问题,显著提升各种强化学习任务中的平均回报[23] - 为现实世界中的强化学习应用提供新思路,特别是在自动驾驶和工业机器人等具身智能模型领域具有应用潜力[1][4]
超高性价比3D扫描仪!点云/视觉全场景重建,高精厘米级重建
自动驾驶之心· 2025-09-01 23:32
产品核心特点 - 国内最强性价比实景三维激光扫描仪 轻量化设计 一键启动 提供高效实用三维解决方案 [1] - 以多模态传感器融合算法为核心 实现厘米级精度三维场景实时重构 [1] - 每秒20万级点云成图 70米测量距离 360°全域覆盖 支持20万平米以上大场景扫描 [1] - 支持选配3D高斯数据采集模块 实现高保真实景还原 [1] - 支持跨平台集成 配备高带宽网口及双USB 3.0接口 为科研实验提供灵活扩展空间 [1] 技术参数 - 系统采用Ubuntu 20.04 支持ROS环境 [22] - 相对精度优于3cm 绝对精度优于5cm [22] - 点云输出速率达20万点/秒 支持彩色点云输出 [22] - 支持pcd, las, plv等多种通用数据格式导出 [22] - 设备尺寸14.2cm * 9.5cm * 45cm 重量1.3kg(不含电池) 1.9kg(含电池) [22] - 采用Intel N5095处理器 4核2.0GHz(睿频2.9G) 内存16G/硬盘256G [22] - 续航时间约3-4小时 存储容量256G 支持TF卡拓展 [22] - 配备微秒级同步模组 同步精度达微秒级 [23] - IMU频率最高800Hz 提供加速度、角速度、磁力计、姿态角数据包 [23] - 激光雷达型号Livox Mid-360 深度相机型号Intel D435i [23] - RTK型号T-RTK UM982 Mobile 配备全频四臂螺旋胶棒天线 [23] 硬件配置 - 设备集成丰富传感器资源 包括RTK、3D激光雷达、9DOF IMU、双广角相机、深度相机 [13] - 采用小倾角设计 激光雷达25°倾斜角度安装 兼顾多个方位 无需反复采集 [15] - 配备5.5寸@1280x720触控屏 航空铝外壳 [22] - 供电采用弹夹电池 容量14.8V/6000mAh/88.8Wh [26] - 支持D-TAP输入16.8V/3A MAX 输出16.8V/10A MAX [26] - 配备千兆网口、USB3.0*2、Micro SD等外部拓展接口 [23] 软件功能 - 支持三维点云地图动态构建、色彩融合、实时预览 [22] - 具备快速建图程序(无色点云 点云稀疏)和建图程序(无色点云 点云稠密) [42] - 支持彩色点云建图 通过鱼眼相机进行参数调节 [42] - 提供3D高斯采集功能 支持离线渲染和在线渲染两种模式 [7][43] - 配备数据回放功能 可查看点云数据(.pcd)文件 [42] - 支持RTK功能 需要注册账号并填写IP地址、端口号等信息 [42] 应用场景 - 可广泛用于工业场景和教研场景 [1] - 胜任各类复杂室内外场景 包括写字楼、停车场、工业园区、隧道、森林、矿场等 [38] - 支持跨平台集成 适配无人机、无人车、机械狗、人形机器人等多种负载平台 [44] - 适用于地理信息数据采集 为城市规划、文昌监测等领域提供精准基础信息 [52] - 在工程数据领域确保施工精度并降低返工 [54] 版本与定价 - 基础版本售价19800元 [57] - 深度相机版本售价23800元 [57] - 3DGS在线版本售价39800元(云服务续费5000/月) [58] - 3DGS离线版本售价67800元(需客户提供高性能服务器) [58] - 购买后提供为期1年的售后服务 [60] 研发背景 - 由同济大学刘春教授团队和西北工业大学产业化团队携手合作 [9] - 基于多年科研和行业积累 经过上百个项目验证 [9]