自动驾驶之心
搜索文档
2025年硕博大量扩招,秋招的难度又要升级了...
自动驾驶之心· 2025-12-04 03:03
行业背景与市场需求 - 2025年人工智能等工科硕博招生增幅普遍超过30% [1] - 就业市场竞争激烈 大厂面试要求人手2篇A会论文 [1] - 学生面临导师指导不足 实验与论文发表不确定等多重压力 [1] 公司服务定位与价值主张 - 公司提供论文辅导服务 旨在帮助学生打破循环 快速发表高质量论文 [2] - 服务联手全球QS排名前100的导师 近3年辅导学员超过400名 中稿率高达96% [2] - 服务承诺解决导师放养 知识体系零散 科研流程不熟等问题 [9] - 服务目标不仅是发论文 优秀学员可获得名校推荐信及顶尖企业研发岗内推机会 [16] 目标客户群体 - 目标客户主要是在读计算机专业硕博生 特别是导师放养 无人指导的学生 [10] - 有科研需求以提升职称或学术成就的人员 [10] - 从事人工智能领域相关工作 希望升职加薪提升竞争力的人员 [10] - 计划考研申博留学 需要提升简历含金量的人员 [10] 服务流程与内容 - 辅导全流程涵盖从明确需求到投稿回复的七个关键步骤 [3] - 提供个性化论文指导 导师实时互动 录播无限回看及24小时答疑服务 [11] - 服务覆盖CCF-A/B/C SCI1-4区及EI会议 提供从选题到中稿的一站式科研服务 [11] - 设有班主任角色 负责全程督学与跟进学习进度 [14] 服务特色与承诺 - 公司声称零基础学员通过基础课程与跟进节奏 6个月能出一篇小论文 [15] - 提供精准导师匹配系统 从300多位导师中筛选3至5位最契合人选供学员选择 [15] - 提供预收定金后的名师meeting服务 meeting不满意可免费更换老师或退款 [16] - 收费标准根据目标期刊分区等因素个性化定制 [16]
李弘扬团队最新!SimScale:显著提升困难场景的端到端仿真框架,NavSim新SOTA
自动驾驶之心· 2025-12-04 03:03
文章核心观点 - 自动驾驶行业面临的核心瓶颈并非数据总量不足,而是缺乏足够多的高风险、长尾、极端等“关键场景”数据,导致模型性能难以持续提升 [2] - 由中科院、港大OpenDriveLab和小米汽车联合完成的SimScale研究,提出了一种通过可扩展的3D高斯Splatting仿真生成关键场景并与真实数据协同训练的新路径 [2] - 该方法首次揭示了自动驾驶仿真数据的规模效应:在固定真实数据量的前提下,仅通过扩大仿真数据规模,就能持续提升端到端驾驶模型的性能上限 [2][4] - 在真实世界基准测试中,该方法显著提升了多种规划器的性能,例如在navhard数据集上EPDMS指标最高提升6.8分,在navtest数据集上最高提升2.9分 [4][44] 背景与问题 - 大模型在其他领域的成功依赖于数据规模效应,但自动驾驶领域此方法失灵,原因是现实道路数据中安全“常态行为”占绝大多数,关键场景难以大规模收集 [2] - 仅依靠扩展真实世界驾驶数据效率低下,因为人类专家演示数据中复杂、安全关键场景代表性不足,且训练出的规划器难以泛化到罕见或未见场景 [7] - 行业亟需一种能系统性生成大量关键场景、并规模化训练的新路径,以解决数据分布偏移和因果混淆问题 [2][7] SimScale方法概述 - 核心框架包含一个可扩展的仿真数据生成流程和一个有效的虚实协同训练策略 [11] - 采用基于3D高斯Splatting的高保真神经渲染技术构建仿真数据引擎,能够生成可控的多视角视频观测数据 [13][15] - 设计了伪专家场景仿真流水线:通过对自车轨迹进行多样化扰动采样,生成分布外状态,并配套生成伪专家轨迹作为动作监督 [8][17] - 提出了两种伪专家策略进行对比:引导策略回归人类轨迹分布的“恢复式专家”和能生成优化、探索性轨迹的“规划器式专家” [20][23] - 采用简单的虚实协同训练策略,从真实数据集和仿真数据集的混合集中随机采样,以保留人类驾驶分布并减轻视觉域退化 [24] 实验结果与关键发现 - **排行榜表现**:在navhard基准测试中,采用SimScale协同训练的GTRS-Dense模型取得了47.2的得分,创下该基准的最新最优性能 [31] - **性能提升**:所有测试模型在两个基准上均表现提升,性能较弱的基线模型获益最明显,性能提升超过20% [31] - **规模效应**:实验首次系统揭示了仿真数据的规模效益,在固定真实数据量的情况下,仅增加仿真数据量就能实现策略性能的平稳提升 [4][33] - **伪专家的探索性**:对于所有规划器,“规划器式专家”策略下的数据缩放曲线和最终性能均优于“恢复式专家”,凸显了伪专家探索性行为对提升仿真数据价值的重要性 [36] - **多模态建模的优势**:扩散模型类规划器相比回归类规划器,在仿真数据扩展中表现出更近似线性的性能提升,证明了多模态建模能力对于处理多样化监督和可扩展自动驾驶的重要性 [38] - **奖励信号的效用**:对于基于词汇评分的规划器,仅使用仿真数据中的奖励信号而无需专家轨迹,就能实现更优的性能,表明在稳定优化方向的前提下,奖励引导能发挥更好效果 [39] - **反应式仿真的价值**:与非反应式仿真相比,引入反应式交互的仿真数据虽然有效样本数更少,但能带来持续且显著的性能提升,证明了交通交互的真实性和多样性对增强仿真数据有效性的关键作用 [39] 方法技术细节 - **3DGS仿真引擎**:利用从真实数据重建的3DGS资产,通过输入相机参数和智能体状态,渲染出新视角的RGB观测图像,以减小域差异 [15] - **轨迹扰动**:从覆盖动作空间的人类轨迹词汇库中采样,通过对纵向/横向偏移和航向变化设阈值,并剔除无效轨迹,确保扰动既多样又合理 [19] - **协同训练规划器**:为全面评估,选取了三种代表性端到端规划范式:基于回归的LTF、基于扩散模型的DiffusionDrive和基于词汇评分的GTRS-Dense [24] - **训练目标**:对于回归和扩散模型,最小化模仿损失;对于评分模型,额外增加奖励预测损失 [25][26] - **数据缩放分析**:采用对数二次函数建模性能与总数据量的关系,以分析缩放趋势 [33] 总结与影响 - SimScale是一个完整的虚实结合学习系统,能够释放现有真实世界驾驶数据的潜力,通过仿真扩展持续提升模型性能 [12][44] - 该研究为端到端规划中基于有限真实场景扩展仿真数据提供了一套系统化方案,并揭示了推动仿真规模化的关键因素 [6][7] - 研究表明,探索性专家设计、交互式环境以及规划器的多模态建模能力,是提升仿真数据有效性和实现良好数据扩展特性的重要因素 [12][44]
驭势科技 | 环境感知算法工程师招聘(可直推)
自动驾驶之心· 2025-12-04 03:03
公司招聘信息 - 公司正在招聘环境感知算法工程师,工作地点位于上海长宁,薪资面议 [3] - 该岗位的核心职责是负责无人驾驶的环境感知,包括利用机器视觉和激光雷达等数据进行处理与融合,实现目标跟踪、语义理解和道路拓扑构建等功能,以保障无人驾驶安全 [5] - 岗位要求候选人具备扎实的数学和机器学习基础,拥有基于视觉或激光雷达的检测、分割、识别、跟踪及BEV感知等算法的实战经验 [5] - 岗位要求候选人具备强大的工程能力,精通C/C++和Python,熟悉三维成像原理,并能开发高性能实时软件 [5] 行业技术焦点 - 环境感知能力被视为保证无人驾驶安全最关键和基础的能力,其目标是准确发现和定位道路、行人、车辆、自行车等周围物体 [5] - 行业技术前沿涉及多传感器数据融合、多目标跟踪、环境细粒度语义理解以及道路拓扑构建等复杂感知功能 [5] - 行业对算法工程师的技术要求广泛,包括跟踪前沿技术,并需在计算机结构和高性能实时软件开发方面有深刻认识 [5]
从 LLaVA 到 Qwen3-VL:多模态大模型主流架构的演进之路
自动驾驶之心· 2025-12-03 00:04
多模态大模型(MLLM)的技术架构演进 - 行业正经历从纯文本模型到能感知和理解物理世界的多模态智能体的深刻变革,其核心驱动力是多模态大模型(MLLM)的架构革命 [3] - 当前主流MLLM普遍遵循“三位一体”的黄金架构,由视觉编码器(AI的“眼睛”)、大语言模型(AI的“大脑”)和连接器(“灵魂之桥”)三部分协同工作 [6][10] MLLM“三位一体”架构详解 - **视觉编码器(ViT)**:作为AI的“眼睛”,其核心是将图像视为序列化文本进行处理,例如将一张224x224像素的图像分割成196个16x16的图块,并转换为768维的视觉词元序列 [11][13][14] - **大语言模型(LLM)**:作为AI的“大脑”,负责最终的认知、推理和表达,其输入是视觉与文本特征拼接后的融合序列,例如196个视觉词元与5个文本词元拼接成201个词元的序列 [22][24] - **连接器(Connector)**:作为沟通桥梁,负责将视觉特征投影到LLM能理解的语义空间,例如将[1, 196, 768]维的视觉特征转换到[1, 196, 4096]维的空间 [36][37] 处理高分辨率图像的核心矛盾与两条技术路线 - 行业面临的核心挑战是如何让模型在不牺牲效率的前提下处理高分辨率图像的细节信息,直接处理会导致视觉词元序列过长,计算复杂度呈平方级增长 [64] - **路线一(LLaVA系列)**:奉行“扩展输入边界”的哲学,通过AnyRes等前端工程技术解决高分辨率问题,例如LLaVA-1.5-HD采用“全局概览图+高清局部图块”双路处理并拼接特征的策略 [65][66][67][68][69] - **路线二(Qwen3-VL系列)**:奉行“内部架构改造”的哲学,通过DeepStack技术将视觉信息深度注入到LLM的不同层级,实现高效的多层次融合 [74][75][78] LLaVA系列架构演进分析 - LLaVA系列是“大道至简”设计哲学的典范,其初代版本使用极简的单层线性投影作为连接器,证明了简洁架构在海量数据驱动下的有效性 [90][93] - 该系列通过务实的迭代持续提升性能,例如LLaVA-1.5将视觉编码器输入分辨率从224x224提升至336x336,并将连接器升级为两层MLP [94][99] - 其核心突破在于AnyRes技术,通过巧妙的输入预处理(如切块、降采样、双线性插值)来应对高分辨率挑战,并最终将能力扩展至视频等多模态统一处理 [96][100][101] Qwen3-VL系列架构演进分析 - Qwen3-VL是“精巧设计,架构致胜”路线的集大成者,其架构实现了从“入口拼接”到“多层注入”的范式转变,构建了视觉与语言深度协同的系统 [102][105] - 其核心技术DeepStack基于实验数据优化,例如实验表明从LLM的第0~4层(浅层)开始注入视觉特征效果最佳,注入间隔为2或3层,总计注入约4个层时性能最优 [80][81] - 该模型集成了多项前沿架构创新,包括直接从同一视觉编码器中间层(如第8、16、24层)提取特征进行注入的高效DeepStack实现、混合专家(MoE)语言模型以及更先进的MRoPE-Interleave位置编码 [85][107][110][111] 行业未来发展趋势 - 多模态大模型的发展正朝着真正的多模态统一迈进,未来可能在预训练早期就进行视觉、语言、音频等多模态数据的协同训练 [115] - 模型能力将从“感知”走向“推理与执行”,发展为能够操作界面、调用工具完成复杂任务的视觉智能体(Visual Agent) [118] - 行业下一个重点将是拥抱动态与三维世界,实现长视频的完整理解、秒级时间定位以及从2D图像还原真实世界3D信息的能力 [118]
我们正在寻找自动驾驶领域内的技术合伙人......
自动驾驶之心· 2025-12-03 00:04
行业动态与定位 - 自动驾驶行业已进入下半场 面临行业难点和痛点需要突破[2] - 公司作为国内自动驾驶领域创作技术平台 期望在行业激流中贡献力量并成为带来价值的平台[2] 业务拓展方向 - 公司将增加圆桌访谈 实战及工业级课程 咨询等各类输出[2] - 主要业务方向包括自动驾驶产品经理 4D标注及数据闭环 世界模型 VLA 自动驾驶大模型 强化学习 端到端等多个技术方向[4] 合作与招聘计划 - 公司需要更多优秀伙伴加入 主要面向自动驾驶培训合作及课程开发和原创文章创作[3][5] - 培训合作面向B端企业及高校和研究院所 C端面向学生及求职人群[5]
最近,自动驾驶的岗位招聘有一些新的变化......
自动驾驶之心· 2025-12-03 00:04
自动驾驶行业招聘趋势变化 - 感知岗位需求进一步收缩,而端到端、VLA、世界模型等方向需求较高 [1] - 头部玩家已验证端到端路径可行,其他车企正跟进模型优化、场景优化、数据优化及规划兜底等资源投入 [1] - 候选人技术栈狭窄,缺乏导航信息引入、强化学习调优、轨迹建模等量产经验,成为实际落地痛点 [1] 端到端量产课程核心内容 - 课程聚焦量产实战,涵盖一段式端到端、两段式端到端、导航信息应用、强化学习、扩散模型+强化学习等核心算法 [1][2] - 课程设计基于实际量产需求,包括轨迹优化、兜底方案及量产经验分享,仅限25名学员参与 [2][3] - 讲师为顶级Tier1算法专家,具备大模型、世界模型等前沿算法预研和量产落地经验 [3] 课程大纲与技术模块 - 第一章介绍感知任务合并与规控学习化趋势,分析主流一体化架构及开源数据集评测方式 [6] - 第二、三章对比两段式与一段式端到端框架,分别讲解PLUTO算法实战和VAD系列方法,强调一段式方案性能更优 [7][8] - 第四至七章深入导航信息编码、强化学习泛化训练、轨迹输出优化及时空联合规划兜底方案,覆盖模仿学习与强化学习结合应用 [9][10][11][12] - 第八章从数据、模型、场景等多视角分享量产经验,提升系统能力边界 [13] 课程安排与学员基础要求 - 课程周期为三个月,自11月30日起分章节解锁教学,包含离线视频与三次线上答疑 [14][16] - 学员需自备GPU(推荐算力4090及以上),熟悉BEV感知、Transformer、强化学习等算法,具备Python/PyTorch及数学基础 [15]
哈工大提出LAP:潜在空间上的规划让自动驾驶决策更高效、更强大!
自动驾驶之心· 2025-12-03 00:04
文章核心观点 - 提出了一种名为LAP的自动驾驶规划新方法,其核心设计哲学是去除冗余的动力学细节,让模型在高层语义化的潜在空间进行规划,从而提升对复杂、多模态驾驶策略的建模能力并大幅提高推理速度 [1] - 该方法通过引入轨迹变分自编码器、初始状态注入、无分类器引导和细粒度特征蒸馏等关键技术,在nuPlan基准测试中实现了最先进的性能,尤其在最具挑战性的Test14-hard数据集上,闭环评测分数达到78.52,并以十倍的推理速度超越前SOTA方法 [1][22][23] 背景与问题定义 - 自动驾驶运动规划领域的发展面临挑战:基于规则的系统难以扩展,模仿学习方法易受“模式平均”影响,而现有扩散模型方法直接在原始轨迹路点上操作,导致计算效率低且模型容量浪费于底层运动学细节 [9] - LAP方法旨在解决上述问题,通过将高层意图与底层运动学解耦,在解耦得到的潜在空间中进行规划 [2][9] 方法论详解 - **轨迹潜在表示**:设计了一个基于Transformer的轨迹变分自编码器,将原始轨迹压缩到低维、语义化的潜在空间,训练目标包含重建损失、KL散度和差分损失 [10][11][14] - **潜在空间规划**:在VAE训练完成后,训练一个潜在扩散模型来预测轨迹对应的潜在向量,模型采用DiT结构,并引入初始状态注入模块为预测提供明确的先验“锚点” [12][15][19] - **导航引导增强**:在训练中随机丢弃导航信息,并在推理时使用无分类器引导技术来强化导航约束,以缓解模型在闭环规划中出现的“因果混淆”现象 [6][7][16] - **细粒度特征蒸馏**:引入特征蒸馏模块,使用像素空间规划器作为教师模型,将其中间层特征作为目标来指导学生模型,以弥合高度抽象的规划空间与细粒度条件输入之间的信息交互鸿沟 [21][24] 实验结果与分析 - **性能对比**:在nuPlan基准上,LAP在所有基于学习的方法中实现了SOTA性能,在最具挑战性的Test14-hard数据集上,LAP (o1s2)的闭环评测分数达到78.52,大幅超越先前SOTA方法约3.1分 [22][23] - **推理速度**:受益于潜在空间的紧凑性,LAP仅需2步采样即可生成高质量轨迹,推理时间低至18.81-21.69毫秒,相比需要迭代10步采样的Diffusion Planner实现了最高10倍的推理加速 [23][27] - **多模态能力**:潜在空间规划能更好地捕捉多样化的高级驾驶策略,如不同的转弯半径和速度,避免了模式坍缩问题 [28][29] - **潜在空间分析**:潜在空间具有光滑性,线性插值能产生平滑的轨迹过渡;通过降维可视化与聚类分析,证明其学到的语义空间是高度结构化的,并与驾驶意图良好对齐 [30][32][33][34][36] 消融实验与模块影响 - **初始状态注入**:提升了模型在非反应性环境下的性能,但在反应性环境中因“因果混淆”问题可能导致性能下降 [36][38] - **特征蒸馏**:显著提升了模型在非反应性和反应性两种环境下的表现,证明了其有效性 [36][38] - **导航增强**:大幅缓解了反应性环境中的“因果混淆”问题 [36][38] - **采样步数**:1步或2步采样效果最佳,增加步数反而可能导致性能下降,因过于精确的解码可能无法应对闭环规划中的分布外场景 [38] 核心贡献总结 - 利用变分自编码器实现了高层驾驶语义与底层运动学细节的解耦 [40][42] - 引入细粒度特征蒸馏模块,有效弥合了潜在规划空间与向量化场景上下文之间的交互鸿沟 [40][42] - 在nuPlan基准上实现了最先进的闭环性能,同时将推理速度提升了10倍 [40][42]
Feed-forward 3DGS,正在吸引业内更多的关注......
自动驾驶之心· 2025-12-02 00:03
3D高斯泼溅技术趋势与行业动态 - 特斯拉在ICCV的分享引发了行业对3D高斯泼溅技术的广泛关注,其引入被视为一大亮点[2] - 行业普遍共识是引入前馈式3DGS来重建场景并利用生成技术生成新视角,多家公司已开放相关招聘[2] - 3DGS技术迭代速度极快,已从静态重建3DGS发展到动态重建4DGS、表面重建2DGS以及前馈式3DGS[4] 3D高斯泼溅技术课程核心内容 - 课程旨在提供从原理到实战的完整3DGS学习路线图,覆盖点云处理、深度学习理论及实时渲染、代码实战[4] - 课程由工业界算法专家设计,历时两个月,目标是帮助学员全面掌握3DGS技术栈[4] 课程讲师背景 - 讲师Chris拥有QS20高校硕士学位,现任某Tier1厂商算法专家[5] - 其研究方向包括端到端仿真、多模态大模型、世界模型等前沿算法的预研与量产[5] - 曾参与全球顶级主机厂的仿真引擎及工具链开发,具备丰富的三维重建实战经验[5] 课程大纲详解 - **第一章:背景知识**:概述计算机图形学基础,包括三维空间的隐式与显式表达、渲染管线、光线追踪、辐射场渲染,并解释其与3DGS的联系,介绍COLMAP、Gsplat等开发工具,设置基于3D Real Car训练模型及使用SuperSplat移除杂点的作业[8] - **第二章:原理和算法**:详细梳理3DGS原理及核心伪代码,讲解动态重建、表面重建、鱼眼重建和光线追踪的经典与最新算法,实战选用英伟达开源的3DGRUT框架[9] - **第三章:自动驾驶应用**:聚焦自动驾驶仿真重建,重点讲解浙大Street Gaussian、上交OmniRe和浙大Hierarchy UGP三篇工作,实战选用学术界与工业界广泛使用的DriveStudio框架[10] - **第四章:重要研究方向**:探讨COLMAP扩展、深度估计及Relighting等3DGS重要研究方向,分享其在工业界的应用价值与学术探索前景[11] - **第五章:前馈式3DGS**:梳理前馈式3DGS的发展历程与算法原理,讲解最新的AnySplat和WorldSplat算法工作[12] - **第六章:答疑讨论**:通过线上交流形式,组织VIP群内答疑,讨论3DGS岗位需求、行业痛点及开放性问题[13] 课程安排与面向人群 - 课程开课时间为12月1日,预计两个半月结课,采用离线视频教学,辅以VIP群答疑及三次线上答疑[15] - 课程章节按计划解锁:第一章于12月1日,第二章于12月7日,第三章于1月7日,第四章于1月21日,第五章于2月4日[15] - 课程面向具备一定计算机图形学、视觉重建、NeRF、3DGS技术基础,以及概率论、线性代数、Python和PyTorch语言基础的学员[17] - 学员需自备GPU,推荐算力在RTX 4090及以上[17] 学员预期收获 - 掌握3DGS完善的理论知识及相关技术栈[17] - 掌握3DGS算法开发框架,能够训练开源模型[17] - 获得与学术界及工业界同行持续交流的机会[17] - 所学知识对实习、校招、社招均有助益[17]
超越ORION!CoT4AD:显式思维链推理VLA模型(北大最新)
自动驾驶之心· 2025-12-02 00:03
文章核心观点 - 提出一种名为CoT4AD的新型视觉-语言-动作模型,该模型将思维链推理引入端到端自动驾驶领域,旨在解决现有VLA模型数值推理能力有限和输入-输出映射过于简化的问题 [1] - 该框架通过整合视觉观测和语言指令,实现语义推理、场景理解与轨迹规划,在训练阶段构建“感知-提问-预测-动作”的显式思维链,推理阶段则通过隐式思维链实现稳健决策 [1][3] - 在真实世界数据集nuScenes和仿真数据集Bench2Drive上的实验表明,CoT4AD在开环和闭环评估中均取得了最先进的性能,验证了其有效性 [1][6][10] 技术背景与挑战 - 传统模块化自动驾驶系统面临误差累积、跨模块优化困难及泛化能力有限等问题,端到端自动驾驶范式应运而生,旨在利用统一学习框架直接从传感器输入预测驾驶信号 [2] - 随着大规模视觉-语言模型的发展,视觉-语言-动作模型展现出处理多模态输入和更强可解释性的潜力,但其继承了VLMs的固有缺陷,即在复杂环境中数值推理能力较弱 [2][3] - 现有方法将大语言模型视为从感知到数值输出的单一映射器,忽视了其多步推理能力,导致在需要逐步因果推理的复杂驾驶场景中性能一般 [1][3] CoT4AD框架核心设计 - 框架整合了环境感知、语言推理、未来预测和轨迹规划,通过多阶段训练过程培养适用于自动驾驶的思维链推理能力 [6] - 在3D环境感知方面,采用以特征为中心的感知训练方式,通过多视图图像输入和BEV空间投影,生成包含静态元素和动态目标的全面环境表示 [7][8] - 提出视觉-语言提示微调方法,引入跨阶段无关token作为可学习的离散化token,用于编码视觉细节并贯穿思维链推理的不同阶段,以提升多模态感知与语言推理的融合效果 [11] - 采用VLM条件潜在扩散模型进行未来场景预测,通过在潜在空间进行扩散建模避免高维像素空间的计算负担,使模型能学习未来场景预测并增强对场景语义和物理规律的理解 [12] - 思维链轨迹规划阶段直接在动作空间进行扩散,利用扩散Transformer以带噪声动作和条件嵌入为输入,预测去噪后的轨迹,实现高效规划 [13] 实验结果与性能 - 在nuScenes数据集的开环评估中,CoT4AD在1秒、2秒、3秒时域下的L2距离误差分别为0.12米、0.24米、0.53米(平均0.29米),平均碰撞率为0.10%,性能显著优于OpenDriveVLA、EMMA等最新VLM方法 [17] - 在Bench2Drive数据集的闭环评估中,CoT4AD-CoT版本的驾驶得分高达81.22,成功率达55.78%,超过ORION、DriveTransformer-Large等基线方法,且在效率和舒适性方面实现平衡 [18][19] - 与UniAD的定性对比显示,CoT4AD在避障变道和超车机动等复杂场景下能生成更平滑、连续的轨迹,并更早识别驾驶意图,展现出更强的时序推理和高层语义理解能力 [21][23][25] 消融研究与关键发现 - 感知Tokenizer的有效性研究表明,结合基于感知标签的Tokenizer和基于视觉特征的Tokenizer能取得最优闭环指标,表明感知标签提供环境指导,而图像特征保留更完整语义,二者结合可增强整体性能 [26][27] - 思维链设计的消融实验证明,感知模块、VQA模块和未来扩散模块三者相辅相成,结合所有模块的模型取得最优性能(驾驶得分80.24,成功率55.22%),其中未来预测模块对性能提升贡献最大 [28] - 未来场景预测数量的研究表明,预测4个未来场景时模型性能达到峰值(成功率55.78%),超过此阈值则因信息过载导致性能下降,表明需在信息量与模型负担间找到平衡 [29] 总结与意义 - CoT4AD通过“感知-视觉问答-扩散-规划”的多步推理流程,在视觉空间、推理空间与动作空间间实现了更好的对齐,能够为驾驶任务提供更平滑、更精准的规划 [30] - 该工作为自动驾驶领域引入了量身定制的思维链推理机制,显著提升了模型在动态、大规模且安全关键环境中的数值推理、长时域规划和稳健泛化能力 [3][10]
导师布置了任务:三个月手搓自动驾驶小车
自动驾驶之心· 2025-12-02 00:03
产品发布与定位 - 自动驾驶之心团队正式开售面向科研与教学场景的自动驾驶全栈小车“黑武士系列001”,定位为教研一体轻量级解决方案 [1][2] - 产品原价为36999元,预售期间下单赠送模型部署、点云3D检测及多传感器融合三门课程,并可优先锁定组装发货安排 [1] 产品核心功能与适用场景 - 产品支持感知、定位、融合、导航、规划等多个自动驾驶功能平台,并基于阿克曼底盘 [2] - 产品支持二次开发和改装,预留了丰富的安装位置和接口,便于用户加装相机、毫米波雷达等传感器 [3] - 产品明确适用于本科生学习与竞赛、研究生科研与求职项目、高校实验室及职业培训机构教具等多种场景 [5] 硬件配置详情 - 主要传感器包括:Mid 360 3D激光雷达、镭神智能2D激光雷达、奥比中光带IMU的深度相机 [22] - 核心主控芯片采用NVIDIA Jetson Orin NX,配备16GB RAM,AI算力达100 TOPS [22][32] - 结构系统采用钣金件,经过硬铝及发黑处理 [23] - 车体尺寸为长620mm x 宽400mm x 高320mm,自重30kg,最大载荷30kg [25][26] - 采用24V供电,电池功率50W,续航时间大于4小时,最大运动速度可达2m/s [25] 软件与功能说明 - 软件基于ROS框架,支持C++和Python语言开发,提供一键启动的开发环境 [28] - 支持丰富的软件功能,包括2D/3D目标检测与分割、多种SLAM方案(如视觉、激光、惯性及其融合)、点云处理、车辆导航与避障等 [29] - 提供了详细的功能启动与调试说明,例如通过脚本启动激光雷达和深度相机驱动,并支持通过手柄进行手动遥控 [41][43][44] 效果展示与测试 - 产品在室内、室外、地下车库等多种复杂场景下进行了功能测试,展示了其感知、定位、融合、导航规划等能力 [6] - 具体测试场景包括户外公园行驶、点云3D目标检测、室内地库2D/3D激光建图、上下坡测试、室外大场景3D建图以及夜间行驶等 [8][10][12][14][16][18][20] 售后与支持 - 产品提供1年非人为损坏的售后支持,但邮费需用户自理 [51] - 保修期内,因操作失误或修改代码等个人原因导致的损坏,公司提供免费维修服务 [51]