AdaThinkDrive - 财报，业绩电话会，研报，新闻

AdaThinkDrive

搜索文档

自动驾驶之心· 2025-11-03 00:04

小米汽车技术进展概述 - 小米汽车自2021年9月成立至2025年6月YU7发布，四年内在新能源领域快速发展[2] - 2025年下半年行业竞争焦点集中在智能驾驶、性价比及座舱体验，小米智驾正迎头赶上，新版本即将发布[2] - 2025年小米汽车团队在学术研究上成果显著，论文工作涉及VLA、世界模型、端到端等多个前沿方向，包括ORION、WorldSplat、EvaDrive、Dream4Drive等，探索生成模型在自动驾驶中的落地应用[2] 视觉语言行动模型与端到端驾驶 - **AdaThinkDrive**：引入"快速应答/慢速思考"双模式推理机制，在NAVSIM基准测试中PDMS达90.3，超越最佳纯视觉基线1.7分，在96%复杂场景使用CoT，84%简单场景直接输出轨迹，推理效率提升14%[6] - **EvaDrive**：采用进化对抗策略优化框架，实现轨迹生成与评估的闭环共进化，在NAVSIM v1上PDMS达94.9，Bench2Drive驾驶分数64.96，超越DiffusionDrive等方法[9] - **MTRDrive**：通过记忆-工具协同推理框架提升决策鲁棒性，在NAVSIM和Roadwork-VLM基准上表现出色，有效缓解幻觉问题[14] - **ReCogDrive**：融合VLM认知推理与强化学习增强的扩散规划器，在NAVSIM基准PDMS达90.8，推理速度较纯文本VLM方法提升7.8倍[18] - **ORION**：通过视觉语言模型指导动作生成，在Bench2Drive数据集驾驶分数77.74，成功率54.62%，较之前最优方法提升14.28分和19.61%[23] - **AgentThink**：将动态工具调用与思维链推理结合，在DriveLMM-o1基准整体推理分数提升53.91%，答案准确率提升33.54%[22] 世界模型与场景生成 - **Dream4Drive**：首创3D感知引导的合成数据生成框架，仅插入420个样本（不足真实数据2%）即可提升感知任务性能，在1×训练轮数下mAP从34.5提升至36.1，NDS从46.9提升至47.8[26] - **WorldSplat**：采用高斯中心化前馈式4D场景生成框架，在nuScenes数据集取得最优FVD与FID指标，支持多视角驾驶视频生成[31] - **ViSE**：通过视觉街景外推框架在ICCV 2025 RealADSim-NVS挑战赛综合得分0.441，PSNR达18.228，SSIM 0.514，LPIPS降至0.288[30] - **ExtraGS**：融合几何先验与生成先验，在Waymo数据集NTA-IoU达0.592，NTL-IoU达58.49，nuScenes外推FID@3m降至77.19[35] - **Genesis**：实现多视角视频与LiDAR点云序列联合生成，在nuScenes基准视频生成FVD 16.95、FID 4.24，LiDAR生成Chamfer距离0.611[41] - **Uni-Gaussians**：统一高斯表示方法结合光栅化与光线追踪，在Waymo数据集实现相机与LiDAR数据高效仿真[42] - **CoGen**：通过3D语义条件生成框架提升视频生成3D一致性，在nuScenes数据集FVD指标最优[44] - **MiLA**：实现长达一分钟多视角高保真视频生成，在nuScenes数据集FID与FVD指标达到最先进水平[48] 运动风险预测与感知增强 - **DriveMRP**：基于BEV运动仿真方法合成高风险运动数据，零样本评估准确率从基线29.42%大幅提升至68.50%，增强VLM在长尾场景的风险预测能力[13][15] 深度估计技术 - **Pixel-Perfect Depth**：采用像素空间扩散生成模型，在NYUv2、KITTI等基准AbsRel最低达4.1%，δ1准确率最高97.7%，边缘感知点云Chamfer距离仅0.08[51]

自动驾驶之心· 2025-09-18 23:33

自动驾驶VLA技术突破 - 提出AdaThinkDrive框架通过双模式推理机制实现自适应思考在简单场景采用快速回答模式在复杂场景启用慢速思考模式[3][4][11] - 基于强化学习的自适应思考奖励策略结合GRPO算法优化模型选择性应用CoT的行为实现准确率与效率平衡[4][33][34] - 在Navsim基准测试中PDMS达到90.3 较最佳纯视觉基线模型提升1.7分推理时间较"始终思考"基线减少14%[4][50][58] 技术实现细节 - 采用三阶段训练流程：大规模驾驶数据预训练获取世界知识与驾驶常识双模式SFT数据集微调强化学习优化自适应推理策略[17][24][31] - 输入包含前视图像、导航指令、自车状态及历史轨迹支持思考与非思考两种推理模式联合分布输出[21][26][32] - 奖励设计包含PDMS奖励、格式奖励、端点奖励和自适应思考奖励四组件加权整合优化策略模型[34][35][36][37][38] 性能验证结果 - 在Navsim数据集验证较"永不思考"基线PDMS提升2.0分较"始终思考"基线提升1.4分在96%复杂场景启用CoT 84%简单场景采用直接预测[4][56][58] - 仅视觉输入性能与多模态方法GoalFlow相当 PDMS达90.3 Best-of-N规划策略下进一步提升至93.0创基准最高分[50][55] - 消融实验显示预训练阶段使PDMS提升1.3分强化学习阶段进一步提升2.8分自适应思考奖励是关键组件[63][64][65] 行业技术背景 - 自动驾驶系统向端到端架构演进 VLM模型通过大规模预训练提升场景理解能力 CoT技术增强可解释性与轨迹质量但存在简单场景过度推理问题[7][10][14] - 现有自适应CoT触发方法主要基于强化学习分为简洁推理、动态早期终止和按需推理三类需根据高速公路巡航或路口拥堵等不同场景复杂度调整[16][33] - InternVL3-8B作为基础模型训练使用64块NVIDIA H20 GPU 三阶段学习率从1×10⁻⁵逐步降至2×10⁻⁶[48][52]