自动驾驶之心
搜索文档
自动驾驶春秋的终点
自动驾驶之心· 2025-10-28 00:03
行业竞争格局演变 - 自动驾驶行业正从类似“春秋”的争霸阶段转向类似“战国”的生死存亡阶段,竞争目标从迫使对方承认转变为彻底的兼并和统一 [2] - 竞争已不再是梯队间的排位赛,而是一场生死之战,输家将失去持续研发的资格与资源,最终只有头部玩家能够存活壮大 [3] - 第二梯队及之后的参与者难逃被整合或淘汰的命运 [3] 技术路线分化 - 随着主流厂商掌握BEV、Occ等基础感知能力,行业为寻求突围而探索差异化技术路线,导致技术路径呈现显著分化 [4] - 在传感器选择上,部分团队放弃LiDAR转向纯视觉方案;在地图使用上,分化出众包地图方案和强感知的无图方向 [4] - 规控层面出现时空联合规划算法取代传统分离式算法,并探索端到端设计及“两段式端到端”过渡方案 [4] - 多模态大模型、可微分渲染、强化学习等新技术被寄望于破解长尾场景难题和带来数据生成新可能 [4] 技术成熟度与市场现状 - 尽管新技术名词层出不穷,但实际成熟度尚待打磨,用户体验提升进入平缓期,系统仍受限于大量规则代码与兜底策略 [5] - 高阶智驾功能随供应商方案成熟开始下放至更多入门车型,技术光环褪去,行业竞争回归以价格战为核心的贴身肉搏 [6] - 供应商方案仅需少量对接人员即可提供一线智驾能力,对自研能力未达第一梯队的车企而言,切换供应商是降本甚至提升产品力之举 [6] 数据驱动与行业瓶颈 - 自动驾驶技术陷入平台期的核心原因在于数据驱动的新方案未完全成熟,系统仍严重依赖规则算法,而规则系统的性能天花板已被探明 [7] - Tesla FSD V14的技术分享表明,大量丰富的真实世界数据仍是提升自动驾驶AI水平最关键的要素,仿真数据在细节真实性和丰富多样性上均不及真实数据 [7] - 行业突破瓶颈的关键在于减轻对规则算法的依赖,转向数据驱动范式,否则无法将自动驾驶体验再提高一个台阶 [9]
TeraSim World:用开源方式重建「特斯拉式」世界模型
自动驾驶之心· 2025-10-28 00:03
特斯拉世界模型技术特点 - 神经网络驱动的虚拟世界生成器,根据车辆状态和控制输入实时合成八个摄像头视角的高分辨率视频[2] - 在没有真实相机的情况下预测环境变化,重建连续且空间一致的驾驶画面,支持闭环验证和强化学习[2] - 学习通用的"感知—动作—世界变化"映射,可迁移到机器人等其他平台,成为通用物理智能的基础组件[2] TeraSim World开源框架核心能力 - 在开源条件下实现与特斯拉世界模型同级的生成与评测能力,无需真实地图或传感器背景即可自动生成整个城市环境与交通行为[5] - 基于NeuralNDE和NADE两项奠基性研究,既能再现自然交通行为,又能主动生成突发风险与环境干扰[6] - 模块化全自动数据合成流水线,专为生成端到端自动驾驶所需的真实且安全关键数据而设计[7] 真实地图与交通环境构建 - 用户输入位置或路线后,系统自动从公开地图数据获取当地道路结构和交通情况,识别道路类型并生成数字地图[11] - 从实时交通数据服务自动获取实际车流速度与拥堵状况,模拟符合当地节奏的早晚高峰和拥堵点[13] - 自动检索真实世界道路地图并转换为仿真可用格式,与智能体行为建模后端集成[10] 智能体仿真技术 - 通过学习大量真实驾驶数据生成自然的多车交互行为,如红绿灯前减速、狭窄道路错车、环岛礼让等[16] - 根据真实世界事故概率和强化学习机制自动引入安全关键情境,如前车急停、行人闯红灯等罕见但高风险事件[17] - 输出每个参与者的详细轨迹,描述其在道路上的移动和互动[17] 传感器仿真技术 - 依托NVIDIA开源世界模型Cosmos系列,生成真实感摄像头输入并可扩展到其他传感器类别[18][19] - 使用Google Street View API抓取六个方向街景图像,通过多模态语言模型自动生成语义描述[20] - 生成六个摄像头视角的高分辨率视频,最高分辨率达1280×704,帧率为24 fps,确保跨视角几何对齐和光照一致[25][26] 自动化压力测试框架 - 基于NADE研究成果复现动态风险,并扩展到静态风险和环境风险,如交通锥、施工区域、天气变化等[30] - 系统评估自动驾驶系统在多种复杂环境下的稳定性和安全边界[30] - 支持自动生成和验证不同类型的风险场景[30] 系统应用前景与愿景 - 为自动驾驶安全验证提供可扩展、成本更低的替代方案,减少实车采集和路测需求[31] - 采用开放技术路线,希望成为全球研究者与开发者共享的自动驾驶虚拟试验场[32] - 长期愿景是打造开放的端到端自动驾驶仿真与评测体系,让虚拟道路测试成为实车路测的可靠替代[32]
最新一篇长达76页的Agentic AI综述
自动驾驶之心· 2025-10-28 00:03
文章核心观点 - Agentic AI正经历从“外部流水线”到“模型原生”的范式迁移,其核心能力(规划、工具使用、记忆)正被内化到模型参数中 [1] - 驱动此范式转变的核心是“LLM + RL + Task”统一框架,通过强化学习将预训练、后训练与推理循环结合,使模型从被动组件转变为可从环境互动中学习的目标驱动体 [1][3] - 未来趋势不仅是更高的自治度,更是模型与环境的深度耦合与共生,标志着从“构建会用智力的系统”走向“通过经验自进化的智能” [1][44] 问题背景 - 当前生成式AI多为“反应式输出”,缺乏面向目标的长期推理与环境交互能力 [3] - 早期智能体系统采用流水线范式,将规划、工具使用、记忆三大核心能力放在外部编排中,导致系统脆弱且难以应对非预期情境 [3] - 新范式强调通过端到端训练将核心能力内化进模型参数,使LLM成为主动决策者,其核心驱动力是大规模强化学习在LLM训练中的应用 [3] 面向LLM的RL - 必须使用结果驱动的RL将规划等能力从提示诱导转为参数内化,以解决程序化数据稀缺和分布外脆弱性问题 [6] - 相比监督微调,RL具备动态探索式采样与相对价值学习两大优势,将模型从“被动模仿者”变为“主动探索者” [7][8] - 预训练LLM自带的世界知识与结构先验可实现先验引导的探索,提高样本效率,而语言接口将状态、动作、奖励统一到文本空间,使RL成为跨任务泛化的通用机制 [9][11] - 算法从早期RLHF演进至GRPO、DAPO等结果驱动RL,以提升长程训练稳定性与效率,形成基础模型提供先验、学习算法通过交互精炼能力的统一范式 [12] 核心能力:规划 - 流水线范式将规划视为自动化推理与行动序列搜索,存在传统符号规划可解释但重建模、提示工程对设计敏感且计算成本高等局限 [14][17] - 模型原生范式通过监督学习与强化学习将规划能力直接内化到参数中,摆脱外部搜索器/评估器,提升开放环境下的灵活性与稳健性 [15] - 实现了两次关键迁移:训练方式从SFT转向RL以缓解高质量过程数据稀缺问题;RL内部从“过程奖励”转向“结果奖励”并结合规则型奖励以稳定优化 [18] 核心能力:工具使用 - 早期系统将模型嵌入固定工作流节点,提示法则将决策逻辑写入提示,但存在计算开销大、依赖评估质量等问题 [21] - 模型原生迁移把工具使用的决策内化到参数中,形成模块化训练(只优化规划器)和端到端训练(统一学习计划与执行)两类路线 [21] - 当前挑战包括长动作序列中的信用分配问题,以及工具超时、返回不一致等环境噪声导致的训练不稳定,趋势是细化奖励(轨迹级转向步级)并在动态真实环境中训练以缩小仿真到现实差距 [22] 核心能力:记忆 - 记忆被视为“面向行动的证据治理”,流程包括写入/存储、管理/压缩、检索、利用四职能 [27] - 短期记忆方面,流水线范式通过滑动窗口、压缩摘要和RAG等技术处理,模型原生范式则通过位置编码外推、长序列合成和注意力优化将长上下文能力端到端化 [27][30] - 长期记忆载体分为外部库(混合索引、重排、去重)和模型参数(持续预训练/蒸馏、定点编辑与轻量注入),趋势是推动短期-长期记忆统一及检索与生成的联合训练 [30] 智能体应用发展路线 - Deep Research智能体充当“大脑”,擅长复杂推理和分析;GUI智能体充当“眼睛和手”,模拟人类与图形环境的交互 [3] - 多智能体协作研究涵盖从基于规则的系统到数据驱动的模型原生方法,代表性算法包括MAGRPO、RLCCF、MATPO等 [40] 未来方向 - 当前研究焦点集中于奖励建模、规划、工具使用、自动化验证/红队测试等领域 [41] - 最终发展轨迹是模型与环境更深入的综合,标志着从构建使用智能的系统到增长智能的系统的转变 [44]
输出你的insights!寻找散落在各地的自动驾驶热爱者(产品/4D标注/世界模型等)
自动驾驶之心· 2025-10-27 09:14
公司业务拓展 - 公司收到业内伙伴和企业的诉求 计划在企业培训和求职辅导方向进行业务拓展 [2] - 公司面向全球自动驾驶从业者发出合作邀请 合作领域包括技术服务 培训 课程开发与科研辅导等 [2] - 公司将提供高额酬金与丰富行业资源以推动合作 [3] 合作主要方向 - 合作技术方向包括自动驾驶产品经理 4D标注/数据闭环 世界模型 VLA 自动驾驶大模型 强化学习 端到端等 [4] - 合作岗位说明主要面向自动驾驶培训合作 包括面向企业和高校的B端培训以及面向学生和求职人群的C端培训 [5] - 合作内容还包括课程开发和原创文章创作 [5] 合作联系方式 - 感兴趣的从业者可通过添加指定微信进行进一步咨询 [6]
今日暴论:Deepseek-OCR干翻了所有架构
自动驾驶之心· 2025-10-27 00:03
技术突破 - DeepSeek发布新模型DeepSeek-OCR,其核心创新在于使用图像作为AI的“记忆载体”,而非传统的文字token [3][6][7] - 该技术可将大量文字信息转化为一张图片进行存储,实现极高的信息压缩比,仅需原本十分之一的token即可存储几乎相同的文字信息 [1][12][40] - 在文档理解任务测试中,DeepSeek-OCR仅用100个视觉token就超越了需要256个token的GOT-OCR 2.0模型,用不到800个视觉token就超越了平均需要6000+ token的MinerU 2.0模型 [13][14] 性能优势 - 模型支持多种分辨率和压缩模式以适应不同复杂度的文档,例如仅需64个视觉token表示简单PPT,最多400个视觉token处理文字密集内容,并支持动态调整的Gundam模式 [18][19][20] - 使用图像记忆后,模型能将token数量压缩至原本的十分之一,同时性能损失极小,在压缩10倍时准确率可达原模型的96.5%,即使压缩20倍准确率仍能保持约60% [40][41] - 该技术能显著降低模型计算量,因为对话长度增加一倍会导致计算量增加四倍,而视觉token的运用能有效控制成本 [36][37][38] 数据处理能力 - DeepSeek-OCR不仅能识别文字,还能自动提取并转换复杂信息,例如将论文中的柱状图识别为Excel格式,将有机化合物分子结构图片转化为SMILES格式 [22][24] - 模型会同时记忆图片本身及其位置信息,以及图片附近的文字内容,从而捕获过去被忽略的二维信息 [26][27][32] - 该模型具备高效的数据采集能力,在一张A100显卡上一天可处理20万页以上的训练数据,有望将现有数据重新识别一遍以补充高质量训练数据集 [28][29][35] 技术生态与影响 - DeepSeek-OCR是一个开源项目,其训练数据整合了华为的Wukong数据集,生成样本时借助了百度的PaddleOCR,图像特征提取使用了Meta的SAM,视觉语义理解整合了OpenAI的CLIP模型 [51][53] - 该技术引入了一种类似人类遗忘机制的信息存储方式,近期重要信息以高清晰度存储,而早期不重要信息可压缩存储,这可能增强模型的上下文处理能力 [43][45][47] - 这项突破有望解决行业面临的高质量训练数据短缺问题,因为许多过去未被采集的二维信息(如论文图表)现在可以被有效利用 [32][33][35]
北大World-in-World:闭环下的具身世界模型评估框架!
自动驾驶之心· 2025-10-27 00:03
文章核心观点 - 当前生成式世界模型的评估体系存在缺陷,过度关注视频生成质量而忽略了其在真实具身任务中的决策辅助能力 [5] - 约翰・霍普金斯大学和北京大学等团队推出了“World-in-World”平台,首次采用闭环交互方式评估世界模型在具身任务中的实用性 [2] - 实验结果表明,对于具身智能体而言,世界模型的“动作-预测对齐”能力比画面逼真度更为重要,且通过特定任务数据微调小模型比使用大参数模型更具成本效益 [18][21] 世界模型评估的现有问题 - 现有评估基准如VBench和WorldModelBench是开环的,仅评估视频清晰度和场景合理性,不测试模型辅助智能体完成实际任务的能力 [5] - 存在“视觉质量”与“任务有用性”的脱节,例如模型能生成超清晰画面但动作指令与预测画面不匹配,导致其无法有效帮助机器人导航或抓取物体 [5] World-in-World平台设计 - 平台设计了一套完整的闭环体系,使智能体、世界模型和环境形成“观测→决策→执行→再观测”的循环 [6] - 通过统一动作API解决模型兼容性问题,将智能体的原始动作转换成不同世界模型能理解的格式 [7] - 决策流程分为三步:提案阶段智能体生成候选动作序列,模拟阶段世界模型预测执行后的未来画面,修正阶段智能体根据预测评分选择最优方案执行 [8][13] - 决策过程通过数学公式整合候选动作、预测结果、当前观测和任务目标四要素,确保决策有据 [12] 实验任务与核心发现 - 平台选用四类真实具身任务进行测试:主动识别、图像导航、具身问答和机械臂操作 [16] - 画面逼真度与任务成功率无正相关关系,经过后训练的SVD†模型视觉质量中等但主动识别任务成功率可达61%,而视觉质量高的Wan2.1模型成功率仅为57% [18] - 模型的可控性是关键,可控性指标与任务成功率呈正相关,1-LPIPS值越高代表动作对齐越好,成功率也越高 [20] - 使用任务数据微调小模型性价比高,1.5B参数的SVD†模型用80K数据微调后,主动识别成功率从56.3%提升至61%,效果优于未微调的14B参数Wan2.2†模型,且成本仅为训练新大模型的1/10以下 [21] - 增加推理时的模拟次数可提升成功率,SVD†模型模拟次数从3次增加到11次后,主动识别任务成功率从53.4%升至61%,且平均路径长度缩短12% [23] - 当前世界模型在机械臂操作任务中表现不佳,最佳模型SVD†的成功率仅为46.5%,因模型缺乏物理规律建模,导致预测画面与实际操作结果不符 [25] 未来发展方向 - 世界模型的研发重点应从提升画面逼真度转向提升可控性,确保模型能精准响应动作指令 [26] - 利用少量任务数据进行微调是低成本提升模型效果的有效途径 [26] - 需补强物理建模能力,使模型能够理解碰撞、摩擦力等物理规律,以更好地辅助操作任务 [26]
正式结课!工业界大佬带队三个月搞定端到端自动驾驶
自动驾驶之心· 2025-10-27 00:03
端到端自动驾驶技术发展现状 - 2023年是端到端量产的元年,2025年将是端到端量产的大年,目前头部新势力和主机厂端到端技术均已实现量产[1] - 工业界存在一段式和两段式两种主要技术范式,一段式代表UniAD直接从传感器输入建模自车轨迹输出,二段式基于感知结果进一步输出自车和他车轨迹[1] - 2024年以来一段式端到端快速发展,衍生出基于感知、世界模型、扩散模型和VLA等多种一段式方法[3] 端到端自动驾驶技术体系 - 端到端与VLA技术涉及BEV感知、视觉语言模型VLM、扩散模型、强化学习等核心内容[5] - 主流自动驾驶企业包括智驾方案供应商和车企都在发力端到端自动驾驶的自研量产[3] - 技术栈涵盖学术界和工业界最前沿的方法,二段式端到端与一段式端到端前沿算法都是工业界和学术界的Baseline[5] 端到端自动驾驶课程内容 - 课程第一章介绍端到端发展历史、技术范式演变及优缺点,分析学术界和工业界研究方向[9] - 第二章重点讲解端到端背景知识,包括VLA涉及的大语言模型、扩散模型、强化学习,以及一段式端到端涉及的BEV感知[9] - 第三章聚焦二段式端到端,讲解经典算法PLUTO、CVPR'25的CarPlanner和最新工作Plan-R1[10] - 第四章涵盖一段式端到端子领域:基于感知的UniAD、基于世界模型、基于扩散模型和基于VLA的方法[12] - 课程大作业选择RLHF微调实战,涵盖预训练模块搭建、强化学习模块搭建和实验实施[13] 端到端自动驾驶技术细节 - 基于感知的方法讲解UniAD和地平线VAD,以及CVPR'24的PARA-Drive[14] - 基于世界模型的方法介绍AAAI'25的Drive-OccWorld和复旦团队的OccLLaMA,探讨世界模型在场景生成、端到端和闭环仿真中的应用[14] - 基于扩散模型的方法讲解DiffusionDrive、Diffusion Planner和吉大DiffE2E,配套Diffusion Planner实战[14] - 基于VLA的方法选取小米ORION、慕尼黑工大OpenDriveVLA和最新ReCogDrive,以ORION作为实战案例[14] 端到端自动驾驶学习目标 - 课程是首个面向端到端自动驾驶的进阶实战教程,旨在推动端到端在工业界落地[15] - 学员学完后能达到1年左右端到端自动驾驶算法工程师水平,掌握端到端技术框架和关键技术[19] - 学习成果包括可复现扩散模型、VLA等主流算法框架,并能将所学应用到实际项目中[19]
2025年的理想还在不断突破,年度成果一览......
自动驾驶之心· 2025-10-27 00:03
公司技术战略定位 - 公司凭借端到端和视觉语言模型双系统量产,已跻身国内智能驾驶第一梯队[3] - 公司正从汽车新势力向人工智能企业转型,将人工智能作为发展的新锚点[3][7] - 在技术路线上,公司重点探索扩散模型轨迹生成、世界模型和视觉语言行动模型,印证了其MindVLA的技术架构[5] 视觉语言行动模型 - ReflectDrive通过离散扩散的反思机制实现安全轨迹生成,首次将离散扩散应用于端到端自动驾驶轨迹生成[13] - OmniReason构建了大规模VLA数据集并提出了融合时间性三维知识和因果推理的端到端VLA架构[16] - LightVLA通过可微分token剪枝框架将计算量和延迟分别降低59.1%与38.2%,同时任务成功率提升2.6%[17] - DriveAgent-R1采用混合思维架构,在SUP-AD数据集上性能超越Claude 4 Sonnet等前沿多模态大模型[19] - DriveAction是公司开源的中国行车场景VLA数据集,覆盖148个城市和所有量产车型记录[21] 端到端轨迹生成 - World4Drive整合多模态驾驶意图与潜在世界模型,实现无需感知标注的端到端规划[25] - TransDiffuser采用多模态表示解相关策略,在NAVSIM基准测试中取得最先进成果[26] - TrajHF提出基于人类反馈的微调框架,使生成轨迹模型能与多样化人类驾驶偏好对齐[29] 世界模型与场景生成 - RLGF通过几何反馈强化学习将3D检测mAP绝对值提高12.7%,减少几何差距[34] - HiNeuS解决神经表面重建中的多视图辐射不一致、无纹理区域关键点缺失等问题[39] - GeoDrive将三维点云渲染过程纳入生成范式,显式注入空间结构信息[40] - StyledStreets基于3D高斯散射实现跨季节、天气和相机的真实风格转换[41] - DiVE生成框架速度提升2.6倍,Fréchet视频距离降低36.7[47] 三维场景理解与模型优化 - QuadricFormer利用超二次曲面进行3D语义占用预测,以更少基元捕获现实世界目标结构[51] - UniPLV将点云、图像和文本统一到单一框架,无需对齐数据实现开放世界3D场景理解[55] - TokenFLEX通过动态token机制和轻量级自适应投影器实现灵活视觉token推理[50] - RuscaRL借鉴教育心理学脚手架理论,解决大语言模型强化学习探索瓶颈问题[56]
摇人!寻找散落在各地的自动驾驶热爱者(产品/4D标注/世界模型等)
自动驾驶之心· 2025-10-25 16:03
业务拓展方向 - 公司计划在自动驾驶领域的企业培训和求职辅导等方向进行业务拓展 [2] - 合作领域包括技术服务、培训、课程开发与科研辅导等多个方面 [2] - 主要面向自动驾驶产品经理、4D标注/数据闭环、世界模型、VLA、自动驾驶大模型、强化学习、端到端等多个技术方向 [4] 目标客户与岗位说明 - 培训合作业务B端主要面向企业和高校、研究院所 [5] - 培训合作业务C端面向较多学生和求职类人群 [5] - 岗位职责包括自动驾驶培训合作、课程开发和原创文章创作 [5] 合作与资源 - 公司面向全球自动驾驶领域从业者发出合作邀请 [2] - 公司将提供高额的酬金与丰富的行业资源以吸引合作伙伴 [3] - 感兴趣的从业者可通过指定微信联系方式进行进一步咨询 [6]
全球首个「百万引用」学者诞生!Bengio封神,辛顿、何恺明紧跟
自动驾驶之心· 2025-10-25 16:03
AI领域学术影响力里程碑 - Yoshua Bengio成为全球首位论文引用量突破100万次的学者,标志着AI学术影响力达到新高峰[2][3] - Geoffrey Hinton以97万次引用紧随其后,有望成为全球第二位突破百万引用的学者[5] - 深度学习三巨头(Bengio、Hinton、Yann LeCun)共同获得2018年图灵奖,其中LeCun引用量超过43万次[6][7][13] 顶尖AI研究者学术成就 - Yoshua Bengio在全球计算机科学领域排名第一,总引用量987,920次,近五年引用量711,796次,占比72%[8] - Geoffrey Hinton全球排名第二,总引用量963,982次,近五年引用量588,843次,占比61.1%[8] - 何恺明论文总被引超过75万次,其2016年发表的深度残差网络(ResNets)论文被引298,327次,是二十一世纪被引用次数最多的论文[48][51] - Ilya Sutskever论文总被引超过70万次,作为OpenAI和ChatGPT缔造者,与Hinton存在师徒关系[53][18] AI论文引用爆发式增长原因 - 2012年AlexNet在ImageNet上的突破性表现被视为深度学习"引爆点"[20] - 2017年Transformer架构提出和2018年BERT模型出现,推动预训练/微调范式发展,带来AI论文二次爆发[24] - 2010-2022年全球AI论文总量从约8.8万篇增长至24万篇以上,实现近三倍增长[30] - AI论文占计算机科学论文比例从2013年的21.6%升至2023年的41.8%,几乎占据计算机科学领域一半论文[31][32] AI领域学术会议活跃度 - ICLR 2024接收论文2260篇,投稿量较2023年增加2324篇[36] - NeurIPS 2024总投稿17491篇(主会15671篇),接收4497篇[36] - CVPR 2024投稿11532篇,接收2719篇,录用率23.6%[36] 其他高影响力AI研究者 - GAN之父Ian Goodfellow引用量38万+[61] - 谷歌人工智能负责人Jeff Dean引用量37万+[61] - ImageNet创建者李飞飞引用量32万+[61] - LSTM之父Juergen Schmidhuber引用量29万+,其1997年LSTM论文被引136,740次[61][67] - Coursera创始人吴恩达引用量29万+[61] - Gemini技术负责人Noam Shazeer引用量28万+,其参与的"Attention is All You Need"论文被引209,694次[61][69]