自动驾驶之心
搜索文档
UCLA最新!大模型时序推理和Agentic系统的全面综述
自动驾驶之心· 2025-09-27 23:33
时间序列推理(TSR)的兴起背景 - 时间序列数据是现代社会的"数字脉搏",广泛应用于金融风控、医疗诊断、能源调度和交通管理等关键领域[1] - 传统时间序列分析技术(如ARIMA、LSTM)在预测和异常检测等基础任务上已取得显著进展,例如用LSTM预测未来24小时城市用电量,用CNN检测心电图中的心律失常片段[1] - 随着应用需求升级,传统方法在解释性、因果推断和动态响应方面存在三大局限:缺乏解释性、难以处理因果、静态响应不足[8][14] - 大语言模型(LLMs)具备分步推理轨迹、因果假设生成和智能体交互能力三大核心能力,为时间序列分析带来范式革命[8][14] - 时间序列推理被定义为利用LLMs对时序数据执行显式结构化推理的方法,可融合多模态上下文与智能体系统,实现解释、干预与动态生成[8] 三维分类框架 - 综述构建了"推理拓扑-核心目标-属性标签"三维分类框架,系统化梳理时间序列推理领域[9] - 第一维度推理拓扑定义LLMs执行推理的流程结构,分为直接推理、线性链推理和分支结构推理三类[12] - 直接推理是单步映射结构,高效但缺乏可解释性,典型案例包括LLMTIME将预测转化为文本生成任务,HiTime在单次前向传递中生成类标签[15][17] - 线性链推理通过有序推理步骤序列提升可解释性,案例如TimeReasoner将预测视为深思熟虑过程,RAF引入检索增强框架[18][21] - 分支结构推理支持多路径探索和自修正,是最高级拓扑,案例如AD-AGENT多智能体异常检测框架,BRIDGE多智能体时序生成模型[22][23][27] - 第二维度核心目标定义推理意图,涵盖传统时间序列分析、解释与理解、因果推断与决策、时间序列生成四类[24][28] - 第三维度属性标签细化方法特征,包括控制流操作、执行主体、信息来源和LLM对齐方式四类辅助特征[28][29][30][31][32] 核心目标应用场景 - 传统时间序列分析目标用LLM增强预测、分类、异常检测和分割等基础任务性能,例如用LLM结合新闻预测股价,用VLM分析时序图表检测电力系统异常[28] - 解释与理解目标要求LLM输出人类可理解的解释,支持时序问答、诊断解释和结构发现等任务,例如生成ECG诊断报告时说明异常波峰出现时间及可能原因[28] - 因果推断与决策是高级目标,支持自主策略学习、辅助决策支持和控制优化,例如LLM结合市场数据学习交易策略,为医生提供用药剂量调整建议[28] - 时间序列生成目标聚焦数据合成,支持条件合成和场景模拟,例如基于文本描述生成温度数据,生成极端天气下的电网负荷数据用于测试[28] 资源与工具支撑 - 推理优先基准专门测试LLM推理能力,例如MTBench多模态时序问答基准要求结合文本报告与时序数据回答问题[34][36] - 推理就绪基准自带丰富辅助信息支持推理研究,例如GPT4MTS包含时序数据与文本描述,RATs40K异常检测基准包含异常原因文本标注[34][36] - 通用时序基准是传统任务测试床,例如FinBen金融时序基准支持预测和风险管理,UEA/UCR时序分类基准包含多领域数据[34][36] 核心挑战与未来方向 - 标准化评估需结合证据忠实性和决策效用等全面指标,构建压力测试基准应对数据分布偏移和长时域场景[34][37] - 多模态融合存在时间对齐、模态失衡和风格鲁棒性三大问题,需解决文本、图像与时序数据精准匹配难题[38][41] - 长上下文与效率挑战需开发时序压缩技术和优化推理效率,以处理现实中的超长时序数据[38][41] - 智能体与工具使用需解决行动选择、工具适配和风险控制等鲁棒性与安全性问题[38][41] - 因果推断落地需解决时间混淆变量和构建因果基准,实现从相关性到因果性的跨越[38][41] - 成本与实用性需开发轻量化推理技术,将成本纳入设计指标以平衡性能与计算开销[38][41] - 未来时间序列推理将向大规模可靠性迈进,构建能理解、解释并作用于动态世界的智能系统[39]
会自检的VLA!ReflectDrive:更安全更高效scaling的端到端框架(理想&清华)
自动驾驶之心· 2025-09-27 23:33
文章核心观点 - 提出ReflectDrive新型学习框架,通过离散扩散的反思机制实现安全轨迹生成,解决端到端自动驾驶在安全性和多模态性能方面的核心挑战 [2][3] - 该方法首次将离散扩散应用于端到端自动驾驶轨迹生成,集成反思机制实现无梯度安全引导再生,在NAVSIM基准测试中展现出接近人类水平的安全关键轨迹生成能力 [7][13][35] - 框架核心是将二维驾驶空间离散化构建动作代码本,通过微调预训练扩散语言模型用于规划任务,结合目标条件生成和安全引导再生两阶段优化 [6][14][20] 技术方案创新点 - **离散化表示**:对二维驾驶空间进行离散化处理,将连续路径点映射为离散令牌对,实现鸟瞰图空间中高效搜索可行解 [15] - **反思推理机制**:包含目标条件轨迹生成与安全引导再生两个阶段,通过评分函数引导实现迭代自校正,无需梯度计算 [20][22][25] - **安全锚点搜索**:对于不安全路径点,在曼哈顿邻域内进行局部搜索确定更优令牌对,作为轨迹修复的安全锚点 [26][27] 性能评估结果 - **基准测试表现**:在NAVSIM基准测试中,ReflectDrive的PDMS综合评分达91.1,使用真值智能体信息时提升至94.7,接近人类水平的94.8 [35][38] - **安全指标提升**:与无反思推理版本相比,DAC提升3.9个百分点至99.3,TTC提升1.3个百分点至93.5,NC提升0.8个百分点至97.7 [37] - **进度优化效果**:EP指标提升7.9个百分点至86.9,使用真值智能体时进一步提升至88.9,超过人类水平的87.5 [37][38] 技术优势特点 - **多模态行为建模**:通过目标条件生成捕捉多样驾驶行为,支持在交叉口选择不同转向方向等大规模调整 [23][24] - **实时性能优化**:局部搜索在小型离散邻域进行,大多数安全违规可在1-3次反思迭代内解决,推理开销可控 [31] - **修复能力强化**:利用离散扩散模型的修复能力,以安全锚点为条件对轨迹片段再生,保持全局连贯性 [11][26] 应用前景展望 - **可扩展架构**:离散令牌结构支持并行解码和双向特征融合,实现可扩展训练,为自动驾驶系统提供可靠解决方案 [3][19] - **实际部署潜力**:实验表明通过更准确的检测与预测结果,系统性能可进一步提升,有望全面超越人类驾驶性能 [38][44]
NeurIPS 2025 | SURDS 数据集与 GRPO 全面强化自驾空间推理
自动驾驶之心· 2025-09-27 23:33
文章核心观点 - 武汉大学联合多家机构推出了首个面向自动驾驶场景的视觉语言模型空间推理大规模基准SURDS,旨在解决该领域缺乏系统性评估工具的挑战[2] - 研究通过结合有监督微调和强化学习训练,并设计定位与逻辑一致性奖励,显著提升了模型在多项空间推理任务上的性能,其中深度估计准确率相比第二名提升近60%[2][14] - 评测结果揭示了当前主流VLM在精细空间理解上存在明显不足,模型参数量并非决定空间理解能力的关键因素[14][16] SURDS基准概述 - SURDS基于nuScenes数据集构建,包含41,080条训练问答对和9,250条验证样本,涵盖方向识别、像素级定位等六类空间推理任务[4][7] - 数据集经过多阶段严格筛选,最终保留27,152张训练图像和5,919张验证图像,确保样本清晰无歧义[6][7] - 基准数据采集自波士顿和新加坡城市环境,包含多模态信息,覆盖多种交通、天气和昼夜场景[6] 模型训练方法 - 研究提出自动化流程生成高质量推理思维链,先由QVQ模型进行推理,再由Qwen2.5-VL-72B总结泛化规则[8][10] - 采用SFT与GRPO结合的强化学习框架,设置定位奖励、格式奖励、准确率奖励和逻辑奖励等多重奖励机制[10][11] - 创新性地让模型自我验证推理链一致性,降低计算开销并实现动态适应,显著增强逻辑可靠性[11] 实验结果分析 - 在单目标任务中,大部分模型准确率接近随机水平,像素级定位准确率很少超过10%[14][16] - 研究提出的Qwen2.5-VL-3B-SFT-GRPO-LocLogic模型在深度估计任务达到69.84%准确率,整体平均分超过第二名14.25%[14] - 消融实验表明定位能力是空间推理的基础,定位奖励与逻辑奖励结合时模型性能提升最显著[16][17] 行业意义与局限性 - 该研究为自动驾驶VLM空间理解能力提供了系统评估标准,填补了学术界大规模基准的空白[2][4] - 当前方法尚未在更大规模模型上验证,线性奖励缩放和多阶段GRPO训练等方向有待进一步探索[20]
合伙人招募!4D标注/世界模型/VLA/模型部署等方向
自动驾驶之心· 2025-09-27 23:33
业务拓展计划 - 公司计划在2024年向国内外招募10名业务合伙人 [2] - 合伙人将负责自动驾驶相关课程研发、论文辅导业务开发以及硬件研发 [2] 重点技术方向 - 公司重点关注大模型/多模态大模型、扩散模型、VLA、端到端自动驾驶、具身交互等技术 [3] - 其他关键方向包括联合预测、SLAM、3D目标检测、世界模型、闭环仿真3DGS以及大模型部署与量化感知推理 [3] 人才招聘要求 - 合伙人岗位要求应聘者来自QS200以内高校,并拥有硕士及以上学历 [4] - 拥有顶级学术会议成果的候选人将获得优先考虑 [4] 合伙人待遇与激励 - 合伙人将获得自动驾驶领域的资源共享,包括求职、读博及出国留学推荐等支持 [5] - 公司提供丰厚的现金激励以及创业项目合作与推荐机会 [5]
被时代落下的老牌车企们,真得补作业了...
自动驾驶之心· 2025-09-27 06:13
行业背景与拐点 - 2024年12月价格战引发汽车行业普遍焦虑[3] - 2025年下半年成为传统车企智能驾驶转型新拐点[5][12] - 行业加速技术人才流动 部分人才转向具身智能领域[11] 车企战略动态 - 一汽收购卓驭科技35.8%股权成为最大股东[6] - 吉利整合极氪智驾团队、吉利研究院及迈驰智行至重庆千里科技[7] - 奔驰投资13亿元获得千里科技3%股权[8] - 长安汽车进行高管团队重大调整[9] - 9月份行业出现13家车企高管岗位调整 涉及10位品牌一把手[10] 传统车企转型动因 - 传统车企智能驾驶进度比新势力慢2-3代 主要受制度限制[13] - 上半年价格战促使老牌车企急需提升品牌力[15] - 行业形成天时地利人和的发展契机[16] 四大发展路线 收购派 - 通过资本收购换取发展时间 一汽收购卓驭为典型案例[17] 广撒网派 - 采用多供应商策略 广汽同时与华为、Momenta、博世、轻舟等合作[18] 抱大腿派 - 赛力斯模式获得成功 市值从200亿元增长至2568亿元[20][21] - 张兴海家族财富达到560亿元 位列新财富500强第34位[22] 自研派 - 比亚迪采用混合路线 与Tier1合作同时推出自研天神之眼系统[24] - 长安引入许凌云博士后 泊车团队半年实现量产交付[24] - 长安自研泊车产品在部分性能上达到华为系水平[24] 技术发展与市场趋势 - 2024年为国内端到端量产元年 2026年将成端到端大年[26] - 新势力和头部智驾公司已量产一段式端到端系统[27] - 2025年7月中国新能源汽车渗透率首次突破50%[27] - 智能驾驶被视为车企灵魂业务[25]
某头部车企的自研大考......
自动驾驶之心· 2025-09-26 16:03
公司智驾研发进展与目标 - 某头部车企智驾自研团队面临重要时限目标,内部计划于9月30日研发出无图城区NOA,并于12月30日研发出端到端技术 [6] - 此次研发时限被视为对智能化总负责人及算法负责人的关键考核,其结果将直接影响其职业前途 [7] - 公司当前量产的高速NOA仍高度依赖高精地图,其无图城区NOA与端到端技术的研发进度已落后于新势力及头部智驾公司至少一年以上 [8] 公司资源投入与人才策略 - 公司在智驾研发上投入巨大,资金规模已超过部分新势力,公司管理层将智驾视为未来战略核心,在研发投入上非常慷慨 [9] - 为吸引技术人才,公司提供业界最高档水平的薪资待遇,总包薪酬以更多现金形式发放,避免了因股价波动导致员工总包缩水,实际到手收入有保障 [9] 公司研发挑战与管理问题 - 公司从某新势力挖角团队进行端到端研发,但进展未达预期,核心问题在于数据基础薄弱,而数据驱动是端到端技术的核心 [10] - 传统车企在智驾自研上普遍存在管理问题,负责人多具传统领域背景,对算法认知停留在传统IT编程层面,管理方式上倾向于考核代码量而非算法思路 [13] - 尽管投入巨大,但因管理水平是核心制约因素,传统车企的技术产出往往不如新势力 [14] 行业趋势与公司未来计划 - 公司计划于明年大规模普及高阶智驾城区NOA至十几万价位的车型,届时将根据自研团队今年端到端技术的研发成果决定采用自研方案或继续使用供应商方案 [15] - 明年预计成为端到端技术普及的关键年份,新势力及头部智驾公司的一段式技术性能体验已接近满足C端用户愉悦点的临界值,用户对高阶智驾的认同将进入拐点 [15] - 行业竞争焦点从技术概念拉齐转向用户体验,智驾功能必须达到“好用”的标准,性能不佳若遭用户吐槽将带来更大代价 [16]
对比之后,VLA的成熟度远高于世界模型...
自动驾驶之心· 2025-09-26 16:03
端到端自动驾驶技术格局 - 当前行业与学术界中90%以上采用分段式端到端方案,纯粹的视觉-语言-动作模型和世界模型非常罕见 [2] - 视觉-语言-动作模型代表包括高德地图模型、地平线SENNA模型和加州大学洛杉矶分校AutoVLA [2] - 世界模型代表包括上海AI实验室GenAD、中科慧拓GenAD、华为与浙江大学Drive-OccWorld以及理想汽车World4Drive [2] 性能测试方法与数据集 - 性能测试主要分为两类:在模拟器中使用合成数据进行闭环测试,以及在真实采集数据上进行开环测试 [4] - 开环测试无法获得预测指令执行后的反馈,常用评估指标为3秒内平均L2距离和3秒内平均碰撞率 [4] - 闭环仿真测试主要基于CARLA、nuPlan和NAVSIM平台,其中NAVSIM数据集来自nuPlan [4] - 常用数据集规模:nuScenes为5.5小时,Waymo为11小时,Argoverse2为4.2小时,nuPlan为120小时,而合成数据规模理论上无限 [3] 主要模型性能对比 - 基于nuScenes数据集的开环测试是当前最常见评估方式 [5] - 视觉-语言-动作模型阵营性能表现优于世界模型阵营,例如地平线SENNA模型在加入自车状态后L2平均距离为0.22米,3秒平均碰撞率为0.08% [5][6] - 世界模型相关论文多集中于2024年初,近期研究更多集中于生成长尾训练视频 [6] - 华为与浙江大学Drive-OccWorld在不同评估协议下表现差异显著,采用TemAvg协议时L2平均距离为0.47米,碰撞率为0.11% [5] 上海AI实验室GenAD模型 - 模型最大特色是训练数据完全来自互联网,绝大部分来自YouTube,无需任何标注 [7] - 公司认为使用标注数据的监督学习难以具备强泛化能力,主张采用海量无标注在线驾驶视频 [8][19] - 模型采用两级训练,基于扩散模型和Transformer,但需添加基于高精度地图和交通规则的任务头,因此不能算纯粹的世界模型 [26] 华为与浙江大学Drive-OccWorld模型 - 模型框架包含历史编码器、具有语义和运动条件归一化的记忆队列、世界解码器三个组件 [32] - 世界模型输出两个任务头:基于动作可控的占据栅格网络生成和基于占据的轨迹预测 [28] - 模型采用混合密度网络结合高斯混合模型,在输出部分引入不确定性,更接近强化学习范式 [30] - 端到端轨迹规划借鉴ST-P3的代价函数聚合图 [36] 理想汽车World4Drive模型 - 框架包含驾驶世界编码模块和规划模块,其中编码模块包括意图编码器和物理潜在编码器 [37] - 意图编码器对轨迹词典中的轨迹按终点进行K-means聚类得到意图点,结合正弦位置编码获得意图查询 [37] - 采用IDEA的Grounded SAM算法获得基于深度的语义分割图,该过程需要大量3D标注数据 [39] - 通过交叉注意力机制引入场景上下文信息,并通过多层感知机输出多模态轨迹 [41] 技术路线对比与部署考量 - 视觉-语言-动作模型技术成熟度远高于世界模型,且架构更加简洁 [43] - 世界模型经过传统融合激光雷达的感知算法增强后性能提升,但丧失了无需标注数据和泛化能力强的优点 [43] - 通常世界模型参数量在10亿以下,部署成本相对较低,但加入扩散模型后运算和存储资源消耗显著增加 [43]
自动驾驶之心国庆&中秋节活动进行中(课程/星球/硬件优惠等)
自动驾驶之心· 2025-09-26 16:03
课程产品与定价策略 - 平台推出多项限时折扣活动,包括课程7折优惠立减80元或99元,以及节后涨价的预期[1] - 提供超级折扣卡,售价299元可使自动驾驶课程享受一年期七折优惠[1][3] - 知识星球会员年费为99元,新会员享受七折优惠,续费会员享受五折优惠[1][4] 知识星球核心服务内容 - 星球定位为最前沿的自动驾驶技术社区,提供技术、行业与求职相结合的综合性服务[1][6] - 社区内容覆盖近40多个学习路线,包括VLA、世界模型、闭环仿真、扩散模型、BEV感知等前沿技术方向[6] - 提供与学术界及工业界专家面对面交流的机会,讨论行业热点话题如VLA和WA路线之争、端到端技术等[6] 附加价值与特色服务 - 购买会员可获赠7门精品课程,涵盖世界模型、轨迹预测、大模型、相机标定等多个专业领域[1][6] - 提供1对1辅导服务,最高可享受1000元抵扣5000元的优惠,以及1对6论文辅导立减1000元[1] - 社区内容设计面向不同基础的学习者,注重从零开始的系统性培养[6]
AnchDrive:一种新端到端自动驾驶扩散策略(上大&博世)
自动驾驶之心· 2025-09-26 07:50
端到端自动驾驶技术演进 - 端到端自动驾驶算法直接从原始传感器数据学习控制信号,绕过模块化设计复杂性,减少感知误差累积,提升系统一致性与鲁棒性 [4][12] - 早期方法依赖自车查询回归单模态轨迹,在复杂场景中易因行为多模态性导致预测失效 [6][12] - 多模态建模策略通过生成多个轨迹提案提升决策覆盖率,但固定轨迹集离散化限制模型表达灵活性 [6][13] 扩散模型在轨迹规划中的应用 - 扩散模型具备强大生成能力与自适应能力,适合多模态轨迹规划,能从高维联合分布采样并建模连续控制空间 [7][13] - 模型天然支持条件分布建模,可整合轨迹历史、地图语义、自车目标等上下文输入,提升策略一致性与情境相关性 [7][13] - 测试阶段可通过可控采样加入额外约束,无需重新训练模型 [7][13] AnchDrive框架核心创新 - 采用截断扩散策略,从混合轨迹锚点集初始化扩散过程,显著减少去噪步骤,降低计算成本与延迟 [8][15][29] - 动态锚点由多头部解码器实时生成,处理BEV场景表征、目标特征、地图特征和VLM指令四类输入,捕捉局部环境行为多样性 [27][29] - 静态锚点集从大规模人类驾驶数据预采样,提供跨场景行为先验知识,增强模型泛化能力 [8][28][29] 混合感知架构设计 - 密集感知分支构建128×128网格BEV特征图,覆盖64×64米区域,提供场景纹理与空间关系的隐式引导 [22][23] - 稀疏感知分支执行3D目标检测和在线高精地图矢量化,输出带属性边界框及矢量化地图元素,通过MLP编码生成目标与地图嵌入 [23] - 双分支协同融合隐式模式与显式几何约束,为规划提供全面可靠的环境理解基础 [21][23] 性能表现与基准对比 - 在NAVSIM v2基准测试中EPDMS达到85.5分,显著优于主流方法:较VADv2提升8.9分,较Hydra-MDP提升5.7分,较Hydra-MDP++提升4.1分 [9][15][34] - 轨迹锚点数量从VADv2的8192个大幅缩减至20个,减少比例达400倍 [34] - 在所有子分数指标上均优于DiffusionDrive基准方法,EPDMS分数提升1.2分 [34] 消融实验关键发现 - 动态锚点生成器中:BEV特征轨迹头使EPDMS提升0.5分;目标特征轨迹头显著提高无责任碰撞(NC)分数;地图特征轨迹头提升可行驶区域合规性(DAC)和行驶方向合规性(DDC)指标 [36] - 整合VLM指令后EPDMS达到最终85.5分 [36] - 2步去噪步骤在规划性能与计算效率间取得最佳平衡,更多步骤不保证性能提升且增加推理延迟 [36] 技术实现细节 - 实验基于NAVSIM数据集,标注频率2Hz,提供8摄像头360度视野和5传感器融合LiDAR点云数据 [32] - EPDMS评价指标整合乘法惩罚分数(无责任碰撞、可行驶区域合规性、行驶方向合规性、交通信号灯合规性)和加权平均分数(碰撞时间、自车进度、历史舒适性、车道保持、扩展舒适性) [32] - 模型完全端到端学习,未依赖任何手工后处理步骤 [34]
29.88万的ES8,蔚来终于开窍了...
自动驾驶之心· 2025-09-26 03:45
全新ES8产品策略 - 定位大型纯电旗舰SUV 车身尺寸5280×2010×1800mm 提供6座/7座布局[11] - 起售价29.88万元 较预售价再降1万元 体现价格竞争力[8][9] - 搭载102度电池包 CLTC续航达635公里 配备可充可换补能体系[13] - 标配零重力座椅/数字座舱/天琴九霄音响/冷暖冰箱等豪华配置[16] ET9产品定位 - 定价81.8万元的地平线特别版 定位豪华电动天花板[22] - 通过重新打磨外观腰线比例和拼色内饰设计体现东方审美[24][25] - 代表品牌技术自信与极致体验追求 面向高端细分市场[21][28] 双产品线战略意义 - ES8实现豪华配置普惠化 从"少数人特权"转向"多数人选择"[17][20] - ET9保持品牌高度与技术引领 展现创新投入决心[27][34] - 普惠车型保障4万台年产能 支撑市场规模与盈利基础[40] - 双线战略相辅相成 共同推动2025年四季度盈利目标[39] 市场反应与用户基础 - 发布会设置21:30前订车权益 有效刺激现场下单转化[1][19] - 现有用户群体包含ET5T与ES8双车型持有者 品牌忠诚度高[30] - 十年积累换电网络与用户社群构成核心竞争壁垒[37]