Workflow
自动驾驶
icon
搜索文档
福瑞泰克将为哈啰Robotaxi平台项目提供毫米波雷达产品
中国汽车报网· 2025-09-01 00:25
公司业务合作 - 福瑞泰克获得哈啰旗下造父科技定点通知 将为哈啰Robotaxi平台项目提供毫米波雷达产品及相应软件服务 [2] - 首批上车产品计划在2025年底达到量产状态 [2] 产品规划 - 毫米波雷达产品及软件服务将应用于自动驾驶出租车平台 [2] - 量产时间节点明确设定为2025年底 [2]
蹲点调查|“反内卷”下的招商之变
搜狐财经· 2025-09-01 00:22
招商策略转变 - 各地招商策略从依赖土地、税收和补贴政策转向构建产业生态和提供全生命周期服务 [9] - 新招商理念强调产业布局合理性、资源禀赋和市场空间优先于优惠政策 [11][12] - 区域协同招商和制度创新成为避免零和博弈的关键 如济宁共享考核机制和青岛首谈首报制度 [13] 链式招商实践 - 链式招商聚焦产业链关键环节和上下游配套 推动产业集聚效应 [14] - 菏泽市通过引进英搏尔电气龙头企业 带动19家配套企业形成专用车制造产业梯队 [14][15] - 产业链图谱作为招商作战地图 山东确立19条标志性产业链和67个细分赛道 [17][18] 资本与场景招商 - 基金招商以资本撬动产业 如德州天衢新区设立8.3亿元基金推动50亿元半导体项目落地 [19][22] - 市场化基金面临风险问责制约 需构建容亏容错机制 如广东和湖北的差异化考核政策 [22][23] - 场景招商从给政策转向供机会 曲阜通过开放路权场景吸引九识智能建设自动驾驶制造中心 [25] 营商环境优化 - 政府服务理念从店小二升级为合伙人 提供市场开拓和技术升级等战略支撑 [27] - 专业化招商团队需懂产业懂市场 潍坊市招商集团通过企业化运作提升招商效率 [27][28] - 全生命周期服务包括一把手护航和城市温度营造 如昌邑市党政主官直通问题解决机制 [29]
没有数据闭环的端到端只是半成品!
自动驾驶之心· 2025-08-31 23:33
行业趋势与需求 - 智能驾驶行业进入泛化深水区 端到端量产对自动标注要求显著提高[1] - 2024年以来智驾企业明显加大自动标注投入 人力物力资源集中[1] - 自动标注成为提升自动驾驶系统泛化能力与安全性的关键瓶颈[1] 技术难点与挑战 - 4D自动标注需实现3D空间+时间维度动态标注 面临五大核心难点[2] - 时空一致性要求极高 需确保跨帧标注连贯性 复杂场景下易出现标注断裂[2] - 多模态数据融合复杂 需同步解决激光雷达/相机/雷达的坐标对齐/语义统一/时延补偿问题[2] - 动态场景泛化难度大 交通参与者行为不确定性及环境干扰增加标注模型适应性挑战[2] - 标注效率与成本矛盾突出 高精度标注依赖人工校验 海量数据导致周期长/成本高[2] - 量产场景泛化要求高 不同城市/道路/天气/交通状况的数据挖掘与标注算法性能保障仍是行业痛点[2] 课程体系与内容架构 - 课程系统讲解自动驾驶4D自动标注全流程及核心算法 包含七大核心模块[3] - 基础模块涵盖4D自动标注应用场景/数据环境/交付物定义/系统时空同步/传感器标定技术[4] - 动态障碍物标注模块包含离线3D目标检测算法/CVPR 2024的SAFDNet实战/3D多目标跟踪算法/时序后处理DetZero实战[6] - 静态元素标注基于SLAM重建输出 通过全局clip道路信息实现自动化标注[9][11] - OCC标注模块解析通用障碍物算法输入输出 讲解基于Lidar/视觉的真值生成流程及工程优化方案[10] - 端到端真值生成模块涵盖一段式/两段式实现方案 整合动态障碍物/静态元素/可行驶区域/自车轨迹全流程[12] - 数据闭环专题分析行业scaling law有效性/主流公司数据驱动架构/跨传感器系统痛点及岗位面试要点[14] 技术实现与方法论 - 动态障碍物检测采用Image/Lidar数据增广技术 Backbone/检测头结合BEV/多帧时序融合方案[6] - 激光&视觉SLAM重建采用Graph-based算法 明确重建在4D标注中的核心用途[7] - 端到端标注配套闭环仿真DrivingGaussian算法 满足端到端自动驾驶刚需[12] - 数据质检体系作为结果验证关键环节 保障标注输出质量[6] 人才培养与能力建设 - 课程目标使学员掌握4D自动标注全流程 具备学术界与工业界前沿算法研发能力[19] - 课程覆盖动态障碍物检测跟踪/OCC标注/端到端标注等实战演练 提升解决实际问题能力[3][19] - 学员需具备深度学习/自动驾驶感知基础 熟悉Transformer模型及Python/PyTorch编程 自备12G以上显存GPU[23] - 课程采用线上录播模式 提供源码示例及社群答疑 有效期1年[19]
马斯克暴论,激光雷达和毫米波雷达对自驾来说除了碍事,没有好处......
自动驾驶之心· 2025-08-31 23:33
自动驾驶技术路线之争 - Uber CEO支持激光雷达方案 认为成本低且安全系数高 而特斯拉CEO坚持纯视觉路线 认为多传感器会降低安全性[1] - 百度同样坚持激光雷达方案 认为其能更好保证行车安全 纯视觉技术尚处早期阶段[2] - 全球头部自动驾驶公司存在明显技术路线分歧 Waymo和百度采用多传感器融合 特斯拉坚持纯视觉方案[6] 特斯拉纯视觉方案分析 - 特斯拉在2019年采用8V1R12S方案 2021年取消毫米波雷达转向纯视觉 2022年推出纯视觉Occupancy方案[8] - 方案基于"人类仅靠双眼驾驶"的理念 依赖海量车队数据训练神经网络 形成数据闭环[8] - 采用低成本摄像头有助于降低整车成本 更利于方案大规模普及[8] - 但存在场景优化难题 包括恶劣天气与光照条件 准确距离感知 算法和数据依赖度过高等问题[9] - 曾发生多起事故 如2019年佛罗里达州致1死1伤事故 2023年宾夕法尼亚州撞卡车事故 2025年Robotaxi试运营擦碰事故[9] Waymo多传感器融合方案 - 采用13V+4L+6R多传感器融合方案 实现360度无死角感知 最远识别500米路况[12] - 通过逼真仿真器生成各类案例 在多模态感知中持续突破[12] - 在复杂路况下保持良好性能 每周付费服务量从2月20万次增长到4月底超25万次 平均每车每天约24次[12] - 出现重大事故概率较小 更多是人为破坏 如2025年抗议者打砸烧事件[12] 百度自动驾驶布局 - 2013年开始布局 2017年推出Apollo平台 2021年推出萝卜快跑服务平台[14] - 采用多传感器融合方案 典型车型传感器配置为4L12V5R-12S[16] - 2024年5月发布L4级自动驾驶大模型Apollo ADFM 安全性高于人类驾驶员10倍以上[16] - 总服务订单量超1100万次 总行驶里程超1.7亿公里 未发生重大安全事故 出险率为人类驾驶员1/14[16] - 积极拓展海外市场 2024年获香港自动驾驶测试牌照 2025年与迪拜合作部署超1000台无人车[17] - 2025年7月与Uber建立战略合作 将数千辆无人车接入Uber全球出行网络[18] 技术方案对比分析 - 多传感器融合方案在极端天气 光照 截断等场景下感知性能优于纯视觉方案[21] - 在nuScenes等数据集上 多模态融合方案在3D检测等任务上性能高于纯视觉5-10个百分点[22] - 激光雷达成本大幅下降 从十年前8万美元降至现在千元级别 萝卜快跑第六代无人车4颗激光雷达成本仅3.5万元人民币[24] - 国际测试显示配备激光雷达车型可避免25%碰撞事故 事故影响缓解能力提升29%[26] 激光雷达技术优势 - 最远感知距离达150-200米 最新产品可达300米 远超摄像头80-100米的有效距离[29] - 帧率达10-20Hz 部分产品提升至30Hz 与摄像头帧率保持一致[32] - 在暴雨环境中测距精度仅下降8%-12% 仍能准确识别50米内行人[34] - 具备三维感知能力 能准确判断目标高度 大小和位置信息[36] - 采用905nm或1550nm波长 抗干扰性强 配备疏水性镀膜和加热除雾模块[37] 市场应用情况 - 2025年比亚迪十余款车型将搭载禾赛激光雷达 采用3激光雷达或单激光雷达方案[42] - 奇瑞iCAR 零跑B10 理想i8等车型均搭载禾赛激光雷达 零跑B10将激光雷达硬件下探到12万级别[43] - 速腾聚创2024年销量达519,800台 成为全球乘用车激光雷达销量冠军[45] - 与全球30家整车厂及Tier1达成合作 定点车型超百款 包括比亚迪 极氪 上汽智己等[45] 政策与安全要求 - 工信部等部门开展智能网联汽车准入试点 明确L3 L4级别商业化路径[55] - 美国NHTSA要求2029年所有乘用车标配含行人AEB系统 欧洲日本有类似法规[55] - 国内2025年将自动紧急制动系统国标从推荐性升级为强制性[56] - 联合国R157法规要求L3级系统提供10秒接管缓冲期 依赖激光雷达超视距感知能力[56]
北大升级DrivingGaussian++:无需训练,智驾场景自由编辑!
自动驾驶之心· 2025-08-31 23:33
3D场景重建与编辑技术突破 - 提出DrivingGaussian++框架 实现大规模动态驾驶场景的高精度分层建模 通过复合高斯泼溅(Composite Gaussian Splatting)将场景分解为静态背景和动态目标分别重建[4] - 引入LiDAR先验提升几何精度 将多帧LiDAR扫描点云与环视图像配准 通过密集束调整(DBA)优化点云位置 显著改善多视图一致性和重建质量[11][25][26] - 采用增量静态3D高斯(Incremental Static 3D Gaussians)处理大规模背景 按时间顺序划分深度区间并逐步融合 解决透视变化导致的尺度混淆问题[27][29] - 构建复合动态高斯图(Composite Dynamic Gaussian Graphs)建模多目标 通过目标ID和时间戳跟踪动态元素 使用变换矩阵将目标坐标系转换到世界坐标系[31][32] 无需训练的场景编辑能力 - 开发无需训练的编辑框架 支持纹理修改 天气仿真和目标操纵三大任务 通过直接操作高斯粒子实现物理准确的编辑效果[18][19][20] - 纹理修改采用深度均衡化技术 对编辑区域深度图进行归一化处理 确保表面平整度 公式为$D_{\rm opt}(M_{\rm edit},x,y)=Average(D_{\rm ori}(M_{\rm edit},y))$[44][46] - 天气仿真通过粒子系统实现 雨滴使用狭窄半透明白色高斯 雪花采用不规则白色椭球高斯 雾采用随机分布高斯 并添加物理轨迹模拟动态效果[47] - 目标操纵支持删除和插入操作 利用3D边界框精确定位 对插入目标使用MCLight进行光照适配 并通过LLM生成运动轨迹预测[48][51] 性能表现显著领先 - 在nuScenes数据集上PSNR达28.74 SSIM达0.865 LPIPS降至0.237 全面优于Instant-NGP(PSNR 16.78) Mip-NeRF360(PSNR 22.61)和EmerNeRF(PSNR 26.75)[55][56] - 编辑效率显著提升 执行时间仅需3~10分钟 远低于InstructNeRF2NeRF的274分钟和ClimateNeRF的107分钟[70][71] - 在CLIP-direction相似性指标上达0.2327 超过InstructNeRF2NeRF(0.1570)和InstructGS2GS(0.0918) 体现卓越的文本对齐能力[71] - 单目视图重建在KITTI-360数据集表现优异 PSNR达25.62 SSIM达0.868 超过NeRF(21.94)和Point-NeRF(21.54)[59][60] 构建3D高斯前景资源库 - 创建包含车辆 行人 交通标志等元素的3D高斯前景库 支持直接插入场景编辑[62][74] - 通过在线模型重建 使用Blender渲染360度视图并结合COLMAP进行3DGS重建[76] - 对nuScenes车辆进行稀疏重建 每辆车仅需2~4张参考图像即可完成高斯重建[77] - 结合DreamGaussian和DreamGaussian4D实现基于图像的3D目标生成 扩展数据集多样性[77] 技术方案优势验证 - 消融实验证实LiDAR先验关键作用 使用LiDAR-2M点云时PSNR达28.78 显著优于随机初始化(22.23)和SfM点初始化(28.36)[79][80] - 复合动态高斯图模块贡献突出 移除后PSNR降至26.97 SSIM降至0.752 证明其对动态场景建模的重要性[82][83] - 损失函数设计有效 包含TSSIM损失和鲁棒损失后 纹理细节改善且伪影消除[37][38][84]
【光大研究每日速递】20250901
光大证券研究· 2025-08-31 23:03
金诚信(603979 SH) - 2025年上半年实现归母净利润11.11亿元,同比增长81.3% [5] - 矿服板块实现毛利7.67亿元,同比下降17% [5] - 2025年计划生产铜金属产量7.94万吨,同比增加3.07万吨 [5] - 继续看好后续铜价上行 [5] 国电南瑞(600406 SH) - 2025年上半年实现营业收入242.43亿元,同比增长19.54% [5] - 归母净利润29.52亿元,同比增长8.82% [5] - 扣非归母净利润28.04亿元,同比增长6.94% [5] - 拟每股派发现金红利0.147元(含税) [5] 小马智行(PONY O) - 为自动驾驶商业化领军者,三大业务并驾齐驱 [5] - Robotaxi为公司长期业务核心 [5] - 凭借技术+生态+运营资质构建核心优势 [5] - 新一代低成本车型放量未来有望逐步实现盈利 [5] 美的集团(000333 SZ) - 2025年上半年营业总收入2523亿元,同比增长16% [6] - 归母净利润260亿元,同比增长25% [6] - 扣非归母净利润262亿元,同比增长30% [6] - 2025年第二季度营业总收入1239亿元,同比增长11% [6] - 第二季度归母净利润136亿元,同比增长15% [6] - 第二季度扣非归母净利润135亿元,同比增长23% [6] 宋城演艺(300144 SZ) - 2025年上半年营业收入10.80亿元,同比下降8.30% [7] - 归母净利润4.00亿元,同比下降27.40% [7] - 2025年第一季度营收5.19亿元,同比下降16.06% [7] - 第一季度归母净利润1.53亿元,同比下降48.66% [7] 固生堂(2273 HK) - 2025年上半年总营业收入14.95亿元,同比增长9.5% [8] - 净利润1.52亿元,同比增长41.6% [8] - 经营活动现金流3.0亿元,同比增长111% [8] 其他行业观点 - 市场大市值风格占优、动量效应显著 [8] - 信用债发行环比减少,总成交量环比下降 [8] - 可转债本周调整幅度不小,后续仍可期 [8] - REITs二级市场价格整体上涨,市场交投热情有所回升 [8] - 8月中国电解铜产量环比下降0.2%,11月空调排产环比10月增长23% [8] - 2025年上半年石化行业业绩承压,关注油价预期变化与"反内卷"进程 [8] - 化工景气逐步回暖,关注后续"反内卷"政策落地进展 [8] - 锂电资本开支超预期,阿里财报引发AIDC热度 [8] - 海外再生扰动,关注进口煤边际变化 [8] - 7月降重去库存延续,出栏超季节性增长 [8]
摩根士丹利:叙事之变和现实之困
摩根· 2025-08-31 16:21
行业投资评级 - 报告未明确提供具体的行业投资评级 [1][2][4] 核心观点 - 市场情绪受到流动性改善和叙事改变的支撑 [8][18] - 科技创新特别是AI领域展现出活力并得到政策支持 [34][36][38] - 反内卷政策正在实施但效果和持续性有待观察 [68][70][74] - 经济面临出口下滑、财政脉冲减弱和通缩顽固等拖累因素 [100][105][111] - 再通胀策略在推进但步伐较慢 [120][122][125] 流动性分析 - 大摩自由流动性指数自6月份开始转正 [8] - 今年上半年机构和散户为A股带来1.5-1.7万亿人民币流动性 [8] - 险资净流入600亿人民币 私募基金净流入280亿人民币 公募基金净流入90-100亿人民币 [9] - 央行互换便利和再贷款工具提供135亿人民币流动性 [9] - 居民新增存款超季节性下跌 非银金融机构新增存款显著上升 反映存款向股市转移 [14][17] 市场情绪与叙事 - 决策层应对通缩思路深化 政策出现转向 [19] - 沪深300指数在政策转向后呈现上升趋势 [19] - 社会感知指数显示进入通缩第四年 [19] 央行流动性管理 - 6月以来央行逐步减少流动性净投放 [25] - 银行间利率趋向政策水平 [25] - 二季度货币政策报告重提"防范资金空转" 未再提及相关便利工具 [26] 股市杠杆水平 - 两融余额占自由流通市值比重处于历史平均水平 [28] - 两融余额占A股日成交量比重低于2020年峰值 [28][30] 科技创新与AI - 产业链六大优势奠定科创活力根基 [34] - 企业信心局部回归 AI落地带动新兴产业投资加速 [36] - 新兴产业对固定资产投资增速贡献显著 [36] - 2025年是AI应用之年 全球处于AI技术扩散早期阶段 [38] - 中国AI生态系统完善 应用场景丰富 [40] - 中国在AI创新前沿 大语言模型性价比较高 [43] AI对就业市场影响 - 新兴市场约40%就业岗位受AI影响 [47][52] - 高AI敞口高互补性工作难以被取代但劳动生产率提高 [47][52] - 高AI敞口低互补性工作可能被完全替代 [47][52] 新兴领域竞争优势 - 中国在人形机器人专利申请份额显著增加 [53] - 国内汽车域控制器市场由本土供应商主导 [53][55] - 预测到2050年人形机器人累计应用规模达10亿台 其中30%来自中国 [59][61] - 预测2030年自动驾驶汽车市场规模达2000亿美元 2035年达3000-4000亿美元 [63] 日本经验借鉴 - 制造业投资未能提振工资增速 [65] - 非制造业经历持续生产率下降 [66][67] 反内卷政策分析 - 反内卷力度温和 再平衡举措边际改善 [68] - 当前产能过剩情况复杂 需求对再通胀至关重要 [70] - 新兴行业主要由民企主导 本轮PPI通缩主要由中下游行业造成 [74][76] - 上游价格反弹更为明显 7月份PPI环比增速改善 [84][87] 经济表现与拖累因素 - 全年实际GDP增速有望达4.8% 下半年增速下滑 [96] - 通缩顽固 预计持续至2026年 [68][96] - 出口下半年或将回落 [100] - 美国对除中国外经济体加征对等关税 [100][102] - 财政脉冲减弱 广义财政赤字占GDP比重收缩 [105][106] - 政府债净发行量8月开始低于去年同期 [106][108] - 名义GDP走弱拖累工资增速 [111][112] - 以旧换新以外商品消费疲软 [111][113] 房地产状况 - 房地产量调整基本完成 价调整仍不明朗 [117] 再通胀策略 - 推出"5R"再通胀框架 包含再通胀、再平衡、重组、改革和重振信心 [120] - 促消费举措包括个人消费贷款贴息、公办幼儿园学前一年免费、全国性生育补贴 [122][123] - 中国社会福利支出相对较低 增加支出有利于释放居民储蓄 [125][128][130] - 社保体系存在不平衡和碎片化问题 对农村居民和农民工保障不足 [131][132] 关税与贸易环境 - 美国对华有效关税预计维持在40%左右 [137][138] - 中美将关税暂缓期延后90天 [138] - 贸易摩擦可持续缓和难以实现 [141] - 中国可通过稀土博弈避免关税大幅升级 [143][145] - 美国对华部分产品进口依赖度较高 [146][147] - 亚洲经济体难以与中国脱钩 [152] - 美国对华投资可能收紧 [160][161] 人民币展望 - 预计美元对人民币汇率2025年底达7.15 2026年底达7.05 [163] - 人民币对美元温和升值 对一篮子货币适度贬值 [163]
「地平线」副总裁张玉峰与滴滴高管联手创业,入局具身智能赛道!
Robot猎场备忘录· 2025-08-31 00:31
核心观点 - 原地平线副总裁张玉峰正式入局具身智能领域 创办无界动力公司 聚焦B端工业场景的双臂轮式机器人产品[3] - 自动驾驶领域技术人才密集涌入具身智能赛道 带动2025年新一轮融资狂潮 多家初创企业获亿级融资[7][8] - 车企、产业链企业与智驾背景创业者形成具身智能赛道三大入局方式 技术路径与自动驾驶高度重叠但商业化仍存挑战[9][11] 公司动态 - 无界动力(北京)技术研发有限公司由张玉峰于2025年3月21日创立 注册资本10万元 注册地址北京市海淀区 团队已初步成型 核心技术高管曾任职滴滴[5] - 维他动力(VITA)由地平线前高管余轶南等人于2024年12月成立 聚焦ToC家庭场景 累计融资3亿元 2025年8月发布国内首款智能伴随机器人"大头"[7] - 它石智航成立5个月获超17亿元融资 星海图累计融资超15亿元 均无产品推出即获资本青睐[8] 行业趋势 - 2024年四季度以来自动驾驶技术人才集中转型具身智能领域 15家知名车企入局人形机器人赛道 其中国内车企11家[8][10] - 行业形成三种入局模式:车企自建团队、智驾人才创业、产业链企业切入零部件或战略合作(如速腾聚创、宁德时代)[9] - 地平线CEO余凯提出自动驾驶与人形机器人技术路径高度重叠(大脑层面) 但商业化闭环尚未成立[11] 市场融资 - 具身智能赛道2025年掀起融资狂潮 它石智航获17亿元 星海图获15亿元 维他动力累计融资3亿元[7][8] - 投资人主动挖角车企/科技公司智驾高管创业 行业呈现"带资下场"特征[8] 产品与技术 - 无界动力聚焦B端工业场景双臂轮式机器人 维他动力推出ToC家庭陪伴机器人"大头"[3][7] - 技术路径继承自动驾驶领域核心能力(感知、决策、控制) 但硬件工程化与数据积累仍存挑战[11] 竞争格局 - 国内具身智能赛道形成车企系、智驾创业系、产业链系三大派系 小鹏是目前国内唯一展示双足产品威慑力的车企[9][10] - 行业存在代工、套壳等乱象 商业化落地能力成为分水岭[12]
Tier 1一哥博世端到端终于走到量产,还是一段式!
自动驾驶之心· 2025-08-30 16:03
文远知行一段式端到端ADAS解决方案 - 文远知行发布一段式端到端ADAS解决方案WePilot AiDrive 年内量产上车[5][9] - 方案采用单一模型从传感器数据输入端直接输出行车轨迹 实现更短路径、更快反应和更高容错率[10][24] - 与博世合作量产 目标是将高阶智能辅助驾驶能力普及到各价位车型[8][41][44] 技术优势与实测表现 - 在广州城区道路实测中 系统在城中村复杂场景(行人、电动车、临时修路)下表现稳定[11][12] - 夜间逆光环境下成功识别横穿马路行人并及时避让[14] - 变道路线规划平顺 无保护转弯场景下能兼顾行车效率与安全性[16][19][21] - 隧道光照不佳时保持安全跟车距离的同时快速超越慢车[23] 与传统端到端方案差异 - 传统方案采用感知与规控分离的双模型架构 存在数据传递损失和规则依赖问题[27][29][30] - 新方案直接学习输入数据与输出轨迹的映射关系 通过强化学习迭代提升性能[33] - 摆脱规则依赖 避免系统泛化性低和驾驶逻辑不一致的问题[32] 技术实现与行业意义 - 采用通用AI司机基座大模型 复用L4级Robotaxi算法和数据训练架构[33] - 系统延迟需满足10Hz实时性要求 当前VLA方案在1000TOPS算力下延迟达530ms(约2Hz)[39][40] - 中国市场标配高阶智驾车型占比不足20% 方案旨在推动L2+越过价值拐点[42][44] - 技术目标为实现L4与L2架构统一 消除地理围栏限制[35]
闭环端到端暴涨20%!华科&小米打造开源框架ORION
自动驾驶之心· 2025-08-30 16:03
核心观点 - 端到端自动驾驶框架ORION通过视觉语言指令指导轨迹生成 解决了现有方法在语义推理空间与数值轨迹动作空间之间的鸿沟问题 在闭环评测中表现卓越 [3][5][16] 技术架构 - 引入QT-Former模块聚合长期历史上下文信息 减少计算开销并增强对静态交通元素和动态物体运动状态的捕捉能力 [3][20] - 利用视觉语言大模型(VLM)进行驾驶场景多维度分析 包括场景描述 关键物体行为分析和动作推理 并生成规划token指导轨迹预测 [3][21] - 通过生成模型(VAE或扩散模型)将VLM推理空间与轨迹动作空间对齐 实现视觉问答和规划任务的端到端统一优化 [3][22] 性能表现 - 在Bench2Drive闭环测试中驾驶得分达77.74分 成功率54.62% 较之前SOTA方法提升14.28分和19.61个百分点 [5][24] - 在多能力评估中超车场景成功率71.11% 紧急刹车78.33% 交通标志识别69.15% 平均能力值54.72%领先其他方法16.12个百分点 [26][27] - 效率指标151.48 舒适度17.38 平均L2误差0.68 在开环指标中保持竞争力 [25] 创新贡献 - 首次实现VLM与生成模型结合 弥补语义推理与数值动作空间差距 [16] - 支持多种生成模型兼容 展现框架灵活性和可扩展性 [16] - 提供端到端联合优化方案 突破传统方法在因果推理和时序建模方面的限制 [3][30] 应用案例 - 成功识别自行车骑行者并执行向左变道避撞操作 [7] - 准确识别停车标志并完成停车-等待-重启通过十字路口系列动作 [9] - 对右前方车辆先减速后变道的分层决策演示 [14]