Workflow
Autonomous Driving
icon
搜索文档
成本降低14倍!DiffCP:基于扩散模型的协同感知压缩新范式~
自动驾驶之心· 2025-08-18 01:32
协同感知技术现状 - 协同感知(Collaborative Perception)是解决独立智能系统局限性的新兴方案,但在非理想无线通信场景下面临高可靠性和低延迟传输的挑战 [3] - 当前C-V2X系统在10米距离最大数据速率约10Mbps,100米降至5Mbps,无法满足特征级和原始数据级协同算法的带宽需求 [3] - 多智能体系统中感知特征分布相似,关键差异来自几何位置和前景物体语义信息 [3] DiffCP技术突破 - 首次采用条件扩散模型捕获几何相关性和语义差异性,实现超低通信成本的特征级协同 [4] - 通过整合几何和语义条件,通信成本降低14.5倍,同时保持最先进算法性能 [4] - 可在单个通信步骤内重建协同智能体的BEV特征,成为基于BEV协同感知算法的通用范式 [5] 技术实现细节 - 使用预训练BEV感知算法提取特征,将扩散时间步/空间位置/语义向量作为条件嵌入 [5] - 几何先验信息引导扩散过程,六元素组成传感器几何位置状态 [9] - 语义提取器(SE)生成独特语义向量,通过可调向量长度实现通信量控制 [9] 性能优化方案 - 针对高精度3D检测任务,采用Top-K方法传输特征值最大元素增强重建精度 [11] - 实验显示在向量长度减少32倍时,准确性仅损失30% [18] - 通过DDIM加速去噪,评估指标为协同者与本车BEV特征的均方误差(MSE) [15] 实验数据对比 - 在3D目标检测任务中,DiffCP数据速率从745Mbps降至87.8Kbps,压缩倍数达8,700倍 [20] - AP@IoU=0.7指标显示:无协同58.22,传统特征级协同83.31,DiffCP+Top-25达78.75 [19] - 采样步数从2步增至9步时,计算时间从53ms升至185ms,需平衡迭代步数 [16][18] 行业应用价值 - 实现与SOTA算法相当精度,同时支持可变语义向量长度的自适应速率机制 [20] - 在超低带宽场景(如2.5Kbps)仍保持稳健性能,适合严苛通信条件部署 [16][20] - 推动网联智能系统在现有无线通信基础设施上的商业化落地 [22]
你的2026届秋招进展怎么样了?
自动驾驶之心· 2025-08-16 16:04
自动驾驶技术发展趋势 - 自动驾驶技术栈呈现趋同态势 从过去几十个分散方向转向统一方案如one model、VLM、VLA [1] - 技术方案统一化背后反映行业技术壁垒显著提升 [1] 行业社群建设 - 社群定位为综合型平台 旨在汇集全行业人才并促进交流成长 [1] - 社群正式运营方向聚焦产业讨论、公司分析、产品研发及求职跳槽等专业内容 [1] - 社群提供行业人脉拓展渠道 帮助成员第一时间获取产业动态信息 [1]
自动驾驶论文速递 | 视觉重建、RV融合、推理、VLM等
自动驾驶之心· 2025-08-16 09:43
Dream-to-Recon 单目图像三维场景重建 - 核心观点:慕尼黑工业大学团队提出基于扩散-深度蒸馏的单目3D场景重建方法Dream-to-Recon,通过三阶段框架实现仅需单张图像的高精度实时重建,为自动驾驶与机器人提供高效三维感知新范式 [2] - 技术框架: 1) 视图补全模型(VCM):基于ControlNet微调StableDiffusion-2.1,PSNR提升23.9 [2] 2) 合成占据场(SOF):遮挡区域重建精度达72%-73%,超越多视角监督方法2%-10% [2] 3) 轻量蒸馏模型:在KITTI-360/Waymo上整体精度达90%-97%,推理速度提升70倍至75ms/帧 [2] - 性能优势:成功重建动态物体,无需复杂传感器标定 [2][6] SpaRC-AD 雷达-相机融合自动驾驶框架 - 核心观点:慕尼黑工业大学团队提出首个雷达-相机融合的端到端自动驾驶框架,通过稀疏3D特征对齐与多普勒测速技术实现多项性能突破 [13] - 技术突破: 1) 3D检测mAP提升4.8%,跟踪AMOTA提升8.3% [13] 2) 运动预测mADE降低4.0%,轨迹规划L2误差降低0.11m [13] 3) 在nuScenes基准上实现轨迹预测一致性提升9.0%,仿真成功率提升10.0% [16] - 应用价值:增强感知范围,提升恶劣环境鲁棒性,支持检测、跟踪和规划查询的协同优化 [16] 视觉推理统一框架 - 核心观点:建立首个跨范式视觉推理统一框架,整合关系推理、符号推理等五大类型,推动自动驾驶/医疗等安全关键领域的可信AI发展 [23] - 研究进展: 1) 系统关联不同推理范式的方法、任务与评估指标 [24] 2) 整合多模态思维链推理等新兴方向,评估技术优势与局限性 [26] 3) 提出符号与亚符号推理融合、跨域自适应架构设计等前瞻方向 [27] - 行业影响:解决开放环境泛化性和评估可靠性问题,促进多模态因果基准发展 [23] STRIDE-QA 自动驾驶时空推理数据集 - 核心观点:构建目前最大规模自动驾驶时空推理VQA数据集(100小时/285K帧/16M QA对),通过多传感器自动标注实现厘米级几何精度 [36] - 数据特征: 1) 定义三个新颖的以自我为中心的VQA任务,联合要求空间定位和短期预测推理 [37] 2) 支持VLMs在细粒度空间和短期时间推理上的有监督训练 [39] - 模型表现:微调模型STRIDE-Qwen2.5-VL-7B时空定位成功率(MLSR)达55.0%,显著优于通用VLMs [42][44]
又有很多自动驾驶工作中稿了ICCV 2025,我们发现了一些新趋势的变化...
自动驾驶之心· 2025-08-16 00:03
多模态大模型 & VLA - 多模态大模型和VLA是当前最热门的赛道,主流范式遵循『预训练-微调-强化学习』三阶段,但通用自动驾驶VLM基础模型仍缺失 [5] - 华科与小米联合推出ORION框架,通过视觉语言指令生成动作实现端到端自动驾驶 [5] - 中山大学与美团合作开发All-in-One大型多模态模型DriveMM,整合多任务处理能力 [6] - 重庆大学提出MCAM模型,通过多模态因果分析理解自车级驾驶视频 [8] 闭环仿真 & 世界模型 - 基于世界模型和3DGS的闭环仿真成为行业刚需,聚焦车道线、红绿灯等细粒度性能优化 [5] - 清华大学与旷视科技推出DiST-4D模型,实现4D驾驶场景的时空解耦生成 [34] - 美团与中山大学开发RoboTron-Sim,通过模拟极端案例提升实车驾驶性能 [17] - 清华大学与地平线合作Epona模型,采用自回归扩散方法构建世界模型 [47] OCC与3D重建 - 丰田利用大规模二值占用数据开发语义占用预测模型B2S-Occupancy [52] - 清华大学团队提出GS-Occ3D,基于高斯泼溅技术扩展纯视觉占用重建 [51] - Valeo AI推出GaussRender,通过高斯渲染学习3D占用 [60] - 慕尼黑工业大学开发SceneDINO,实现无监督语义场景补全 [56] 目标检测 - 新加坡国立大学提出Perspective-Invariant 3D检测方法PI3Det,提升视角不变性 [68] - 韩国庆熙大学开发SFUOD框架,解决无源未知物体检测问题 [71] - 南京理工大学推出OcRFDet,基于物体中心辐射场实现多视角3D检测 [75] 数据集与评估 - 加州大学欧文分校发布DriveBench工具包,评估VLM在自动驾驶中的可靠性 [76] - 卡内基梅隆大学推出ROADWork数据集,专注施工区域驾驶场景 [79] - 中国科大与华为联合开发VLADBench,细粒度评估大视觉语言模型 [87] 端到端与轨迹预测 - 香港科技大学与滴滴合作强化轨迹预测模型,引入奖励启发机制 [29] - 韩国DGIST实验室利用可控扩散模型解决长尾轨迹预测问题 [30] - 中科院自动化所与理想汽车推出World4Drive,通过意图感知潜变量模型实现端到端驾驶 [32] 其他技术方向 - 浙江大学与中兴通讯开发Dynamic-DINO,实时开放词汇检测 [93] - 新加坡国立大学团队提出LiMA框架,跨视角蒸馏提升LiDAR表征 [97] - 复旦大学与萨里大学合作DriveX,在自由轨迹上生成驾驶视图 [37]
死磕技术的自动驾驶黄埔军校,4000人了!
自动驾驶之心· 2025-08-15 14:23
社区定位与愿景 - 致力于成为连接学术界与工业界的桥梁 推动自动驾驶技术发展 [2] - 构建包含产业研究、学术交流、求职服务、技术问答的闭环生态 [2] - 提供前沿技术内容 包括40+技术路线梳理和工业界专家资源 [3][16] 技术资源体系 - 覆盖40+技术方向 包含感知、规划控制、仿真、VLA等核心领域 [5][16] - 整理60+自动驾驶数据集 包含多模态大模型专用数据集 [34] - 汇总开源项目 涉及3D检测、BEV感知、世界模型等热门方向 [32] - 提供学术与工业级解决方案 包括端到端自动驾驶量产方案 [36] 学习体系 - 设计完整学习路线 包含感知、仿真、规划控制等方向 [16][17] - 提供基础到进阶的课程 涵盖数学、CV、深度学习等基础知识 [5] - 开设专项视频课程 包含数据工程、多传感器标定等实操内容 [6] - 整理经典教材与课程资料 覆盖自动驾驶全技术栈 [30] 行业资源 - 汇总国内外头部自动驾驶企业与高校研究团队 [26][28] - 建立企业内推机制 连接蔚小理、华为等头部公司 [6][16] - 分析行业发展趋势 跟踪RoboTaxi、重卡等细分领域 [28] 专家网络 - 邀请数十位产业界专家 来自头部企业和顶尖高校 [3][16] - 组织超过100场技术直播 分享最新研究成果 [81] - 提供实时答疑服务 解决技术难题和职业发展问题 [22][82] 技术热点覆盖 - 重点布局VLA、世界模型、扩散模型等前沿方向 [44][47] - 深入BEV感知、3D目标检测等量产关键技术 [49][51] - 跟踪Occupancy Network、NeRF等新兴技术 [38][56]
WeRide Secures Strategic Equity Investment from Grab, Partners to Deploy Robotaxis and Autonomous Shuttles in Southeast Asia
Globenewswire· 2025-08-15 09:18
核心观点 - Grab对WeRide进行战略股权投资 双方建立战略合作伙伴关系 共同加速L4级Robotaxi和接驳车在东南亚的部署和商业化 将WeRide自动驾驶车辆整合到Grab网络以提升服务和安全水平[2] 投资与合作细节 - Grab投资预计2026年上半年完成 取决于惯例成交条件和WeRide优先时间安排 支持WeRide在东南亚扩大商业自动驾驶车队和推进AI驱动出行的增长战略[3] - 合作建立自动驾驶解决方案部署框架 提升运营效率和可扩展性 WeRide将自动驾驶技术整合到Grab车队管理、车辆匹配和路线规划生态系统中[4] - 扩展合作基于2025年3月签署的谅解备忘录 双方曾承诺探索该地区自动驾驶车辆的技术可行性、商业可行性和就业创造潜力[8] 技术整合与运营规划 - 优化调度和路线规划 利用平台无缝整合高效部署和路线规划自动驾驶车辆 提升乘客体验[12] - 最大化车辆正常运行时间 开发强大维护、维修和充电协议确保运营效率[12] - 测量安全性能 利用WeRide区域运营经验训练自动驾驶车辆适应东南亚交通条件 评估减少人为错误事故的能力[12] - 远程监控和远程操作 建立流程确保安全并在紧急情况下提供远程支持[12] - 客户支持 实施快速问题解决系统提供无缝服务[12] 市场拓展与部署计划 - WeRide计划在东南亚部署数千辆Robotaxi 通过符合当地法规和社会准备度的渐进式推广[5] - 合作包括培训、技能提升和转型感兴趣的Grab司机合作伙伴及本地社区 使其进入自动驾驶行业高价值职业路径[4] - 培训与技能提升 利用WeRide培训师广泛自动驾驶远程监督经验和GrabAcademy提升司机合作伙伴技能记录 为司机合作伙伴和本地社区未来角色做准备[12] 公司背景 - WeRide是全球自动驾驶行业领导者和先行者 也是首家上市Robotaxi公司 自动驾驶车辆在10个国家30多个城市测试或运营 是唯一在六大市场(中国、新加坡、法国、沙特阿拉伯、阿联酋和美国)获得自动驾驶许可的技术公司 提供L2到L4级自动驾驶产品和服务[9] - Grab是东南亚领先超级应用 运营配送、出行和数字金融服务 在8个东南亚国家800多个城市提供服务 每日为数百万人提供送餐、杂货、包裹递送、叫车、支付以及借贷和保险等服务[10]
多空博弈Robotaxi:“木头姐”建仓,机构现分歧
第一财经· 2025-08-15 03:45
唱多、唱空交织,推动自动驾驶技术成熟。 今年以来,Robotaxi(自动驾驶出租车)受到全球资本市场广泛关注,但质疑声也如约而至。 近日,"木头姐"Cathie Wood旗下ARK基金斥资约1290万美元买入小马智行(NASDAQ:PONY)股 票,这是"木头姐"的主力基金首次持仓中国自动驾驶标的。据悉,"木头姐"被华尔街认为是"女版巴菲 特",其投资偏好是高成长、高风险及长期持有。 另一家中国Robotaxi头部企业文远知行(NASDAQ:WRD)二季度Robotaxi业务同比大增836.7%,该公 司早在今年5月就披露了Uber承诺向其追加投资1亿美元的事宜。 记者近期在广州体验百度旗下萝卜快跑Robotaxi时也出现"高峰期等车时间长达1个小时、且无车接 单"的情况。当记者问询叫车点附近运营车辆数量时,萝卜快跑客服回应称:"城市的可服务车辆并非固 定不变,会受多方因素影响进行动态调整。"根据附近居民、商户的反馈,下班高峰期萝卜快跑的等车 时长大于40分钟。 不可否认的是,现阶段Robotaxi派单时长、等车时长均较有人网约车更多,也是行业需要解决的课题。 韩旭表示,当自动驾驶公司开拓一个新城市时,自动驾 ...
地平线&清华Epona:自回归式世界端到端模型~
自动驾驶之心· 2025-08-12 23:33
核心观点 - 提出一个统一框架Epona,能同时生成长时高分辨率视频(512×1024,2分钟)和端到端输出连续轨迹,解决现有方法在长时程预测与实时规划上的局限[5][12] - 首创解耦时空建模架构:GPT风格Transformer处理时间动态性,双Diffusion Transformer分别负责空间渲染(VisDiT)和轨迹生成(TrajDiT)[12][18] - 实现20Hz实时轨迹规划,推理算力降低90%,支持多模态异步生成(3秒轨迹与下一帧图像并行)[12] 方法论 模型架构 - **Multimodal Spatiotemporal Transformer (MST)**:1.3B参数,12层结构,将历史驾驶场景与动作序列编码为隐式表征,压缩率提升16倍[16][26] - **Trajectory Planning Diffusion Transformer (TrajDiT)**:50M参数,采用Dual-Single-Stream DiT结构,独立处理历史隐变量与轨迹数据,支持高斯噪声迭代去噪[18] - **Next-frame Prediction Diffusion Transformer (VisDiT)**:1.2B参数,结构类似TrajDiT但集成action control,通过DCAE解码器生成图像[21] 训练策略 - **Chain-of-Forward Training**:周期性用预测帧替代真值输入,抑制自回归漂移问题,通过速度估算加速去噪过程[24] - **Temporal-aware DCAE Decoder**:在32倍下采样的DCAE中增加时空注意力层,解决视频闪烁问题,微调时仅训练解码器[25] 性能表现 视频生成 - 在FID(6.9 vs 7.5)和FVD(82.8 vs 89.4)指标上优于Vista等基线,支持120秒/600帧生成长度,远超DriveDreamer(4秒/48帧)和GAIA-1(40秒/400帧)[28] 轨迹规划 - 在NC(97.9 vs 97.8)、DAC(95.1 vs 91.9)等6项指标上接近人类水平(100),显著超越UniAD、TransFuser等相机/LiDAR融合方案[34] 技术拓展性 - 框架可延伸至闭环仿真、强化学习、行为因果解释,但当前仅支持单相机输入,未解决多传感器一致性与点云生成问题[36] 行业应用 - 自动驾驶领域首个融合图像生成与轨迹预测的世界模型,参数量达2.5B(MST+VisDiT占95%),训练资源为48张A100 GPU/60万次迭代[26][36]
Pony Ai(PONY) - 2025 Q2 - Earnings Call Transcript
2025-08-12 13:02
财务数据和关键指标变化 - 第二季度总收入达2150万美元 同比增长76% 主要受机器人出租车服务和许可应用业务强劲增长推动 [39] - 机器人出租车服务收入达150万美元 同比增长158% 其中收费服务收入增长超过300% [39][40] - 机器人卡车服务收入为950万美元 同比下降10% [41] - 许可和应用收入达1040万美元 同比增长902% [42] - 毛利率同比提升至16.1% 毛利润为350万美元 [42] - 净亏损5330万美元 去年同期为3090万美元 非GAAP净亏损4610万美元 [44] 各条业务线数据和关键指标变化 - 机器人出租车业务注册用户数同比增长136% 用户满意度保持在4.8分以上(满分5分) [17] - 第七代机器人出租车已生产200多辆 总成本比上一代降低70% [11][51] - 远程辅助与车辆比例持续改善 预计年底达到1:30 [14] - 车辆保险成本较上一周期降低18% 仅为传统出租车的一半 [14][15] - 运营区域覆盖中国一线城市2000平方公里 是旧金山市面积的20倍 [56] 各个市场数据和关键指标变化 - 中国四大一线城市均已获得完全无人驾驶商业许可 上海浦东新区获得首个完全无人驾驶商业牌照 [18] - 广州和深圳服务时间从15小时/天延长至24/7全天候运营 [19] - 国际扩张进入7个国家 包括迪拜、首尔和卢森堡 [20] - 迪拜与当地交通部门合作 计划2025年底开始试运营 [21] - 首尔获得全国许可 在江南区开展复杂环境测试 [22] - 卢森堡获得测试许可 与当地移动服务商合作开展路测 [23] 公司战略和发展方向和行业竞争 - 2025年定位为大规模生产元年 目标年底前生产1000+辆第七代机器人出租车 [10][49] - 与深圳最大出租车运营商合作 计划未来几年在深圳部署1000+辆机器人出租车 [16] - 技术发展分为三阶段:有安全员阶段→小规模完全无人驾驶→大规模完全无人驾驶运营 [28][29][30] - 系统安全性达到人类驾驶员的10倍以上 能在暴雨等极端天气下运营 [32][33] - 第七代车辆已完成200万公里公开道路测试 覆盖各种极端天气条件 [12][34] 管理层对经营环境和未来前景的评论 - 监管明确区分L2辅助驾驶和L4自动驾驶 有利于行业规范发展 [61][62] - 完全无人驾驶需要多层软硬件冗余系统 中国对此有严格测试要求 [64] - 国际扩张聚焦具有高增长潜力的战略市场 需当地政策支持和技术成熟度 [78][80] - 当前现金储备7.477亿美元 足以支持运营需求和规模化部署 [44][45] - 通过规模化生产和成本优化 有望实现正向单位经济效益 [52] 其他重要信息 - 第七代平台采用100%车规级自动驾驶套件 设计寿命60万公里 [11] - 传感器高度集成 可预组装 显著降低总成本 [11] - 新设计座舱界面提供更好的用户体验 [13] - 系统能处理复杂驾驶场景 包括盲区突然出现的工厂等极端情况 [64] 问答环节所有的提问和回答 问题: 2025年生产计划 - 目前已生产200+辆第七代车辆 生产加速势头明显 对年底前达到1000+辆目标充满信心 [48][49] - 关键零部件供应稳定 生产线已完成改造 BAIC和GAC车型均已进入量产阶段 [50] 问题: 机器人出租车收入增长驱动因素 - 收入增长主要来自中国一线城市用户需求增加和车队规模扩大 [55] - 通过优化定价和运营策略 持续提升用户参与度和服务效率 [55] 问题: 政府对L4自动驾驶的态度 - 监管明确区分L2和L4系统 有助于公众正确理解两者差异 [61][62] - L4系统需承担全部责任 因此安全标准更高 需要多层冗余架构 [63][64] 问题: 新市场拓展技术要求 - 核心是处理各种极端情况的能力 不同地区的场景本质相似 [67] - 软件系统已实现完全无人驾驶和24/7运营 能快速适应新环境 [68][69] 问题: 香港IPO计划 - 不评论市场传言 将密切关注市场状况 探索资本市场机会以最大化股东价值 [74] 问题: 海外市场扩张计划 - 聚焦具有高增长潜力的市场 需要当地政策支持和合作伙伴 [78] - 目前除中美外 多数国家仅允许有安全员的测试 商业化仍处于试点阶段 [80][82]
Pony Ai(PONY) - 2025 Q2 - Earnings Call Presentation
2025-08-12 12:00
业绩总结 - 2025年第二季度注册用户增长达到136%[7] - 2025年第二季度总收入增长76%[7] - 2025年第二季度收费收入增长超过300%[7] - 2025年第二季度Robotaxi服务收入增长158%[35] - 2025年第二季度Robotruck服务收入同比增长901.8%[69] - 2025年第二季度Robotaxi服务收入为10.6百万美元,同比增长157.8%[65] - 2025年第二季度Robotruck服务收入为9.5百万美元,同比下降9.9%[65] 用户数据与市场表现 - 2025年第二季度来自收费Robotaxi乘车的收入显著增长,主要受益于用户采纳率的提升和一线城市需求的增长[70] - 截至2025年6月,累计自主驾驶里程超过620万公里[44] 新产品与技术研发 - 截至2025年8月,Gen-7车辆生产超过200辆,预计到2025年底将达到1000辆[7] 财务表现 - 2024年第二季度的非GAAP毛利为28.7百万美元,毛利率为7.6%[72] - 2025年第二季度的非GAAP毛利为44.1百万美元,毛利率为16.1%[72] - 2024年第二季度的非GAAP净亏损为30.9百万美元,净亏损率为248.2%[72] - 2025年第二季度的非GAAP净亏损为53.3百万美元,净亏损率为248.3%[72] - 2024年第二季度的GAAP净亏损为30.3百万美元,净亏损率为297.9%[72] - 2025年第二季度的GAAP净亏损为46.1百万美元,净亏损率为252.0%[72] - 2024年第二季度的非GAAP运营亏损率为0.3%[72] - 2025年第二季度的非GAAP运营亏损率为3.5%[72] - 2024年第二季度的自由现金流为-18.0百万美元,2025年第二季度为-25.4百万美元[75] - 当前现金储备足以支持第七代供应链准备和未来增长[74]