Autonomous Driving

搜索文档
上交&卡尔动力FastDrive!结构化标签实现端到端大模型更快更强~
自动驾驶之心· 2025-06-23 11:34
端到端自动驾驶研究进展 - 将类人推理能力融入端到端自动驾驶系统成为前沿领域 视觉语言模型(VLM)方法受到工业界和学术界广泛关注[1] - 现有VLM训练范式依赖自由格式文本标注 存在同义表达复杂性和信息冗余问题 增加模型学习难度和计算开销[1] - 基准模型通常依赖超70亿参数的大语言模型 导致高昂计算成本、内存消耗和推理延迟[3] NuScenes-S结构化数据集 - 数据集包含102K问答对 其中84K用于训练 18K用于测试[21] - 场景描述结构化要素包括:天气(5类)、交通状况(3类)、驾驶区域(7类)、交通灯(3类)、交通标志(8类)、道路状况(4类)、车道线(8类)、时间(2类)[7][8] - 感知预测任务包含:相机视角(6类)、2D边界框坐标、未来状态(7类)[12] - 决策任务分为横向移动(5类)和纵向移动(4类)[13] - 构建过程采用GPT预标注+人工细化的混合方式 通过规则提取关键目标[9] FastDrive算法模型 - 采用0.9B参数紧凑设计 相比传统70亿+参数模型大幅降低计算资源需求[4] - 网络架构遵循"ViT-Adapter-LLM"范式 包含视觉编码器(ViT主干)和LLM代理(Qwen2.5)[17][19] - 引入TokenPacker模块减少标记数量 提升推理速度[18] - 实现思维链式推理流程 完成场景理解→感知→预测→决策的全流程[19] 实验性能表现 - 语言指标:FastDrive256版本BLEU-4达70.36 ROUGE_L达87.24 显著优于DriveLM基准[22] - 场景理解准确率:天气识别99.95% 交通标志识别87.64% 全面超越对比模型[22] - 预测决策任务:在车道线状态预测(76.49%)和纵向控制决策(82.06%)等关键指标领先[22][25] - 消融实验证实结构化标注使决策准确率提升12.8%[24][25] 技术社区生态 - 自动驾驶技术社区覆盖30+技术方向 包括BEV感知、多传感器融合、轨迹预测等前沿领域[27] - 专业课程体系包含端到端自动驾驶、大模型部署、NeRF等20+细分方向[29] - 行业参与度:近300家企业和科研机构加入 形成4000人规模交流社区[27]
ADAS新范式!北理&清华MMTL-UniAD:多模态和多任务学习统一SOTA框架(CVPR'25)
自动驾驶之心· 2025-06-23 11:34
核心观点 - 提出统一的多模态多任务学习框架MMTL-UniAD,可同步识别驾驶员行为、情绪、交通环境及车辆行为四项任务,解决现有研究忽视任务间联合学习潜力的问题 [1][5][26] - 通过多轴区域注意力网络(MARNet)和双分支多模态嵌入模块两大核心组件,有效缓解多任务学习中的负迁移现象,实现任务共享特征与特有特征的动态平衡 [5][7][14] - 在AIDE数据集上验证显示,MMTL-UniAD在四项任务中均达到SOTA性能,mAcc指标提升4.10%-12.09%,驾驶员行为识别和车辆行为识别准确率分别提升4.64%和3.62% [18][26] 算法设计 多轴区域注意力网络(MARNet) - 采用水平-垂直双向注意力机制提取全局上下文信息,结合区域注意力筛选任务相关特征,减少无关特征导致的负迁移 [11][12] - 将特征图划分为独立区域并计算区域级注意力,通过相似度矩阵选取最相似邻域区域,增强关键特征提取能力 [12] 双分支多模态嵌入模块 - 任务共享分支整合多模态信息学习通用表示,任务特有分支通过一维卷积和多头注意力动态调整模态权重,保留任务特性 [14][16] - 自适应调节两类特征权重,实验表明移除该模块会导致mAcc下降5.34%,验证其平衡共享与特有特征的有效性 [25] 实验结果 性能对比 - 在2D模型、2D+时序建模、3D模型三类对比方法中全面领先,四项任务最高准确率达DER 76.67%、DBR 73.61%、TCR 93.91%、VBR 85.00% [18][20] - 消融实验显示,联合训练驾驶员状态与交通环境任务可使双方准确率提升3.50%-4.45%,单任务训练会导致性能下降3.98%-6.13% [22][23] 模块贡献 - 单独移除MARNet或双分支模块均导致mAcc下降至70.25%-76.96%,证明二者协同作用对性能提升的关键性 [24][25] - 多模态数据联合使用(面部+身体姿态+场景)相比单一模态可使mAcc提升5.39%-26.61% [25] 行业意义 - 为ADAS领域提供首个整合驾驶员状态与交通环境识别的多任务框架,推动跨模态特征共享技术发展 [5][26] - 开源代码与模型结构有望成为行业基准,加速智能辅助驾驶系统向高效自适应方向演进 [1][26]
量产项目卡在了场景泛化,急需千万级自动标注?
自动驾驶之心· 2025-06-21 13:15
4D自动标注的技术流程与核心模块 - 4D自动标注是自动驾驶数据闭环中的关键系统,旨在高效完成3D空间加时间维度的动态数据标注,其流程涵盖动态障碍物、静态元素和通用障碍物OCC三大方向 [2][5] - 动态障碍物自动标注是最复杂的环节,涉及四个核心模块:离线3D目标检测、离线跟踪、后处理优化以及传感器遮挡优化 [2][4] - 为提升3D检测性能,行业主流采用点云3D目标检测或激光雷达与视觉融合的方法 [2] - 静态元素标注与动态标注范式不同,需基于SLAM重建得到全局道路信息,以避免单帧感知投影导致的整条道路偏差 [13] - 通用障碍物OCC标注自2022年特斯拉Occupancy Network量产以来已成为感知标配,其真值生成涉及基于激光雷达和视觉的不同方案以及稠密化点云、优化噪声、跨传感器遮挡优化等工程挑战 [14] 4D自动标注面临的技术难点与行业痛点 - 技术难点主要体现在时空一致性要求极高,需在连续帧中精准追踪动态目标运动轨迹,确保跨帧标注连贯性,复杂场景下的遮挡、形变或交互行为易导致标注断裂 [6] - 多模态数据融合复杂,需同步融合激光雷达、相机、雷达等多源传感器的时空数据,解决坐标对齐、语义统一和时延补偿问题 [6] - 动态场景泛化难度大,交通参与者的行为不确定性及环境干扰显著增加标注模型的适应性挑战 [6] - 标注效率与成本矛盾突出,高精度4D自动标注依赖人工校验,但海量数据导致标注周期长、成本高,自动化算法面对复杂场景精度仍不足 [6] - 量产场景泛化要求高,自动驾驶算法功能验证后,推进不同城市、道路、天气、交通状况下的场景泛化及保证标注算法性能是当前行业量产的痛点 [7] 自动驾驶算法发展趋势与课程核心内容 - 行业发展趋势显示,端到端和大语言模型兴起后,大规模无监督预训练加高质量数据集微调可能成为量产感知算法下一阶段的发力方向 [2] - 数据的联合标注成为训练模型的实际刚需,以往分开标注的范式不再适合智能驾驶算法发展需求 [2] - 课程内容全面覆盖4D自动标注全流程,包括动态障碍物检测跟踪、激光视觉SLAM重建、基于重建图的静态元素标注、通用障碍物OCC标注以及端到端真值生成 [7][10][11][13][14][15] - 课程特别设置数据闭环专题,分享业内主流公司的数据驱动架构、数据闭环当前面临的痛点以及跨传感器/跨感知系统存在的问题等实战经验 [16][17] - 课程目标旨在使学习者掌握4D自动标注的落地全流程、学术界与工业界的前沿算法,并具备算法研发和解决实际问题的能力,提升工作核心竞争力 [22]
自动驾驶基础模型全面盘点(LLM/VLM/MLLM/扩散模型/世界模型)
自动驾驶之心· 2025-06-21 11:18
基础模型在自动驾驶场景生成与分析中的应用 - 基础模型(Foundation Models)能够处理异构输入(如自然语言、传感器数据、高清地图和控制指令),实现对复杂驾驶场景的合成与解析 [2] - 文章提出了一个统一分类体系,涵盖大语言模型(LLMs)、视觉-语言模型(VLMs)、多模态大型语言模型(MLLMs)、扩散模型(DMs)和世界模型(WMs)在自动驾驶场景生成与分析中的应用 [2] - 传统场景生成方法存在多样性有限和难以生成真实高风险场景的问题,而基础模型可以解决这些挑战 [2] 语言模型在场景生成中的应用 - 使用GPT-4、Claude 3.5 Sonnet、Gemini 1.5 Pro等大语言模型生成安全关键场景 [9] - 采用CoT(Chain-of-Thought prompting)、ICL(In-Context Learning)、RAG(Retrieval-Augmented Generation)等技术 [9] - 在CARLA、MetaDrive、SUMO等仿真平台上测试生成的场景 [9] 视觉-语言模型在场景分析中的应用 - 使用BLIP2、InstructBLIP2、MiniGPT4等视觉-语言模型进行场景理解和视觉问答 [18] - 在nuScenes、Waymo Open等数据集上进行感知、预测和规划任务 [18] - 采用零样本学习、LoRA(Low-Rank Adaptation)等技术 [18] 扩散模型在场景生成中的应用 - 使用DDPM、DiT、LDM等扩散模型生成交通流和静态交通元素 [27] - 可以控制场景参数如速度、目标航点、交通密度等 [27] - 在nuScenes、Argoverse 2、WOMD等数据集上进行测试 [27] 世界模型在场景生成中的应用 - 使用GAIA-1、DriveDreamer等世界模型进行未来预测和场景生成 [33] - 采用自回归、扩散等架构 [33] - 在nuScenes、Waymo Open等数据集上进行训练和测试 [33] 数据集和仿真平台 - nuScenes、Waymo Open、DRAMA、HighD是最具影响力的数据集 [35] - CARLA、MetaDrive、LGSVL、SUMO是最常用的仿真平台 [36] - 这些资源为自动驾驶场景生成与分析研究提供了重要支持 [35][36]
文远知行全球化运营获中信证券认可,Robotaxi商业化即将驶入“快车道”
搜狐财经· 2025-06-20 02:04
公司评级与目标价 - 中信证券首次覆盖文远知行给予"买入"评级 目标价17美元 较当前价7 72美元有显著上涨空间 [1][2] - 评级基于公司在自动驾驶行业的技术领先地位与全球化布局优势 [2] 行业前景与政策支持 - 中信证券测算2030年国内Robotaxi市场规模有望达6000亿元 [4] - 北京 广州等地2025年出台新政鼓励Robotaxi落地 如《广州市智能网联汽车创新发展条例》提出推进混行试点区建设 [4] - Robotaxi被视为最具潜力的L4级自动驾驶场景 Robovan Robobus等固定路线场景可能更快规模化 [4] 公司商业化进展 - 文远知行2019年在广州推出中国首个公开收费Robotaxi服务 目前已在4国8城构建运营网络 覆盖北京 广州核心区域 [5] - 2025Q1公司Robotaxi收入与订单同比高增 与小马智行 萝卜快跑共同推动商业化加速 [4] - 欧美市场因出租车定价更高 Robotaxi有望更快实现单车毛利转正 公司海外布局领先 [5] 全球化战略与合作伙伴 - 文远知行手握中 法 美 阿联酋 新加坡五国自动驾驶牌照 全球运营网络覆盖中东 欧洲等地 [2][5] - 与Uber深化合作 已在阿布扎比 迪拜推出Robotaxi服务 计划未来5年拓展至15座城市 [5][6] - 2025年5月获Uber追加1亿美元股权投资 显示战略合作伙伴认可 [5]
Why Now is the Time to Buy PONY Stock Post a 29.5% Drop in a Month
ZACKS· 2025-06-12 16:51
股价表现 - 小马智行(PONY)股价在过去30天内暴跌29.5%,表现远逊于Zacks运输设备租赁行业同期1.4%的跌幅[1] - 该股在2024年11月纳斯达克上市后,曾在2025年4月中旬至5月中旬暴涨超245%[4] - 当前股价12.65美元,较52周高点低88.8%[5] 业务扩张 - 计划在2025年底前将robotaxi车队规模扩大至1000辆以上[8] - 2024年末已部署约250辆robotaxi,第七代车型正在广州、深圳进行测试[9] - 采用轻资产+AI赋能模式,与深圳西湖集团合作在当地部署千辆级robotaxi车队[10] 战略合作 - 与丰田汽车成立合资企业,利用广汽丰田产能大规模生产无人驾驶robotaxi[10] - 2025年5月与优步达成合作,计划在中东关键市场率先部署robotaxi服务[10] - 供应链本地化率超90%,通过供应商多元化和库存管理增强抗风险能力[11] 市场前景 - 中国robotaxi市场规模2024年达120亿美元,受益于政策支持、人口红利和高效供应链[12] - 华尔街平均目标价23.5美元,隐含85%上涨空间[13] - 第七代robotaxi已获地方政府支持,商业化牌照申请进展顺利[9]
连续17日净流入,份额规模均创历史新高,重组事件中科曙光受益,计算机ETF(159998)持仓股中科曙光单只成分股含量超6.8%
新浪财经· 2025-06-11 01:54
海光信息与中科曙光换股合并 - 海光信息拟通过发行股份换股吸收合并中科曙光,并向不超过35名特定投资者募集配套资金 [2] - 合并前中科曙光持有海光信息27.96%股份,合并后中科曙光终止上市,海光信息承继其全部资产及负债 [2] - 换股比例为1股中科曙光兑换0.5525股海光信息股票,按停牌前股价计算理论溢价空间达21.5%(海光136.13元/股,曙光61.90元/股) [2] - 复牌当日中科曙光股票涨停 [5] 市场资金动向 - 计算机ETF(159998)近17天净流入3.37亿元,规模达30.82亿元创历史新高,中科曙光占净值比6.86% [2] - 云计算ETF沪港深(517390)年内净流入超2亿元,中科曙光占净值比6.39%,覆盖港股互联网及AI龙头公司 [3] 科技行业投资机会 - 申万宏源认为AI、具身智能、国防军工可能成为结构牛核心产业趋势,下半年关注DeepSeekR2、GPT5和特斯拉Optimus量产版本 [3] - 科技板块当前处于震荡市,建议把握高性价比反弹机会,重点关注软件、硬件技术及AI相关领域(数据中心/自动驾驶/机器人) [3] - 华龙证券指出算力租赁行业订单激增反映高景气度,国产模型技术迭代推动算力需求增长,行业拐点显现 [4] - 国产算力产业链协同发展加速,性能与稳定性提升缩小国际差距,宏景科技等公司大额订单印证下游需求旺盛 [4]
Uber taps AI firm Wayve to pilot fully driverless rides in the UK
CNBC· 2025-06-10 08:39
自动驾驶合作 - Uber与自动驾驶技术公司Wayve合作 在英国推出完全自动驾驶乘车试验 这是公司首次允许用户在没有安全驾驶员的情况下使用Uber服务 达到行业定义的"Level 4"级别 [1] - Wayve的自动驾驶软件已应用于伦敦的杂货配送车队 其AI驱动技术可让车辆评估周围环境 适用于任何场景 [1][3] 公司战略与愿景 - Uber表示此次合作使公司更接近"为全球乘客提供安全可靠自动驾驶选择"的愿景 [2] - Wayve CEO称这是"英国自动驾驶的决定性时刻" 将与Uber及全球OEM合作伙伴在伦敦街道部署AI驾驶技术 [2] 政策支持 - 英国交通部推出的"加速框架"使Uber得以开展自动驾驶商业试验 [2] - 2023年英国通过《自动驾驶汽车法案》 为2026年前自动驾驶汽车上路铺平道路 [4] 行业动态 - 旧金山已常见自动驾驶汽车 Waymo在该地运营商业无人驾驶叫车服务 全球其他公司也在竞相推出"robotaxi"服务 [1] - Wayve是软银支持的伦敦初创企业 专注于开发自动驾驶软件 [3] 监管准备 - Uber和Wayve将与英国政府及伦敦交通局密切合作 在试验前完成监管审批 [3]
2025年第21周:数码家电行业周度市场观察
艾瑞咨询· 2025-06-03 08:21
家电行业竞争格局 - 2024年中国空调销量达1.89亿台,同比增长20.9%,头部企业集中度持续提升[1] - 美的与格力争夺"空调行业第一"地位,双方引用不同数据维度展开竞争[1] - 小米空调线上市场份额快速崛起,但线下渠道薄弱,短期内难以撼动两巨头地位[1] - 未来竞争将聚焦智能化、绿色化和全球化三大方向,三家企业各具优势[1] 机器人产业发展 - 深圳构建全球首个"机器人创新共同体",2024年产值将超2000亿元[2] - 深圳拥有5.11万家机器人企业,核心零部件国产化率超90%,成本显著降低[2] - 政府开放50个领域作为试验场,形成"技术验证-场景反馈-迭代升级"闭环[2] - 探索"人与智能体共治"模式,推动机器人产业技术创新与应用落地[2] 自动驾驶与Robotaxi - 特斯拉计划2025年推出完全无人监督服务,FSD累计行驶里程超16亿英里[4] - 2030年全球Robotaxi市场规模或超2万亿美元,Waymo、小马智行等企业展开竞争[4] - 行业呈现成本派与生态派两大阵营,中国以技术出海和本地化运营突破壁垒[4] - 未来竞争将聚焦合规性、技术成熟度与全球化资源调配[4] AI大模型发展 - 中国大模型公司形成"3+2"第一梯队,包括阿里、字节、DeepSeek、阶跃星辰和智谱[7] - 上半年共发布32款大模型,阿里Qwen3成为全球最强开源模型[7] - 行业趋势聚焦开源、推理和多模态,商业化以垂类场景应用为主[7][8] - 中国MaaS市场预计2029年达90亿元规模,年均复合增长率66.1%[6] AI应用市场 - 移动端AI市场用户规模达5.91亿,AI搜索赛道竞争最为激烈[9] - AI助手将向Agent演进,AI社交互动或成新增长点[9] - 猿辅导与夸克在AI教育领域展开竞争,分别聚焦K12和高等教育[10] - AI玩具市场前景广阔,2025年国内规模超300亿,全球或达600亿美元[11] 企业动态与合作 - 华为与优必选科技签署全面合作协议,推动人形机器人在工业和家庭场景落地[12] - 美的集团与海信集团达成战略合作,共同开发数字化及AI应用平台[23] - 快手可灵战略提级,视频大模型正重塑内容生产方式[13] - 苹果计划推出"双核驱动"AI模式,结合百度、阿里技术优势服务中国市场[20] 企业财报表现 - 腾讯2025年Q1总收入1800.22亿元,同比增长12.87%,游戏业务收入增长显著[18] - 第四范式2025年Q1核心业务"先知AI平台"收入增长60.5%,贡献率提升至74.8%[19] - 昆仑万维海外业务占比超90%,DramaWave和Mureka年化流水分别达1.2亿和1200万美元[21] - 阿里2025财年Q4电商业务营收同比增长9%,但面临即时零售挑战[14][15]
Ark Invest's Cathie Wood Believes Robotaxi Will Drive Tesla Stock to $2,600 in 5 Years. There's Just 1 Problem With That.
The Motley Fool· 2025-05-28 08:21
Cathie Wood has been right about Tesla before, and the company is about to launch its highly anticipated Robotaxi service. People tend to listen when Cathie Wood speaks on Tesla (TSLA 6.64%). The founder and manager of Ark Invest was one of Tesla's most vocal supporters in the mid-to-late 2010s, before the company became the electric vehicle, energy storage, autonomous driving, and robotics company it is now, with a $1 trillion market cap. Her Tesla call lifted her flagship fund, the ARK Innovation ETF, to ...