Workflow
FastDriveVLA
icon
搜索文档
【周观点】小鹏联合北大发布FastDriveVLA,继续看好汽车板块
未经许可,不得转载或者引用。 投资要点 本周细分板块涨跌幅排序: SW乘用车(+3.3%) =SW汽车零部件(+3.3%)>SW汽车(+2.7%) >SW商用载货车(+1.1%) > SW 商用载客车(-2.2%) 。本周已覆盖标的 亚太股份、恒帅股份、旭升集团、银轮股份、双环传动 涨幅前五。 本周团队研究成果: 外发2026汽车零部件策略报告、客车月报。 本周行业核心变化: 1) 小鹏联合北大发布论文登国际AI顶会AAAI 2026,解决自动驾驶 VLA 模型计算负荷大与精 准决策的核心矛盾,成果兼具技术突破性与商业落地可行性; Q4重视AI智能车投资机会: 本周汽车行业表现如何? 本周SW汽车跑赢大盘,子行业中乘用车和零部件表现最佳。核心变化:1)小鹏联合北大发布 论文登国际AI顶会AAAI 2026,解决自动驾驶 VLA 模型计算负荷大与精准决策的核心矛盾, 成果兼具技术突破性与商业落地可行性;2)地平线地瓜机器人S100P量产首发,Vbot超能机器 狗正式发布;3)智己品牌在2025年12月首次实现全成本口径盈利。 2) 地平线地瓜机器人S100P量产首发,Vbot超能机器狗正式发布; 3) 智己品牌 ...
汽车周观点:小鹏联合北大发布FastDriveVLA,继续看好汽车板块-20251229
东吴证券· 2025-12-29 11:09
报告行业投资评级 - 报告对汽车行业给出“增持”评级 [71] 报告核心观点 - 报告认为汽车行业正处于新旧逻辑切换的十字路口,电动化红利进入尾声,智能化处于“黎明前黑暗”,机器人创新在产业0-1阶段,三类主线投资机会并存 [3] - 第四季度应重视AI智能车的投资机会 [3] - 基于最新研判,报告调整了2025年下半年年度金股组合,调高了高股息红利风格的权重,并调入理想汽车、星宇股份、春风动力,调出德赛西威、伯特利、新泉股份 [64] 本周板块行情复盘 - **板块表现**:本周SW汽车板块跑赢大盘,在A股SW一级行业中排名第11,在港股二级行业中排名第18 [7][9] 子行业中,SW乘用车和SW汽车零部件表现最佳,周涨幅均为+3.3% [2][15] - **个股表现**:本周已覆盖标的中,亚太股份、恒帅股份、旭升集团、银轮股份、双环传动涨幅居前 [2] - **板块估值**:本周SW乘用车、SW汽车、SW汽车零部件的PE(TTM)上升,SW商用载货车和商用载客车的PE(TTM)下降 [38] SW汽车板块PE(TTM)和PB(LF)分别处于历史83%和87%分位 [36] 全球整车估值PS(TTM)本周总体持平,其中特斯拉为16.5倍,非特斯拉的A股及港股整车为1.0倍,A股整车为1.1倍 [39][41][43] 板块景气度跟踪 - **乘用车**:报废/更新政策落地,预计对2025年国内零售销量增量贡献范围为100-170万辆 [45] 报告预测2025年国内乘用车零售销量为2362万辆,同比增长3.8%,其中自主品牌销量1582万辆,市占率达67.0%,新能源乘用车销量1308万辆,渗透率达55.4% [46] - **智能化**:车企智驾竞赛进入白热化,预计2025年L3(城市NOA)在新能源汽车中的渗透率达20%,L2+(高速NOA)渗透率达34% [48] 预计2025年国内新能源乘用车城市NOA智驾销量达264万辆,同比增长123%,其中英伟达芯片方案占52%,特斯拉FSD占23%,华为方案占25% [49] 预计2025年高速NOA智驾销量达444万辆,同比增长439% [49] - **商用车**: - **重卡**:预计2025年重卡上险量75.2万辆,同比增长24.9%;出口量29.5万辆,同比增长1.6%;批发销量105.4万辆,同比增长16.9% [50][51] 其中,电动重卡销量预计达20.2万辆,同比增长162.7%,渗透率达26.9% [51] - **大中客**:在政策加码下,预计2025年国内销量增长15%,出口销量增长20% [53] 预计2025年大中客批发销量13.68万辆,同比增长18% [52] - **机器人**:本周机器人指数上涨5.34%,年初至今上涨56.25% [54] 2025年被视为人形机器人量产元年,下半年订单边际变化将显著,B端逐步实现落地 [54] 本周行业动态包括云深处启动上市辅导,以及多家公司达成战略合作 [54][57] 核心关注个股跟踪 - **整车类**:小鹏汽车联合北京大学发布FastDrive VLA模型论文,成果登国际AI顶会AAAI 2026,解决了自动驾驶模型计算负荷大与精准决策的核心矛盾 [2][3][59] 智己品牌在2025年12月首次实现全成本口径盈利 [2][3][59] - **零部件及科技类**:地平线机器人地瓜机器人S100P量产首发,Vbot超能机器狗正式发布 [2][3][60] 黑芝麻智能山海AI工具链获ISO 26262:2018 TCL3汽车功能安全认证 [60] 旭升集团实控人变更为广州工控集团 [60] 知行科技收到某头部自主品牌商用车无人物流配送小车项目定点 [60] 福达股份与长坂科技等签署围绕人形机器人关节模组及外骨骼机器人技术的战略合作协议 [57][60] 星源卓镁收到国内某新能源整车厂商定点,预计2027年第一季度量产,2027-2030年销售总金额5.75亿元 [60] 年度金股组合 - **2025年下半年组合调整**:相比上半年,调高了高股息红利风格的权重,并新增“3年战略品种”维度 [64] 调入理想汽车、星宇股份、春风动力,调出德赛西威、伯特利、新泉股份 [64] - **2025年下半年金股组合**:包括小鹏汽车-W、理想汽车、上汽集团、赛力斯、地平线机器人-W、拓普集团、星宇股份、宇通客车、福耀玻璃、中国重汽H、春风动力 [63] - **2025年上半年组合复盘**:整体跑赢SW汽车指数,其中小鹏汽车、地平线机器人、拓普集团、伯特利表现超预期;上汽集团、德赛西威、宇通客车表现低于预期;赛力斯、新泉股份、福耀玻璃、中国重汽A表现符合预期 [66]
XPENG-Peking University Collaborative Research Accepted by AAAI 2026: Introducing a Novel Visual Token Pruning Framework for Autonomous Driving
Prnewswire· 2025-12-29 05:35
公司与北京大学的研究合作成果 - 公司与北京大学合作完成的论文“FastDriveVLA: Efficient End-to-End Driving via Plug-and-Play Reconstruction-based Token Pruning”被顶级人工智能会议AAAI 2026收录[1] - AAAI 2026共收到23,680篇投稿,仅接受4,167篇,接受率仅为17.6%[1] FastDriveVLA技术框架核心 - 该论文提出FastDriveVLA,这是一个专为端到端自动驾驶视觉-语言-行动模型设计的高效视觉令牌剪枝框架[2] - 该框架让AI能够“像人类一样驾驶”,专注于关键视觉信息并过滤无关数据[2] - 该框架采用了一种新颖的基于重建的令牌剪枝方法,灵感来源于人类驾驶员关注相关前景信息而忽略非关键背景区域的方式[4] - 方法引入了对抗性前景-背景重建策略,增强了模型识别和保留有价值令牌的能力[5] 技术解决的行业痛点与性能表现 - 随着AI大模型发展,视觉-语言-行动模型因其在复杂场景理解和行动推理方面的强大能力,被广泛应用于端到端自动驾驶系统[3] - 这些模型将图像编码为大量视觉令牌,但处理大量令牌会增加车载计算负载,影响推理速度和实时性能[3] - 在nuScenes自动驾驶基准测试中,FastDriveVLA在各种剪枝比例下均实现了最先进的性能[5] - 当视觉令牌数量从3,249个减少到812个时,该框架在保持高规划精度的同时,实现了计算负载近7.5倍的降低[5] 公司在自动驾驶AI领域的持续进展 - 这是公司今年第二次在全球顶级AI会议上获得认可[6] - 今年6月,公司是唯一受邀在CVPR WAD上发表演讲的中国汽车制造商,分享了自动驾驶基础模型的进展[6] - 在11月的AI Day上,公司发布了VLA 2.0架构,取消了“语言翻译”步骤,实现了从视觉到行动的直接生成,重新定义了传统的V-L-A流程[6] 公司的技术战略与能力 - 这些成就反映了公司从模型架构设计、训练到蒸馏和车辆部署的全栈自研能力[7] - 公司致力于实现L4级自动驾驶,以加速物理AI系统与车辆的融合,目标是为全球用户提供安全、高效、舒适的智能驾驶体验[7] - 公司坚持智能驾驶辅助软件和核心硬件的全栈自研开发[9] 公司背景与全球布局 - 公司总部位于中国广州,在北京、上海、深圳、肇庆和扬州设有研发中心,并在肇庆和广州建立了智能制造基地[8] - 公司在研发和销售方面推行全球战略,在美国设有研发中心,并在多个欧洲国家设有子公司[9] - 公司于2020年8月27日正式在纽约证券交易所上市,2021年7月7日在香港联合交易所上市,成为首家在纽约和香港双重主要上市的中国新能源汽车制造商[11]
小鹏联合北大提出全新视觉Token剪枝框架,何小鹏:在探索L4路上又取得新突破
新浪财经· 2025-12-28 07:56
新浪科技讯 12月28日下午消息,近日,人工智能领域国际会议AAAI 2026公布了论文录用结果,由小鹏 汽车和北京大学计算机学院多媒体信息处理全国重点实验室联合完成的论文《FastDriveVLA: Efficient End-to-End Driving via Plug-and-Play Reconstruction-based Token Pruning》成功入选。这篇论文最大的贡 献在于,提出了一种专门为端到端自动驾驶VLA模型定制的、高效的视觉Token剪枝框架—— FastDriveVLA。 据介绍,FastDriveVLA包含一个即插即用的视觉Token剪枝器ReconPruner。在车端模型的推理阶段, ReconPruner可直接嵌入自动驾驶VLA模型用于视觉Token的剪枝,即插即用,无需重新训练整个模型。 为了辅助该剪枝器的训练,还专门构建了包含来自6个摄像头视角的24.1万个图像-掩码对的nuScenes-FG 数据集。这一大规模的自动驾驶前景分割标注数据集,可广泛用于未来自动驾驶的研究。 最终,nuScenes自动驾驶数据集上的测试显示,采用这一剪枝框架,在不同剪枝率下均取得当前最 ...
面向量产VLA!FastDriveVLA:即插即用剪枝模块,推理加速近4倍
自动驾驶之心· 2025-08-23 16:03
核心观点 - 提出FastDriveVLA框架,通过重建式视觉token剪枝技术,在50%压缩率下保持97.3%的自动驾驶规划性能,显著降低计算开销 [5][43] - 设计即插即用剪枝器ReconPruner,结合对抗式前景-背景重建策略,增强前景token辨识能力 [5][20][43] - 构建nuScenes-FG数据集,包含24.1万张图像-掩码对,覆盖六视角车载摄像头,提供细粒度前景分割标注 [6][15][43] 技术背景与行业现状 - 端到端自动驾驶方案通过单一模型完成感知到规划,减少模块间信息损失,但VLA模型因大量视觉token导致高计算延迟 [3][9] - 现有剪枝方法存在局限性:注意力机制法受限于简短文本指令,相似度法易误删关键前景token [4][14][11] - VLA模型通过自然语言增强车辆推理能力,DriveGPT4、OpenDriveVLA等方案已实现细粒度控制输出 [10] 方法论创新 - 基于人类驾驶行为定义前景(车辆、道路、交通标志等)与背景(建筑物、天空等),聚焦关键信息区域 [12] - ReconPruner仅含0.07B参数,通过MAE风格像素重建任务训练,量化token显著性 [17][19] - 对抗式策略强制低分token重建背景,避免"所有token高分"的退化解,提升区分精度 [20][34] 实验与性能 - 在nuScenes数据集测试,输入分辨率1596×1596(3249个token),评估25%/50%/75%剪枝比例 [28][30] - 50%剪枝下:L2误差32.10cm(相对基线99.1%),碰撞率0.25%(97.3%),交叉口率2.94%(95.1%) [30][35] - 对比基线方法:FastDriveVLA在L2误差、碰撞率等关键指标均优于注意力法(FastV)和相似度法(DivPrune) [30][46] 效率提升 - 75%剪枝时:FLOPs降低7.5倍,Prefill延迟减少3.7倍,Decode延迟减少1.3倍 [37][40] - 轻量化设计使CUDA延迟低于部分无参数方法,提升实时部署可行性 [36][37] 数据与可视化 - nuScenes-FG数据集通过GroundedSAM标注,解决原始3D边界框粗糙问题,提供精细前景分割 [15][33] - 可视化显示FastDriveVLA完整保留车道和车辆token,优于基线方法对关键区域的遗漏 [38][46] 行业意义 - 为VLA模型高效推理提供新范式,推动端到端自动驾驶在车载芯片的实际部署 [43][36] - 重建式剪枝策略可扩展至其他具身智能领域,为任务特定型token压缩提供参考 [11][43]
自动驾驶论文速递 | 扩散模型、轨迹预测、TopoLiDM、VLA等~
自动驾驶之心· 2025-08-05 03:09
基于可控扩散模型的生成式主动学习框架GALTraj - 提出GALTraj框架首次将可控扩散模型应用于轨迹预测的长尾问题通过尾样本感知生成技术动态增强稀有场景数据 [1] - 在WOMD和Argoverse2数据集上使长尾指标FPR₅相对降低47.6%(从0.42→0.22)整体预测误差minFDE₆降低14.7%(从0.654→0.558) [1] - 设计尾部感知生成方法对交通场景中的尾部代理、头部代理和相关代理分配差异化扩散引导生成兼具真实性、多样性且保留尾部特征的场景 [2] - 在多个骨干模型(QCNet、MTR)上验证显著提升尾部样本预测性能同时改善整体预测精度 [2] 拓扑感知激光雷达扩散模型TopoLiDM - 提出TopoLiDM框架通过拓扑正则化的图扩散模型实现高保真激光雷达生成 [13] - 在KITTI-360数据集上以22.6%的FRID下降率和9.2%的MMD下降率超越现有最优方法同时保持1.68样本/秒的实时生成速度 [13] - 采用紧凑的拓扑图作为潜在表示实现了快速、可解释且高保真的LiDAR点云生成 [15] - 拓扑感知VAE模块通过图构建和多层图卷积提取潜在图表示并引入0维持久同调约束确保生成的LiDAR场景符合真实世界环境的全局拓扑规则 [15] 高效端到端自动驾驶框架FastDriveVLA - 提出基于重建的视觉Token剪枝框架FastDriveVLA通过对抗性前景-背景重建策略在50%剪枝率下保持99.1%轨迹精度并降低碰撞率2.7% [21] - 设计ReconPruner通过MAE风格像素重建训练的即插即用修剪器增强识别有价值令牌的能力 [27] - 构建nuScenes-FG数据集包含241k图像-掩码对针对自动驾驶场景的前景分割标注 [27] - 在nuScenes开环规划基准上实现SOTA性能 [27] 语言大模型驱动自动驾驶框架PLA - 提出统一的感知-语言-动作(PLA)框架通过整合多传感器融合和GPT-4.1增强的视觉-语言-动作推理核心实现自适应自动驾驶 [34] - 在nuScenes数据集的城市交叉路口场景中速度预测的平均绝对误差(MAE)降至0.39 m/s、R²分数达0.923轨迹跟踪的平均位移误差(ADE)为1.013米 [34] - 多传感器语义融合模块整合激光雷达、雷达和相机数据生成结构化场景描述提升空间精度与语义丰富度 [38] - 通过LLM驱动的上下文推理增强对未见过场景的泛化能力实现鲁棒决策 [41] 自动驾驶行业资源整合 - 梳理近40+技术路线包括咨询行业应用、VLA benchmark、综述和学习入门路线 [50] - 整理国内高校著名自动驾驶团队和领域企业介绍 [52] - 汇总自动驾驶数据集与标定、仿真工具包括近百个数据集和标注工具 [52] - 提供基础入门资料涵盖数学基础、计算机视觉、深度学习和编程相关内容 [52]
面向量产VLA方案!FastDriveVLA:即插即用剪枝模块,推理加速近4倍(北大&小鹏)
自动驾驶之心· 2025-08-04 23:33
端到端自动驾驶技术演进 - 端到端自动驾驶方案在单一模型中完成从感知到规划的全过程,相比传统模块化方案减少了信息损失并简化了系统架构 [3] - 视觉-语言-动作(VLA)模型通过引入大语言模型的推理能力,在复杂场景理解和决策方面表现优于传统方法 [3] - 近期研究如SOLVE、OpenDriveVLA结合大模型技术,显著提升了系统性能和可解释性 [9] VLA模型的计算挑战与剪枝需求 - VLA模型将输入图像编码为大量视觉token(如3249个),导致高昂计算开销和推理延迟 [4] - 现有剪枝方法包括注意力机制导向法(如FastV、SparseVLM)和相似度导向法(如VisPruner、DivPrune),但存在监督信息不足或误删关键token的问题 [4][14] - 驾驶场景中文本指令固定且简短,难以提供有效剪枝指导 [4] FastDriveVLA创新框架 - 提出重建式视觉token剪枝框架,核心思想是模仿人类驾驶行为,仅保留与决策相关的前景区域token [5] - 开发即插即用剪枝器ReconPruner,参数量仅0.07B,通过MAE风格像素重建任务训练 [17][19] - 引入对抗式前景-背景重建策略,强制低分token重建背景以防止模型退化 [5][20] nuScenes-FG数据集构建 - 基于nuScenes数据集使用GroundedSAM进行精细前景分割,涵盖人、道路、车辆等关键要素 [12][15] - 包含24.1万张图像-mask对,覆盖六个车载摄像头视角 [6][15] - 明确定义前景与背景区域,背景如建筑物、天空等不影响驾驶决策 [12] 实验性能表现 - 在50%剪枝比例下(保留1624个token),L2误差为32.10cm(相对性能保持99.1%),碰撞率0.25%(保持97.3%) [30][32] - 在25%剪枝比例下(保留2436个token),L2误差31.80cm(超过基线0.1%),碰撞率0.26%(超过基线1.0%) [30] - 在75%剪枝比例下(保留812个token),仍保持最优性能,L2误差32.64cm(保持97.5%) [30] 效率提升效果 - FLOPs降低7.5倍,从38.2T减少至5.1T [37][40] - Prefill延迟减少3.7倍,从187ms/token降至51ms/token [37][40] - Decode延迟减少1.3倍,从23ms/token降至18ms/token [37][40] 方法优势验证 - 消融实验表明像素重建与对抗策略结合效果最佳,单独使用任一策略性能下降 [31][32] - 相比前景掩码剪枝方法(Gt-mask+Text-attn),在50%剪枝率下L2误差降低0.06cm,碰撞率降低0.01% [33][35] - 可视化结果显示能精确保留车道、车辆等关键token,避免背景干扰 [38][46] 行业应用价值 - 为VLA模型高效推理提供新范式,特别适用于具有明确前景区域的自动驾驶任务 [43] - 构建的nuScenes-FG数据集为后续研究提供通用基准 [13][43] - 轻量级设计(0.07B参数)和短训练时间(3小时/2卡H800)利于实际部署 [17][27]