Workflow
Vision-Language-Action (VLA) Models
icon
搜索文档
XPENG-Peking University Collaborative Research Accepted by AAAI 2026: Introducing a Novel Visual Token Pruning Framework for Autonomous Driving
Prnewswire· 2025-12-29 05:35
公司与北京大学的研究合作成果 - 公司与北京大学合作完成的论文“FastDriveVLA: Efficient End-to-End Driving via Plug-and-Play Reconstruction-based Token Pruning”被顶级人工智能会议AAAI 2026收录[1] - AAAI 2026共收到23,680篇投稿,仅接受4,167篇,接受率仅为17.6%[1] FastDriveVLA技术框架核心 - 该论文提出FastDriveVLA,这是一个专为端到端自动驾驶视觉-语言-行动模型设计的高效视觉令牌剪枝框架[2] - 该框架让AI能够“像人类一样驾驶”,专注于关键视觉信息并过滤无关数据[2] - 该框架采用了一种新颖的基于重建的令牌剪枝方法,灵感来源于人类驾驶员关注相关前景信息而忽略非关键背景区域的方式[4] - 方法引入了对抗性前景-背景重建策略,增强了模型识别和保留有价值令牌的能力[5] 技术解决的行业痛点与性能表现 - 随着AI大模型发展,视觉-语言-行动模型因其在复杂场景理解和行动推理方面的强大能力,被广泛应用于端到端自动驾驶系统[3] - 这些模型将图像编码为大量视觉令牌,但处理大量令牌会增加车载计算负载,影响推理速度和实时性能[3] - 在nuScenes自动驾驶基准测试中,FastDriveVLA在各种剪枝比例下均实现了最先进的性能[5] - 当视觉令牌数量从3,249个减少到812个时,该框架在保持高规划精度的同时,实现了计算负载近7.5倍的降低[5] 公司在自动驾驶AI领域的持续进展 - 这是公司今年第二次在全球顶级AI会议上获得认可[6] - 今年6月,公司是唯一受邀在CVPR WAD上发表演讲的中国汽车制造商,分享了自动驾驶基础模型的进展[6] - 在11月的AI Day上,公司发布了VLA 2.0架构,取消了“语言翻译”步骤,实现了从视觉到行动的直接生成,重新定义了传统的V-L-A流程[6] 公司的技术战略与能力 - 这些成就反映了公司从模型架构设计、训练到蒸馏和车辆部署的全栈自研能力[7] - 公司致力于实现L4级自动驾驶,以加速物理AI系统与车辆的融合,目标是为全球用户提供安全、高效、舒适的智能驾驶体验[7] - 公司坚持智能驾驶辅助软件和核心硬件的全栈自研开发[9] 公司背景与全球布局 - 公司总部位于中国广州,在北京、上海、深圳、肇庆和扬州设有研发中心,并在肇庆和广州建立了智能制造基地[8] - 公司在研发和销售方面推行全球战略,在美国设有研发中心,并在多个欧洲国家设有子公司[9] - 公司于2020年8月27日正式在纽约证券交易所上市,2021年7月7日在香港联合交易所上市,成为首家在纽约和香港双重主要上市的中国新能源汽车制造商[11]