自动驾驶之心
搜索文档
世界模型VLA!DriveVLA-W0:7000万数据解锁自动驾驶VLA Scaling(中科院&引望)
自动驾驶之心· 2025-10-17 00:03
文章核心观点 - 中科院与华为引望的研究团队提出了一种名为DriveVLA-W0的新型自动驾驶视觉-语言-动作模型训练范式,旨在解决VLA模型因“监督不足”而无法充分利用其庞大模型容量的问题[2] - 该范式通过引入世界建模任务,让模型预测未来图像,从而生成密集的自监督信号,促使模型学习驾驶环境的底层动态规律,最终放大数据扩展定律并提升模型性能[2][4] - 实验表明,DriveVLA-W0在NAVSIM基准测试及包含7000万帧的内部数据集上,性能显著优于传统的BEV和VLA基线模型,并验证了其能加速模型性能随数据规模增大的提升速度[4][11] 背景与问题 - 当前自动驾驶领域追求通过海量数据训练基础模型,存在两种主流范式:基于BEV表征的专用模型和基于视觉-语言-动作的通用模型[5] - VLA模型的核心挑战在于“监督不足”:模型规模庞大,但仅通过稀疏、低维的动作信号进行监督,导致其大部分表征能力未被充分利用,性能甚至可能不及更小的专用BEV模型[5] - 单纯增加仅含动作监督的训练数据量无法解决这一根本性局限[5] 技术方案:DriveVLA-W0范式 - **核心创新**:将世界建模作为强自监督目标,补充稀疏的动作信号,通过预测未来图像为每个时间步提供密集的监督信号[5][9] - **针对不同架构的适配**: - 对于使用离散视觉token的VLA模型,设计了自回归世界模型,预测未来图像的离散视觉token序列[4][7] - 对于基于连续视觉特征的VLA模型,设计了扩散世界模型,在连续潜在空间中生成未来图像像素[4][7] - **模型架构**:基于两种主流VLM backbone构建基准模型变体,分别是处理离散视觉表征的Emu3和处理连续视觉特征的Qwen2.5-VL[12][19] - **效率优化**:引入了基于混合专家的轻量级动作专家,将动作生成与大型VLA骨干网络解耦,使推理延迟降至基准模型的63.1%[11][20] 实验结果与性能 - **在NAVSIM基准上的表现**:DriveVLA-W0在仅使用1个摄像头的情况下,综合性能指标达到90.2,优于使用更多传感器的其他VLA和BEV方法[25] - **在内部数据集上的扩展性**:在包含7000万帧的大规模内部数据集上,DriveVLA-W0展现出显著的数据扩展放大效应[4][11] - 对于VLA模型,增加世界建模后,在70M数据规模下,ADE指标提升了28.8%,碰撞率降低了19.7%[28] - 对于VLA模型,在相同条件下,ADE指标提升了3.7%,碰撞率降低了15.9%[28] - **动作专家的研究发现**:随着数据规模从NAVSIM的10.3万帧扩大到内部数据集的7000万帧,动作解码器的性能趋势出现反转[11][28] - 在小规模数据上,复杂的流匹配解码器更具优势[11] - 在大规模数据下,更简单的自回归解码器成为最优选择,在内部数据集上其ADE指标优于基于查询的方法10.5%,碰撞率降低34.9%[28] 意义与贡献 - **理论贡献**:明确指出“监督不足”是阻碍VLA模型扩展的关键瓶颈,并提出通过世界建模获取密集自监督信号的解决方案[11][30] - **实践价值**:世界建模不仅提升了模型在不同动作分布领域的泛化能力,更重要的是放大了数据扩展定律,实现了仅靠动作监督扩展无法达到的效果[11] - **行业影响**:研究表明,采用密集的预测性世界建模是充分释放大规模数据潜力、实现更具通用性驾驶智能的关键一步[31]
千里智驾的软硬一体
自动驾驶之心· 2025-10-17 00:03
千里智驾与爱芯元智的潜在合作 - 千里智驾可能与爱芯元智在智能驾驶芯片领域进行合作,实现芯片与算法的匹配 [7] - 合作旨在弥补千里智驾在软硬一体化布局上的关键环节 [7] - 千里智驾已完成对极氪智驾团队和迈驰智行团队的合并,算法布局初步成型 [7] 行业技术发展趋势与竞争格局 - 行业正为下一代软硬件大迭代做准备,目标直指L3级自动驾驶和Robotaxi [7][8] - 下一代智能驾驶芯片算力目标达几千TOPS,相比现有城区方案算力翻了几倍 [8] - 为控制L3量产上车的昂贵成本,业界可能采用ASIC或DSA模式以替代通用芯片 [8] - 华为被视为T0级玩家,其软硬一体交付模式是行业重要参照 [7] - 头部智驾公司如Momenta也在推进自研芯片 [7] L2+与高阶自动驾驶的商业价值对比 - L2+阶段被视为“前哨战”,商业价值未完全释放,一套智驾系统售价仅几千至一万元 [8] - L3和Robotaxi被视作“大决战”,其带来的商业价值将是颠覆性的,可能催生千亿美金估值的智驾公司 [8] 合作对爱芯元智的战略意义 - 合作若落地,将使爱芯元智获得进入高阶智驾领域的门票 [9] - 爱芯元智过去几年凭借性价比在中低阶智驾市场已取得一定份额 [9] - 千里智驾背后有吉利作为超大客户,为爱芯元智提供了重要的市场机会 [9]
最新自进化综述!从静态模型到终身进化...
自动驾驶之心· 2025-10-17 00:03
文章核心观点 - 当前主流AI智能体存在静态配置的局限性,无法动态适应环境变化,而自进化AI智能体通过与环境交互持续优化内部组件,实现终身学习 [1][5][6] - 论文首次明确定义自进化AI智能体,提出三大定律和四阶段演进框架,构建从技术到落地的完整图谱 [1][7][9] - 自进化AI智能体的目标是让AI系统成为能与人类长期协作的伙伴,实现从静态模型到终身进化的范式转变 [42] 自进化AI智能体的定义与核心原则 - 自进化AI智能体是通过与环境交互,持续且系统性地优化内部组件,以适应任务、上下文和资源变化的自主系统 [6] - 提出自进化AI智能体三定律:存续定律(维持安全与稳定性)、卓越定律(保持或提升性能)、进化定律(自主优化内部组件) [8][12] - 四阶段演进历程包括模型离线预训练(MOP)、模型在线适配(MOA)、多智能体协同(MAO)和多智能体自进化(MASE) [9] 技术框架与组件 - 四组件反馈循环框架包括系统输入(定义进化目标)、智能体系统(执行任务)、环境(提供反馈信号)、优化器(迭代优化智能体) [10][11][15] - 系统输入分为任务级输入(针对特定任务的整体优化)和实例级输入(针对单个任务实例的精细优化) [13][16] - 智能体系统分为单智能体(由基础模型、提示、记忆、工具等构成)和多智能体(由多个单智能体、通信协议和拓扑结构组成) [14][17] - 环境反馈分为客观反馈(可量化的性能指标)和主观反馈(需通过LLM评估的质性指标) [14][18] - 优化器由搜索空间(定义可优化对象)和优化算法(定义如何搜索最优配置)组成 [19][22] 单智能体优化技术 - LLM行为优化分为训练式优化(通过数据反馈更新模型参数)和推理时优化(不修改模型参数,通过推理策略提升性能) [20][23] - 提示优化技术包括编辑式优化、生成式优化、文本梯度式优化和进化式优化 [26] - 记忆优化分为短期记忆优化(优化当前任务的上下文管理)和长期记忆优化(构建跨任务的持久化记忆) [26] - 工具优化分为训练式工具优化、推理时工具优化和工具功能优化(自主创建新工具) [26] 多智能体优化技术 - 手动设计多智能体系统包括并行工作流、分层工作流和多智能体辩论 [30][31] - 自进化多智能体系统优化技术包括拓扑优化、统一优化和LLM骨干优化 [30][31] - 多智能体系统通过协作提升复杂任务处理能力,例如医疗诊断多智能体系统模拟临床流程 [30][32] 领域特定优化应用 - 生物医学领域注重安全优先和精准适配,例如多智能体模拟临床流程和分子发现 [30][32] - 编程领域注重效率导向和错误修正,例如自反馈与多角色协作优化代码生成和调试 [30][38] - 金融与法律领域注重合规优先和规则对齐,例如多源信息整合优化金融决策和模拟司法流程优化法律推理 [30][33][38] 评估方法与安全伦理 - 评估方法分为基准测试评估(基于标准化数据集和任务)和LLM驱动评估(用LLM作为评估者) [35][39] - 安全与伦理风险包括安全风险(进化过程中出现有害行为)、稳定性风险(进化导致性能波动)和合规风险(进化后违反领域法规) [36][40] - 需要建立进化安全审计机制,确保每个进化步骤符合安全与伦理要求 [36] 挑战与未来方向 - 核心挑战包括安全与进化的平衡、评估体系的完善、多模态与跨领域泛化、效率与性能的权衡 [37][41] - 未来方向包括开发MASE模拟环境、推进工具自主创建、构建终身评估基准、优化多智能体效率 [37][41] - 自进化AI为构建更自适应、更自主、更可持续的AI系统提供了清晰的路径 [42]
刚刚,一家车企的具身团队原地解散了......
自动驾驶之心· 2025-10-16 08:06
事件概述 - 具身智能明星公司一星机器人(OneStar)于成立约5个月后突然原地解散,团队解散甚至不涉及员工赔偿 [1][2][3][5][22] - 公司由吉利控股集团股东李星星(李书福之子)于2025年5月9日发起创立 [6][10] - 解散原因尚未明确,但后续处理方案可能包括原有吉利相关业务回归吉利汽车集团,以及以CTO丁琰为首的技术团队单独创业并已遭遇哄抢 [8][9] 公司背景与资源 - 公司定位为吉利在机器人领域的关键布局,董事长为潘运滨 [11][12] - 早期投资人包括曹操出行、晶能微电子等吉利系产业资本 [12] - 公司与复旦大学姜育刚教授团队、清华大学汪玉教授团队及FastUMI数据采集团队合作,构建"模型+数据+本体"研发体系 [12] 技术路线与产品 - 公司采用"倒做AI"的独特路线,从真实任务与生产场景出发倒推算法设计,目标让机器人在真实场景中进化而非表演Demo [13][14] - 2025年8月与复旦大学共建"智能机器人校企联合实验室",并推出首款产品"星轮1号"轮式双臂机器人 [19] 融资历程与关键节点 - 2025年7月完成数亿元"亲友轮"融资,投资方几乎全部来自吉利生态体系 [16] - 2025年7月官宣上海AI Lab明星研究员丁琰加盟,出任CTO兼联合创始人 [4][7][18] - 2025年9月17日再次完成数亿元种子轮融资,投资方包括BV百度风投、同创伟业、银河通用机器人、蓝黛科技、中新集团等 [20] - 公司在完成种子轮融资约一个月后即宣告解散 [20][21][22]
果然!秋招会惩罚每一个本末倒置的研究生!
自动驾驶之心· 2025-10-16 04:00
公司业务与服务模式 - 公司提供一站式科研辅导课程,专注于自动驾驶、具身智能、机器人等交叉学科领域 [1][3] - 服务模式为个性化论文指导,包括导师实时互动、录播无限次回看及免费课后答疑 [13] - 课程形式为腾讯会议在线1对1授课,日常通过微信群沟通答疑 [18] - 提供全程督学服务,由班主任跟进学习进度 [16] 师资力量与学术资源 - 公司拥有300多名专职于自动驾驶/具身智能方向的导师,导师来源于全球QS排名前100的高校 [3] - 导师发表过多篇顶会/子刊/A会/B会等论文 [3] - 近3年辅导学员超过400名,论文中稿率高达96% [3] - 提供精准导师匹配系统,可根据学员研究方向、目标期刊和基础水平从300多名导师中筛选3至5位最契合人选 [19] 具体服务流程与成果 - 标准论文辅导周期为12周,涵盖从确定研究方向到选刊投稿的全流程 [5] - 针对零基础学员,公司提供基础课程,声称通过6个月辅导可完成一篇小论文 [19] - 辅导成果包括帮助学员建立科研思维、系统掌握经典与前沿算法、提升代码实践能力 [11] - 优秀学员可获得清北、MIT等名校推荐信,以及被推荐至实验室实习或内推至阿里达摩院、华为诺亚方舟等企业研发岗位 [20] 目标客户群体 - 主要服务对象为在读计算机专业硕博生,尤其是导师放养、无人指导的群体 [1][12] - 服务亦面向有科研需求以提升职称、从事人工智能领域工作想升职加薪、以及考研申博留学需提升简历含金量的人群 [12] - 课程目标包括助力学员产出一篇目标区位的高质量论文,并掌握科研流程与论文写作投稿技巧 [12][13]
新势力不再只是 “蔚小理”,“BIG 6+1” 挑战比亚迪
自动驾驶之心· 2025-10-16 04:00
市场格局演变 - 新能源市场格局发生显著变化,传统的“蔚小理”符号已不足以代表新势力阵营,需要新的概括方法 [1] - 2025年新能源渗透率超过50%,市场加速淘汰部分新势力车企,昭示新格局 [1] - 七家新势力车企(特斯拉、零跑、鸿蒙智行、小米、小鹏、理想、蔚来集团)的上险量总和在2025年多次逼近甚至短暂超过市场排名第一的比亚迪品牌 [1][13] 新势力定义与构成 - 以是否拥有“燃油车生产资质”作为新势力的简单区分标准,无该资质的企业只能生产纯电或增程式产品 [2] - 2025年8月汽车市场上险量前40名中,不生产燃油车的企业有七家,其中“蔚小理”排名最末 [2] - 七家新势力主体被重新定义为“BIG 6+1”,包括特斯拉(外资)和六个中国品牌,均可挤入全市场前25名 [4] 销量与市场份额分析 - 2025年8月,“BIG 6+1”各品牌市场份额分别为:特斯拉2.81%、零跑2.52%、鸿蒙智行2.19%、小米1.79%、小鹏1.71%、蔚来集团1.53%、理想1.40% [4] - 2025年8月,“BIG 6+1”销量合计283,579辆,市场份额13.95%,仅比狭义比亚迪品牌(284,005辆,13.97%)少0.02个百分点 [13] - 对比广义比亚迪集团,“BIG 6+1”的市场份额差额从最多约8个百分点缩小至约1个百分点,呈现持续迫近趋势 [13][14] 企业发展阶段与产品策略 - “BIG 6+1”均成立于21世纪,其发展分为三个阶段:特斯拉(2003年)为先锋探索者;“蔚小理”及零跑(2014-2015年)推动中国市场萌芽;问界与小米(2021年)奏响新势力造车“关门序曲” [4][5] - 各品牌产品数量最多为七款,但特斯拉仅凭三款主销车型取得最佳成绩 [5] - 产品价格覆盖广泛,从零跑T03的5万元级别到尊界S800高配版的100万元以上,大量产品集中在20万至40万元区间 [7] 渠道布局与平均售价 - 渠道分为三个梯队:零跑和鸿蒙智行门店近千家;理想和小鹏为600-700家;小米和特斯拉为300-400家 [7] - 2025年8月各品牌加权平均售价为:零跑12.98万元、小鹏17.82万元、小米26.14万元、蔚来26.85万元、特斯拉29.67万元、理想34.90万元、鸿蒙智行38.10万元 [9] - 产品布局呈现三种类型:矩形类(特斯拉、小米、小鹏、鸿蒙智行)、梯形类(理想、蔚来)和蜂窝状(零跑) [12] 未来趋势与生态位 - “BIG 6+1”将形成完整的价格生态位:10万元级别(零跑)、15万元级别(小鹏)、25万元级别(小米、蔚来)、30万元级别(特斯拉、理想)、35万元级别(鸿蒙智行) [12] - 七家新势力与比亚迪集团合计占据整个市场约30%份额,按新能源渗透率50%计算,这八家“纯血新能源”企业占据了新能源市场的60%左右 [15] - “BIG 6+1”销量之和逐步稳定在全市场第一时,新能源市场将进入新阶段,淘汰赛真正拉开 [15]
NeurIPS'25高分论文!华科、浙大&小米提出深度估计新范式
自动驾驶之心· 2025-10-15 23:33
以下文章来源于3D视觉之心 ,作者Gangwei Xu等 3D视觉之心 . 3D视觉与SLAM、点云相关内容分享 点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近30个 方向 学习 路线 >>自动驾驶前沿信息获取 → 自动驾驶之心知识星球 论文作者 | Gangwei Xu等 编辑 | 自动驾驶之心 研究动机与贡献 深度估计是机器人感知、三维重建、AR/VR 等应用的核心。然而,现有的深度估计方法普通存在边缘 飞点(Flying Pixels)问题 ,而这会导致机器人执行决策时 候,引发错误动作;三维重建时导致物体轮廓鬼影重重等。现有方法经历边缘飞点主要因为以下原因: 论文题目: Pixel-Perfect Depth with Semantics-Prompted Diffusion Transformers Project Page: https://pixel-perfect-depth.github.io/ Github Code: https://github.com/gangweix/pixel-perfect-depth Huggingface Demo: https ...
提供最专业的平台和运营团队!我们正在招募运营的同学~
自动驾驶之心· 2025-10-15 23:33
公司业务与规模 - 公司从初创团队发展为拥有技术深度和广度的平台,业务线日益增多 [1] - 团队孵化了具身智能之心、自动驾驶之心、3D视觉之心、大模型之心Tech四个IP [1] - 公司全网拥有近36万粉丝,运营平台包括公众号、视频号、知识星球、哔哩哔哩、知乎、小鹅通等 [1] 招聘岗位与职责 - 招聘全职及兼职自媒体运营和销售岗位 [2] - 自媒体运营需负责对接老师学员、管理课程进度、多平台运营、策划商业化项目、行业选题及原创稿件撰写 [4] - 销售岗位需参与制作产品宣传内容、对接硬件厂家及高校企业客户、推广在线教育产品 [5][6] 岗位要求 - 自媒体运营岗位要求强大的执行力、本科及以上学历且计算机/AI类专业优先、熟悉多平台运营、具备文字功底 [4] - 销售岗位要求强大的执行力及抗压能力、本科及以上学历且计算机/AI类专业优先、有自媒体销售经验、能接受出差 [12] 工作地点与职业发展 - 工作地点为杭州和上海 [7] - 员工将接触顶级运营团队,学习运营技巧和销售策略,获得快速成长 [7] - 员工可接触到自动驾驶、具身智能、3D视觉、大模型等最新AI领域内容,同时对接工业界和学术界 [8] - 公司提供读研、读博等个人提升机会 [9]
扩散规划器全新升级!清华Flow Planner:基于流匹配模型的博弈增强算法(NeurIPS'25)
自动驾驶之心· 2025-10-15 23:33
文章核心观点 - 清华大学AIR研究院等机构提出全新自动驾驶决策算法框架Flow Planner,该框架基于Flow Matching生成式模型,在轨迹表征、模型架构和生成机制三方面进行协同改进,旨在解决复杂交通场景下的博弈行为建模挑战 [1] - Flow Planner在高密度车流多车博弈、行人突发横穿等激烈竞争场景下,能够动态感知周围意图变化并生成自然流畅的类人规划轨迹 [1] - 实验结果显示,Flow Planner在nuPlan闭环评测及新设立的interPlan高交互基准上均取得了学习型算法的SOTA性能,决策成功率和轨迹质量显著超越现有扩散模型规划方法 [1] 技术背景与挑战 - 自动驾驶规划的核心挑战在于多车密集、行为多样的交通场景中实现安全可靠且类人的决策,传统规则方法缺乏泛化能力,而学习型方法面临博弈行为建模不足和高质量博弈数据稀缺两大核心挑战 [3][6] - 当前学习型规划方法简单地增大模型参数量难以有效捕捉博弈关系,容易导致过拟合和呆板驾驶行为,而引入过多人工结构设计又会增大模型复杂度 [6] - 高密度强博弈场景在训练数据中呈显著长尾分布,模型难以通过模仿学习准确捕捉专家驾驶意图 [6] 关键技术创新:细粒度轨迹分段表示 - Flow Planner将轨迹划分为多个重叠片段并为每个片段建立局部token表示,改变了传统用整体token表示完整轨迹的方法 [8] - 该策略使模型能够保持运动学连续性、精确捕捉不同时间段交互模式、提升多模态驾驶行为的可表达性 [8][12] - 局部建模加全局拼接的策略兼顾表达力与平滑性,有效改善了规划轨迹的连贯性与多样性 [8] 关键技术创新:博弈增强时空融合机制 - 设计了基于尺度自适应注意力的特征融合模块,使模型能够在统一特征空间中同时处理车道、自车与周车轨迹信息 [9][13] - 模块能基于具体场景动态调整每个token的感受野大小,自动聚焦于关键交互对象 [9][13] - 通过独立的Adaptive LayerNorm与FFN模块优化异构信息融合,避免不同模态特征互相干扰 [13] 关键技术创新:周车增强轨迹生成 - 利用流匹配模型的无分类器引导生成策略,在推理时通过调整周车信息、道路信息等生成条件的权重来放大其对轨迹规划的影响 [10] - 该机制能引导模型生成超越数据的驾驶行为与策略,并帮助模型平衡保守与激进策略,在交互密集场景中生成更自然可控的驾驶行为 [10] 实验性能结果 - 在nuPlan的Val14基准上首次突破90分大关,得分90.43,不依赖任何规则先验或后处理模块 [11][14] - 在引入基于规则的后处理模块后,Flow Planner表现与最优混合式方法相当甚至更优,得分94.31 [11][14] - 在新设立的interPlan高交互基准上,整体性能提升8.9分,在高密度交通、行人横穿等极端交互情境下展现出卓越反应策略 [15] - 在部分分布外场景中展现出出色泛化能力,如对训练数据中未出现的“前车撞车”场景能准确判断并采取绕行策略 [15][20]
扛内卷,一个足够有料的4000人自动驾驶社区
自动驾驶之心· 2025-10-15 23:33
行业现状与趋势 - 自动驾驶行业进入冷静期和行业整合期,技术路线趋于收敛,量产方案趋同 [2] - 行业内出现从自动驾驶向具身智能等新领域转型的趋势,部分业内资深人士投身具身智能创业 [2] - 技术发展路径存在VLA/WA(视觉语言动作模型/世界模型)的路线之争,背后是更大的行业变革 [2] - 行业洗牌加速,能够留存并担当主力的从业者多为技术栈丰富的综合型人才 [2] 社区资源与规模 - “自动驾驶之心知识星球”社区已运营三年,集视频、图文、学习路线、问答、求职交流为一体,目前成员超过4000人 [4] - 社区目标在未来2年内将规模扩大至近万人,旨在打造技术分享与交流的聚集地 [4] - 社区联合了学术界与工业界专家,成员背景覆盖上海交大、北京大学、CMU、清华大学、蔚小理、地平线、华为等近300家高校及头部公司 [14] 技术内容覆盖范围 - 社区系统化梳理了超过40个自动驾驶技术方向的学习路线,包括BEV感知、多传感器融合、端到端自动驾驶、VLA、世界模型、规划控制等 [6][9][15] - 提供近60个自动驾驶相关数据集、行业主流仿真平台及开源项目的汇总资料 [15][32][34] - 技术问答涵盖端到端入门、VLA学习路线、数据闭环工程实践、多模态大模型应用等前沿实用问题 [6][7][18] 学习与课程体系 - 社区提供原创系列视频课程,内容覆盖感知融合、多传感器标定、SLAM与高精地图、决策规划、数据工程、自动驾驶仿真、端到端及大模型技术等 [10] - 设有“自动驾驶100问”系列专题,包括TensorRT模型部署、毫米波雷达融合、车道线检测、规划控制、BEV感知、相机标定等工程实践主题 [9] - 针对初学者规划了全栈方向的学习课程与完备的入门技术栈路线图 [10][15] 行业交流与活动 - 社区不定期举办技术直播,已累计超过一百场,邀请学术界与工业界专家分享VLA、世界模型、3D检测、规划控制等前沿研究成果与应用 [86] - 建立与多家自动驾驶公司的岗位内推机制,为成员提供求职与跳槽机会 [10][19] - 社区内部形成交流氛围,成员可就工作选择、研究方向、技术难题等话题进行自由提问并获得解答 [88][91]