Workflow
Model Fusion
icon
搜索文档
走向融合统一的VLA和世界模型......
自动驾驶之心· 2025-12-23 09:29
文章核心观点 - 自动驾驶领域的两大前沿技术路线——视觉-语言-行动模型与世界模型正呈现出明显的融合趋势,其终极目标一致,旨在构建具备类人认知与决策能力的驾驶大脑 [2][5] - 两大技术路线并非对立,而是高度互补,未来将通过深度融合塑造“既会思考,又会沟通”的终极驾驶大脑,形成“感知-推理-仿真-决策-解释”的增强闭环 [19][51] VLA技术概述 - VLA是一种“视觉-语言-行动”模型,其输入为摄像头画面和人类语言指令,输出为直接的驾驶动作或轨迹,实现了从感知、理解到行动生成的端到端映射 [8][9] - 其系统架构分为三层:输入端融合多模态感知信息;中间层由视觉编码器、语言处理器与动作解码器构成,进行统一推理与决策生成;输出端直接驱动车辆 [9][10] World Model技术概述 - 世界模型是一种生成式时空神经网络系统,旨在让自动驾驶车辆具备“在脑海中预演未来”的能力,通过内部仿真评估不同决策后果,从而做出更安全、前瞻的规划 [12] - 其系统架构同样分为三层:输入端为时序多模态传感器数据;核心层负责状态编码、记忆与生成式推演;输出端提供未来场景表征,为下游规划模块提供前瞻信息 [13][14] VLA与世界模型的区别与联系 - **主要区别**:目标上,VLA侧重人车交互与可解释的端到端驾驶,世界模型侧重构建预测与仿真系统;输入上,VLA包含显式语言指令,世界模型侧重时序观测;输出上,VLA输出直接动作或轨迹,世界模型输出未来场景状态;技术上,VLA利用大模型推理能力,世界模型依赖状态编码与生成式预测 [15] - **核心联系**:技术起源背景一致,均源于对传统模块化pipeline的反思;终极目标一致,均旨在赋予机器类人的认知与决策能力;都面临解决长尾场景的挑战;技术底层均重度依赖“预训练+微调”范式与Transformer等核心架构 [16][17][18][19] VLA与世界模型的融合路径与案例 - **架构级融合**:以世界模型作为核心的“预测与仿真”引擎,以VLA作为“交互与决策解释”层,二者协同工作 [22] - **训练数据互补**:利用世界模型生成大量逼真场景数据训练VLA,同时VLA产生的语言标注数据可提升世界模型的语义理解 [22] - **形成闭环智能**:VLA做出初步决策,世界模型进行快速“脑内推演”并评估风险,再将信息反馈给VLA进行调整或解释 [22] - **3D-VLA**:由东北大学、加州大学洛杉矶分校、麻省理工学院等机构于2024年3月提出,是一个能打通3D感知、推理和动作生成的世界模型,其关键创新在于训练扩散模型来生成执行指令后的目标状态,让模型学会“想象未来” [24][25] - **WorldVLA**:由阿里巴巴达摩院、浙江大学等机构于2025年6月提出,是一个将VLA与世界模型统一于单一框架的自回归动作世界模型,实现了动作与图像的联合理解与生成,在机器人操作基准测试中动作生成成功率超过同类模型约4% [28][29][31] - **IRL-VLA**:由清华大学AIR研究院、上海交通大学等机构于2025年8月提出,是一种基于逆强化学习奖励世界模型的闭环强化学习框架,用于训练端到端自动驾驶VLA策略,在NAVSIM v2闭环驾驶基准上取得领先性能 [34][35] - **DriveVLA-W0**:由中国科学院自动化研究所等机构于2025年10月提出,通过引入未来图像预测作为密集自监督任务,解决VLA模型“监督不足”的问题,在NAVSIM基准测试中超越多传感器基线模型,并能放大数据扩展定律 [37][38][39][40] - **WM-MoE**:由麻省理工、夏威夷大学等机构于2025年10月提出,是一个基于世界模型并融合专家混合网络与大型语言模型的运动预测框架,旨在系统性解决自动驾驶中的极端案例难题,在多个公开数据集上展现出卓越的鲁棒性和泛化能力 [42][43][45] - **FutureSightDrive**:由西安交通大学、阿里巴巴达摩院等机构于2025年11月提出,其核心创新是引入视觉时空链式思考作为中间推理步骤,让VLA模型能够进行“视觉思考”,有效弥合了感知与规划之间的模态鸿沟 [47][49][50] 行业动态与展望 - 工业界已开始布局相关融合技术,例如华为强调其世界模型能力,小鹏汽车正在开发VLA 2.0,而理想汽车在发布会上也展示了相关理解,预计未来将有更多厂商入局 [51] - 下一代自动驾驶的发展方向预计将沿着VLA与世界模型深度融合的思路推进 [51]
教AI「择偶生娃」,复刻自然演化,上交校友提名最佳论文
36氪· 2025-08-27 02:46
公司技术突破 - Sakana AI提出了一种名为M2N2(自然生态位的模型融合)的全新模型融合进化方法,该方法从自然演化中汲取灵感,引入了“竞争、择偶、繁衍”的机制 [1] - M2N2方法的核心思想是让AI模型像生物一样演化,通过竞争、协作与结合,繁衍出更强的后代,旨在构建一个多样化的AI生态系统,而非单一的庞大单体AI [1][3] - 该方法已作为研究论文在GECCO 2025会议上发表,并荣获最佳论文提名奖 [3] 技术原理与创新 - M2N2基于自然演化的三个关键思想:演化融合边界、多样性竞争和择偶机制 [5] - 演化融合边界:打破了预定义的静态融合边界(如固定层或块),允许模型像自然界交换可变长度DNA片段一样自由组合,拓宽了探索空间 [5] - 多样性竞争:模仿“丛林法则”,让模型为有限的训练数据资源竞争,迫使模型走向专业化并寻找自己的“生态位”,从而创造出一个由多样化、高性能专家组成的种群 [5] - 择偶机制:引入一种“吸引力”启发式方法,根据模型的互补优势(即在对方弱项上表现出色)进行智能配对融合,这大幅提升了演化搜索效率并降低了计算成本 [6] - 在优化目标上,M2N2将群体能从某个样本中提取的总适应度限制为容量,候选解获得的适应度正比于其分数相对于群体总分的占比,以此鼓励多样性 [7] 性能优势与实验结果 - M2N2首次将模型融合用于从零开始训练,并在性能与计算效率上优于所有当前的进化算法(如CMA-ES、GA、MAP-Elites) [6] - 实验1(进化MNIST分类器):针对一个19,210个参数的两层前馈神经网络,M2N2在从零开始的测试准确率上有显著优势;从预训练模型起步时,切分点和吸引力机制对提升性能至关重要 [11] - 在多样性方面,M2N2的模型库很快覆盖了绝大多数训练样本(高训练覆盖率),并在训练过程中通过淘汰弱模型来维持一个优势互补的库 [13][15] - 实验2(LLM数学专家与智能体融合):融合WizardMath-7B-V1.0与AgentEvol-7B模型,M2N2在数学基准GSM8k和网页购物基准WebShop上的平均得分最高,达到63.49 ± 0.63 [20] - 在LLM融合中,M2N2保持了高训练覆盖率,并在早期探索阶段熵值上升,随着低性能模型被移除,熵值逐步下降,而GA等方法则迅速收敛为单一解 [23][24] - 实验3(融合基于扩散的图像生成模型):融合JSDXL、SDXL1.0、SDXL-DPO与Juggernaut-XL-v9等模型,M2N2融合模型在测试集上的NCS分数达到84.85,优于所有其他模型 [26] - M2N2融合模型成功结合了各初始模型的优势,生成了更逼真、与训练集更一致的照片,并展现出对日语和英语的良好理解能力,实现了双语能力的涌现 [27][29][31] 技术应用价值 - M2N2在模型融合过程中避免了模型微调中常见的“灾难性遗忘”问题 [8] - 该方法能够兼容针对不同目标训练的模型,并在无需原始训练数据的情况下保留模型能力 [9] - 通过避免梯度计算,M2N2降低了内存占用 [9] - 该方法能够扩展到大型预训练模型(如LLM和扩散模型),并在数学和网络购物等任务上表现显著优于其他方法 [8] - 模型融合的可行性依赖于模型间的相似程度,若微调模型与基座模型因大量分歧训练而显著偏离,融合会变得困难;未来定义模型兼容性度量可能提升融合成功率 [33]