世界模型和VLA正在逐渐走向融合统一
自动驾驶之心·2025-11-10 03:36

技术趋势:VLA与WM的融合 - 视觉语言模型VLA和世界模型WM正逐渐走向融合统一,而非互相排斥的技术路线[2] - 中科院与引望团队在10月份推出的DriveVLA-W0工作证明VLA与WM结合可行[2] - 小米陈龙老师公开讨论VLA+WM融合,认为语言预测和未来预测是具身智能都需要的能力[3] - 语言模型负责抽象推理,引入互联网海量知识,处理高级逻辑和常识推理[3] - 世界模型负责物理和运动规律,通过预测未来像素或状态,涌现语义理解、深度感知等低级能力[3] - 学术界已探索多种融合方案:VLA-RFT在WM中强化学习微调VLA、WorldVLA三模态统一模型、Unified Vision-Language-Action Model离散化三模态[3] - 未来L4级自动驾驶训练链路将是VLA、强化学习RL和WM三者结合,缺一不可[4] - Tesla在ICCV的分享预示国内厂商将陆续跟进VLA+WA结合的技术路线[6] 自动驾驶之心知识星球资源 - 社区已运营三年,集视频、图文、学习路线、问答、求职交流为一体,目前成员超过4000人[9] - 目标在未来2年内达到近万人规模,打造交流与技术分享的聚集地[9] - 社区汇总近40个技术方向学习路线,包括VLA、端到端自动驾驶、世界模型、BEV感知等[11][14][23] - 提供近60个自动驾驶数据集资源,涵盖多模态大模型预训练、VLA微调、强化学习等专用数据集[11][41] - 社区成员来自上海交大、北京大学、CMU、清华大学等高校,以及蔚小理、华为、大疆、百度等近300家机构与企业[22] - 社区内部梳理了自动驾驶领域国内外知名高校实验室和公司资源,供学术深造和职业发展参考[33][35] - 提供与多家自动驾驶公司建立的岗位内推机制,帮助成员简历直达心仪企业[17] 技术学习体系与课程 - 社区原创直播课程覆盖感知融合、多传感器标定、SLAM与高精地图、决策规划等核心模块[17] - 具体课程包括:自动驾驶数据工程系列涉及自动标注与4D标注、2D/3D目标跟踪系列、自动驾驶仿真系列、端到端及大模型技术专题等[17] - 针对小白用户提供全栈方向学习课程,涵盖数学基础、计算机视觉、深度学习、编程等入门资料[16] - 技术专题深度覆盖:3D目标检测环视与多模态方法、BEV感知量产方案、Occupancy网络、扩散模型与自动驾驶结合等[23][57][55][47] - 实战内容重点包括:模型压缩与部署优化、CUDA加速、TensorRT及毫米波雷达融合等工程化主题[16][74][76] - 定期举办行业大佬直播分享,目前已累计超过一百场专业技术直播,内容可回看[94]