VLM - 财报，业绩电话会，研报，新闻 - Reportify

VLM

搜索文档

「一脑多形」圆桌：世界模型、空间智能在具身智能出现了哪些具体进展？丨GAIR 2025

雷峰网· 2025-12-20 04:07

" 世界模型解决具身智能相关问题，会不会距离太远？ " 作者丨张进编辑丨林觉民在 12 月 13 日举行的第八届GAIR全球人工智能与机器人大会"数据&一脑多形"分论坛上，一场有关"一脑多形"的圆桌论坛，将整个会场气氛推向高潮，在英诺天使基金 ED 王建明的主持下，浙江大学控制学院副教授，微分智飞创始人高飞，宁波东方理工大学助理教授金鑫，上海人工智能实验室青年科学家王靖博三位嘉宾围绕着具身智能、空间智能、世界模型等话题进行了热烈讨论。通过主持人特有的投资人式、抽丝剥茧的提问，围绕着几位学者的研究和创业方向，我们可以了解到当下最火热的世界模型、空间智能在具身智能领域的研究进展和细节，从而得以穿透资本笼罩在世界模型、空间智能的迷雾，看到具身智能当下遇到的挑战与机遇。 01 具身智能技术路线仍未收敛王建明：三位学者研究的方向都非常不一样，开场先问一个共性的问题热热场，大家怎么看过去两年具身智能的发展？高飞：现在还没到技术路线收敛的时候，还属于探索阶段，这是好事，有发散才有机会。这波具身智能的热潮，大家本质期待的还是 AI 结合本体能带来的智能性的飞跃。我认为从发散探索到技术路线收敛、到 ...

多模态V-JEPA

多模态V-JEPA

自动驾驶三大技术路线：端到端、VLA、世界模型

自动驾驶之心· 2025-11-21 00:04

文章核心观点 - 行业当前致力于解决安全且经济的 corner case 问题 [1] - 技术路线存在三大核心争议：单车智能与智能网联、视觉与激光雷达传感器、模块化与端到端算法架构 [1] - AI决策领域呈现VLM、VLA、WA（去LLM）三种主流技术路径分化，代表企业分别为Waymo、特斯拉/吉利/小鹏、华为 [1] - 自动驾驶技术演进遵循从规则系统到数据驱动，再到认知建模的路径 [3] 技术演进与架构分阶段模块化架构 - 传统架构划分为感知（定位）、预测、规划、控制五大独立模块 [5] - 感知模块负责处理图像与点云数据，完成目标检测与地图分割任务 [5] - 定位模块融合GPS、IMU及地图匹配技术以确定车辆精确位置 [5] - 预测模块在几何空间内运行，预测周围环境未来状态（如车辆轨迹） [5] - 规划模块结合导航与感知信息，在有限时间内生成安全舒适的可行驶轨迹 [5] - 控制模块精确执行油门、刹车及转向指令 [5] BEV与OCC感知技术 - BEV感知于2022年成为主流，OCC感知于2023年兴起 [3] - BEV核心价值在于统一多传感器数据的表征空间，解决信息融合根本问题 [14] - BEV优势包括天然适配动态/静态感知、快速替代传统检测方案、99%常规场景可收敛 [15] - BEV缺陷体现在非结构化场景与超复杂路口（150米+）存在瓶颈，暴露纯几何表征天花板 [15] - OCC占用网络提供时间维、空间维及不确定性数据，优于仅提供目标检测的BEV [6] - 为解决BEV高度信息缺失及LSS投影缺陷（离散稀疏、不连贯、无容错），行业引入3DGS技术 [16][17] - 3DGS通过"软投影"特性实现连续致密特征、平滑过渡及容错能力，提升BEV感知质量 [18][19] 端到端自动驾驶定义与分类 - 端到端系统定义为从传感器原始输入到任务变量输出的完全可微过程 [20][22] - 狭义端到端指传感器数据直接输出规划/控制动作或行驶轨迹 [22] - 技术演进分为四个阶段：感知端到端、决策规划模型化、模块化端到端、One Model单一模型端到端 [31] - 模块化端到端（华为、小鹏、理想采用）实现感知与规划模块的梯度协同训练，接口基于特征向量 [31] - One Model端到端（特斯拉采用）采用单一深度学习模型直接映射原始信号至轨迹输出 [31] 优势与挑战 - 端到端本质是实现感知信息的无损传递，通过梯度反传实现全局优化 [22][25] - 传统分阶段架构问题在于各模块独立优化导致的阶段目标不一致、误差累积及计算负担 [27] - 端到端面临可解释性悖论（性能提升但安全性可解释性降低）、数据规模与质量要求高、长尾场景覆盖度不足三大挑战 [27][28] - 决策层技术路线包括模仿学习（快速获得基础能力但泛化性不足）与强化学习（学得鲁棒策略但依赖仿真环境） [29] VLM、VLA与WA技术路径 VLM（视觉语言模型） - VLM让AI负责环境理解与推理，最终决策权交由传统模块以确保过程可控，代表企业为Waymo [1][35] - 技术流程为环境信息输入→VLM→推理链/多任务→非直接控制输出，运行频率低（2-5 Hz） [36] - VLM能够解释复杂交通场景并提升系统可解释性，但存在"行动鸿沟"，即语言输出与实际控制脱节 [36] - 输入数据包括视觉输入（多摄像头图像、BEV特征图）、Prompt指令、导航指令及用户指令 [36] VLA（视觉语言动作模型） - VLA试图让AI直接学习所有驾驶技巧，通过海量数据训练实现"端到端"决策，代表企业为特斯拉、吉利、小鹏 [1][39] - 技术流程为环境信息输入→多模态编码器→LLM/VLM→动作解码器→驾驶动作，形成感知推理行动闭环 [40] - 语言输入演进历经直接导航指令、环境查询、任务级指令至对话式推理四个阶段 [42] - 动作解码器可采用自回归令牌器、扩散模型头或分层控制器生成控制信号或轨迹点序列 [42] - 小鹏第二代VLA为商业应用代表，技术发展历经语言模型作为解释器、模块化VLA、统一端到端VLA、推理增强VLA四个阶段 [44][48] WA（世界动作模型）与路线之争 - 华为ADS 4采用WEWA架构（世界引擎+世界动作模型），强调无需语言组件，直接建立时空认知能力 [1][52][55] - WEWA架构核心逻辑为视觉直接映射动作，跳过语言转化环节，关键指标为端到端时延降低50%、重刹率降低30% [56] - VLA架构核心逻辑为视觉-语言-动作三级传导，以语言为中介，优势在于复杂场景决策准确率提升及支持自然语言交互 [56] - 语言模型价值在于跨场景知识迁移能力（如预训练模型规划误差降低27.12%）、多模态信息统一表征及决策可解释性 [57] - 技术路线核心差异在于是否依赖语言抽象，VLA依赖语言模型归类场景，而WEWA主张直接学习时空物理规律 [55][57]

端到端自动驾驶

端到端自动驾驶

最火VLA，看这一篇综述就够了

具身智能之心· 2025-11-03 00:03

文章核心观点 - 视觉-语言-动作模型是当前人工智能领域极具吸引力的前沿阵地，其目标是让机器人具备听懂人话、看懂世界、动手干活的能力 [7] - ICLR 2026会议上VLA模型相关投稿量从去年的个位数飙升至164篇，增长了18倍，显示出该领域的爆发式增长 [6] - 学术界对VLA尚无统一定义，但核心标准是模型必须使用经过大规模互联网级别视觉-语言数据预训练的骨干网络 [8][9] VLA概念定义与区分 - VLA模型强调基因，必须继承自强大的视觉语言模型，具备语言理解、视觉泛化和任务迁移能力 [9][12] - 大型行为模型强调养料，指在大规模多任务机器人演示数据上训练出的策略 [11][13] - 一个在大量机器人数据上微调的VLA同时也是一个LBM，但LBM不一定是VLA [13][14] - 简单拼接独立视觉编码器和文本编码器的模型应称为多模态策略，而非VLA [11] ICLR 2026 VLA八大技术趋势 - **高效架构新范式**：离散扩散模型成为新风向，可并行生成整个动作序列，在LIBERO评测中取得近乎饱和表现 [15][16][17] - **具身思维链**：让机器人生成动作前先产生中间推理步骤，提升计划与解释能力，在SIMPLER等评测中表现突出 [18][19][20][21] - **动作分词器**：将连续高频机器人动作转换为VLM能理解的离散词汇，包括FASTer Tokenizer和OmniSAT等新进展 [22][25][31] - **强化学习微调**：作为VLA策略的微调利器，代表作在LIBERO和SIMPLER上分别取得99%和98%的成功率 [26][27][32] - **效率优化**：通过HyperVLA的超网络机制和AutoQVLA的智能量化等技术降低硬件门槛，使VLA走向平民化 [28][29][33] - **视频预测赋能**：利用视频生成模型理解时序动态和物理规律，为机器人控制提供强先验知识 [30][35][36] - **真实评测基准**：社区开发如RoboCasa365和WorldGym等新基准，致力于打破对现有测试集的过拟合 [37][40][47] - **跨体态学习**：通过X-VLA的软提示、XR-1的统一视觉-运动编码等技术让模型适应不同结构的机器人 [41][43][48] 行业现状与挑战 - 主流仿真评测存在性能天花板问题，开源模型仿真得分高但真实世界表现仍难匹敌前沿产品如Google的Pi-0.5 [44][45] - 头部公司凭借海量高质量真实数据、更看重开放环境和泛化能力的评测维度以及大规模工程支持占据优势 [49] - 数据质量中的噪声、歧义和次优行为可能限制模型上限，上下文学习机制向机器人领域的迁移或是通用VLA的突破口 [50] 作者背景与权威性 - 作者Moritz Reuss是德国卡尔斯鲁厄理工学院四年级博士生，2025年Apple AI/ML学者奖得主 [4][46][52] - 作为将扩散模型引入机器人策略研究的先行者，其研究成果多次发表于RSS、ICLR、NeurIPS等顶级会议 [4][52]

离散扩散模型

具身思维链

动作分词器

离散扩散模型

具身思维链

动作分词器

理想智驾是参考特斯拉, 不是跟随特斯拉已经有了很强的证据

理想TOP2· 2025-10-24 04:48

理想智驾与特斯拉的技术发展关系 - 理想智驾从V10-11时期的跟随特斯拉转变为V12及以后的参考特斯拉，跟随尺度显著降低[2] - 转变的核心锚点是理想在VLM后进行了大量特斯拉未公开提及的原始创新，其VLA创新度达到DeepSeek MoE水平[2] - 理想VLM由快系统（系统一）和慢系统（系统二）组成，快系统部分可视为跟随特斯拉，但慢系统部分为理想独立创新，因为特斯拉直到ICCV 2025才提及该概念，而理想在2024年X月已发表相关论文[3] - 理想VLM到VLA的演进是基于VLM的自然发展路线，而非追随特斯拉[3] 特斯拉端到端自动驾驶技术框架 - 特斯拉转向单一、大型的端到端神经网络，直接输入像素和传感器数据，输出控制动作，不再有显式感知模块[4] - 转向端到端的原因包括：人类价值观编码困难、传统模块接口信息丢失、易于扩展处理长尾问题、实现同构计算与确定性延迟[5] - 面临三大挑战：维度灾难（30秒窗口达20亿token）、可解释性与安全保证、评估难度[6][7] - 解决方案包括：利用车队数据挖掘高价值场景、通过辅助输出（如3D占用、自然语言决策）实现可解释性、使用神经网络闭环模拟器进行评估[7][8][9][10] 理想与特斯拉技术路线的对比与创新时序 - Ashok在ICCV 2025提及的系统2自然语言应用、高斯溅射生成仿真、仿真评估等概念均为理想率先公开[13][16] - 理想在2024年1月2日发表的论文已包含3D高斯表征相关内容，早于特斯拉ICCV 2025的公开介绍[18][20] - 特斯拉架构图中明确标注系统2和LLM应用，进一步验证理想在相关技术方向的先行性[22] - Ashok此次演讲未提出突破性概念，因此不能认为特斯拉再次引领行业研究方向调整[13]

端到端神经网络

端到端神经网络

Vision-Zero：零数据VLM自我进化！陈怡然团队提出零监督训练新范式

机器之心· 2025-10-11 03:29

Vision-Zero框架核心创新 - 提出专为视觉语言模型设计的自博弈框架Vision-Zero，通过模型与自身副本竞争自动生成高复杂度推理数据，无需人工标注[6] - 框架特点包括策略自博弈、支持任意形式图片输入、以及通过Iterative-SPO算法实现持续性能提升，解决了传统自博弈的性能瓶颈问题[6][7] - 该框架在多个领域如推理和图表问答任务上，即使未使用任何标注数据训练，也超越了其他需要标注的当前最优方法[7] 自博弈机制设计 - 受社交推理游戏“谁是卧底”启发设计自博弈规则，游戏包含n名平民和1名卧底，卧底图片与平民存在细微差异[12][13] - 游戏过程包括线索阶段和决策阶段，迫使智能体生成复杂推理链条，随着对手能力提升，其视觉理解与推理能力被激发增强[14][15] - 游戏仅需两张有细微差异的图片对即可启动，数据构建成本低廉，应用场景广泛，支持合成场景、图表数据和真实世界图片等多种输入[17][18] 训练方法与性能优化 - 提出Iterative Self-Play Policy Optimization双阶段交替训练算法，通过自博弈和可验证奖励的强化学习交替优化，避免陷入局部平衡和知识饱和[20] - 实验表明交替训练性能明显优于单阶段训练，有效缓解了纯自博弈训练难以探索新推理路径的问题[20] 实验结果与性能表现 - 在六个基准数据集测试中，VisionZero-Qwen-7B模型较基线提升约3%，另一版本提升约2.8%，而最优基线方法仅提升约1.9%[22] - Vision-Zero框架训练的模型有效缓解了跨能力负迁移问题，例如在图表问答任务上，基线模型性能下降约10%，而Vision-Zero模型在视觉任务提升的同时，在图表任务上平均仅下降0.2%[24] - 具体数据显示，VisionZero-Qwen-7B在MathVista得分72.6，在MathVision得分28.1，在WeMath得分39.8，平均表现优于对比基线模型[24] 框架启示与应用潜力 - Vision-Zero证明了自博弈从单一任务走向通用任务的可行性与巨大潜力，通过构建开放、可扩展的博弈环境摆脱了对人工标注的依赖[26] - 该框架使模型在无需特定任务训练的前提下实现可持续的能力进化与跨领域泛化，突破了数据和知识瓶颈[26]

跨能力负迁移

Artificial Intelligence

跨能力负迁移

Artificial Intelligence

自动驾驶VLA发展到哪个阶段了？现在还适合搞研究吗？

自动驾驶之心· 2025-09-22 08:04

智能驾驶技术演进 - 行业正经历从规则驱动向数据驱动的根本转变端到端方法虽能打通上下游视角但在复杂困难场景中仍受限 [1] - 视觉语言动作模型成为新焦点其本质是一种更直白干净的端到端架构取消了复杂的3D感知任务借鉴视觉语言模型的通用泛化能力提供解决极端案例的可能性 [1] 技术发展现状 - 自动驾驶视觉语言动作模型技术栈尚未收敛多种算法如雨后春笋般涌现包括模块化架构和一体化架构等不同范式 [2] - 行业面临技术栈多样化带来的入门困难论文数量繁多且知识碎片化缺乏高质量文档和系统实战指导从理论到实践的过渡存在挑战 [2] 课程体系设计 - 课程采用即时学习理念通过通俗易懂的语言和案例帮助学员快速掌握核心技术栈 [3] - 构建领域框架提升研究能力帮助学员梳理研究发展脉络掌握核心框架学会论文分类和创新点提取 [4] - 理论结合实践完成闭环学习配备实战环节实现从理论到实践的完整过渡 [5] 课程内容架构 - 第一章概述视觉语言动作模型算法概念及发展历史详细介绍开源基准测试和常见评测指标 [14][15] - 第二章聚焦视觉语言动作三大模块的基础知识并扩展大模型部署使用内容以Qwen 2.5VL-72为例讲解本地部署 [16][17] - 第三章讲解作为自动驾驶解释器的视觉语言模型经典算法包括DriveGPT4 TS-VLM DynRsl-VLM SENNA等重点分析算法动机和网络结构 [18][19] - 第四章深入模块化与一体化视觉语言动作模型涵盖BEV感知动静态检测占用网络轨迹预测序列建模模态对齐动作解码器 RAG 思维链监督微调强化学习混合专家模型等技术要点 [20][21] - 第五章专注推理增强视觉语言动作模型子领域讲解思维链记忆体工具调用等推理模块分析长时序规划和因果解释能力 [23][24] - 第六章设置大作业实践基于ms-swift框架开展自定义数据集训练和模型微调提供可修改优化的演示代码 [26] 实战案例配置 - 选用华科与小米最新提出的ReCogDrive作为第四章实战案例包含预训练模仿学习训练和强化学习训练三阶段涵盖GRPO和扩散模型轨迹输出等技术栈 [22] - 选用清华AIR与博世提出的Impromptu VLA作为第五章实战案例基于开源Qwen2.5 VL进行数据集制作训练和推理 [24] 师资与学术资源 - 教学团队来自清华大学和QS30高校在ICCV IROS EMNLP等顶级会议发表多篇论文具备多模态大模型与自动驾驶研发经验 [27] - 课程覆盖多项前沿研究成果包括慕尼黑工大OpenDriveVLA 上海交大DriveMoE 博世DiffVLA UC Berkeley S4-Driver 华科ORION 阿里FutureSightDrive UCLA AutoVLA 中科院Drive-R1等 [29][30] 教学安排要求 - 课程于10月20日开课预计两个半月完成采用离线视频教学配合VIP群答疑和三次线上答疑 [32] - 学员需自备4090及以上算力GPU 具备自动驾驶基础 Transformer大模型强化学习 BEV感知等技术背景熟悉Python和PyTorch开发语言 [31]

自动驾驶VLA

《自动驾驶VLA实战教程》

《自动驾驶VLA实战课程》

自动驾驶VLA

《自动驾驶VLA实战教程》

《自动驾驶VLA实战课程》

小鹏&理想全力攻坚的VLA路线，到底都有哪些研究方向？

自动驾驶之心· 2025-09-17 23:33

技术趋势分析 - 端到端与视觉语言动作模型标志着智能驾驶从规则驱动向数据驱动的根本性转变 [1] - 端到端模型虽能打通上下游视角，但在处理复杂困难场景时仍受限制，量产模型迭代陷入无限处理极端案例的循环 [1] - 视觉语言动作模型可视为一种更直白干净的端到端方法，取消了复杂的3D感知任务，凭借更强大的通用泛化能力为解决极端案例提供了可能性 [1] - 自动驾驶视觉语言动作模型技术栈尚未收敛，一系列算法如雨后春笋般出现 [2] 课程核心价值 - 课程基于Just-in-Time Learning理念，通过通俗易懂的语言和案例帮助学员短时间内掌握核心技术栈 [3] - 课程帮助学员梳理自动驾驶视觉语言动作模型的研究发展脉络，掌握领域核心框架，学会将论文分类并提取创新点 [4] - 课程配有实战环节，完成从理论到实践的完整闭环 [5] - 课程涵盖视觉感知、语言模块、动作模块及大模型前沿技术，包括检索增强生成、思维链、强化学习、混合专家模型等广泛技术栈 [2] 课程内容架构 - 第一章概述自动驾驶视觉语言动作模型算法概念及发展历史，介绍开源基准和常见评测指标 [9][10] - 第二章讲解视觉、语言、动作三个模块的基础知识，以及大模型与自动驾驶视觉语言动作模型的结合，包括以Qwen 2.5VL-72为例的开源大模型部署使用 [11][12] - 第三章讲解作为自动驾驶解释器的视觉语言模型经典及最新算法，包括DriveGPT4、TS-VLM、DynRsl-VLM、SENNA等算法的动机、网络结构及核心 [13][14] - 第四章聚焦模块化与一体化视觉语言动作模型，讲解视觉感知、语言模型、动作模块的基础知识及检索增强生成、思维链、监督微调、强化学习、混合专家模型等技术 [15][16] - 第四章实战代码选取华科和小米最新提出的ReCogDrive，涵盖预训练、模仿学习训练和强化学习训练三个阶段的主流范式 [17] - 第五章聚焦推理增强视觉语言动作模型子领域，讲解长思维链推理、记忆和交互等趋势 [18][19] - 第五章实战代码选取清华AIR和博世提出的Impromptu视觉语言动作模型，基于开源Qwen2.5 VL进行数据集制作、训练和推理 [19] - 第六章大作业基于ms-swift框架，从网络构建开始，自定义数据集和加载模型，开启训练任务并进行微调 [21] 学术前沿覆盖 - 课程覆盖慕尼黑工大提出的OpenDriveVLA、上海交通大学提出的DriveMoE、博世和清华AIR提出的DiffVLA、UC Berkeley和Waymo中稿CVPR2025的S4-Driver等前沿算法 [24] - 课程涵盖华科&小米 ICCV2025中稿的ORION、阿里&西交团队提出的FutureSightDrive、UCLA提出的AutoVLA、中科院和华为诺亚提出的Drive-R1等最新研究 [25] 教学团队与安排 - 讲师团队包括清华大学硕士生、QS30高校博士在读研究人员，在ICCV/IROS/EMNLP/Nature Communications等顶级会议发表多篇论文，具备多模态感知、自动驾驶视觉语言动作模型、大模型Agent等前沿算法预研经验 [22] - 课程于10月20日开课，预计两个半月结课，采用离线视频教学结合VIP群内答疑及三次线上答疑的模式 [27]

自动驾驶VLA

自动驾驶VLA

自动驾驶中有“纯血VLA"吗？盘点自动驾驶VLM到底能起到哪些作用~

自动驾驶之心· 2025-09-06 16:05

视觉语言自动驾驶模型技术实现 - 模型支持不同数量相机输入无需明确指定相机数量[2] - 轨迹输出采用文本形式通过Prompt限制为XY坐标格式[4] - 输出坐标为车辆坐标系相对值原点为(0,0) 非图像坐标[6] - 使用Python编程进行轨迹格式规范化处理确保输出符合预期[8] - 通过JSON格式和关键词约束优化未经训练模型的输出效果[9] 数据集构建与处理 - 遇到坐标异常问题连续多帧坐标相同后出现突变[14] - 不同数据集存在坐标格式差异包括经纬度与相对坐标[14] - 通过规则化方法剔除不合理轨迹数据[14] - 统一转换为自车坐标系下的相对位移进行数据对齐[18] - 输入为图像和前1.5秒轨迹点输出未来5秒轨迹点[20] 模型训练与性能 - 经过数据训练后模型输出格式符合性显著提升[8] - 通过QA训练获得多模态轨迹预测和场景理解能力[11] - 具备动态物体轨迹预测能力包括车辆行人运动预测[11] - 新增端到端预测任务确保数据完整性[20] 社区资源与技术覆盖 - 知识星球涵盖40+技术方向包括多模态大模型和端到端自动驾驶[22] - 社区成员来自头部自驾公司和高校实验室超4000人规模[24] - 提供近40个技术路线图和学习入门路线[24] - 包含自动驾驶数据集汇总与仿真工具资源[27] - 建立与多家自动驾驶公司的岗位内推机制[29]

多模态大模型

自动驾驶VLM模型

多模态大模型

自动驾驶VLM模型

端到端VLA的起点：聊聊大语言模型和CLIP~

自动驾驶之心· 2025-08-19 07:20

大语言模型技术发展 - 大语言模型近五年发展迅速，Transformer架构是核心技术基础 [3][5][7] - Transformer核心模块包括注意力机制和多头注意力，通过8个head增强编解码能力 [11][12] - 位置编码采用正弦/余弦函数实现顺序表征，公式为PE(pos,2i)=sin(pos/10000^(2i/d_model)) [9][13] - BPE分词算法通过合并高频字符逐步构建词表，流程包括统计频次、迭代合并等步骤 [8][13] 视觉与语言模型对齐技术 - CLIP是视觉与大模型对齐的典型代表，实现跨模态特征匹配 [18] - 多模态技术栈涵盖BEV感知、扩散模型、强化学习等方向 [48] - VLA（Vision-Language-Action）成为自动驾驶前沿方向，整合VLM、BEV和强化学习技术 [50] 端到端自动驾驶课程体系课程结构 - 第一章概述端到端发展史，对比模块化与端到端范式差异 [40] - 第二章重点讲解大语言模型、BEV感知、扩散模型等关键技术 [41][48] - 第三章分析二段式端到端方案，涵盖PLUTO、CarPlanner等经典算法 [42] - 第四章深入一段式端到端，包括UniAD、DiffusionDrive等前沿工作 [43][47] - 第五章设置RLHF微调实战，强化VLA技术迁移能力 [52] 技术亮点 - 覆盖CVPR'25最新成果CarPlanner和AAAI'25世界模型Drive-OccWorld [42][45] - 实战项目包括Diffusion Planner和ORION开源框架复现 [47][50] - 课程目标使学员达到1年经验算法工程师水平，掌握40-70K岗位核心技术 [31][57] 行业应用与人才需求 - VLA算法专家岗位薪资达40-70K-15薪，需求集中在3-5年经验硕士 [31] - 技术栈要求涵盖多模态大模型、BEV感知、模型量化部署等方向 [34][48] - 主机厂加速布局端到端量产方案，推动世界模型、扩散模型等技术落地 [26][50]

大语言模型

端到端自动驾驶

大语言模型

端到端自动驾驶

自动驾驶秋招交流群成立了！

自动驾驶之心· 2025-08-18 23:32

技术发展趋势 - 自动驾驶技术栈呈现趋同态势从过去几十个方向算法需求转向统一方案如one model、VLM和VLA [1] - 技术方案统一化实际形成更高行业技术壁垒 [1] 行业社群建设 - 建立综合型平台汇集全行业人才通过社群方式促进产业人才共同成长 [1] - 社群内容覆盖相关产业讨论、公司分析、产品研发及求职跳槽等专业领域 [1] - 提供行业社交网络构建渠道帮助成员获取产业第一手信息 [1]

Autonomous Driving Technology

Autonomous Driving

Autonomous Driving Technology

Autonomous Driving