Workflow
自动驾驶之心
icon
搜索文档
有一定深度学习基础,该如何入门自动驾驶?
自动驾驶之心· 2025-09-25 23:33
公司业务与平台架构 - 公司搭建了自动驾驶、具身智能和大模型三个技术平台 [2] - 平台通过知识星球社区提供近40+学习路线 [8] - 平台提供七门面向初学者的精品课程 [8] 行业技术发展趋势 - 自动驾驶技术栈快速迭代,三年前主流是BEV,两年前是无图技术,一年前是端到端,当前热点是VLA和世界模型 [1] - 行业面临VLA和WA的路线之争以及未来发展方向等前沿议题讨论 [8] 公司产品与服务 - 平台提供与学术界及工业界顶尖专家的面对面交流机会 [8] - 社区内容涵盖VLA NavigScene、LangCoop、DriveBench、ZeroGS、Diffusion planner等前沿主题 [8] - 课程内容覆盖世界模型、轨迹预测、大模型、相机标定、毫米波、点云3D检测、Transformer等技术领域 [8] 市场活动与推广 - 公司推出国庆节和中秋节年度最大优惠活动 [2] - 提供平台课程八折优惠券和七折超级折扣卡 [4] - 知识星球新人享受七折优惠,续费用户可享五折优惠 [5]
如何向一段式端到端注入类人思考的能力?港科OmniScene提出了一种新的范式...
自动驾驶之心· 2025-09-25 23:33
文章核心观点 - 提出了一种名为OmniScene的全新类人框架,旨在解决当前自动驾驶系统缺乏真正场景理解能力的问题,通过结合环视感知与时序融合实现全面的4D场景理解 [2] - 该框架通过师生结构的OmniVLM架构与知识蒸馏,将文本表征嵌入3D实例特征以实现语义监督,并采用分层融合策略解决多模态融合中的模态贡献不平衡问题 [2] - 在nuScenes数据集上的评估表明,OmniScene在所有任务中均实现了更优性能,特别是在视觉问答性能上实现了21.40%的显著提升 [3] 技术框架与创新 - 引入OmniScene视觉-语言模型,这是一种结合环视感知与时序融合能力的VLM框架,可实现全面的4D场景理解 [2] - 通过师生结构的OmniVLM架构与知识蒸馏,将文本表征嵌入3D实例特征中以实现语义监督,明确捕捉类人的注意力语义信息 [2] - 提出分层融合策略,以解决多模态融合过程中模态贡献不平衡的问题,该方法能在多个抽象层级上自适应校准几何特征与语义特征的相对重要性 [2] - 框架输入包括环视图像、操作指令与用户提示,通过学生端OmniVLM模块生成文本标注,并与视觉特征、三维实例特征融合形成全面特征表示 [23] 算法核心组件 - 采用基于稀疏查询的范式初始化三维目标实例集,有效降低计算复杂度并使模型聚焦于信息区域 [41][45] - 设计4D时空融合模块,通过解耦交叉注意力显式建模实例在多帧间的时间依赖关系,并通过解耦自注意力挖掘当前帧内实例间的空间关系 [46][52] - 引入视觉可变形聚合模块,以每个实例的几何先验为引导,自适应从环视图像特征中聚合信息线索 [53][59] - 设计文本条件聚合模块,将文本语义信息整合到每个三维实例特征中,实现上下文感知推理 [60][65] - 引入深度优化模块,利用增强实例特征与来自环视图像的辅助深度线索,对每个实例的估计深度进行校正与优化 [66][69] 性能评估结果 - 在nuScenes验证集上的感知任务中,所提模型的nuScenes检测得分达到0.526,平均平移误差最低为0.555米 [96] - 在跟踪任务上,平均多目标跟踪精度为1.235,召回率为0.528,身份切换次数仅为503次,显著优于所有现有基线模型 [98][99] - 在预测任务中,最小平均位移误差和最小最终位移误差分别低至0.61米和0.96米,遗漏率最低为0.128 [100][101] - 在规划任务中,轨迹L2误差平均值最低为0.58米,在所有预测时域下均表现领先 [102] - 在视觉问答任务中,OmniVLM 7B模型的CIDEr得分为87.39,比最佳基线模型高出24.9% [104][106] 行业应用与前景 - 该技术框架展示了在复杂城市驾驶环境中实现全面场景理解与推理的显著优势,为自动驾驶系统的智能决策与安全规划提供了新思路 [107][109] - 实时性能评估表明,OmniVLM 3B模型在A800平台上仅需88毫秒处理300个输入令牌,总处理时间在113毫秒到139毫秒之间,满足实时任务要求 [125][127] - 行业对VLA/VLM大模型算法专家的需求旺盛,相关岗位薪资范围在40-70K之间,反映了该技术方向的市场价值和发展潜力 [9]
从现有主流 RL 库来聊聊RL Infra架构演进
自动驾驶之心· 2025-09-25 23:33
强化学习在大模型发展中的核心作用 - 强化学习已从辅助技术跃升为驱动大模型能力跃迁的核心动力 正经历从单轮静态任务向多轮交互式智能体训练的关键范式转移 目标是构建能在复杂动态环境中通过多步观察思考行动与反馈完成任务的智能体 这是通往AGI的关键一步[2] - 强化学习正在重塑大模型能力边界 不仅是弥补数据瓶颈的利器 更是构建下一代通用智能体的核心方法论 背后依赖日益成熟的RL基础设施生态[2] 现代RL基础设施架构范式 - 核心架构围绕Generator和Trainer两大组件 Generator负责让LLM与环境交互生成轨迹并计算奖励 计算开销大 设计灵活性和环境抽象能力至关重要 Trainer负责根据轨迹数据使用PPO和GRPO等算法更新模型参数 性能取决于分布式训练后端如FSDP DeepSpeed Megatron[6] - 生成器-训练器架构配合Ray等分布式协调层构成大模型强化学习系统的黄金标准 RL训练计算成本极高 涉及大规模并行推理和参数更新 优秀RL库需高效稳定可扩展地协调这两个阶段[6] Primary Development框架 - TRL是Hugging Face官方推出的最开箱即用的RL框架 更像训练器集合而非复杂分布式系统 算法支持包括SFT PPO DPO GRPO IPO KTO Online DPO REINFORCE++等 集成transformers库 支持vLLM加速Rollout 训练后端依赖accelerate库 支持DDP DeepSpeed ZeRO FSDP API简洁文档丰富 适合快速原型和中小规模实验 但不支持环境交互 生成与训练耦合紧[9][10][14] - OpenRLHF由OpenLLMAI 字节 网易等联合开发 旨在提供高效可扩展的RLHF和Agentic RL框架 训练后端基于DeepSpeed ZeRO-3和Auto Tensor Parallelism 代码结构清晰 是许多二次开发框架的基础[11][15] - veRL由字节Seed团队开发 是功能最全面算法支持最广泛的框架之一 算法支持包括PPO GRPO GSPO ReMax REINFORCE++ RLOO PRIME DAPO DrGRPO等 架构采用HybridFlow控制器 支持多轮训练和工具调用 目前生成与训练耦合 后续规划异步解耦 集成vLLM和SGLang等推理后端 训练后端支持FSDP/FSDP2和Megatron-LM 奖励支持模型奖励和函数规则奖励如数学代码 追求全能 涵盖所有主流RL算法和应用场景 是前沿算法研究和复杂任务如多模态多智能体实验的理想选择 配置较复杂[16][22] - AReaL由蚂蚁开源 专为大规模高吞吐推理模型RL设计 核心是完全异步架构 算法支持包括PPO GRPO REINFORCE++ RLOO DPO IPO KTO等 架构支持异步Pipeline RLHF和异步Agentic RL模式 后者通过Agent类API支持多轮对话 深度集成vLLM用于高吞吐Rollout 核心创新是完全异步设计 通过可中断Rollout Worker经验回放缓冲区和并行奖励服务将生成与训练彻底解耦 使用SGLang进行Rollout Ray进行集群管理 训练后端主要使用PyTorch FSDP 也支持Megatron 为追求极致训练效率和可扩展性而生 其轻量版AReaL-lite提供更易用API[20][21][28] - NeMo-RL是NVIDIA官方推出的面向生产的RL框架 集成在NeMo生态系统中 与NVIDIA硬件GPU和软件栈CUDA TensorRT深度集成 提供从RM训练到PPO的端到端Pipeline 设计优雅接口定义清晰 性能和扩展性兼顾[24][29] - ROLL是阿里开源专注于大规模LLM RL的框架 强调异步和Agentic能力 算法支持集成了GRPO PPO REINFORCE++ TOPR RAFT++ GSPO等多种先进RL算法 架构采用基于Ray的多角色分布式设计 将策略生成价值评估奖励计算等任务解耦到独立Worker角色中 实现灵活资源调度异步训练和复杂任务编排 深度集成SGLang和vLLM作为高性能推理后端加速策略生成Rollout 训练后端主要基于DeepSpeed ZeRO和Megatron-LM 5D并行 未来支持FSDP2 奖励通过模块化奖励工作者RewardWorker处理奖励计算 支持验证器沙盒LLM-as-judge等多种奖励源 构建灵活奖励路由机制 面向多样化用户 高度可配置接口丰富[30][36] - slime由清华智谱开源 是轻量级专注于将SGLang与Megatron无缝连接的框架 架构强调可扩展性和生产级编排 支持异步Rollout非Colocate放置等 训练后端支持Megatron-Core和DTensor FSDP2 集成支持使用TensorRT-LLM和vLLM进行rollout 通过自定义数据生成接口和服务端引擎实现任意训练数据生成流程 支持异步训练和Agentic工作流 追求极简主义与高性能[34][35][40] Secondary Development框架 - Agentic RL智能体强化学习框架包括verl-agent基于veRL构建 专门为Agentic RL优化 支持异步Rollout和训练 以及agent-lightning实现训练与推理解耦 更容易支持多智能体训练 关键技术包括异步生成经验回放环境接口标准化[46][47][49][50][52] - Multimodal RL多模态强化学习框架包括VLM-R1和EasyR1基于veRL开发 用于训练视觉语言推理模型 以及DanceGRPO专门用于扩散模型如文生图的RL训练 关键技术包括多模态数据加载器跨模态奖励设计如CLIP分数针对扩散模型的特殊采样策略ODE/SDE转换[54][55][57][58] - Multi-Agent RL多智能体强化学习框架包括MARTI由清华C3I提出的首个高性能开源LLM多智能体强化训练与推理框架 通过统一框架整合多智能体推理与强化学习 结合高性能引擎与灵活架构 为复杂协作任务提供高效可扩展解决方案 兼容单智能体RL框架如OpenRLHF veRL 支持vLLM 以及Agent-Lightning其解耦设计便于扩展到多智能体场景 关键技术包括集中训练分散执行CTDE基于自然语言的信用分配如LLaMAC多智能体策略优化如MAGRPO[60][62][63] RL基础设施发展趋势 - 标准化与模块化 RL基础设施正从手工作坊走向标准化流水线 框架设计越来越模块化 将Rollout Reward Train等环节解耦 便于复用和扩展 库不再绑定单一推理后端 支持vLLM SGLang等[65] - 异步化成为大规模RL必备特性 为应对Rollout和Train之间巨大计算不对称性 异步架构如AReaL OpenRLHF slime等已成为关键[65] - 推理引擎至关重要 vLLM和SGLang等高性能推理引擎的出现极大加速了Rollout过程 成为现代RL框架标配[66] - 从RLHF向Agentic RL演进 早期库如TRL主要为单步任务设计 新一代库内置强大环境抽象以支持复杂多步交互[66] - 分布式训练框架选择 Megatron-LM在超大规模模型训练中性能最佳 FSDP/FSDP2因与PyTorch集成好广受欢迎 DeepSpeed在内存优化上表现出色 成熟库通常支持多种方案[66] - 场景驱动的二次开发 通用框架如veRL OpenRLHF为生态奠定基础 针对特定场景如多模态多智能体GUI的二次开发框架解决垂直领域独特挑战[66] - Orchestrator重要性由于RL涉及多个分布式组件如训练框架推理框架环境 使用Ray等进行任务编排资源管理和容错已成为行业共识[66]
超高性价比3D扫描仪!点云/视觉全场景厘米级重建
自动驾驶之心· 2025-09-25 23:33
产品核心定位与价值主张 - 定位为面向工业场景和教研场景的超高性价比手持三维激光扫描仪,旨在降低开发门槛,助力开发者快速掌握研发能力 [1] - 核心价值在于其宣称的“最强性价比”,通过高度集成多传感器和轻量化设计,提供高效实用的三维解决方案 [1][5][9] - 产品由同济大学刘春教授团队与西北工业大学产业化团队合作开发,基于多年科研和行业积累,并经过上百个项目验证 [9] 核心技术参数与性能 - 扫描性能达到每秒生成20万点云,最远测量距离为70米,水平视角360°全域覆盖,支持超过20万平方米的大场景扫描 [1][22][29][30] - 系统相对精度优于3厘米,绝对精度优于5厘米,实现厘米级精度的三维场景实时重构 [1][22] - 采用多传感器融合算法和微秒级数据同步技术,融合激光雷达、相机、IMU、RTK等传感器,确保高精度建模 [13][22][34][35] - 设备搭载Intel N5095计算单元(4核2.0GHz,睿频2.9GHz),配备16GB内存和256GB硬盘,运行Ubuntu 20.04系统并支持ROS [22] 产品设计与硬件配置 - 采用轻量化和小巧机身设计,产品尺寸为14.2cm * 9.5cm * 45cm,重量为1.3kg(不含电池)至1.9kg(含电池) [1][22] - 硬件高度集成,包含Livox Mid-360激光雷达、Intel D435i深度相机、9自由度IMU、T-RTK UM982移动站等高精度传感器 [13][22][23] - 激光雷达采用25°倾斜角安装设计,兼顾多个方位,旨在提高扫描效率 [15] - 配备快拆充电手柄,内置88.8Wh弹夹电池,续航时间约3至4小时,并可通过D-TAP接口供电 [3][22][26] 软件功能与数据处理 - 支持三维点云地图动态构建、色彩融合和实时预览,扫描结果导出即用,无需复杂部署和繁琐处理 [5][22][27] - 导出数据支持pcd、las、plv等多种通用格式,并支持彩色点云输出 [22] - 提供3D高斯采集功能选配模块,支持离线渲染和在线渲染两种模式,实现高保真实景还原 [6][7][50] - 软件功能包括快速建图、彩色点云建图、数据录制保存以及RTK功能启动等,操作界面集成在5.5寸触控屏上 [41][42][43] 应用场景与平台集成 - 可广泛应用于大型园区、花园场景、老旧街道、市政道路、环形花园、坡道、写字楼、停车场、工业园区、各类隧道、森林、矿场等复杂室内外场景 [38][39][46][49] - 支持跨平台集成,可适配无人机、无人车、机械狗、人形机器人等多种负载平台,实现无人化作业 [44] - 在地理信息数据采集、城市规划、文昌监测、文物保护修复研究、虚拟展示等领域提供精准基础信息 [52][54] 产品版本与定价策略 - 推出四个版本:基础版(19,800元)、深度相机版(23,800元)、3DGS在线版(39,800元)和3DGS离线版(67,800元) [57][58] - 3DGS在线版包含两个月免费云服务,后续云服务续费为5,000元/月;3DGS离线版需客户自备高性能服务器 [58] - 所有版本均标配GeoScan S1设备、软件、RTK配件和在线用户手册,升级版和3DGS版额外提供深度相机、3D高斯采集配件及专业工程师培训支持服务 [58] - 购买后提供为期1年的售后服务 [60]
打算招聘几位大佬共创平台(4D标注/世界模型/VLA/模型部署等方向)
自动驾驶之心· 2025-09-25 07:36
业务拓展计划 - 公司计划在2024年向国内外招募10名业务合伙人 [2] - 合伙人将负责自动驾驶相关课程研发、论文辅导业务开发以及硬件研发 [2] 重点技术方向 - 公司重点关注大模型/多模态大模型、扩散模型、VLA、端到端自动驾驶、具身交互、联合预测等技术 [3] - 其他关键方向包括SLAM、3D目标检测、世界模型、闭环仿真3DGS、大模型部署与量化感知推理 [3] 人才招聘要求 - 合伙人岗位要求应聘者来自QS200以内高校,并拥有硕士及以上学历 [4] - 在顶级学术会议发表过论文的候选人将获得优先考虑 [4] 合伙人待遇 - 提供自动驾驶领域的资源共享,包括求职、读博、出国留学推荐等 [5] - 合伙人将获得丰厚的现金激励 [5] - 提供创业项目合作与推荐机会 [5]
车圈一个月48位高管变动,新一轮的变革要开始了......
自动驾驶之心· 2025-09-25 03:45
行业变革与人才流动 - 车企正经历新一轮变革,一个月内出现48位高管变动 [1] - 理想汽车将智驾团队拆分为11个二级部门 [1] - 比亚迪从斑马智行挖来CTO负责智能座舱业务 [1] - 长安汽车高层经历大变动,蔚来高管任少卿同时在中科大搭建实验室 [1] 技术演进趋势 - 自动驾驶技术快速迭代:三年前是BEV,两年前是无图方案,一年前是端到端,今年是VLA和世界模型 [2] - 行业在"踩油门"变方向,算法岗位需要持续更新认知并跳出舒适圈 [2] - 学术界和工业界交流频繁,有人才转向具身智能和Agent领域 [2] - 车企正在招聘人才攻坚端到端自动驾驶技术 [2] 社区规模与定位 - 自动驾驶之心知识星球社区目前超过4000人,期望2年内达到近万人规模 [3] - 社区定位为综合类自驾社区,集视频+图文+学习路线+问答+求职交流为一体 [3] - 社区搭建了自动驾驶、具身智能和大模型三个技术平台 [3] - 社区成员来自近300家机构与自动驾驶公司 [96] 技术资源覆盖 - 社区梳理近40+技术路线,覆盖VLA benchmark、综述和学习入门路线 [5] - 包含40+自动驾驶技术方向,涵盖感知、规划、控制、仿真等全栈领域 [8][16] - 汇总近40+开源项目和近60+自动驾驶相关数据集 [16] - 提供端到端自动驾驶、3DGS、世界模型、VLM等前沿技术内容 [36][39][41][43][46] 学习体系构建 - 社区提供全栈方向学习课程,适合0基础入门 [10] - 包含感知融合、多传感器标定、SLAM、决策规划等9大视频教程系列 [11] - 梳理自动驾驶感知学习路线、仿真学习路线、规划控制学习路线 [16] - 提供TensorRT模型部署、毫米波雷达融合、车道线检测等7个100问系列 [9] 产学研资源 - 汇总国内外自动驾驶与机器人高校实验室,包括上海交大、北京大学、CMU、清华大学等知名院校 [16][26] - 覆盖蔚小理、地平线、华为、大疆、百度等头部企业资源 [16][28] - 社区举办超过100场专业技术直播,邀请学术界和工业界大佬分享 [86] - 建立与多家自动驾驶公司的岗位内推机制 [11] 技术细分领域 - 详细梳理3D目标检测方法,包括单目、双目、多模态、Range图等方案 [21][54] - 覆盖2D/3D分割、轨迹预测、规划控制、Occupancy等核心技术 [21][48][59][60] - 包含V2X、SLAM、自动驾驶仿真、鱼眼感知等工程实践领域 [77][79][80][81] - 重点布局扩散模型、BEV感知、多传感器融合等量产关键技术 [50][52][56]
深度综述 | 300+论文带你看懂:纯视觉如何将VLA推向自动驾驶和具身智能巅峰!
自动驾驶之心· 2025-09-24 23:33
文章核心观点 - 视觉-语言-动作模型代表了机器人技术从传统控制向通用机器人技术的范式转变,将视觉-语言模型从被动生成器转变为能在复杂环境中决策的主动智能体 [1] - 该综述综合了300多项最新研究,对VLA方法进行了系统分类,并探讨了其应用、关键挑战及未来发展方向 [1] - VLA模型通过整合视觉编码器、大型语言模型和强化学习的优势,旨在弥合“感知-理解-动作”的鸿沟,成为实现通用具身智能的核心路径 [16][23] VLA模型的核心范式与分类 - VLA方法被划分为五大范式:自回归模型、扩散模型、强化学习模型、混合方法及专用方法 [1][24] - 自回归模型通过Transformer架构统一多模态感知和序列动作生成,支持跨任务泛化,但存在误差累积和延迟问题 [26][39] - 扩散模型将机器人控制从确定性回归转变为概率性生成,支持从同一观测生成多种有效轨迹,但在动态环境中的轨迹稳定性仍需改进 [41][43] - 强化学习微调模型通过融合视觉-语言基础模型与RL算法,增强VLA的感知和决策能力,擅长结合人类反馈和适应新任务 [48][51] VLA模型的技术演进与关键创新 - VLA模型的发展经历了从单模态基础模型到多模态融合,再到“多模态+可执行控制”的演进路径 [16] - 关键技术创新包括模态token化、自回归动作生成、以及将视觉、语言、状态和动作统一在单一序列建模框架中 [20][30] - 代表性模型如Gato实现了异质模态的统一token化,RT-1基于13万条真实世界数据训练,RT-2融入了网络级VLM知识 [30] - 扩散模型领域的创新包括SE(3)-DiffusionFields将扩散扩展到SE(3)位姿空间,以及Dita构建的可扩展扩散Transformer [42][45] VLA模型的应用场景与机器人形态 - VLA模型已应用于多种机器人形态,包括机械臂、四足机器人、人形机器人和轮式机器人 [7] - 在自动驾驶领域,VLA模型用于轨迹生成和危险规避,CoVLA构建了包含5万条语言指令-轨迹对的大规模数据集 [55] - 专用领域适配包括GUI交互、人形全身控制以及特殊任务如魔方还原,展现了VLA的通用性 [55][57] - 人形机器人控制通过分层VLA框架实现,如LeVERB将视觉-语言处理与动力学级动作处理耦合,支持150+任务的仿真到现实迁移 [55] 数据集与仿真平台的支撑作用 - VLA模型的发展高度依赖高质量数据集和仿真平台,以解决数据稀缺和实机测试风险高的问题 [17] - 真实世界数据集如BridgeData涵盖10个环境中的71项任务,Open X-Embodiment整合了22个机器人数据集,包含160266个任务 [21][65] - 仿真平台如MuJoCo/Isaac Gym提供精确的物理仿真,CARLA面向自动驾驶提供真实城市交通场景,支持安全高效的大规模训练 [21] - 评估指标通常采用成功率、语言遵循率、L2距离和完成率等,以衡量模型的性能、鲁棒性和泛化能力 [66][68][74] VLA模型面临的挑战与未来方向 - 关键挑战包括可扩展性不足、在未知场景中的泛化性下降、实机部署的安全性风险以及仿真到现实的差距 [23][29] - 未来研究方向需解决数据局限性、推理速度、安全性以及长尾场景覆盖不足等问题,以加速通用机器人技术的发展 [7][23] - 效率优化和轻量化设计成为趋势,如MoLe-VLA通过混合专家路由降低40%计算成本,BitVLA采用1位量化将内存占用降至30% [36][55] - 安全机制和可解释性研究受到重视,SafeVLA引入安全评论网络和约束策略优化框架,以降低开放环境中的风险事件 [51][57]
西交利物浦&港科最新!轨迹预测基座大模型综述
自动驾驶之心· 2025-09-24 23:33
文章核心观点 - 大型基础模型(LFMs)为自动驾驶轨迹预测带来了范式转变,从传统的信号级预测转向语义级推理,通过整合语言和情境知识提升了对复杂交通场景的理解能力 [1] - 基于LLM的方法在轨迹预测中展现出三大核心优势:强大的语义推理能力、对长尾场景的卓越泛化能力以及多模态信息的深度融合能力,显著提高了预测的可解释性和安全性 [11][20] - 尽管优势显著,该技术在实际应用中仍面临计算延迟高(自回归解码延迟常超过100毫秒,难以满足车辆控制周期低于50毫秒的严格要求)、数据稀缺以及真实世界鲁棒性等关键挑战 [20] 轨迹预测技术演变 - 轨迹预测技术经历了从基于物理模型和机器学习方法,到深度学习方法,再到当前以大型基础模型为主导的演变过程 [4][8] - 传统方法(如卡尔曼滤波器、高斯过程)计算高效但难以处理复杂交互场景,深度学习方法(端到端架构)能自动提取时空特征并生成多模态概率输出,但存在计算需求高、可解释性差等局限 [8][9] - 强化学习方法在交互场景建模和长期预测方面表现出色,但训练过程复杂且不稳定,存在“黑盒”问题 [9] 基于LLM的轨迹预测关键方法 - **轨迹-语言映射**:通过提示工程将轨迹数据编码为结构化文本(如“自车速度:12m/s”),或利用轨迹离散化技术(如VQ-VAE)将连续轨迹映射为离散符号序列,使LLM能够理解运动行为 [12] - **多模态融合**:设计共享的场景编码器(如BEV编码器)将图像、LiDAR点云和地图信息映射为统一表示,再与语言指令进行交叉注意力融合,典型框架包括DiMA和DrivingGPT [12] - **基于约束的推理**:利用LLM的常识知识,通过链式思维提示和规则注入(如交通规则)使轨迹生成过程透明且合规,例如CoT-Drive将预测分解为场景解析、交互分析等多步骤 [13] 实验基准与性能评估 - **主流数据集**:行人预测广泛使用ETH/UCY数据集,车辆轨迹预测则以Waymo Open Motion Dataset(WOMD)、nuScenes和Argoverse为主流基准,新兴数据集如nuPlan专注于闭环规划与预测的协同评估 [16] - **核心评估指标**:车辆轨迹预测主要关注L2距离(预测终点与真实终点的欧氏距离)和碰撞率,行人预测则主要使用minADE和minFDE(计算K=20个预测值中的最佳结果) [17] - **性能对比**:基于LLM的方法在关键指标上显著优于传统深度学习方法,例如DriveVLM-Dual在NuScenes数据集上的平均碰撞率仅为0.1%,而传统方法如UniAD为0.37% [18] 未来研究方向 - 发展超低延迟推理技术(如非自回归解码)以满足实时控制需求,解决当前自回归解码延迟超过100毫秒的问题 [21] - 构建面向运动的基础模型,通过大规模轨迹预训练提升模型的运动语义理解与生成能力 [21] - 推进世界感知与因果推理模型的研究,使轨迹预测建立在因果机制之上,而不仅仅是关联模式 [21]
华为坚定要走的世界模型路线,到底是什么?
自动驾驶之心· 2025-09-24 23:33
好的,作为拥有10年经验的投资银行研究分析师,我将为您解读这篇关于自动驾驶世界模型技术路线的文章。 文章核心观点 文章核心观点在于,自动驾驶行业的技术路线正出现显著分化,以华为、蔚来为代表的公司正坚定押注“世界模型”路线,这被视为实现高阶自动驾驶的终极方案[2] 该路线强调利用原生3D/4D数据(如RGB-D图像、占用网格、激光雷达点云)对动态环境进行理解和预测,相较于传统的2D视觉方案,能提供更高的几何一致性和物理合理性,尤其适用于安全关键系统[5][9] 技术路线分歧 - 行业内在下一代量产方案上出现技术分歧,头部车企分化为“视觉语言行为模型”和“世界行为模型”两大流派[2] - “世界模型”路线被认为能真正实现自动驾驶,其核心是使智能体具备理解、表示并预测其动态环境的能力[5] - 世界模型缺乏标准化定义,新加坡国立大学的综述首次尝试系统化梳理3D/4D世界建模,提出了明确的定义和分类体系[2][7] 原生3D/4D数据的重要性 - 与2D投影不同,原生3D/4D信号在物理坐标系中编码了度量几何、可见性和运动信息,是“可执行建模”的首要载体[9] - 这些模态提供明确的几何信息和物理基础,对于自动驾驶等安全关键系统至关重要,能确保智能体遵循几何规律和因果关系[5][9] - 具体表示形式包括视频流、占用网格、激光雷达点云以及神经表示(如NeRF、高斯溅射),它们构成了世界模型的结构基础[19][20][22][23] 世界模型的功能分类 - 文章提出了基于表示模态的分层分类体系,将方法分为基于视频生成、占用生成和激光雷达生成三大类[42] - 根据功能角色,世界模型可进一步划分为四种类型:数据引擎(生成多样化场景)、动作解释器(预测未来状态)、神经仿真器(闭环交互推演)和场景重建器(从部分观测中补全场景)[28][29][30][31][34] - 这种分类有助于在保真度、一致性、可控性、可扩展性等维度上对不同方法进行比较[11] 生成模型的技术基础 - 生成模型是世界建模的算法核心,主要范式包括变分自编码器、生成对抗网络、扩散模型和自回归模型[36] - 不同范式在训练稳定性、样本质量和推理效率上各有权衡,例如扩散模型样本质量高但推理慢,自回归模型适合长序列但可能误差累积[37][38][39][40][41] - 混合架构日益普遍,如结合扩散模型与自回归建模以保证长时程一致性,以构建可靠的具身AI和仿真系统[41] 行业应用与前景 - 世界模型在自动驾驶、机器人和仿真环境等领域具有广泛的实际应用前景,头部企业已启动雄心勃勃的世界建模计划[6][16] - 具体应用场景包括交互式机器人、沉浸式仿真和大规模数字孪生,凸显了该技术在学术界和工业界日益增长的重要性[6] - 行业研究正从被动环境渲染转向能够支持智能体交互和反馈驱动适应的闭环系统,为自动驾驶的泛化能力和安全性提供支持[54]
为什么 VLA 能叠毛巾,却测不准物体位姿?
自动驾驶之心· 2025-09-24 23:33
文章核心观点 - 由北京智源研究院、清华大学、南洋理工大学等机构联合提出的OnePoseViaGen技术,是解决具身智能领域6D物体位姿估计关键瓶颈的颠覆性方案 [2][3] - 该方案无需预设3D模型,仅凭单张参考图即可完成未知物体的精准6D位姿估计,在权威基准测试和真实机器人操作中均显著超越现有主流方法 [3][16] - 该技术通过“单视图3D生成 + 粗精对齐 + 文本引导域随机化”的组合拳,为机器人与物理世界的精准交互补上了“空间感知”的关键一环,推动机器人从“特定场景”向“开放世界”交互迈进 [3][30] 技术方案与流程 - 方案遵循“先解决3D模型缺失问题,再校准真实尺度与位姿,最后缩小域差距提升鲁棒性”的递进逻辑,整体流程环环相扣 [6][8] - 基于法向量引导从单张RGB-D锚点图像生成标准化的3D纹理网格模型,无需多视图或预训练3D模型 [9][10] - 采用粗到精的两步对齐策略:粗对齐通过多视图渲染与特征匹配快速获得初始尺度和位姿;精对齐通过迭代优化进一步提升位姿与尺度的精度 [11][13][14] - 引入文本引导的生成式域随机化策略,通过生成结构一致但纹理多样的3D变体并渲染合成数据,以缩小生成模型与真实图像的域差距,提升模型鲁棒性 [15] 性能表现与基准测试 - 在YCBInEOAT数据集上,平均ADD指标达到81.27%,平均ADD-S指标达到93.10%,远超Oryon(ADD 1.1%)、LoFTR(ADD 4.0%)和Any6D(ADD 45.6%)等主流方法 [17] - 在高挑战性物体上表现突出,例如在“sugar_box1”任务中ADD达75.63%(Any6D为14.3%),在“tomato_soup_can_yalehand0”任务中ADD达77.72%(Any6D为0.0%) [17] - 在TOYL数据集上,AR指标达55.7%,比次优方法Any6D(43.3%)高出12.4个百分点;MSSD指标达67.0%,VSD指标达35.1%,比Any6D(15.8%)高出19.3个百分点 [18] - 在高遮挡无纹理的LM-O数据集上,整体AR指标达到74.8%,远超GigaPose(17.5%)和Any6D(28.6%),即使在严重遮挡情况下估计的渲染轮廓仍与真实物体边缘高度重合 [19][21] 真实世界应用验证 - 在真实机器人操作实验中,整体任务成功率达到73.3%,显著高于基线方法SRT3D(6.7%)和DeepAC(16.7%) [23][24] - 成功完成单臂抓取-放置和双臂交接两类任务,即使在抓取过程中出现手部遮挡,仍能通过3D模型的几何约束精准估计位姿,避免抓取失败 [22][26] - 定性结果显示生成的3D模型与真实物体在纹理、结构上高度一致,估计的位姿能精准指导机械臂完成灵巧抓取操作 [26] 技术模块必要性验证 - 消融实验表明,完整的“粗到精对齐”模块对性能至关重要,移除该模块后AR指标从55.7%降至0.0% [27][29] - 生成式域随机化微调被证明是提升方法鲁棒性的关键,使用多样化微调的策略相比朴素微调或无需微调能显著提升性能 [27][29]