Workflow
自动驾驶之心
icon
搜索文档
十余所机构联合提出WorldLens:评测了所有开源自驾世界模型(中科院&新国立等)
自动驾驶之心· 2025-12-16 00:03
点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近30个 方向 学习 路线 >>自动驾驶前沿信息获取 → 自动驾驶之心知识星球 论文作者 | WorldBench 编辑 | 自动驾驶之心 现有世界模型在视觉生成上已经相当逼真,但在几何一致性、时序稳定性和行为合理性上仍存在明显缺陷,而这些问题往往难以通过传统的视频质量指标被发现。针 对这个问题 WorldBech团队提出了WorldLens。 这一全方位基准用于评估模型构建、理解其生成世界并在其中行为的能力。它涵盖五个核心维度: 生成质量、重建性能、指令跟随、下游任务适配性和人类偏好 ,全 面覆盖视觉真实性、几何一致性、物理合理性和功能可靠性。评估结果显示,现有世界模型均无法实现全维度最优:部分模型纹理表现出色但违背物理规律,而几何 稳定的模型则缺乏行为可信度。为使客观指标与人类对齐,WorldLens进一步构建了WorldLens-26K数据集——包含大规模人类标注视频,附带量化评分和文本说明, 并开发了WorldLens-Agent评估模型,通过蒸馏这些标注数据实现可扩展、可解释的评分。基准、数据集与智能评估代理共同构成统一生态系 ...
SOTA!FaithFusion:即插即用的生成重建统一框架(百度&南大)
自动驾驶之心· 2025-12-16 00:03
点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近30个 方向 学习 路线 >>自动驾驶前沿信息获取 → 自动驾驶之心知识星球 论文作者 | YuAn Wang等 编辑 | 自动驾驶之心 破解核心痛点:生成式重建中的几何一致性与创造性平衡 无论是物体级还是场景级三维任务,"重建" 与 "生成" 的融合始终面临核心矛盾:如何兼顾 生成的创造性与多样性 ,同时保障 几何重建对原始观测的保真度 。在三 维场景重建领域,3D 高斯泼溅(3DGS)的高保真几何能力与扩散模型(Diffusion)的外观生成能力结合,已是新视角合成的主流路径,但因缺乏像素级、3D 空间一 致的编辑准则,常出现过修复(篡改可信区域)和几何漂移(未观测区域失真)问题。 为缓解这一矛盾,现有方法多采用 "外部约束" 范式:要么从生成侧引入 LiDAR、HDMap 等外部先验限制 Diffusion 自由度,要么改造 3DGS 重建侧强化保真。但这 类方案依赖额外输入或定制化改造,既抬高落地成本,也限制了通用性。 FaithFusion 的核心突破的是跳出 "外部依赖",从 3DGS 模型自身挖掘内在指导信号。其摒弃经验 ...
手搓了一辆自动驾驶全栈小车,面向科研......
自动驾驶之心· 2025-12-16 00:03
产品定位与核心价值主张 - 公司推出“黑武士001”自动驾驶全栈小车,定位为教研一体轻量级解决方案,旨在解决科研平台价格高昂与教学套件不完整、上手慢的行业痛点 [2] - 产品核心优势在于高性价比,全栈配置售价为36999元,远低于性能强大但价格堪比小型车的科研级平台 [2] - 该方案设计为操作简单、快速上手,旨在帮助新手快速解锁自动驾驶全流程实操,并附赠模型部署、点云3D检测及多传感器融合三门课程以提升价值 [2] 目标用户与应用场景 - 目标用户广泛覆盖本科生学习与比赛、研究生科研与求职项目、高校实验室以及职业培训公司等多个教育层级 [4] - 产品支持感知、定位、融合、导航、规划等多个自动驾驶功能平台,适用于从学习进阶到科研发论文、项目落地的完整需求链条 [4] 硬件配置规格 - 传感器套件包括:Livox Mid360 3D激光雷达(探测范围0.1m-40m,FOV 360°*59°)、镭神智能M10p 2D激光雷达(最大范围25m)、奥比中光Gemini2 TOF深度相机(测量范围0.15-5m,深度精度≤2%)以及LPMS-BE2 IMU(采样率100Hz) [22][31] - 计算单元采用NVIDIA Jetson Orin NX核心开发板,配备16GB RAM,AI算力达100 TOPS [34] - 车辆采用阿克曼底盘,整备质量30kg,车体尺寸为620mm x 400mm x 320mm(长x宽x高),最大运动速度可达2m/s,续航时间超过4小时 [23][25][26] 软件功能与性能展示 - 软件基于ROS、C++、Python框架,提供一键启动的开发环境 [28] - 功能演示覆盖室内、室外、地库及夜间等多种复杂场景,展示了包括2D/3D激光建图、点云3D目标检测、多传感器融合SLAM、车辆导航与避障等核心能力 [6][8][10][12][14][16][18][20] - 支持的软件功能模块丰富,涵盖2D目标检测与分割、深度估计、多种模式的SLAM(视觉、激光、惯性及其融合)、点云处理以及车辆控制等 [29] 产品使用与支持 - 产品提供详细说明书,内容涵盖硬件配置、软件环境、系统启动、各功能模块使用教程及注意事项 [30] - 系统启动流程明确,包括车辆上电、进入Ubuntu 20.04桌面系统及配置网络连接等步骤 [41] - 售后政策为1年内支持非人为损坏的售后维修,对于因个人操作或修改代码导致的损坏,公司提供免费维修服务 [52]
聊聊关于 Agentic RL 训推框架的一点看法和思考
自动驾驶之心· 2025-12-16 00:03
文章核心观点 文章是一篇对当前开源强化学习训练框架的技术调研与对比分析,作者基于其多模态模型在实际环境中进行多轮强化学习训练的业务需求,重点评估了verl、slime、AReaL、RL2等框架,并最终选择了AReaL框架 其核心观点在于,当前强化学习训练框架在适配复杂、长尾的Agentic环境时面临挑战,而异步训练架构与灵活的环境交互设计是解决这些挑战的关键方向 [2][3][11] 强化学习训练框架的现状与挑战 - 开源社区强化学习训练框架呈现百花齐放的状态,包括老牌的openlhf、trl、unsloth、verl以及今年新开源的slime、AReaL、Rlinf、RL2、ROLL等 [2] - 目前没有一款框架能很好地适配多模态模型进行Agentic强化学习训练,主要难点在于Agentic环境与具体业务强相关,难以从框架层面抽象出通用函数或类来适配所有环境 [2] - 作者在调研中主要纠结于几个关键点:框架的社区活跃度与环境适配代码修改量、训练过程中的GPU编排问题、数据流向与数据结构的设计,以及异步训练的支持程度 [2][3][5][6] 同步与异步训练架构的对比 - 在2025年前半年的RLHF和RLVR时代,训练长尾效应不明显,因此早期成熟的强化学习训练框架(如verl)主要采用训练和推理同步的架构方案 [3] - 同步训练架构遵循先推理后训练的固定流程,可能导致训练效率低下和GPU资源空转,例如在相同GPU集群上交替卸载模型,或在不同集群上采用流水线方案 [3][5] - 异步强化学习训练成为新框架的优先支持特性,它能提升效率,但会引入数据偏移问题,使训练从on-policy退化为off-policy,并且需要为训练和推理分配不同的GPU资源以优化资源利用率 [11] 关键技术实现与设计考量 - **训推分离**:当前几乎所有强化学习训练框架都采用训练与推理分离的架构,训练引擎使用FSDP、Megatron,推理引擎采用sglang或vllm,中间通过Ray进行资源分配与调度 [12] - **权重更新机制**:训练侧更新模型权重后,需将新权重传递给推理引擎,涉及不同模型切分方案间的适配,常用技巧包括分桶传输、通过Router转发等以降低通信开销 [16][17][18] - **训推Gap问题**:由于推理引擎的优化(如KV量化、算子融合)可能导致其输出的logits与训练引擎存在差异,解决方法包括使用重要性采样来拟合分布差异,并需注意推理量化(如4bit)可能因分布差异过大而被裁剪,导致训练不稳定 [19][20][21][22] - **Token一致性**:为避免二次编码导致的token分布不一致,所有强化学习训练框架在rollout返回时会同步返回输出的token ids,直接供训练引擎使用 [23] 环境交互与Agentic训练支持 - 环境交互部分在所有强化学习框架中均为异步实现,以避免阻塞 [28] - verl框架的Agent多轮训练逻辑相对僵化,其设计以工具调用视角为主,处理流程写死,难以适应每个rollout环境状态不一致的复杂交互需求 [24][25] - AReaL和slime框架在环境适配上设计更巧妙,支持通过自定义函数或工作流基类来实现复杂的、自定义的环境交互逻辑,灵活性更高 [26][27] 异步训练与长尾问题解决方案 - **异步训练核心**:采用生产者-消费者模型,推理引擎作为生产者进行rollout,训练引擎作为消费者获取数据进行训练,通过消息队列管理数据 [29] - **陈旧度管理**:引入staleness参数控制数据有效性,当rollout数据的模型版本号与当前最新模型版本号差距超过设定值(通常为1-2)时,数据将被丢弃,以防止因模型分布偏离过大导致训练无效 [32] - **部分Rollout**:这是解决长尾任务导致资源浪费的关键技术,当需要更新推理引擎权重时,可暂停正在进行的rollout任务,更新权重后从中断处继续,从而兼顾训练连续性与模型更新及时性 [37][38] 强化学习算法与奖励设置的思考 - 当前大语言模型的强化学习算法主要分为序列级奖励和Token级奖励两类,根本上都是PPO算法的变体 [39] - 奖励设置在Token粒度上难度较大,因为很难为序列中的每个Token设计客观合理的奖励,而实际业务的动作粒度通常由多个Token组成,因此是否存在针对业务动作粒度的最优奖励方案仍有待验证 [39] - 强化学习训练的成功关键被认为在于环境和奖励的设置,当前主流方案仍依赖大语言模型或智能体作为评判者,并辅以多种提示词技巧,但根本上仍无法完全避免奖励黑客问题 [42] 各框架特点总结与选择建议 - **verl**:代码工程化程度高,侧重训练与推理引擎的调度,践行SPMD思想,但异步训练支持较晚,且Agent循环控制流较为僵化,修改成本高 [12][25][43] - **slime**:代码简洁,流程明确,但早期对FSDP适配及异步训练的支持尚不成熟 [43] - **AReaL**:代码结构复杂但质量高,异步训练方案成熟,环境交互设计灵活,支持自定义工作流,是作者最终的选择 [2][29][44] - **RL2**:代码逻辑简单,适合初学者入门以理清强化学习训练的基本逻辑 [45]
没有好的科研能力,别想着去业界搞自驾了......
自动驾驶之心· 2025-12-15 11:33
点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近30个 方向 学习 路线 柱哥周末和几位做自驾招聘的朋友聊天,说到现在市场上高端的自驾人才仍然非常抢手。几家新势力还有头部 的Tier 1,硕士已经开到70的年包争抢人才(非天才少年、未来星等顶级岗位)。很多同学,尤其是在工业界 参与过预研岗位的同学,还没毕业就已经被公司内定了。但其实要求不是很高,那就是"具备完整的科研能 力",能对应完成和思考相应工作。如果缺乏这个,不敢轻易推荐给企业。 完整的科研能力是什么呢?代表能发现问题、定义问题、提出解决问题的方法、能形成方法论输出观点。这并 不是简单的读论文,很多同学都错判了这点。 这一年接触到了很多有科研需求的同学,主要有以下几个难题: 最快的提升方法则是跟着一个有经验的researcher一起工作,自动驾驶之心前面推出了1v1科研辅导业务,也欢 迎大家咨询了解。 主要辅导方向 端到端、VLA、世界模型、强化学习、3D目标检测、多传感器融合、3DGS、BEV感知、Occupancy Network、多任务学习、语义分割、轨迹预测、运动规划、扩散模型、Flow matching、点云感知、 ...
45万亿!中国智驾的新风口来了
自动驾驶之心· 2025-12-15 11:33
以下文章来源于亿欧汽车 ,作者江山美 亿欧汽车 . 专注汽车出行领域科创报道与投资价值研究 L4级智能驾驶商业化进程显著提速,呈现政策、技术、场景三轮驱动格局。 政策层面,国家级规划与五城全域开放试点明确事故责任划分,破除制度障碍; 技术层面,系统成本持续下探,车路云协同能力增强,提升复杂环境可靠性; 场景层面,Robotaxi、无人配送、干线物流等多场景试点加速从低速封闭向中高速开放场景跨越。 在政策红利释放、核心技术进步与应用场景拓展的共同作用下,2025年五城L4车辆保有量预计突破10万辆,带动相关产业链规模超200亿元,标志着"全民 智驾"元年正式开启。 L4智驾的发展背景概览 作者 | 江山美 来源 | 亿欧汽车 点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近30个 方向 学习 路线 >>自动驾驶前沿信息获取 → 自动驾驶之心知识星球 本文只做学术分享,如有侵权,联系删文 L4级智驾已成为跨越式技术路线的主战场,产业生态庞大、格局趋明。 资本集中注入头部企业,政策逐步开放多类场景的L4智驾试点,商业化按"中低速封闭场景→高速开放场景"路径逐级拓展; 技术端以"车-云"与 ...
小鹏最新一篇基于潜在思维链世界模型的FutureX,车端可以借鉴...
自动驾驶之心· 2025-12-15 06:00
点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近30个 方向 学习 路线 >>自动驾驶前沿信息获取 → 自动驾驶之心知识星球 论文作者 | Hongbin Lin等 编辑 | 自动驾驶之心 港中文联合小鹏最新的一篇工作,很有意思。基于潜在思维链世界模型增强端到端的能力, 有一些值得业内尝试的改进点: 一、背景回顾 端到端(E2E)自动驾驶指的是通过完全可微分的映射,直接将多模态原始传感器数据流转换为运动规划或底层驱动指令的技术流水线。该领域在算法方案和基准测 试两方面均取得了快速发展。尽管面临固有挑战,现有方法仍实现了显著进步。 在这些成功背后,现有端到端自动驾驶系统通过单一神经网络直接将传感器输入映射为控制输出,执行高效的一次性前向预测,而无需进一步"思考"。这导致它们在 复杂环境中缺乏适应性和可解释性(图1第二行)。在人类认知中,驾驶员在执行任何操作前,都会在脑海中模拟可能的未来场景:预测周围车辆的运动趋势、场景的 演变方向,以及每种可能行为的潜在结果(图1第一行)。这种内在推理能力使人类能够做出安全且贴合场景的决策。因此,对于端到端系统而言,在高度动态的交通 环境中推断未来场 ...
世界模型与自动驾驶:最新算法&实战项目(特斯拉、视频、OCC等)
自动驾驶之心· 2025-12-15 06:00
点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近30个 方向 学习 路线 世界模型,近一年自动驾驶学术界和工业界的热词。很多小伙伴咨询柱哥,有没有一门系统讲解世界模型和自动驾驶的精品课程,筹备了很久终于和大家见面! 我们联合 工业界大佬 共同开展,先前的《端到端与VLA自动驾驶小班课》备受大家好评,因此我们进一步推出这门世界模型小班课, 课程聚焦于通用世界模型、 视频生成、OCC生成等世界模型算法,涵盖特斯拉世界模型、李飞飞团队Marble等。欢迎大家加入学习~ 早鸟优惠!开课即止~ 讲师介绍 Jason:C9本科+QS50 PhD,已发表CCF-A论文2篇,CCF-B论文若干。现任国内TOP主机厂算法专家,目前从事端到端、大模型、世界模型等前沿算法的预研和量 产,并已主持和完成多项自动驾驶感知和端到端算法的产品量产交付,拥有丰富的端到端算法研发和实战经验。 课程大纲 这门课程讲如何展开 第一章:世界模型介绍 第一章主要针对自动驾驶世界模型概括性的内容讲解。 这一章老师会先复盘世界模型和端到端自动驾驶的联系,接着讲解世界模型的发展历史以及当下的应用案 例。然后介绍世界模型有哪些流派 ...
理解 RL学习的本质!
自动驾驶之心· 2025-12-15 00:04
原文链接: https://zhuanlan.zhihu.com/p/1972781108128155202 点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近30个 方向 学习 路线 作者 | wangleineo 来源 | 青稞AI >>自动驾驶前沿信息获取 → 自动驾驶之心知识星球 本文只做学术分享,如有侵权,联系删文 最近看了几篇关于RL学习的论文,发现这几篇研究存在着一些内在联系,综合起来看,也许有助于我们理解RL学习方法的本质。 破除迷信 Does RLVR enable LLMs to self-improve? 第一篇文章是最近备受关注的一篇论文,来自清华的LEAP实验室,在今年的NeurIPS拿下了全满分,获得最佳论文奖: https://arxiv.org/abs/2504.13837 这篇论文开宗明义提出了一个问题: RL学习真的能让LLM获得超越基础模型的推理能力吗? 研究结论很确切,不能 。论文用实验证明,RLVR后模型的能力完全在基础模型的能力范围内,只是搜索效率提高了,能更高效 地找到问题的解。而基础模型不能解决的问题,RLVR的模型一样不能解决。 证明 ...
「CV顶会王」李弘扬投身具身智能赛道!
自动驾驶之心· 2025-12-15 00:04
公司创业动态 - 香港大学数据科学研究院助理教授、上海人工智能实验室OpenDriveLab研究科学家李弘扬已进入具身智能赛道创业 [3] - 公司围绕UniVLA的研究方向进行机器人Manipulation攻关 目前已形成长程任务的Demo [3] - 公司已组成数十人的研发团队 研究领域涵盖VLA、机器人、无人驾驶和端边计算芯片 [4] - 公司走的同样是「基座模型 + 机器人本体」的全栈自研路线 [10] - 公司愿景是通过提升少样本泛化能力 实现人形机器人在全场景下的规模化落地应用 [10] - 团队即将发布的核心模型已达到国际一流水准 且在技术跟商业化上足够清晰 [11] 创始人学术与技术成就 - 创始人李弘扬的主要研究方向为自动驾驶、具身智能及端到端智能系统应用 [6] - 其主导的《Planning-oriented Autonomous Driving》获得IEEE CVPR 2023最佳论文奖 掀起自动驾驶界「端到端」巨浪 [6] - 提出的UniAD框架将目标检测与跟踪、地图预测、轨迹预测、占据栅格预测、规划整合为同一个基于Transformer的端到端网络框架 在公开数据集nuScenes的所有相关任务上都大幅优于同类型SOTA方法 [6] - 提出的俯视图感知方法BEVFormer曾入选2022年AI论文100强 成为业界视觉检测基准 [7] - 在CVPR、ICCV、ECCV、NeurIPS、CoRL、ICLR、TPAMI、TIP等国际顶尖会议/期刊上发表论文数十篇 多次担任国际顶尖会议领域主席 [7] - 在具身智能领域 其团队构建了超大规模真实机器人操控数据集「AgiBot World」 基于百万真机、千万仿真数据集 覆盖了五大行业场景 [7] - 2025年5月 团队在arXiv平台发表论文《UniVLA: Learning to Act Anywhere with Task-centric Latent Actions》 提出以任务为中心的潜在动作框架 [7] 核心技术框架UniVLA - UniVLA框架通过无监督学习从视频数据中推导出潜在动作表示 支持跨实体和环境的机器人策略学习 实现机器人高效跨场景部署 [7] - 框架特点在于通过两阶段训练解耦任务相关与无关动态 利用DINO特征空间和语言指令增强语义对齐 结合轻量级解码器适配不同机器人硬件 [9] - 相比传统方法 UniVLA显著降低了对标注数据的依赖 仅需少量数据即可在多任务基准测试中达到最优性能 并支持从互联网视频到真实机器人的高效迁移 [10] 行业观点与趋势 - 李弘扬在2025地平线技术生态大会上表示 具身智能一定会体现出Scaling law 目前全球真正算得上做过Scaling law实验的只有一家公司 即Generalist AI(GEN-0模型) [10] - 如何就算法、数据、硬件或Infra建立一套高效率的数据采集系统 在具身智能领域是非常关键的课题 [10] - 近两年 除了有数位自动驾驶大拿创建具身智能公司外 也有多位学界专家选择投身具身智能领域 包括卢策吾、卢宗青、邵林、王鹤、赵明国等知名学者 [11]