自动驾驶之心

搜索文档
工业界大佬带队!三个月搞定端到端自动驾驶
自动驾驶之心· 2025-09-29 08:45
Jason, C9本科+QS50 PhD,已发表CCF-A论文2篇,CCF-B论文若干。现任国内TOP主机厂算法专 家,目前从事端到端、大模型、世界模型等前沿算法的预研和量产,并已主持和完成多项自动驾驶 感知和端到端算法的产品量产交付,拥有丰富的端到端算法研发和实战经验。 如果说2023年是端到端量产的元年,那么明年将会是端到端量产的大年。目前头部的新势力和主机 厂端到端都已经量产了。工业界主要有两种大的范式,一段式和两段式。一段式最具代表性的就是 UniAD,直接从传感器输入(视觉/Lidar/Radar等)建模自车轨迹的输出,二段式基于感知结果进一 步输出自车和他车的轨迹。 而去年以来,一段式端到端发展很快,进一步衍生出基于感知的一段式、基于世界模型的一段式、 基于扩散模型的一段式和基于VLA的一段式方法。主流的自动驾驶企业,无论是智驾方案供应商还 是车企,都在发力端到端自动驾驶的自研量产。 我们花了三个月的时间设计了一套端到端与VLA的 学习路线图,从原理到实战细致展开。 端到端与VLA涉及的核心内容包括BEV感知、视觉语言模型VLM、扩散模型、强化学习等等。通过 学习端到端与VLA自动驾驶,可以掌握学 ...
好用,便宜!面向具身科研领域打造的轻量级机械臂
自动驾驶之心· 2025-09-28 23:33
面向具身科研领域打造的轻量级高性价比机械臂 还在为具身领域的硬件发愁吗?太贵的硬件买不起,太便宜的机械臂不好用,有没有一款价格低但质量很高的 产品? Imeta-y1来了!低成本可以完成具身领域论文的验证,科研场景的开发,满足大多数从业人员和科研工作者的 需求。 这是一款专为教育、科研与轻工业场景设计的轻量级机械臂。 该机械臂融合高精度运动控制、低功耗设计与开放软硬件架构,支持从仿真到真机的无缝联调,并提供全流程 开源SDK与工具链,助力用户快速实现算法验证、数据采集、模型训练与部署应用。 其紧凑型结构与模块化接口,尤其适用于嵌入式AI与机器人学习平台的开发与应用推广。 6轴轻量级机械臂 Imeta-Y1 | 本体重量 | 4.2KG | 额定负载 | 3KG | 自由度 | 6 | | --- | --- | --- | --- | --- | --- | | 工作半径 | 612.5mm | 重复定位精度 | +0. 1mm | 底座安装尺寸 | 90mm*90mm*M5*4 | | 供电电压 | 24V | 控制器 | PC | 材质 | 铝合金 | | 通讯方式 | CAN | 外部接口 | 电源+C ...
MTRDrive:一种具备动态交互式推理的自动驾驶VLA框架(清华&小米)
自动驾驶之心· 2025-09-28 23:33
点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近30个 方向 学习 路线 视觉-语言-动作模型(VLA)被认为是提升自动驾驶在长尾场景中推理能力的关键路径,但现有方法在应对长时程与高层级行为决策时仍面临显著挑战。 尤其在极少样本甚至零样本的复杂场景下,模型的泛化能力有限,难以在动态、不确定的道路环境中保持持续稳健的表现。当前的主要痛点可归纳为: 稳健的驾驶决策高度依赖于 感知准确性与推理可靠性 两大核心因素的深度协同。人类驾驶员在长期与环境交互的过程中,不仅依靠实时感知,更善于借助 经验积累实现动态预判与自适应调整,这一过程深刻契合了《论语》 "工欲善其事,必先利其器" 的古老智慧。其中,"器"不仅指驾驶工具,更指向驾驶员 通过经验凝练形成的认知工具库——包括对复杂路况的识别模式、风险预估策略以及应急决策流程。 人类驾驶行为本质上是一个 "感知–判断–决策–行动" 的动态闭环系统。驾驶员通过持续融合实时环境信息与历史经验,不断优化自身的反应策略,从而在不确定的交通场景中实现安全导航。例如,熟练驾驶 员能够依据前方车辆动态、路面状态乃至环境气象特征,提前做出减速或变道等预判性操作,体 ...
自动驾驶之心全平台课程&星球活动进行中
自动驾驶之心· 2025-09-28 23:33
驾 + 具 身 所有课程 频售课程除夕 ▲星球福利 / xING QIU FU LI 7折优惠,立减80 7折优惠, 立减99 节后将再次涨价 赠送7门精品课程 具身智能之心 自动驾驶之心 ▲ 福利专区 /FU LI ZHUAN QU O 1.大模型星球 99元一年,(技术 + 行 业 + 求职) 2. 1v1辅导辅导最高1000抵扣 5000 3.1v6论文辅导立减*1000 4. 超级折扣卡:*299元 自驾课程七折 优惠 (一年期) ▲ 伊件福利 /YIN JIAN FU LI 星球优惠!新人七折续费五折 星球核心内容一览! 自动驾驶之心 知识星球 技 最前沿的 自驾技术社区 术 f 7 P 7 5 r 6 自动驾驶VLA 世界模型 闭环仿真 扩散模型 BEV感知 --- 近40+学习路线 保持活力,持续学习 交 学术界&工业界 大佬面对面交流 4 r r VLA和WA的路线之争 未来自驾的发展方向 世界模型到底model了个館? 关于端到端的讨论 星友面对面 直击行业第一线 直 → 顶会作者亲临 播 6 f t r r Impromptu VLA NavigScene LangCoop DriveBe ...
撞墙的不是Scaling Laws,是AGI。
自动驾驶之心· 2025-09-28 23:33
NIK @ @ns123abc 作者 | Trisimo崔思莫 编辑 | 大模型之心Tech 原文链接: https://zhuanlan.zhihu.com/p/1938174154500215724 点击下方 卡片 ,关注" 大模型之心Tech "公众号 戳我-> 领取大模型巨卷干货 本文只做学术分享,如有侵权,联系删文 ,自动驾驶课程学习与技术交流群事宜,也欢迎添加小助理微信AIDriver004做进一步咨询 前言:Scaling Laws成立,不必然导向AGI,甚至会远离AGI 。 ——这是我的一个推论 wn that transformer-hased next-token prediction pernlexity scales o log-linearly with compute and the number of parameters Ex-OpenAl researcher (now at META) explains how scaling laws can never fail because it's a reflection of the data structure "what ...
清华教研团队!两个月从零搭建一套自己的自动驾驶VLA模型
自动驾驶之心· 2025-09-28 07:21
端到端之后,学术界和工业界聚焦的方向是什么?无疑是VLA。VLA提供了类人思考的能力,把车辆决策的过程通过思维链的形式展现出来,从而提供 更可靠更安全的自动驾驶能力。 自动驾驶VLA目前可以分为模块化VLA、一体化VLA和推理增强VLA三个子领域。 自动驾驶VLA涉及的核心内容包括视觉感知、大语言模型、Action建模、大模型部署、数据集制作等等。最前沿的算法包括CoT、MoE、RAG、强化学 习。通过学习VLA,可以让自己对自动驾驶的感知系统有更深刻的认知。 为此我们联合 清华大学的教研团队 开展了这门《自动驾驶VLA与大模型实战课程》!课程包含自动驾驶VLA三个子领域前沿算法的细致讲解,并会配 备两个实战及一个课程大作业深入理解自动驾驶VLA。 扫码报名!抢占早鸟名额 讲师介绍 咖喱,清华大学硕士生 :在ICCV/IROS/EMNLP/Nature Communications发表论文若干篇。目前从事多模态感知、自动驾驶VLA、大模型Agent等前沿算 法的预研,并已主持和完成多项自动驾驶感知和大模型框架工具,拥有丰富的自动驾驶、大模型研发和实战经验。 从技术的成熟度及就业的需求来看,自动驾驶VLA是各家 ...
为什么自动驾驶中的强化学习,没有很好的落地?
自动驾驶之心· 2025-09-28 03:50
如果您也想和自动驾驶学术界或工业界的大佬交流,欢迎加入自动驾驶之心知识星球。 我们是一个认真做内容的社区,一个培养未来 领袖的地方。 『自动驾驶之心知识星球』目前集视频 + 图文 + 学习路线 + 问答 + 求职交流为一体,是一个综合类的自驾社区,已经超过4000人了。 我们期望未来2年内做到近万人的规模。给大家打造一个交流+技术分享的聚集地,是许多初学者和进阶的同学经常逛的地方。 为什么自动驾驶领域内的强化学习,没有很好的落地? 柱哥昨晚和星球嘉宾讨论自动驾驶强化学习的内容,分享给大家。 强化学习一直面临一个很严重的问题 - reward hack,当安全要求提高后,效率会降低。效率提升又可能导致安全性降低。所以这就引申 出一个问题,如何设计一个balance的reward,能够去平衡每一项表现。想得到一个全面性能提升的强化学习模型,其实非常难。多个 reward之间如何达到平衡也非常困难的。当然也有类似使用逆强化学习的方法去训练每一个reward的权重。 具身智能在我的理解中是一个local motion 的工作,它的目标很清晰。但自动驾驶不仅要完成最终行驶的目标,在中间的过程还要强依 赖某些驾驶规则。比 ...
UCLA最新!大模型时序推理和Agentic系统的全面综述
自动驾驶之心· 2025-09-27 23:33
当城市早高峰的车流数据实时涌入交通管控系统,当医院的心电图仪持续记录患者的心脏电活动,当股票交易所的行情面板每秒刷新数十次股价波动——这些伴 随时间流逝不断产生的"时间序列数据",早已成为现代社会运转的"数字脉搏"。从金融风控、医疗诊断到能源调度、交通管理,几乎所有关键领域的决策,都依赖 于对这些 时序数据 的深度解读。 过去数十年间,时间序列分析领域涌现出了从经典统计模型(如ARIMA、ETS)到深度学习方法(如LSTM、Transformer)的大量技术,它们在"预测未来""识别 异常"等基础任务上取得了显著进展。例如,早期用LSTM预测未来24小时的城市用电量,用CNN检测心电图中的心律失常片段,这些传统技术早已落地于实际场 景。 但随着应用需求的不断升级,传统方法的"能力边界"逐渐显现。在个性化医疗场景中,医生不仅需要模型判断"患者是否存在心律异常",更需要知道"异常与哪些 生理指标、哪个时间段的活动相关";在自适应风险管理中,基金经理不仅需要股价预测结果,更需要理解"若政策调整,股价可能如何变化"的因果逻辑;在 autonomous 交通系统中,控制器不仅要检测拥堵,还需实时调整信号策略并验证效果— ...
会自检的VLA!ReflectDrive:更安全更高效scaling的端到端框架(理想&清华)
自动驾驶之心· 2025-09-27 23:33
会自检的ReflectDrive:我的轨迹我做主,安全感拉满! 端到端自动驾驶已成为一个重要且快速发展的研究领域。通过大规模数据集学习类人驾驶策略具有相当大的潜力。但是在多模态性能以及长尾场景, 没有可持续解决问题的框架。如果仅依赖强化学习来加强,那么reward hack又成为了棘手的问题,很难写出一个全面的reward可以适用连续轨迹复杂的 三维空间。所以近年来大语言模型的泛化能力突破让大家看到了希望,是否能够利用模型scaling以及数据scaling去激发模型的泛化性能,也就是vla模 型的兴起。 大家都想利用上vlm的泛化能力,用更少的数据去解决few shot/zero shot的场景。下面是对于目前自动驾驶方案vla方案的痛点分析: 基于上面的描述,可以看出目前迫切需要做到的是L模态和A模态的融合,一种更容易scaling的统一的架构,同时还要做到高效生成。为应对这些挑 战, 理想和清华的团队提出ReflectDrive——一种新型学习框架,通过离散扩散的反思机制实现安全轨迹生成。 我们首先将二维驾驶空间离散化以构 建动作代码本,从而能够通过微调将预训练扩散语言模型用于规划任务。该框架的核心是安 ...
NeurIPS 2025 | SURDS 数据集与 GRPO 全面强化自驾空间推理
自动驾驶之心· 2025-09-27 23:33
以下文章来源于深蓝AI ,作者深蓝学院 深蓝AI . 专注于人工智能、机器人与自动驾驶的学习平台。 作者 | 深蓝学院 来源 | 深蓝AI 点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近30个 方向 学习 路线 >>自动驾驶前沿信息获取 → 自动驾驶之心知识星球 本文只做学术分享,如有侵权,联系删文 摘 要 在大模型飞速发展的当下,让多模态大语言模型(VLM)在自动驾驶场景图像中做出准确的空间推理,依然是人工智能领域的一大挑战。学术界一直缺 乏针对自动驾驶场推理的大规模基准,现有方法往往依赖外部专家模型,难以全面衡量模型能力。 与此形成鲜明对比的是,人类可以凭借已有知识轻松判断图像中物体的朝向,或推理多个物体的相对位置。而VLM同样具备丰富的知识,却仍在此类任务上 表现不足。 为此,武汉大学联合中科院自动化所,北京智源人工智能研究院 (BAAI)等多家单位推出 首个面向驾驶场景的VLM空间推理大规模基准 SURDS ,系统评测了 包括 GPT 系列在内的通用模型及 SpatialRGPT 等空间推理模型,全面揭示了当前VLM在空间理解方面的短板。研究团队通过设计"感知准确性"和" ...