自动驾驶之心

搜索文档
华人团队之光!CoRL2025最佳论文(北京通用人工智能研究院&宇树等)
自动驾驶之心· 2025-09-30 16:04
点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近30个 方向 学习 路线 >>自动驾驶前沿信息获取 → 自动驾驶之心知识星球 CoRL2025正在韩国首尔举行,现场传来了好消息。其中Best paper为北京通用人工智能研究院、宇树科技、北京邮电大学等团队的研究成果"Learning a Unified Policy for Position and Force Control in Legged Loco-Manipulation",主要关于力/位混合控制模型。 论文链接: https://arxiv.org/abs/2505.20829 主页: https://unified-force.github.io/ best student paper为加州大学伯克利分校团队的"Visual Imitation Enables Contextual Humanoid Control",主要涉及跨具身智能体的运动控制。 论文链接: https://arxiv.org/abs/2505.03729 主页: https://www.videomimic.net/ E J - a de Be ...
纯血VLA综述来啦!从VLM到扩散,再到强化学习方案
自动驾驶之心· 2025-09-30 16:04
1. 介绍 机器人学长期以来一直是科学研究中的重要领域。早期的机器人主要依赖预编程的指令和人工设计的控制策略来完成任务分解与执行。这类方法通常应用于简 单、重复性的任务,例如工厂流水线和物流分拣。近年来,人工智能的快速发展使研究者能够在图像、文本和点云等多模态数据中,利用深度学习的特征提取与 轨迹预测能力。通过结合感知、检测、跟踪和定位等技术,研究者将机器人任务分解为多个阶段,以满足执行需求,从而推动了具身智能与自动驾驶的发展。然 而,大多数机器人仍然作为孤立的智能体存在,它们通常为特定任务而设计,缺乏与人类和外部环境的有效交互。 为克服这些局限性,研究者开始探索将大语言模型(LLMs)与视觉语言模型(VLMs)引入机器人操作中,以实现更精准和灵活的控制。现代的机器人操作方法 通常依赖视觉-语言生成范式(如自回归模型 或扩散模型),并结合大规模数据集 以及先进的微调策略。我们将这些方法称为 VLA基础模型,它们显著提升了 机器人操作的质量。对生成内容进行细粒度的动作控制,使用户获得更大的灵活性,从而释放了VLA 在任务执行中的实际潜力。 标题:Pure Vision Language Action (VLA) ...
英伟达自动驾驶算法工程师面试
自动驾驶之心· 2025-09-29 23:33
公司招聘流程 - 公司招聘流程包括笔试和五轮技术面试 [3] - 笔试包含三道算法题,涉及图搜索、模拟和动态规划,难度为LeetCode中等水平 [4] - 每轮面试均包含1-2道算法题,涉及链表操作、动态规划、堆排序和DFS等 [3][6][8][11][14] 技术面试内容 - 面试问题涵盖项目经验、规划控制算法和深度学习等多个技术领域 [5][8][11][12] - 规划控制相关问题包括MPC优化问题构造、Hybrid A*算法流程和运动学约束算法改进等 [5][8][12] - 深度学习相关问题涉及目标检测、关键点检测和图像处理等 [8][11] 算法与数据结构 - 笔试算法题通过率分别为90%、0%和70%,主要考察动态规划和异或操作 [4] - 面试算法题包括链表合并、棋盘路径规划和TopK问题等,要求实现多种解法和优化 [6][8][11][14] - 算法实现要求涵盖递归、迭代、记忆化搜索和STL容器应用等 [8][11][14] 职位与团队 - 公司职位划分非常细致,专注于特定技术方向如规划控制和自动泊车 [3][7][12] - 团队合作紧密,工作中会参考学术论文并开展组内组间协作 [9][13] - 招聘流程包含英文技术面试,由技术主管考察项目经验和算法基础 [14] 行业技术趋势 - 自动驾驶技术栈呈现趋同态势,技术方案向统一化方向发展 [22] - 行业出现One Model、VLM和VLA等技术趋势,技术壁垒不断提高 [22] - 技术发展方向涵盖端到端自动驾驶、大模型和多模态3D目标检测等多个领域 [27]
有人在自驾里面盲目内卷,而有的人在搭建真正的壁垒...
自动驾驶之心· 2025-09-29 23:33
车企的新一轮变革已经拉开了帷幕。 九月,车企48位高管变动。理想把智驾团队拆成 11 个二级部门,比亚迪从斑马挖来 CTO 搞座 舱,长安汽车的高层也正经历大变动,连蔚来的任少卿都一边在公司管自动驾驶,一边去中科大 搭实验室了。 目前,自动驾驶的前沿方向聚焦在自动驾驶VLA/VLM、端到端自动驾驶、世界模型world model、闭环仿真3DGS、强化学习等等。但很多在校的同学根本不清楚业内实际的进展,很多 中小厂的算法工程师也是如此。通过几次的线上星友面对面交流,柱哥更是深刻意识到这个问 题。 所以我们最近一直在琢磨,怎样才能成为大家沟通的桥梁,打通学术界和工业界的信息壁 垒,打通不同公司之间的信息壁垒。 对于搞算法的同学来说,更是深有感触。三年前还是BEV,两年前是无图,一年期是端到端,今 年是VLA和世界模型,下一步是什么呢?在人工智能这条大的赛道上,什么才是算法岗位真正 的活力和壁垒? 柱哥认为是持续不断的更新自己的认知,要敢于跳出自己的舒适圈。 添加博主微信咨询自驾社区 所以我们联合了诸多学术界和工业界的大佬,共同打造了我们维护三年之久的『自动驾驶之心知 识星球』! 星球目前集视频 + 图文 + 学 ...
基于开源Qwen2.5-VL实现自动驾驶VLM微调
自动驾驶之心· 2025-09-29 23:33
大模型微调框架技术进展 - LLaMA Factory成为开源社区最受欢迎的微调框架之一 GitHub星标超过4万 集成业界广泛使用的微调技术 [1] - 框架支持低代码大模型微调 基于Qwen2.5-VL-7B-Instruct模型开发自动驾驶辅助器 通过自然语言对话触发功能 [1] 多模态大模型技术突破 - Qwen2.5-VL系列实现视觉识别 物体定位 文档解析和长视频理解重大突破 支持边界框精确定位和结构化数据提取 [2] - 旗舰型号Qwen2.5-VL-72B性能与GPT-4o和Claude 3.5 Sonnet相当 较小7B和3B型号在资源受限环境表现优异 [2] - 模型引入动态分辨率处理和绝对时间编码 可处理不同大小图像和长达数小时视频 [2] 自动驾驶数据集创新 - CoVLA数据集包含10,000个真实驾驶场景 总计超过80小时视频 采用自动数据处理和描述生成流程 [3] - 数据集生成精确驾驶轨迹并配以详细自然语言描述 在规模和标注丰富性方面超越现有数据集 [3] - 基于数据集开发CoVLA-Agent模型 用于可解释的端到端自动驾驶 [3] 模型训练与部署实践 - 使用NVIDIA GPU 3090(24G显存)和400张小型图片数据集进行微调训练 [1][7] - 通过Hugging Face平台下载Qwen2.5-VL-7B-Instruct模型 配置清华源加速下载 [6] - 采用SwanLab可视化工具记录微调过程 支持训练过程追踪 [11] - 微调后模型保存在指定路径 通过Web UI界面进行模型加载和测试 [18][20] 应用效果验证 - 微调后模型对"自动驾驶车辆应该关注哪些风险"问题给出更具参考价值的回答 [21][22] - 原始模型回答内容较多但存在答非所问的情况 微调显著提升应答准确性 [22] - 测试显示可处理天气判断(多雨置信度0.978) 道路类型识别(宽阔道路置信度0.659)等具体场景 [9]
工业界大佬带队!三个月搞定端到端自动驾驶
自动驾驶之心· 2025-09-29 08:45
Jason, C9本科+QS50 PhD,已发表CCF-A论文2篇,CCF-B论文若干。现任国内TOP主机厂算法专 家,目前从事端到端、大模型、世界模型等前沿算法的预研和量产,并已主持和完成多项自动驾驶 感知和端到端算法的产品量产交付,拥有丰富的端到端算法研发和实战经验。 如果说2023年是端到端量产的元年,那么明年将会是端到端量产的大年。目前头部的新势力和主机 厂端到端都已经量产了。工业界主要有两种大的范式,一段式和两段式。一段式最具代表性的就是 UniAD,直接从传感器输入(视觉/Lidar/Radar等)建模自车轨迹的输出,二段式基于感知结果进一 步输出自车和他车的轨迹。 而去年以来,一段式端到端发展很快,进一步衍生出基于感知的一段式、基于世界模型的一段式、 基于扩散模型的一段式和基于VLA的一段式方法。主流的自动驾驶企业,无论是智驾方案供应商还 是车企,都在发力端到端自动驾驶的自研量产。 我们花了三个月的时间设计了一套端到端与VLA的 学习路线图,从原理到实战细致展开。 端到端与VLA涉及的核心内容包括BEV感知、视觉语言模型VLM、扩散模型、强化学习等等。通过 学习端到端与VLA自动驾驶,可以掌握学 ...
好用,便宜!面向具身科研领域打造的轻量级机械臂
自动驾驶之心· 2025-09-28 23:33
面向具身科研领域打造的轻量级高性价比机械臂 还在为具身领域的硬件发愁吗?太贵的硬件买不起,太便宜的机械臂不好用,有没有一款价格低但质量很高的 产品? Imeta-y1来了!低成本可以完成具身领域论文的验证,科研场景的开发,满足大多数从业人员和科研工作者的 需求。 这是一款专为教育、科研与轻工业场景设计的轻量级机械臂。 该机械臂融合高精度运动控制、低功耗设计与开放软硬件架构,支持从仿真到真机的无缝联调,并提供全流程 开源SDK与工具链,助力用户快速实现算法验证、数据采集、模型训练与部署应用。 其紧凑型结构与模块化接口,尤其适用于嵌入式AI与机器人学习平台的开发与应用推广。 6轴轻量级机械臂 Imeta-Y1 | 本体重量 | 4.2KG | 额定负载 | 3KG | 自由度 | 6 | | --- | --- | --- | --- | --- | --- | | 工作半径 | 612.5mm | 重复定位精度 | +0. 1mm | 底座安装尺寸 | 90mm*90mm*M5*4 | | 供电电压 | 24V | 控制器 | PC | 材质 | 铝合金 | | 通讯方式 | CAN | 外部接口 | 电源+C ...
MTRDrive:一种具备动态交互式推理的自动驾驶VLA框架(清华&小米)
自动驾驶之心· 2025-09-28 23:33
文章核心观点 - 视觉-语言-动作模型(VLA)是提升自动驾驶长尾场景推理能力的关键路径,但现有方法在长时程与高层级行为决策时面临显著挑战,尤其在极少样本或零样本的复杂场景下泛化能力有限[3] - 清华、小米汽车、麦吉尔大学和威斯康星大学麦迪逊分校的团队联合提出MTRDrive框架,将自动驾驶建模为动态交互式推理过程,突破传统静态单步决策的局限[4] - MTRDrive通过记忆-工具协同机制,其中工具库调用提升模型感知准确性,记忆模块通过对驾驶经验的持续增强提升推理可靠性,在长尾与OOD场景中的泛化能力与稳健性显著提升[4] 行业技术痛点分析 - 现有VLA模型在长尾场景中容易出现幻觉问题,在出现频率低但安全性要求高的驾驶情境中,模型容易做出脱离现实的"幻觉式推理",缺乏自我校正和外部验证能力[5] - 现有思维链增强技术大多依赖形式化结构化认知,未能深入捕捉模型与环境交互时的深层因果关系,这种因果推理缺失导致推理可靠性和泛化能力受限[5] - 当前VLMs的性能与实际部署所需的可靠性之间存在显著差距,模型具有脆弱性,常出现视觉幻觉现象,且在分布外场景中表现不佳,微小错误可能导致灾难性后果[8] MTRDrive框架设计原理 - MTRDrive框架基于"交互式推理"原则设计,赋予智能体主动检索驾驶经验和使用工具查询环境的能力,从静态决策模型转向动态交互式模型[9] - 框架包含两个核心组件:存储结构化驾驶经验的"驾驶经验库"和利用这些经验进行工具交互与决策的"经验驱动规划模块"[15] - 驾驶经验库构建采用CLIP预训练视觉编码器实现高效语义场景编码,通过余弦相似度计算场景间相似性,支持大规模低延迟相似性检索[17] - 结构化经验表示将每条经验形式化为元组<场景描述, 推理过程, 高层决策, 工具使用记录, 元数据>,使智能体能学习完成任务的方法并理解场景上下文[19] 技术创新点 - 设计了经验驱动的工具交互方法,通过检索Top-K个最相似过往场景,将场景中记录的推理过程和工具使用模式作为强上下文先验,引导VLM做出更合理的工具部署决策[21] - 采用两阶段训练流程:第一阶段为监督微调解决"冷启动"问题,教会模型工具使用和记忆整合的基础语法;第二阶段通过强化学习微调基于任务特定奖励信号优化决策能力[24][28][29] - 设计了专门的"格式奖励函数"引导模型学会策略性调用经验,完整的奖励函数由格式奖励和任务完成奖励组合而成,为模型提供明确信号指导其完成元认知任务[30][32] 实验验证结果 - 在NAVSIM基准数据集上,MTRDrive的规划准确率达到82.6%,是Qwen2.5-VL-72B(37.8%)的两倍多[40] - 在具有挑战性的RoadWork零样本场景中,MTRDrive规划准确率达到33.5%,高于性能最强的基准模型(29.7%)[40] - 消融实验显示,驾驶经验模块将RoadWork零样本场景中的规划准确率从17.3%翻倍至33.5%,证明经验检索机制是模型将所学技能应用于新场景的核心组件[44] - 在轨迹预测任务中,完整MTRDrive模型取得88.3的PDMS得分,达到与WoTE等专用方法相当的当前最优性能[47] 数据集建设贡献 - 基于原始RoadWork数据集构建了新的基准数据集Roadwork-VLM,利用Qwen2.5-VL-72B模型对整个数据集进行重新标注,生成详细的场景描述、高层导航指令和完整思维链推理序列[37] - Roadwork-VLM形成了完整的类人化端到端驾驶VLM数据集,可用于测试智能体在零样本设置下执行复杂高层行为决策的能力,后续将开源以推动领域研究[37]
自动驾驶之心全平台课程&星球活动进行中
自动驾驶之心· 2025-09-28 23:33
驾 + 具 身 所有课程 频售课程除夕 ▲星球福利 / xING QIU FU LI 7折优惠,立减80 7折优惠, 立减99 节后将再次涨价 赠送7门精品课程 具身智能之心 自动驾驶之心 ▲ 福利专区 /FU LI ZHUAN QU O 1.大模型星球 99元一年,(技术 + 行 业 + 求职) 2. 1v1辅导辅导最高1000抵扣 5000 3.1v6论文辅导立减*1000 4. 超级折扣卡:*299元 自驾课程七折 优惠 (一年期) ▲ 伊件福利 /YIN JIAN FU LI 星球优惠!新人七折续费五折 星球核心内容一览! 自动驾驶之心 知识星球 技 最前沿的 自驾技术社区 术 f 7 P 7 5 r 6 自动驾驶VLA 世界模型 闭环仿真 扩散模型 BEV感知 --- 近40+学习路线 保持活力,持续学习 交 学术界&工业界 大佬面对面交流 4 r r VLA和WA的路线之争 未来自驾的发展方向 世界模型到底model了个館? 关于端到端的讨论 星友面对面 直击行业第一线 直 → 顶会作者亲临 播 6 f t r r Impromptu VLA NavigScene LangCoop DriveBe ...
撞墙的不是Scaling Laws,是AGI。
自动驾驶之心· 2025-09-28 23:33
NIK @ @ns123abc 作者 | Trisimo崔思莫 编辑 | 大模型之心Tech 原文链接: https://zhuanlan.zhihu.com/p/1938174154500215724 点击下方 卡片 ,关注" 大模型之心Tech "公众号 戳我-> 领取大模型巨卷干货 本文只做学术分享,如有侵权,联系删文 ,自动驾驶课程学习与技术交流群事宜,也欢迎添加小助理微信AIDriver004做进一步咨询 前言:Scaling Laws成立,不必然导向AGI,甚至会远离AGI 。 ——这是我的一个推论 wn that transformer-hased next-token prediction pernlexity scales o log-linearly with compute and the number of parameters Ex-OpenAl researcher (now at META) explains how scaling laws can never fail because it's a reflection of the data structure "what ...