Workflow
自动驾驶之心
icon
搜索文档
VLA搞到现在,可能还是情绪价值的内容偏多一些......
自动驾驶之心· 2025-09-20 16:03
摩尔定律不仅体现在芯片算力上,也体现在整个计算机行业。一旦数据集固定下来,以现在的AI技术和庞大算 力,其测试指标的收敛速度也会越来越快。 这两天和星球大佬聊了下关于端到端和VLA的看法,感受颇深,分享给大家: 关于端到端的讨论 学术界的端到端现在是遍地开花的状态,什么流派都有,毕竟【端到端】只是一个范式,你只要实现用一个模型 把传感器输入和轨迹规划的输出串起来,这就是端到端。 所以做什么的都有。 但是,AI进入大模型时代后,相信大家都有一个共识,那就是数据集的迭代速度一定不能比技术迭代慢太多, 技术日新月异的时候,如果数据集反反复复还是那几个,那么毫无疑问数据集一定会阻碍技术的迭代。 所以才有一些研究团队在发论文的同时发布一个数据集,这样可以保持很长一段时间的高impact输出。 学术界的端到端现在处在方法远比问题多的状态。 工业界的端到端更加务实,车上的算力限制就能把相当一部分热门模型拒之门外。但是, 工业界最得天独厚的 优势就是有海量的数据,这给模型研发提供了无限可能。 要知道,chatgpt的成功很大程度上归功于互联网给了我们收集海量数据的机会。为什么超大规模transformer模型 率先在NLP领 ...
任少卿加入中科大......
自动驾驶之心· 2025-09-20 05:35
参考 | 量子位 点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近30个 方向 学习 路线 >>自动驾驶前沿信息获取 → 自动驾驶之心知识星球 本文只做学术分享,如有侵权,联系删文 任少卿去中科大了! AI大神任少卿开始在母校中国科学技术大学,开班招生了。 任少卿,曾任Momenta联合创始人、蔚来汽车副总裁,07级中科大本硕博(微软亚洲研究院联合培养),ResNet和Faster R-CNN作者。学术高被引超44 万,是全球中国籍学者高被引第一。ResNet也是21世纪全球最高被引论文。获未来科学大奖-数学与计算机科学奖。 招生方向为AGI、世界模型、具身智能、AI4S等。 硕士、博士生都在招。有推免资格的学生,下周一(22日)开启紧急面试。 更多内容 自动驾驶产业和学术最新咨询,欢迎加入自动驾驶之心知识星球,国内最大的自驾社区平台。 ...
VLA的论文占据自动驾驶前沿方向的主流了。。。
自动驾驶之心· 2025-09-19 16:03
从今年各个CV与AI顶会来看,VLA及其相关衍生方向,已经成为自动驾驶公司和高校实验室的主攻方向,占据了自驾前沿方向近一半的产出。特别是推理增强VLA、强 化学习、相关benchmark等等。 想象一下, 如果能通过语言下达指令(找到最近的星巴克),并且车辆能够丝滑的行车&泊车,是一件多么幸福的事情! VLA打破了传统方法的单任务局限,使得自动驾驶车辆能够在多样化的场景中自主决策,灵活应对未见过的环境!VLA更加直白和干净,很多方法也取消了传统端到端的 复杂的3D感知任务。借鉴VLM更强大的通用泛化能力,除了任务更简洁,VLA更重要的还是提供了一种解决corner case的可能性。 而随着学术界和工业界的目光投向端到端这个技术领域,我们发现了很多问题。自动驾驶VLA的技术栈仍然没有收敛!一系列算法如雨后春笋般冒出: 技术栈多?入门困难? 前一段时间我们推出了《端到端与VLA自动驾驶小班课》,这门课侧重在端到端自动驾驶的技术栈梳理,同学们的反馈很好。 所以很多同学联系自动驾驶之心想学习更多 关于VLA的前沿知识! 因此自动驾驶之心联合清华大学的教研团队共同打造了《自动驾驶VLA实战教程》 ,针对自动驾驶VLA ...
刚刚,李飞飞空间智能最新成果!3D世界生成进入「无限探索」时代
自动驾驶之心· 2025-09-19 16:03
产品发布与核心功能 - 斯坦福大学教授李飞飞团队通过创业公司World Labs发布空间智能模型Marble限量测试预览版 [4][19] - 模型支持单张图片或文本提示作为输入生成持久存在、可自由导航探索的宏大3D世界 [5][8][18] - 生成内容具备永久性、零成本浏览器导航支持、高斯点云导出与多段拼接能力 [9][21][22] 技术特性与性能提升 - 生成场景规模较以往更大、风格更多样化、几何结构更干净 [21][23][26] - 支持通过组合多个生成结果构建更大世界 得益于模型在一致性和风格遵循上的进步 [22][31] - 生成场景具备丰富几何复杂度 支持从输入视角背后或更远处进行完整探索 [24] 应用生态与兼容性 - 导出高斯点云可在开源渲染库Spark支持下无缝集成Three.js [21] - 兼容桌面电脑、笔记本电脑、移动设备和VR头显运行 [21][12] - 用户测试反馈积极 有建议提及GUI界面连接世界功能优化 [14] 行业影响与定位 - 被行业人士评价为"真正的大规模3D生成" 与谷歌Genie形成差异化竞争 [9][10][11] - 正式将空间智能推向"无限探索"时代 突破房间尺度限制 [3][31] - 目前通过白名单地址开放试用 官方博客提供详细技术细节 [17][33]
2025年自动驾驶公司一览表
自动驾驶之心· 2025-09-19 16:03
行业技术发展现状 - 自动驾驶行业正处于L3技术突破的关键迭代周期 端到端 VLA 世界模型 强化学习等技术方向快速发展 [1] - 行业经历新一轮洗牌和资源整合 部分公司退出或合并 新势力异军突起 [1] - 技术演进路径包括2D检测/分割 单目3D BEV感知 多传感器融合 OCC 联合预测 端到端等阶段 [26] 新势力车企布局 - 主要参与者包括蔚来 小鹏 理想 小米 零跑 滴滴 威马 宾理 牛创 极氪 阿维塔 岚图 千里科技 极越等 [3] Tier1供应商生态 - 核心企业涵盖华为 百度 大疆 中兴 腾讯(智能座舱/高精地图/仿真工具链) 上汽零束 鉴智机器人 momenta 博世中国等 [5] Robotaxi领域企业 - 重点公司包括百度 小马智行 上海造父智能科技(哈啰Robotaxi) 文远知行 元戎启行 滴滴 momenta 轻舟智航 驭势科技等 [7] 商用车自动驾驶应用 - Robotruck领域聚集智加科技 赢彻科技 小马智行 主线科技 斯年智驾 西井科技 飞步科技 牧月科技(文远知行) 挚途科技 畅行智能 环宇智行 阿里达摩院 希迪智驾 千挂 行猩 友道智途 卡睿智行 前晨 纬度 吉利远程 恒润 宏景 希迪 擎天智卡等企业 [9] - Robobus主要参与者为百度 文远知行 轻舟智航 商汤绝影 易成 领骏 蘑菇等 [11] - 物流配送场景涵盖美团 阿里达摩院 京东 苏宁 中国邮政 百度Apollo 毫末智行(长城) 威盛电子 新石器 白犀牛 智行者 驭势科技 行深智能 伽智科技 小狮科技 易成等公司 [13] 传统主机厂转型 - 老牌主机厂包括上汽(智己和飞凡) 广汽(埃安) 北汽(极狐) 一汽 长城(毫末智行) 比亚迪 长安+阿维塔 吉利(福瑞泰克) 东风 奇瑞 吉利(极氪等) 长安等 [15] 垂直场景应用拓展 - 农用自动驾驶领域有丰疆智能 中联重科 中国一拖 悟牛智能 中科原动力 雷沃重工 超星智能 博创联动 皓行科技等企业 [17] - 矿区自动驾驶聚集易控智驾 踏歌智行 慧拓智能 路凯智行 伯镭科技 盟识科技 清智科技等公司 [19] - 环卫自动驾驶包括智行者 酷哇 仙途 高仙机器人 深兰科技 浩睿智能 于万智驾 云创智行等参与者 [21] 关键技术支撑体系 - 智能泊车领域涵盖百度 追势 德赛西威 东软睿驰 禾多科技 纽励科技 恒润科技 领世科技 磨视智能 欧特明 智行者 驭势科技等企业 [23] - 计算平台主要供应商包括华为 地平线 黑芝麻 超星未来 国汽智控等 [24] - 高精地图领域有百度 高德 四维图新 腾讯 华为 滴滴 京东 美团 宽凳 深动 中海庭 亿咖通等公司 [25] - 车路协同技术供应商包括蘑菇车联 觉非科技 百度 华为 大唐高鸿 华砺智行 阿里 海康 星云互联 云骥智行等企业 [25]
毕竟,没有数据闭环的端到端/VLA只是半成品
自动驾驶之心· 2025-09-19 11:24
自动驾驶之心对话星球嘉宾 某国际Tier1高级算法专家 ,一起探讨了下国内自动驾驶技术未来的发展趋势: 首先抛出我的观点,下一代自动驾驶技术的一定是围绕着更安全的驾驶,更好的乘坐体验,更全面的场景覆盖。 为了实现这一目标无论是主机厂还是供应商需要建立一个更加系统,更加健全的自动驾驶运营模式,软件算法和 数据运营会是其中两大核心能力(类似推荐算法是抖音的核心,但是其背后是其强大的数据运营能力)。 未来的自动驾驶公司可能更像"数据驱动的科技公司"。 类似抖音的推荐算法, 自动驾驶的竞争将从算法转向数据闭环的效率。 谁能更快收集、清洗、标注、训练、验 证,谁就占据优势。这需要强大的自动化工具链和AI驱动的数据流水线。那么我们不妨畅想这样一个架构, VLA/VLM作为最终影响终端用户应用体验的车端/车云端的应用,为了打造这样一个高体验感的产品, 围绕 VLA/VLM, 利用世界模型构建一个健壮高效低成本闭环仿真支持闭环验证,或者进一步利用强化学习对 VLM/VLA进行闭环训练,持续提高自动驾驶数据运营和应用迭代效率,会是接下来自动驾驶公司新一轮技术迭 代的关键。 具体而言,对于VLA,如果面向量产,VLA其实在一些复 ...
一个P7,从自驾到具身的转行建议......
自动驾驶之心· 2025-09-19 00:30
一个P7,从自驾到具身的转行思路...... 最近和一个P7的朋友聊天,去某大厂的具身实验室做负责人了。因为刚搭建,很多东西不是很成熟,和自 驾组建的时候非常像。缺数据、缺算力和设备。回顾自驾的种种,现在转具身之后,发现很多问题依然是 相似的,自驾优化的那套方法论甚至拿来就可以直接用,只是面向的对象和因素变了。他谈到了几个观点 蛮有意思,希望可以对大家有一定启发。 关于数据 没数据或数据少,第一时间和想到了real2sim2real方案或者sim2real方案。本体有,但数据少采集成本高, 能否使用自采集方式。让机器人自己采集数据并记录,通过算法来筛选和提出dirty数据。这一点和自驾的 数据闭环和自动标注比较相似。 关于算法 如果要商业化,最新的技术应该往后靠,等待技术的成熟。当前已经验证的技术应该被优先推上去,解决 部分问题,满足部分场景和功能的需求。就像VLA,用在智驾和机械臂上都还好,如果上人形,难度会非 常大。强化的方式,依然work,那么就应该使用这种方案。 如果算法和数据都更smooth,人形vla就是时候上了。 部署的一些思路 不用太担心部署问题,我们很擅长做轻量化和部署,算力索尔我觉得基本够 ...
上交严骏驰团队:近一年顶会顶刊硬核成果盘点
自动驾驶之心· 2025-09-18 23:33
以下文章来源于深蓝AI ,作者深蓝学院 深蓝AI . 专注于人工智能、机器人与自动驾驶的学习平台。 本文只做学术分享,如有侵权,联系删文 AI技术日新月异,但真正的"硬核突破"在哪里?是让机器人更灵巧地完成复杂任务,还是让AI在工业决策上超越人类专家?抑或是为看似"黑盒"的模型找到坚 实的理论根基? 这些令人兴奋的前沿挑战,正是 上海交通大学严骏驰教授团队 的主攻方向。作为IAPR/IET Fellow、国家优青,他带领的这支顶尖团队,近期在CVPR、 ICLR、NeurIPS等舞台上交出了一份惊艳的答卷,用一系列开创性工作回应了这些时代之问。 严骏驰教授,上海交通大学人工智能学院教授,IAPR/IET Fellow,CCF优博/杰出会员。科技部2030新一代人工智能重大项目负责人、国家自然科学基金委优青、交 叉学部重大研究计划重点项目负责人、教育部资源建设深度学习首席专家。发表CCF-A类第一/通讯作者论文过200篇(CVPR24最佳论文候选、AAAI21最具影响力 论文),引用超21000次。 作者 | 深蓝学院 来源 | 深蓝AI 点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾 ...
纯视觉最新SOTA!AdaThinkDrive:更灵活的自动驾驶VLA思维链(清华&小米)
自动驾驶之心· 2025-09-18 23:33
自动驾驶VLA技术突破 - 提出AdaThinkDrive框架 通过双模式推理机制实现自适应思考 在简单场景采用快速回答模式 在复杂场景启用慢速思考模式[3][4][11] - 基于强化学习的自适应思考奖励策略 结合GRPO算法优化模型选择性应用CoT的行为 实现准确率与效率平衡[4][33][34] - 在Navsim基准测试中PDMS达到90.3 较最佳纯视觉基线模型提升1.7分 推理时间较"始终思考"基线减少14%[4][50][58] 技术实现细节 - 采用三阶段训练流程:大规模驾驶数据预训练获取世界知识与驾驶常识 双模式SFT数据集微调 强化学习优化自适应推理策略[17][24][31] - 输入包含前视图像、导航指令、自车状态及历史轨迹 支持思考与非思考两种推理模式联合分布输出[21][26][32] - 奖励设计包含PDMS奖励、格式奖励、端点奖励和自适应思考奖励四组件 加权整合优化策略模型[34][35][36][37][38] 性能验证结果 - 在Navsim数据集验证 较"永不思考"基线PDMS提升2.0分 较"始终思考"基线提升1.4分 在96%复杂场景启用CoT 84%简单场景采用直接预测[4][56][58] - 仅视觉输入性能与多模态方法GoalFlow相当 PDMS达90.3 Best-of-N规划策略下进一步提升至93.0创基准最高分[50][55] - 消融实验显示预训练阶段使PDMS提升1.3分 强化学习阶段进一步提升2.8分 自适应思考奖励是关键组件[63][64][65] 行业技术背景 - 自动驾驶系统向端到端架构演进 VLM模型通过大规模预训练提升场景理解能力 CoT技术增强可解释性与轨迹质量但存在简单场景过度推理问题[7][10][14] - 现有自适应CoT触发方法主要基于强化学习 分为简洁推理、动态早期终止和按需推理三类 需根据高速公路巡航或路口拥堵等不同场景复杂度调整[16][33] - InternVL3-8B作为基础模型 训练使用64块NVIDIA H20 GPU 三阶段学习率从1×10⁻⁵逐步降至2×10⁻⁶[48][52]
当前的自动驾驶VLA,还有很多模块需要优化...
自动驾驶之心· 2025-09-18 11:00
点击咨询匹配大牛导师 1. 传统模块化架构的时代: 早期的自动驾驶系统(L2-L4级)普遍采用模块化设计。每个模块(如 物体检测、轨迹预测、路径规划)被独立开发和优化。 优势: 逻辑清晰,各模块可独立调试和 验证,具有较好的可解释性。 瓶颈: 错误累积效应: 上游模块的微小误差会逐级传递并放大, 影响最终决策。 信息损失: 在模块间传递的结构化数据(如3D框、轨迹点)会损失原始传感器 信息中的丰富细节。 规则的局限性: 依赖大量人工设计的规则和参数,难以应对复杂、长尾的 交通场景(Corner Cases)。 2. 纯视觉端到端(模仿学习)的兴起: 以NVIDIA的DAVE-2、Wayve等为代表,研究者们尝试使用 深度神经网络,通过模仿学习(Imitation Learning)的方式,直接从人类驾驶员的驾驶视频和操 作数据中学习"像素到行为"的映射。 优势: 简化了系统架构,能从数据中自动学习复杂的驾驶 策略,无需繁琐的规则设计。 瓶颈: "黑箱"问题与可解释性差: 模型决策过程不透明,难以理 解其做出特定行为的原因,这对于安全至关重要的自动驾驶是致命缺陷。 因果混淆(Causal VLA绝对是今年自动驾 ...