Workflow
Autonomous Driving
icon
搜索文档
Baidu to bring robotaxi services to London via Uber and Lyft
Invezz· 2025-12-22 11:02
London is set to become the next testing ground for global autonomous driving firms after Chinese tech group Baidu confirmed plans to introduce robotaxis in the UK capital from next year. The move, an... ...
DiffusionDriveV2核心代码解析
自动驾驶之心· 2025-12-22 03:23
作者 | wenbo9 编辑 | 自动驾驶之心 原文链接: https://zhuanlan.zhihu.com/p/1982760169126510973 点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近30个 方向 学习 路线 >>自动驾驶前沿信息获取 → 自动驾驶之心知识星球 本文只做学术分享,如有侵权,联系删文 DiffusionDrive: Truncated Diffusion Model for End-to-End Autonomous Driving https://github.com/hustvl/DiffusionDrive https://github.com/hustvl/DiffusionDriveV2 DiffusionDrive的整体架构 DiffusionDriveV2: Reinforcement Learning-Constrained Truncated DiffusionModeling in E2E AD 整体架构 环境编码(bev和自车状态) 多尺度bev特征 ★ 参考文献 :TransFuser代码 TransFuser: Imit ...
业内团队负责人对Waymo基座模型的一些分析
自动驾驶之心· 2025-12-22 00:42
点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近30个 方向 学习 路线 >>自动驾驶前沿信息获取 → 自动驾驶之心知识星球 作者 | 行云 编辑 | 自动驾驶之心 原文在这里:https://waymo.com/blog/2025/12/demonstrably-safe-ai-for-autonomous-driving 这份技术Blog是waymo最新好不容易更新的一篇(太久没更) 主要讲了三件事: 端到端新范式下验证安全和可解释性的方法(如原文标题)、智驾大模型基座的车端运行方式、新范式下的数据飞轮 1&2、端到端新范式下验证安全和可解释性的方法和智驾大模型基座 做安全验证和可解释性的方法在这篇文章里,和基座大模型息息相关,所以放在一起。 waymo的基座模型,也是快慢双系统。其中快系统的核心模块是感知,慢系统的核心模块是VLM:基于Gemini的智驾大模型,输入包括驾驶员的语言、传感器的 rawdata和历史信息。输出主要有三方面:轨迹、他车行为预测和高精地图。 这里相对来说比较白盒的是快系统,对应的是上一代的AD方案,值得探究的是慢系统的细节。原文对于慢系统的描述是: ...
Weekend Round-Up: GM's CEO Succession, Tesla's FSD Boost, Trump's Air Taxi Strategy Waymo's Funding Round And Ford's EV Pivot
Benzinga· 2025-12-21 18:01
This week was abuzz with major developments in the tech and auto sectors. From potential CEO succession at General Motors Co. to Tesla Inc.’s Full Self-Driving (FSD) system getting a boost in South Korea, there was no shortage of news.Let’s dive into the top stories.GM Eyes Ex-Tesla Exec For CEO RoleReports suggest that General Motors Co. is considering Sterling Anderson, its current Chief Product Officer and former Tesla Autopilot exec, as the next CEO. Anderson, who also co-founded Aurora Innovation Inc., ...
凯文・凯利:意外之美|我们的四分之一世纪
经济观察报· 2025-12-19 09:58
编者按:2025年,经济观察报以"我们的四分之一世纪"为年终特刊主题,旨在通过数十位时代亲历者的 故事,共绘一幅属于这段岁月的集体记忆图谱。 二十一世纪的第一个25年即将结束之际,我问凯文·凯利(KK),有哪些发展超乎他的想象?又有哪些 低于他的预期?他简单地将答案归结为"意外之快""意外之慢",以及"意外之路"。 这三大意外也让我们意识到,前瞻未来时,我们往往会低估创新者的颠覆性,因此必须跳出线性思维; 我们也会在一厢情愿中忽略木桶原理;当然,也会有意外之喜,因为另辟蹊径常常带来爆炸式的后果。 归根结底,未来既充满不确定性,也蕴藏诸多可能性,发现意外之美是最大的快乐。 一、 意外之快:智能手机的"非线性爆发" "我没想到智能手机会吃掉一切"——智能手机普及的速度与广度——是KK最直观的意外。2007年 iPhone问世时,多数人将其视为更精致的功能机;但短短十年间,它不仅完成了全球数十亿级的渗透, 更以吞噬一切的姿态重构了产业格局:相机、MP3、导航仪、钱包乃至电脑的功能,被压缩进方寸屏 幕;社交媒体、移动支付、网约车等新生态,借由手机的普及破土而出。这种"意外之快",本质上是技 术融合催生的"非线性爆发" ...
Chinese Self-Driving Tech Firm CiDi Lists in HK
Yahoo Finance· 2025-12-19 05:39
CiDi, a provider of autonomous driving technology for commercial vehicles, has listed its shares in Hong Kong. Its CEO Albert Sibo Hu discusses the company's growth and international expansion strategy. He speaks with Yvonne Man on "Bloomberg: The China Show." ...
Wayve最近的GAIA-3分享:全面扩展世界模型的评测能力......
自动驾驶之心· 2025-12-19 00:05
作者 | Feynman 编辑 | 自动驾驶之心 原文链接: https://zhuanlan.zhihu.com/p/1979144898872627828 点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近30个 方向 学习 路线 >>自动驾驶前沿信息获取 → 自动驾驶之心知识星球 本文只做学术分享,如有侵权,联系删文 思考: 完整版: https://wayve.ai/thinking/gaia-3/ GAIA-3:规模化世界模型,驱动自动驾驶的安全与评测 将世界建模从一个视觉合成工具,转变为自动驾驶评估的基石。 大规模评估自动驾驶系统仍然是推进现实世界自动驾驶技术面临的核心挑战之一。现实世界测试对于验证安全性至关重要,但其成本高昂、受物流限制,并且数据效 率日益低下。随着驾驶模型的改进和可观测错误的减少,得出具有统计学意义的结论所需的测试里程数急剧增加。而这些里程中的大部分都是平淡无奇的,几乎无法 提供关于罕见但至关重要的安全行为的有效信息。 仿真模拟提供了一条前进的道路。虚拟环境能够实现安全、可靠、可重复且可扩展的驾驶模型测试。然而,尽管前景广阔,现有的仿真方法仍不足以对现 ...
特斯拉再一次预判潮水的方向
自动驾驶之心· 2025-12-18 09:35
文章核心观点 - 特斯拉通过其AI负责人发布的长文,系统性阐述了其FSD的技术方法论,核心是采用端到端神经网络模型,并融合了视觉重建(世界模型)和语言解释(VLA)技术来解决自动驾驶的长尾问题[4][6][8][10] - 行业对端到端、VLA(视觉-语言-动作)和世界模型三大技术概念存在争论,但文章提出反共识观点,认为三者并非对立,而是层层递进的关系:端到端是基座,VLA是升级,世界模型是终极形态[11][12] - 特斯拉的技术路径预判并整合了当前所有主流技术方向,其闭麦两年后通过一篇论文强势回归,再次引领行业技术潮流[4][20] 技术概念解析与关系 - **端到端神经网络**:是一个完全颠覆性的模型,需要将所有的设计思路、代码编写、验证方式全部推倒重来,被视为自动驾驶行业一次彻底的升级变革[11] - **VLA(视觉-语言-动作)**:本质上是端到端模型的延伸,在模型中加入了语言(Language)信息,其核心并非多一个信息输入,而是让模型通过语言方式将信息可视化输出[12] - **世界模型**:通俗理解是根据提示生成视频,目标是建立基于视频/图像的“时空认知”,以弥补语言模型在低带宽和信息描述上的短板[12][15][16] - **三者关系**:端到端是基座,VLA是在此基础上加入语言模型的升级,世界模型则是对空间的理解和重塑,与前两者不同,三者是层层递进而非非此即彼[12][19] 行业技术路线与玩家格局 - **端到端路线**:主要由智驾公司推动,如地平线、博世、Momenta,因其成本相对较低、稳定度高且易于规模化部署[13] - **VLA路线**:理想、小鹏、元戎启行是主要拥趸者,但该路线的长期价值遭到华为和蔚来高层的反对[13] - **世界模型路线**:华为和蔚来是主要拥趸者,认为自动驾驶更需要“时空认知”或“空间智能”,而非依赖语言通道[13][16] - **技术融合现状**:端到端与规则代码并不冲突,头部企业如华为在采用端到端方案时仍会使用规则兜底[11] 目前行业存在一段式和两段式端到端方案并存的局面[11] 在实际系统中,为保障高效运转,通常会组合使用多个模型,并可能加入强化学习[19] 特斯拉的技术方案与创新 - **解决端到端模型调试难题**:提出两种方法,一是利用“生成式高斯泼溅”技术在220毫秒内根据摄像头视频实时生成动态3D环境模型(视觉重建/世界模拟器)[8] 二是训练AI用自然语言解释自身行为,一个小型化语言推理模型已在FSD v14.x版本中运行[10] - **云端训练与仿真**:在云端开发“神经世界模拟器”,这是一个能实时生成以假乱真虚拟世界的强大AI,用于对FSD进行极端场景的压力测试和7x24小时训练,再将训练好的模型下放到车端实现降维打击[17] 技术发展的本质与趋势 - **端到端的意义**:标志着自动驾驶真正由人工规则进入智能学习的开始[19] - **VLA的争议核心**:争议焦点在于将所有信息转换为语言是否必要,反对者认为智能驾驶的本质更需要对空间的理解而非语言能力[16] - **世界模型的目标**:旨在补齐语言模型在“时空认知”上的短板,直接建立高带宽的认知系统[15][16] - **系统架构演进**:从理想早期包含端到端和VLM两个模型的“快慢思考”架构,到VLA的单一模型决策,再到世界模型与端到端等多个模型的组合,系统架构随技术演进不断变化[19] - **学习模式进化**:行业趋势正从模仿学习转向强化学习,让系统通过探索“好的行为”并获得奖励来超越人类驾驶水平[19]
Holiday rush: Hong Kong IPO market sparkles with busiest December in years
Yahoo Finance· 2025-12-18 09:30
Hong Kong's initial public offering (IPO) market is heading for its busiest month in four years, as a late rush of listings gathers pace despite the traditional slowdown around the Christmas and New Year holidays. At least 15 companies were set to go public by the end of December, with drug-discovery firm Insilico Medicine planning one of the largest deals in the final stretch of the year, according to data compiled by the Post. A total of 12 companies had already made their market debuts between December ...
从具身到自驾,VLA和世界模型的融合趋势已经形成......
自动驾驶之心· 2025-12-18 00:06
文章核心观点 自动驾驶领域的两大前沿技术路线——视觉-语言-行动模型与世界模型——正呈现出明显的融合趋势,旨在共同塑造一个“既会思考,又会沟通”的终极驾驶大脑,以解决传统模块化方案和早期端到端模型的局限性 [1][16][47] 技术路线解析:VLA - **定义与目标**:VLA 是“视觉-语言-行动”模型,旨在实现人车交互与可解释的端到端自动驾驶,其核心是将人类语言指令融入系统,让车辆“能听懂、会解释、直接开” [4][11] - **系统架构**:采用输入-中间层-输出的“三明治架构” [5] - **输入端**:融合多摄像头图像生成的BEV/体素表征、激光雷达/毫米波雷达数据以及人类语言指令 [5] - **中间层**:由视觉编码器、基于大语言模型的处理器和动作解码器构成,进行统一推理与决策生成 [5] - **输出端**:直接输出车辆的低层控制指令或未来数秒的行驶轨迹 [6] - **核心优势**:交互自然、可解释性强,并能利用语言常识处理复杂语义场景 [11] - **当前挑战**:面临语言与行动对齐困难、算力需求大等难题 [11] 技术路线解析:World Model - **定义与目标**:世界模型是一种生成式时空神经网络系统,旨在为自动驾驶系统构建一个可预测和仿真的内部世界,使其具备“在脑海中预演未来”的能力,从而支持更安全、前瞻的规划 [8][11] - **系统架构**:同样遵循输入-核心模型-输出的架构 [9] - **输入端**:侧重于时序的多模态传感器数据及自车状态,专注于对物理世界状态的建模 [9] - **核心层**:由编码器、记忆模块和生成式预测模块构成,负责状态编码与未来场景的生成式推演 [10] - **输出端**:生成未来场景的丰富表征,如图像序列、BEV地图或4D占据栅格,为下游规划模块提供前瞻信息,而非直接控制车辆 [10] - **核心优势**:能够预测和仿真未来,方便量化风险,并可通过仿真生成大量极端案例数据 [11] - **当前挑战**:缺乏高级语义理解、实时高保真推演的计算成本高,且本身不直接产出驾驶策略 [11] VLA与世界模型的异同 - **主要区别**:两者在目标、输入输出、核心技术及优势挑战上存在显著差异,具体对比如文章中的表格所示 [11] - **内在联系**:尽管路径不同,但二者存在多方面的共同点 [12][13][14][15] - **技术起源一致**:均源于对传统模块化流水线和早期“黑箱”端到端模型的反思 [12] - **终极目标一致**:都是为了让自动驾驶系统具备类人的认知与决策能力 [13] - **关键挑战一致**:都需要解决剩余20%的极端案例难题 [14] - **技术底层一致**:都重度依赖“预训练+微调”的深度学习范式及Transformer等核心架构 [15] 技术融合趋势与实例 行业研究显示,VLA与世界模型的融合已成为明确趋势,旨在形成“感知-推理-仿真-决策-解释”的增强闭环 [16][21][47]。近期多项研究工作体现了这一融合方向: - **3D-VLA (2024.03)**:提出了一个融合3D感知、推理和动作生成的世界模型,其关键创新在于训练扩散模型来生成执行指令后的目标图像、深度图和点云,让模型具备“想象未来”的能力。在一个包含约200万个样本的3D具身指令数据集上训练,在3D推理定位等多任务上表现超越2D模型 [20][22] - **WorldVLA (2025.06)**:将VLA模型与世界模型统一于单一框架,实现动作与图像的联合理解与生成。在LIBERO基准测试中,其动作生成成功率超过同类离散动作模型约4%,视频生成质量优于单纯世界模型约10% [25][26][27] - **IRL-VLA (2025.08)**:提出基于逆强化学习奖励世界模型的闭环强化学习框架来训练VLA策略。在NAVSIM v2闭环驾驶基准上取得领先性能,并在CVPR 2025自动驾驶大挑战中获得亚军 [30][31] - **DriveVLA-W0 (2025.10)**:通过引入未来图像预测作为密集自监督任务,解决VLA模型“监督不足”的根本瓶颈。在NAVSIM基准测试中,仅用单目前置摄像头即超越多传感器基线模型。在大规模内部数据集上的实验表明,该方法能放大数据扩展定律 [34][35][36] - **WM-MoE (2025.10)**:提出首个基于世界模型,并融合专家混合网络与大型语言模型的运动预测框架,专门针对极端案例。在多个公开数据集上的实验表明,其在整体精度和极端案例处理上均超越现有先进方法 [39][40][41] - **FutureSightDrive (2025.11)**:引入视觉时空链式思考作为中间推理步骤,让VLA模型进行“视觉思考”。该框架首先生成包含物理合理先验信息的统一未来帧,再基于此进行轨迹规划,有效弥合感知与规划间的模态鸿沟 [44][45][46] 行业动态与展望 - 工业界已开始布局相关技术,例如华为强调其世界模型能力,小鹏汽车正在研发VLA 2.0,而理想汽车也在发布会上展示了相关理解,预示着将有更多厂商进入该领域 [47] - 下一代自动驾驶的发展方向预计将沿着VLA与世界模型深度融合的思路演进,构建具备闭环智能的驾驶系统 [47]