Workflow
Autonomous Driving
icon
搜索文档
凯文・凯利:意外之美|我们的四分之一世纪
经济观察报· 2025-12-19 09:58
编者按:2025年,经济观察报以"我们的四分之一世纪"为年终特刊主题,旨在通过数十位时代亲历者的 故事,共绘一幅属于这段岁月的集体记忆图谱。 二十一世纪的第一个25年即将结束之际,我问凯文·凯利(KK),有哪些发展超乎他的想象?又有哪些 低于他的预期?他简单地将答案归结为"意外之快""意外之慢",以及"意外之路"。 这三大意外也让我们意识到,前瞻未来时,我们往往会低估创新者的颠覆性,因此必须跳出线性思维; 我们也会在一厢情愿中忽略木桶原理;当然,也会有意外之喜,因为另辟蹊径常常带来爆炸式的后果。 归根结底,未来既充满不确定性,也蕴藏诸多可能性,发现意外之美是最大的快乐。 一、 意外之快:智能手机的"非线性爆发" "我没想到智能手机会吃掉一切"——智能手机普及的速度与广度——是KK最直观的意外。2007年 iPhone问世时,多数人将其视为更精致的功能机;但短短十年间,它不仅完成了全球数十亿级的渗透, 更以吞噬一切的姿态重构了产业格局:相机、MP3、导航仪、钱包乃至电脑的功能,被压缩进方寸屏 幕;社交媒体、移动支付、网约车等新生态,借由手机的普及破土而出。这种"意外之快",本质上是技 术融合催生的"非线性爆发" ...
Chinese Self-Driving Tech Firm CiDi Lists in HK
Yahoo Finance· 2025-12-19 05:39
CiDi, a provider of autonomous driving technology for commercial vehicles, has listed its shares in Hong Kong. Its CEO Albert Sibo Hu discusses the company's growth and international expansion strategy. He speaks with Yvonne Man on "Bloomberg: The China Show." ...
Wayve最近的GAIA-3分享:全面扩展世界模型的评测能力......
自动驾驶之心· 2025-12-19 00:05
作者 | Feynman 编辑 | 自动驾驶之心 原文链接: https://zhuanlan.zhihu.com/p/1979144898872627828 点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近30个 方向 学习 路线 >>自动驾驶前沿信息获取 → 自动驾驶之心知识星球 本文只做学术分享,如有侵权,联系删文 思考: 完整版: https://wayve.ai/thinking/gaia-3/ GAIA-3:规模化世界模型,驱动自动驾驶的安全与评测 将世界建模从一个视觉合成工具,转变为自动驾驶评估的基石。 大规模评估自动驾驶系统仍然是推进现实世界自动驾驶技术面临的核心挑战之一。现实世界测试对于验证安全性至关重要,但其成本高昂、受物流限制,并且数据效 率日益低下。随着驾驶模型的改进和可观测错误的减少,得出具有统计学意义的结论所需的测试里程数急剧增加。而这些里程中的大部分都是平淡无奇的,几乎无法 提供关于罕见但至关重要的安全行为的有效信息。 仿真模拟提供了一条前进的道路。虚拟环境能够实现安全、可靠、可重复且可扩展的驾驶模型测试。然而,尽管前景广阔,现有的仿真方法仍不足以对现 ...
特斯拉再一次预判潮水的方向
自动驾驶之心· 2025-12-18 09:35
文章核心观点 - 特斯拉通过其AI负责人发布的长文,系统性阐述了其FSD的技术方法论,核心是采用端到端神经网络模型,并融合了视觉重建(世界模型)和语言解释(VLA)技术来解决自动驾驶的长尾问题[4][6][8][10] - 行业对端到端、VLA(视觉-语言-动作)和世界模型三大技术概念存在争论,但文章提出反共识观点,认为三者并非对立,而是层层递进的关系:端到端是基座,VLA是升级,世界模型是终极形态[11][12] - 特斯拉的技术路径预判并整合了当前所有主流技术方向,其闭麦两年后通过一篇论文强势回归,再次引领行业技术潮流[4][20] 技术概念解析与关系 - **端到端神经网络**:是一个完全颠覆性的模型,需要将所有的设计思路、代码编写、验证方式全部推倒重来,被视为自动驾驶行业一次彻底的升级变革[11] - **VLA(视觉-语言-动作)**:本质上是端到端模型的延伸,在模型中加入了语言(Language)信息,其核心并非多一个信息输入,而是让模型通过语言方式将信息可视化输出[12] - **世界模型**:通俗理解是根据提示生成视频,目标是建立基于视频/图像的“时空认知”,以弥补语言模型在低带宽和信息描述上的短板[12][15][16] - **三者关系**:端到端是基座,VLA是在此基础上加入语言模型的升级,世界模型则是对空间的理解和重塑,与前两者不同,三者是层层递进而非非此即彼[12][19] 行业技术路线与玩家格局 - **端到端路线**:主要由智驾公司推动,如地平线、博世、Momenta,因其成本相对较低、稳定度高且易于规模化部署[13] - **VLA路线**:理想、小鹏、元戎启行是主要拥趸者,但该路线的长期价值遭到华为和蔚来高层的反对[13] - **世界模型路线**:华为和蔚来是主要拥趸者,认为自动驾驶更需要“时空认知”或“空间智能”,而非依赖语言通道[13][16] - **技术融合现状**:端到端与规则代码并不冲突,头部企业如华为在采用端到端方案时仍会使用规则兜底[11] 目前行业存在一段式和两段式端到端方案并存的局面[11] 在实际系统中,为保障高效运转,通常会组合使用多个模型,并可能加入强化学习[19] 特斯拉的技术方案与创新 - **解决端到端模型调试难题**:提出两种方法,一是利用“生成式高斯泼溅”技术在220毫秒内根据摄像头视频实时生成动态3D环境模型(视觉重建/世界模拟器)[8] 二是训练AI用自然语言解释自身行为,一个小型化语言推理模型已在FSD v14.x版本中运行[10] - **云端训练与仿真**:在云端开发“神经世界模拟器”,这是一个能实时生成以假乱真虚拟世界的强大AI,用于对FSD进行极端场景的压力测试和7x24小时训练,再将训练好的模型下放到车端实现降维打击[17] 技术发展的本质与趋势 - **端到端的意义**:标志着自动驾驶真正由人工规则进入智能学习的开始[19] - **VLA的争议核心**:争议焦点在于将所有信息转换为语言是否必要,反对者认为智能驾驶的本质更需要对空间的理解而非语言能力[16] - **世界模型的目标**:旨在补齐语言模型在“时空认知”上的短板,直接建立高带宽的认知系统[15][16] - **系统架构演进**:从理想早期包含端到端和VLM两个模型的“快慢思考”架构,到VLA的单一模型决策,再到世界模型与端到端等多个模型的组合,系统架构随技术演进不断变化[19] - **学习模式进化**:行业趋势正从模仿学习转向强化学习,让系统通过探索“好的行为”并获得奖励来超越人类驾驶水平[19]
Holiday rush: Hong Kong IPO market sparkles with busiest December in years
Yahoo Finance· 2025-12-18 09:30
Hong Kong's initial public offering (IPO) market is heading for its busiest month in four years, as a late rush of listings gathers pace despite the traditional slowdown around the Christmas and New Year holidays. At least 15 companies were set to go public by the end of December, with drug-discovery firm Insilico Medicine planning one of the largest deals in the final stretch of the year, according to data compiled by the Post. A total of 12 companies had already made their market debuts between December ...
从具身到自驾,VLA和世界模型的融合趋势已经形成......
自动驾驶之心· 2025-12-18 00:06
文章核心观点 自动驾驶领域的两大前沿技术路线——视觉-语言-行动模型与世界模型——正呈现出明显的融合趋势,旨在共同塑造一个“既会思考,又会沟通”的终极驾驶大脑,以解决传统模块化方案和早期端到端模型的局限性 [1][16][47] 技术路线解析:VLA - **定义与目标**:VLA 是“视觉-语言-行动”模型,旨在实现人车交互与可解释的端到端自动驾驶,其核心是将人类语言指令融入系统,让车辆“能听懂、会解释、直接开” [4][11] - **系统架构**:采用输入-中间层-输出的“三明治架构” [5] - **输入端**:融合多摄像头图像生成的BEV/体素表征、激光雷达/毫米波雷达数据以及人类语言指令 [5] - **中间层**:由视觉编码器、基于大语言模型的处理器和动作解码器构成,进行统一推理与决策生成 [5] - **输出端**:直接输出车辆的低层控制指令或未来数秒的行驶轨迹 [6] - **核心优势**:交互自然、可解释性强,并能利用语言常识处理复杂语义场景 [11] - **当前挑战**:面临语言与行动对齐困难、算力需求大等难题 [11] 技术路线解析:World Model - **定义与目标**:世界模型是一种生成式时空神经网络系统,旨在为自动驾驶系统构建一个可预测和仿真的内部世界,使其具备“在脑海中预演未来”的能力,从而支持更安全、前瞻的规划 [8][11] - **系统架构**:同样遵循输入-核心模型-输出的架构 [9] - **输入端**:侧重于时序的多模态传感器数据及自车状态,专注于对物理世界状态的建模 [9] - **核心层**:由编码器、记忆模块和生成式预测模块构成,负责状态编码与未来场景的生成式推演 [10] - **输出端**:生成未来场景的丰富表征,如图像序列、BEV地图或4D占据栅格,为下游规划模块提供前瞻信息,而非直接控制车辆 [10] - **核心优势**:能够预测和仿真未来,方便量化风险,并可通过仿真生成大量极端案例数据 [11] - **当前挑战**:缺乏高级语义理解、实时高保真推演的计算成本高,且本身不直接产出驾驶策略 [11] VLA与世界模型的异同 - **主要区别**:两者在目标、输入输出、核心技术及优势挑战上存在显著差异,具体对比如文章中的表格所示 [11] - **内在联系**:尽管路径不同,但二者存在多方面的共同点 [12][13][14][15] - **技术起源一致**:均源于对传统模块化流水线和早期“黑箱”端到端模型的反思 [12] - **终极目标一致**:都是为了让自动驾驶系统具备类人的认知与决策能力 [13] - **关键挑战一致**:都需要解决剩余20%的极端案例难题 [14] - **技术底层一致**:都重度依赖“预训练+微调”的深度学习范式及Transformer等核心架构 [15] 技术融合趋势与实例 行业研究显示,VLA与世界模型的融合已成为明确趋势,旨在形成“感知-推理-仿真-决策-解释”的增强闭环 [16][21][47]。近期多项研究工作体现了这一融合方向: - **3D-VLA (2024.03)**:提出了一个融合3D感知、推理和动作生成的世界模型,其关键创新在于训练扩散模型来生成执行指令后的目标图像、深度图和点云,让模型具备“想象未来”的能力。在一个包含约200万个样本的3D具身指令数据集上训练,在3D推理定位等多任务上表现超越2D模型 [20][22] - **WorldVLA (2025.06)**:将VLA模型与世界模型统一于单一框架,实现动作与图像的联合理解与生成。在LIBERO基准测试中,其动作生成成功率超过同类离散动作模型约4%,视频生成质量优于单纯世界模型约10% [25][26][27] - **IRL-VLA (2025.08)**:提出基于逆强化学习奖励世界模型的闭环强化学习框架来训练VLA策略。在NAVSIM v2闭环驾驶基准上取得领先性能,并在CVPR 2025自动驾驶大挑战中获得亚军 [30][31] - **DriveVLA-W0 (2025.10)**:通过引入未来图像预测作为密集自监督任务,解决VLA模型“监督不足”的根本瓶颈。在NAVSIM基准测试中,仅用单目前置摄像头即超越多传感器基线模型。在大规模内部数据集上的实验表明,该方法能放大数据扩展定律 [34][35][36] - **WM-MoE (2025.10)**:提出首个基于世界模型,并融合专家混合网络与大型语言模型的运动预测框架,专门针对极端案例。在多个公开数据集上的实验表明,其在整体精度和极端案例处理上均超越现有先进方法 [39][40][41] - **FutureSightDrive (2025.11)**:引入视觉时空链式思考作为中间推理步骤,让VLA模型进行“视觉思考”。该框架首先生成包含物理合理先验信息的统一未来帧,再基于此进行轨迹规划,有效弥合感知与规划间的模态鸿沟 [44][45][46] 行业动态与展望 - 工业界已开始布局相关技术,例如华为强调其世界模型能力,小鹏汽车正在研发VLA 2.0,而理想汽车也在发布会上展示了相关理解,预示着将有更多厂商进入该领域 [47] - 下一代自动驾驶的发展方向预计将沿着VLA与世界模型深度融合的思路演进,构建具备闭环智能的驾驶系统 [47]
Pony AI: Massively Expanded Fleet And A Path To Profitability
Seeking Alpha· 2025-12-17 09:24
Pony AI (Pony.ai) ( PONY ) is a business focused on developing autonomous driving technology for various commercial use cases. The company is in the midst of a hypergrowth phase, as it plans to expand itsHello and welcome to my Seeking Alpha page. My name is Jack Elias, and I am a student at Arizona State University with a strong interest in technology and financial markets. I primarily focus on analyzing tech companies, specifically those involved in the AI infrastructure build out, cloud computing, and ov ...
【今晚播出】一场“无人”的马拉松 | 两说
第一财经· 2025-12-17 05:47
两说 Business Insights 继2024年在纳斯达克上市后,小马智行近日在港交所上市,成为首批实现"美股+港股"双重上市 的自动驾驶科技公司。如今已率先在北上广深四大一线城市提供全无人自动驾驶出租车服务。无人 驾驶安全吗?公众的接受度如何?创业公司在商业生态上如何谋势布局,站在"十五五"开局元年即 将到来之时,本期节目探讨如何在自动驾驶领域推动中国式创新,发展新质生产力?破茧成蝶的路 上,中国企业家如何面对不确定性?需要有怎样的精神内驱特质? 秦朔 人文财经观察家 更多精彩内容,敬请关注12月17日周三晚22:30 东方卫视 《两说》节目, 第一财经 12月20日周六晚22:00 播出。 彭军 本期嘉宾 小马智行创始人、首席执行官 ...
Alphabet’s Waymo eyes $15 billion funding raise - report (GOOG:NASDAQ)
Seeking Alpha· 2025-12-17 04:34
Waymo, the autonomous driving unit of Alphabet (GOOGL) (GOOG), is reportedly in talks to raise more than $15 billion at a valuation approaching $100 billion in a financing round led by its parent company. The maker of robotaxis has discussed ...
谷歌自动驾驶子公司Waymo据悉以1000亿美元估值商谈下一轮融资
新浪财经· 2025-12-16 23:09
据知情人士称,谷歌母公司Alphabet旗下自动驾驶子公司Waymo正在与潜在投资者谈判,以至少1000亿 美元的估值筹集资金。 The Information援引消息人士称,这轮融资的规模将至少达到数十亿美元,甚至可能超过100亿美元。 据知情人士称,谷歌母公司Alphabet旗下自动驾驶子公司Waymo正在与潜在投资者谈判,以至少1000亿 美元的估值筹集资金。 The Information援引消息人士称,这轮融资的规模将至少达到数十亿美元,甚至可能超过100亿美元。 消息人士称,确切的估值尚未确定,并补充称,此轮融资预计将于明年初安排。 责任编辑:于健 SF069 消息人士称,确切的估值尚未确定,并补充称,此轮融资预计将于明年初安排。 责任编辑:于健 SF069 ...