World Model
搜索文档
Wayve最近的GAIA-3分享:全面扩展世界模型的评测能力......
自动驾驶之心· 2025-12-19 00:05
作者 | Feynman 编辑 | 自动驾驶之心 原文链接: https://zhuanlan.zhihu.com/p/1979144898872627828 点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近30个 方向 学习 路线 >>自动驾驶前沿信息获取 → 自动驾驶之心知识星球 本文只做学术分享,如有侵权,联系删文 思考: 完整版: https://wayve.ai/thinking/gaia-3/ GAIA-3:规模化世界模型,驱动自动驾驶的安全与评测 将世界建模从一个视觉合成工具,转变为自动驾驶评估的基石。 大规模评估自动驾驶系统仍然是推进现实世界自动驾驶技术面临的核心挑战之一。现实世界测试对于验证安全性至关重要,但其成本高昂、受物流限制,并且数据效 率日益低下。随着驾驶模型的改进和可观测错误的减少,得出具有统计学意义的结论所需的测试里程数急剧增加。而这些里程中的大部分都是平淡无奇的,几乎无法 提供关于罕见但至关重要的安全行为的有效信息。 仿真模拟提供了一条前进的道路。虚拟环境能够实现安全、可靠、可重复且可扩展的驾驶模型测试。然而,尽管前景广阔,现有的仿真方法仍不足以对现 ...
《机器人年鉴》第 2 卷:如何训练你的机器人;地缘政治;稀土;萨根的预言-The Robot Almanac-Vol. 2 How to Train Your Robot; Geopolitics; Rare Earths; Sagan’s Prophecy
2025-12-15 02:51
行业与公司 * 本纪要为摩根士丹利全球具身人工智能团队发布的《机器人年鉴》第二卷,主题为“如何训练你的机器人、地缘政治、稀土、萨根的预言”[1] * 报告涉及行业为具身人工智能与机器人行业,涵盖机器人基础模型、世界模型、训练方法、边缘计算、地缘政治竞争及稀土供应链等多个细分领域[21][23] * 提及的公司众多,包括但不限于: * **科技巨头/上市公司**:NVIDIA(覆盖分析师:Joseph Moore)[76]、Google/Alphabet(覆盖分析师:Brian Nowak)[89][224]、Meta(覆盖分析师:Brian Nowak)[214]、Apple(覆盖分析师:Erik Woodring)[214]、Tesla[143]、Unity(覆盖分析师:Matt Cost)[169]、MP Materials(覆盖分析师:Carlos De Alba)[427]、Lynas(LYC.AX,覆盖分析师:Rahul Anand)[428]、Iluka Resources(ILU.AX,覆盖分析师:Rahul Anand)[429]、BYD(覆盖分析师:Tim Hsiao)[339] * **机器人/具身AI初创公司(私人公司)**:Skild AI[284]、Physical Intelligence[279]、1X Technologies[60]、Figure AI[59]、Covariant[62]、Field AI[63]、Agibot[61]、Apptronik[251] * **其他**:Epic Games(私人)[169]、Brookfield(覆盖分析师:Mike Cyprys)[199]、DJI(私人)[339] 核心观点与论据 **1 机器人技术范式转变:从预AI到后AI** * **预AI机器人**:局限于工厂,执行高度可预测、重复的任务,复杂度有限,需要有限的灵巧性,与人类交互有限或无交互[30] * **后AI机器人**:能够执行多样化任务、适应不同环境,可与人类交互,并具备持续学习能力[39] * **关键转变**:机器人正“逃离工厂”,进入家庭、农场、城市、空中、太空、军事和海洋等物理世界[45] **2 机器人基础模型(RFM)的核心概念与架构** * **定义**:RFM通过大规模机器人运动数据集进行预训练(实现广泛泛化),再针对特定任务(如抓取物体)进行后训练[53] * **与LLM/VLM的区别**: * **LLM/VLM**:基于互联网上易于抓取的文本/图像数据进行训练,输出文本、图像、代码等[96] * **机器人模型**:需要大量现实世界数据收集和模拟,输出是动作[100] * **类比人脑**:LLM主要对应大脑的创造性、解决问题、语言等功能区域(额叶、颞叶等),而物理AI则对应处理精细运动技能、平衡、协调的小脑和运动皮层,后者被描述为“最难的AI领域”[105][107] * **主流架构**:大多数基础模型基于视觉-语言-动作架构,通过神经网络处理视觉和语言输入,输出机器人动作[66][67] * **双系统方法**:开发者(如NVIDIA、Physical Intelligence、Figure)采用类似人脑的“快慢思考”双系统方法,系统1负责自动/本能反应,系统2负责通过推理确定任务中间步骤[70][72] **3 机器人训练方法、数据与挑战** * **训练方法**:主要有三种——遥操作(人类直接控制)、模拟(数字孪生+强化学习)、视频学习(基于人类或机器人视频)[140][143] * **方法对比**: * **遥操作**:能提供视觉和物理数据,相对简单,但耗时、不可扩展,数据在不同机器人形态间用处有限[147] * **模拟**:可无限扩展至多样场景,提供视觉和物理数据,但计算密集,存在“模拟到现实”的差距[152] * **视频**:基于真实世界,可通过摄像头捕获大量人类场景,理论上可从互联网抓取,但仅有视觉数据,可能需要更大样本量[154] * **特斯拉的实践**:尝试了所有三种方法,目前专注于模拟和视频学习[155] * **数据挑战与价值**: * **莫拉维克悖论**:对人类来说容易的技能(如抓取、在拥挤空间导航),对AI来说很难;反之,对人类难的技能(如多变量微积分),对AI可能很容易[127][130][132] * **物理世界的复杂性**:训练机器人执行简单任务(如从冰箱取瓶子)需考虑手指精确定位、身体平衡、肩膀角度、施加的力度、物体重心变化、环境导航、湿度、材料属性等无数细节,凸显物理AI的难度[116][120] * **数据的时效性**:最具价值的5分钟数据是“刚刚过去的5分钟”,仅次于“接下来的5分钟”,拥有最佳实时/涌现数据的公司具有重大优势[125][126] * **模拟与游戏引擎的作用**: * 模拟对机器人训练至关重要,因其更安全、可扩展且能不断改进[159] * 视频游戏本质上是模拟,游戏引擎公司(如Epic Games的Unreal Engine、Unity)已涉足该领域[166][169] * NVIDIA的显卡游戏历史为其机器人未来(如Omniverse模拟平台)奠定了基础[170][174] **4 边缘计算与分布式推理** * **NVIDIA的三计算架构**:模拟(合成数据生成)、数据中心(训练)、运行时计算机(如Jetson系列,在边缘进行实时推理)[176] * **边缘计算需求与潜力**: * **Jetson Thor**:最新一代边缘实时推理计算机,每套约3500美元,每台机器人至少配备一个,用户包括1X、Agility、Amazon、Boston Dynamics、Figure等[178][180] * **分布式推理云**:随着机器人数量增加,其搭载的推理算力可能形成分布式推理云,挑战集中式数据中心模式,优势包括能源效率、弹性/容错/安全性、灵活性/效率和低延迟[185][188] * **特斯拉的设想**:利用特斯拉AI5芯片连接其“机器人”群,形成分布式推理云,据摩根士丹利测算,假设1亿台机器人,每台2,500 TFLOPS,平均50%可用利用率,可提供约125,000 ExaFLOPS算力,相当于约700万个B200 GPU的算力,且功耗和冷却已由设备承担[193][195] * **边缘算力需求估算**: * **单机器人算力**:2024年,人形机器人约等效于2个NVIDIA Jetson Orin(275 TFLOPS),自动驾驶汽车和电动垂直起降飞行器约等效于2个NVIDIA DRIVE Thor SoC(1,000 TFLOPS)[234] * **总需求**:机器人销量增长将驱动边缘AI计算需求呈指数级增长[228] **5 地缘政治:中美在具身AI领域的竞争** * **竞争态势**:中美之间正在进行“AI霸权竞赛”[287] * **美国现状**:目前在AI模型(根据Scale AI的MASK基准测试)等方面可能“领先”[290] * **中国的战略与优势**: * **国家优先**:已将机器人列为国家优先事项[301] * **制造规模**:2024年工业机器人安装量占全球的54%,超过其他所有国家总和[302];正在将现有制造业产能转化为生产AI机器人[297] * **垂直整合**:在电动汽车、电池、无人机、摄像头设备等领域通过垂直整合和本土化实现主导地位,例如比亚迪75%的零部件自产,大疆的飞控、摄像头、电机、电池、云台、软件均自产[338] * **STEM教育**:在STEM教育方面超过美国[309] * **相互依赖与谈判**: * **美国需要中国**:中国主导全球电动汽车电池制造和稀土磁体生产[341][344] * **中国需要美国**:美国拥有巨大的私人财富和市场[348][349] * 双方已表现出在贸易及相关问题上谈判的意愿,议题可能包括TikTok美国业务出售、稀土供应、尖端芯片等[350][351] * **竞争驱动创新**:历史表明,从战国时期到冷战,国家间的竞争是创新的关键驱动力[321][325] * **“美国发明,中国规模化”模式**:报告以太阳能电池为例,美国于1954年发明,但到2023年近100%的太阳能生产依赖中国,2024年中国新增太阳能装机容量超过美国总装机容量的1.5倍[328][330][334] * **中期展望**:中美之间将是“竞争性对抗”[360] * **潜在合作案例**:传闻苹果与比亚迪在越南合作制造机器人[356][358] **6 稀土:关键瓶颈与供应链风险** * **重要性**:稀土元素(特别是钕、镝、铽等)对于制造用于机器人关节、电动汽车电机等的永磁体至关重要[367][373] * **供应高度集中**:中国主导稀土开采和精炼,2024年分别占约90%和近90%[400][404] * **供应链脆弱性**:历史上(如2010年对日本)曾出现供应中断,导致价格飙升[408][409] * **需求激增**: * **机器人需求**:不同机器人形态需要不同数量的钕铁硼磁体(公斤/台)[390] * **巨大增量**:仅人形机器人一项,到2050年就可能使磁体需求翻倍[393] * **总量预估**:到2050年,预计售出14亿台机器人,对应170万吨磁体需求(假设磁体化学性质不变)[396][398] * **挑战与应对**: * **无快速解决方案**:建立新的采矿和精炼产能需要时间,全球新矿启动通常需要超过20年[414][416] * **中国持续主导**:预计到2050年中国仍将保持主导份额[419] * **投资与替代努力**: * **美国政府介入**:2025年7月,美国国防部收购MP Materials 15%的股份,以扩大其磁体产能,这是自2008年金融危机救助以来罕见的政府直接持股[432][433] * **摩根士丹利看好的非中国稀土股**:MP Materials、Lynas、Iluka Resources[425] * **初创企业探索**:包括无稀土磁体、稀土回收、从采矿废料中提取稀土等方向的私人公司[436] **7 数据收集与未来展望** * **视觉数据收集**:报告预测,到2030年,人们将通过众多摄像头持续收集数据以训练机器人,而不仅是口袋里的一个摄像头[203][209] * **大型科技公司的数据探针**:Meta智能眼镜等设备可能成为重要的现实世界数据来源,据估计两年内使用量超过2000万副,约相当于特斯拉上路车辆数量的两倍[219] * **行业投入**:全球对物理AI模型与开发的初创企业风险投资规模巨大(截至2025年12月10日)[240] * **萨根的预言**:引用天文学家卡尔·萨根1995年的预言,警告美国制造业流失可能带来不利的地缘政治和社会后果[442][448] * **机遇**:AI与实体经济的交汇为证伪萨根的预言提供了机会,可能重塑全球制造业格局[455] * **摩根士丹利的战略承诺**:公司将致力于阐述具身AI的故事,帮助客户识别可能超越当今全球GDP规模的行业变革者和新市场创造者[458] 其他重要内容 * **报告性质与免责声明**:内容基于未经审计的信息,不构成投资建议,特别是涉及私人公司的部分仅供信息参考,投资者应自行尽职调查[1][463] * **术语简化尝试**:报告承认AI和机器人术语混乱,并尝试简化一系列术语,如世界模型、模仿学习、LLM、预训练、数字孪生等[47] * **列举的机器人基础模型与世界模型**:报告列出了多家公司/机构开发的基础模型和世界模型示例[54][63][80][84] * **全球机器人AI赋能者概览**:报告以图表形式展示了该生态系统的关键参与者[244] * **谷歌的数据规模**:提及谷歌处理的令牌数量从2024年5月的9.7万亿个攀升至2025年4月的超过万亿个,并在2025年6月达到980+万亿个[224]
美国视频生成老炮儿,入局世界模型
量子位· 2025-12-13 04:34
鹭羽 发自 凹非寺 量子位 | 公众号 QbitAI 世界模型赛道,又有老面孔新鲜入局! 就在刚刚,Runway发布旗下首个通用世界模型 GWM-1 。 不止于此,还打包发布了一系列世界模型变体: 而这些通通都是基于最新版 Gen-4.5 建立的。 是的!Runway这次还把Gen-4.5来了个大升级。 模拟真实环境的GWM Worlds; 模拟人物对话的GWM Avatars; 模拟机器人操作的GWM Robotics。 …… 看来年末大促销的不只有圣诞老人奥特曼,还有好莱坞名导Runway。 话不多说,上实机: 世界模型全家桶发布 根据官方介绍,GWM-1是基于Gen-4.5构建的,这是Runway最新的视频生成模型。 但和Gen-4.5有所不同的是,GWM-1采用的是 自回归 架构,它可以根据之前的记忆内容,进行逐帧预测生成。 另外模型支持实时交互控制,包括调整相机姿态、修改机器人操作指令或音频。 它目前包含三个变体: 1、GWM Worlds:用于实时环境的模拟与探索。 GWM Worlds能够让用户在连贯、有反应的世界中自由移动,而无需手动设计每个空间。 具体来说,用户首先需要为模型提供一个可供参考 ...
Pony Ai(PONY) - 2025 Q3 - Earnings Call Transcript
2025-11-25 13:02
财务数据和关键指标变化 - 第三季度总收入为2540万美元,同比增长72% [44] - 机器人出租车服务收入达到670万美元,同比增长89.5%,环比增长338.7% [45] - 车费收入实现三位数增长,飙升233.3% [45] - 毛利率从去年同期的9.2%提升至18.4%,毛利润为470万美元 [50] - 总运营费用为7430万美元,同比增长76.7%;非GAAP运营费用为6770万美元,同比增长63.7% [53] - 第三季度净亏损为6160万美元,去年同期为4210万美元;非GAAP净亏损为5500万美元,去年同期为4140万美元 [54] - 截至2025年9月30日,现金及现金等价物等为5.877亿美元,较2025年6月30日的7.477亿美元有所下降 [55] - 2025年前九个月累计自由现金流出为1.736亿美元 [56] 各条业务线数据和关键指标变化 - 机器人出租车业务:收入670万美元,同比增长89.5%;车费收入增长233.3%;日均单车净收入达到299元人民币,日均订单量23单 [45][51][77] - 机器人卡车业务:收入1020万美元,同比增长8.7% [49] - 许可和应用业务:收入860万美元,同比增长354.6% [49] 各个市场数据和关键指标变化 - 在中国一线城市,用户需求增长推动机器人出租车业务强劲增长 [45] - 海外市场机器人出租车收入快速增长,业务已拓展至8个国家 [47][48] - 第三季度进入卡塔尔新市场,并与Mowasalat合作 [17] - 在韩国获得全国性机器人出租车许可 [18] - 在欧洲,计划与Stellantis合作部署测试车辆 [18][19] 公司战略和发展方向和行业竞争 - 成功在香港交易所完成双重主要上市,募资超过8亿美元,为大规模商业化提供资金 [4][5] - 加速量产,预计2025年底车队规模将超过1000辆,2026年扩大至3000辆以上 [5][11][12] - 推行"卫星模式",与第三方伙伴(如Sihu集团、Sunlight Mobility)合作,以轻资产模式加速车队扩张 [8][15][47] - 技术战略聚焦全栈集成和世界模型,通过高保真模拟和强化学习实现无人驾驶技术的自我迭代 [24][25][26] - 通过优化自动驾驶套件设计,第七代机器人出租车的底成本较上一代降低70%,并预计为2026年生产的平台再降20% [32][33] - 行业新进入者面临业务、监管和技术三大挑战,公司凭借先发优势和规模化运营建立壁垒 [84][85][86][87][88][89] 管理层对经营环境和未来前景的评论 - 车队规模的扩大创造了"向上螺旋"效应:更短的等待时间、更好的用户体验、更高的车辆利用率和更优的定价策略 [5][9][10][62] - 第七代机器人出租车在广州实现城市级单位经济盈亏平衡,验证了可行的商业模式,为进一步扩张奠定基础 [8][43][75] - 香港上市募资将用于加速车队扩张、优化平台规模化和加深研发投入 [5][6][57] - 对实现2025年1000辆车队目标并提前完成充满信心,预计2026年车队将超过3000辆 [11][12][57][58] - 海外市场具有高增长潜力,公司将选择具有强大移动需求、发达基础设施和支持性监管环境的市场进入 [116][117][118] 其他重要信息 - 公司管理层乘坐完全无人的第七代机器人出租车参加此次财报电话会议 [7] - 第七代机器人出租车已在北京、广州、深圳正式启动完全无人的商业服务 [7] - 发布了第四代机器人卡车,预计2026年投入生产和初步车队部署 [20] - 远程辅助与车辆的比例预计在年底达到1:30 [35][78][112] - 公司与优步、Bolt等全球叫车平台合作,并利用其生态系统进入中东等国际市场 [19][20] 总结问答环节所有的提问和回答 问题: 关于今年和2026年的车队规模更新以及在不同城市的部署计划 [61] - 公司预计将超越此前设定的2025年底1000辆机器人出租车的目标,并保守预计2026年车队将超过3000辆 [62] - 车队密度的增加创造了更短的乘客等待时间,从而带来更好的用户体验和更高的车辆利用率,形成强劲的增长势头 [62] - 通过"卫星模式"与车队管理方合作,能以更少的资本支出部署更大规模的车队 [63] - 部署计划将深化现有市场(中国一线城市)的运营,同时拓展更多国内城市和海外市场 [63][64] 问题: 随着部署更多车辆,车费收入的前景如何 [66] - 第三季度车费收入增长约233%,即使车队仍由第五代和第六代车辆组成 [67] - 增长由需求端(用户体验改善、用户注册量翻倍)和运营端(车队调度优化、等待时间缩短约50%、上下客点增加)共同驱动 [67][68][69][70] - 随着第七代车辆的持续加入和车队规模指数级增长(2026年目标超3000辆),预计将产生更好的网络效应,从而提升单均价值 [71][72] 问题: 关于城市级单位经济盈亏平衡背后的假设,包括日均订单、定价、运营时长和远程辅助比例 [74] - 该里程碑在广州实现,日均单车净收入为299元人民币,基于11月23日前两周的平均数据 [76][77] - 日均订单为23单 [77] - 成本端主要包括基于6年使用寿命的硬件折旧,以及充电、远程辅助、地面支持等运营成本 [78] - 远程辅助与车辆的比例正朝着1:30的目标迈进 [78] 问题: 对Level 4自动驾驶领域新进入者(特别是电动汽车制造商)的看法,以及主要的技术和运营挑战 [82] - 新进入者增多表明行业认可度提升,是好事,但行业门槛很高,目前尚无新进入者能在开放道路上部署完全无人的车队 [84][85] - 挑战主要来自三个方面:业务方面(用户获取、车辆生产、车队管理等,先发者具有优势)[86][87];监管方面(安全要求高,许可获取过程漫长)[88][89];技术方面(需要先进的世界模型和模拟训练环境)[90][91] 问题: 运营区域快速扩张的主要因素,以及是否使用大语言模型推动L4自动驾驶 [97] - 技术栈本身为泛化而构建,L4原生架构能处理不同区域的极端案例,扩张速度的关键在于车辆数量,而非技术 [98][99][100][101] - 大语言模型由于存在幻觉、高延迟以及依赖人类数据(可能学习人类驾驶错误)等固有特性,不适用于L4车载驾驶模型,但公司将其用于研发辅助,如人机交互和工程生产力工具 [102][103][104][105] 问题: 与多家OEM合作是否可能通过只与一家OEM合作来提高运营杠杆 [107] - 现实是不同地区的政府和居民对本地品牌出租车有强烈偏好,与多个本地OEM合作有助于快速进入不同市场 [108] - 将自动驾驶套件适配不同车辆虽然带来技术挑战,但也展示了技术泛化能力,未来能成为竞争优势 [109][110] 问题: 机器人出租车遇到困难时为何使用远程辅助而非远程控制或人工接管,背后的技术差异 [111] - 远程辅助从不通过方向盘或踏板控制车辆,而是响应服务请求提供支持建议,车辆始终保持独立决策和驾驶,无需依赖网络延迟 [112] - 典型应用场景如临时交通管制,系统可请求远程辅助确认决策,AI算法的进步正不断提升远程辅助与车辆的比例 [112][113] 问题: 对中东地区颁发完全无人驾驶机器人出租车许可证的看法以及公司的海外战略 [116] - 公司全球战略聚焦于具有高增长潜力的市场,评估标准包括市场规模、政府支持力度和当地合作伙伴的实力 [117] - 目前已在8个国家开展机器人出租车业务,第三季度新增卡塔尔市场,海外机器人出租车收入快速增长,未来将继续寻找好的增长机会进入其他全球市场 [118][119]
Pony Ai(PONY) - 2025 Q3 - Earnings Call Transcript
2025-11-25 13:02
财务数据和关键指标变化 - 第三季度总收入为2540万美元,同比增长72% [44] - 机器人出租车服务收入达到670万美元,同比增长89.5%,环比增长338.7% [45] - 其中车费收入实现233.3%的同比增长 [45] - 毛利率从去年同期的9.2%提升至18.4%,毛利润为470万美元 [48] - 总运营费用为7430万美元,同比增长76.7%;非GAAP运营费用为6770万美元,同比增长63.7% [50] - 净亏损为6160万美元,去年同期为4210万美元;非GAAP净亏损为5500万美元,去年同期为4140万美元 [50] - 截至2025年9月30日,现金及现金等价物等为5.877亿美元,较6月30日的7.477亿美元有所减少,主要由于对合资公司注资及车辆采购等资本支出 [51] - 香港IPO融资超过8亿美元,为资产负债表提供显著支持 [4][52] 各条业务线数据和关键指标变化 - **机器人出租车业务**:收入增长强劲,主要受中国一线城市用户需求增长、车队运营效率提升和定价策略优化驱动 [45] 车队规模预计年底超过1000辆,2026年扩大至3000辆以上 [5][11][52] - **机器人卡车业务**:第三季度收入为1020万美元,同比增长8.7% [47] 第四代机器人卡车预计2026年投产,其自动驾驶硬件套件成本将降低70% [20][47] - **技术许可与应用业务**:收入为860万美元,同比增长354.6%,主要受自动驾驶域控制器需求推动 [47] 各个市场数据和关键指标变化 - **中国市场**:在广州、深圳、北京和上海(浦东金桥和花木区域)推出全无人驾驶商业服务 [7][13] 广州市场已实现城市级单位经济效益盈亏平衡 [8][43] - **海外市场**:业务已拓展至8个国家,包括中国、中东、东亚、欧洲和美国 [17] 第三季度进入卡塔尔市场,并与Mowasalat合作开始路测 [17][18] 在韩国获得全国性机器人出租车许可 [18] 与Uber、Bolt等全球网约车平台合作,旨在进入中东并拓展至其他国际市场 [19] 公司战略和发展方向和行业竞争 - **规模化战略**:通过扩大车队规模产生网络效应,缩短等待时间,提高车辆利用率,形成增长螺旋 [5][9][10] 推行“卫星模式”,与第三方伙伴(如深圳丝湖集团、阳光出行)合作,由对方出资购买车辆,公司收取技术许可费和车辆销售收入,实现资产轻型化和资本高效扩张 [15][46][52] - **技术战略**:坚持全栈技术整合,早期押注世界模型和强化学习,实现无人监督、自我改进的闭环训练 [24][26][27] 世界模型满足高保真交互模拟、复现规模化现实 corner case、基于AI的学习评估器三大标准 [28][30][31] 技术栈具备泛化能力,可快速适应新市场和新平台 [38][39][40] - **生产与成本**:Gen7机器人出租车自动驾驶套件成本较上一代降低70%,并为2026年生产平台进一步降低20% [33] 生产加速,截至11月已有超过600辆Gen7下线,总车队规模超过900辆 [11] - **行业竞争**:新进入者面临业务、监管和技术三大挑战 [74][75][76] 公司作为先行者,在品牌知名度、成本优化、合作伙伴关系等方面具备优势 [74] 技术上,公司早在2020年就开始开发基于强化学习的自动驾驶,在世界模型方面拥有先发优势 [25][77] 管理层对经营环境和未来前景的评论 - 香港成功上市是公司重要里程碑,为大规模生产和商业化提供充足资金 [4][5][22] - Gen7机器人在广州实现城市级单位经济盈亏平衡是关键里程碑,验证了可行的商业模式,为快速扩张奠定基础 [8][43][58] - 中国一线城市是网约车最大市场,在此实现盈亏平衡具有重要商业意义 [66] - 车队扩张本身是高效的自我强化营销引擎,车辆作为移动广告吸引新用户 [9][10] Gen7推出后一周内新注册用户数几乎翻倍 [10] - 未来将维持有纪律的投资,以加速大规模商业部署 [50] 凭借已验证的运营模式和IPO资金,公司处于独特地位,能将增长势头转化为可持续的盈利增长 [52][53] 其他重要信息 - 公司于2025年11月6日在香港交易所完成双重主要上市,股票代码2026,融资超过8亿美元,成为今年全球自动驾驶领域最大IPO [4] - 管理层团队在财报会当天乘坐全无人驾驶的Gen7机器人出租车抵达深圳办公室,以展示技术进步 [7] - 用户体验持续优化,包括智能重新定位功能、语音助手等,旨在将座舱升级为AI驱动的移动终端 [37] - 远程辅助与车辆比例正提升,预计年底达到1:30 [35][68] 远程辅助提供建议而非远程控制,车辆始终保持独立决策,确保安全不依赖网络延迟 [92][93] 问答环节所有提问和回答 问题: 关于今年和2026年的车队规模展望以及在不同城市的部署计划 [55] - 公司预计将超越年底1000辆的目标,并保守预计2026年车队将超过3000辆 [56] 车队密度创造更短等待时间和更好用户体验,从而形成增长螺旋 [56] 部署计划将深化现有市场(一线城市),同时拓展更多国内新城市和海外市场,策略是与当地伙伴和政府深度合作 [57][58] 问题: 车费收入的增长前景如何 [60] - 车费收入在第三季度增长233%,即使当时车队仍以Gen5/Gen6为主 [61] 增长受需求和运营两端驱动:需求端用户数翻倍;运营端等待时间缩短约50%,在深圳接送点数量增长超300% [62] 随着Gen7车辆增加、车队规模指数级增长(2026年超3000辆)以及服务区域扩大,预计将维持强劲增长势头 [63] 问题: 关于城市级单位经济盈亏平衡的假设细节,如每日订单、定价、运营时长和远程辅助比例 [65] - 该里程碑在广州实现,每日单车净收入达到299元人民币,基于23个日均订单 [67] 成本端主要包括基于6年使用寿命的硬件折旧和运营成本(充电、远程辅助、地勤等) [68] 远程辅助比例正朝着1:30的目标迈进 [68] 此里程碑为卫星模式和进一步扩张奠定了战略基础 [68][69] 问题: 对新进入者(如电动车企)的看法以及面临的技术和运营挑战 [71] - 新进入者增多表明行业潜力和资源投入增加,是好事 [72] 但行业门槛高,目前尚无新进入者实现全无人驾驶车队上路 [73] 挑战包括业务(用户获取、车辆生产、车队管理等)、监管(需逐步证明安全性、获取许可)和技术三大方面 [74][75][76] 技术上,公司早在5年前开始研发世界模型,具备先发优势,世界模型的闭环训练减少对真实数据的依赖,能有效处理 corner cases [77][78] 问题: 运营区域快速扩张的主要因素以及大语言模型在L4自动驾驶中的应用 [81] - 技术栈本身为泛化而建,例如在上海浦东和深圳南山新区域扩展至全无人驾驶仅需数周,无需额外模型训练 [82][83] 扩张速度关键取决于车辆数量,避免密度被稀释 [83] 关于大语言模型,由于其存在幻觉、高延迟以及依赖人类数据(可能学习人类错误)等固有特性,不符合L4对安全和低延迟的非妥协要求,因此不用于车载驾驶模型,但用于研发中的AI人机交互、工程生产力工具等 [84][85] 问题: 与多家OEM(BAIC、GAC、Toyota)合作是否考虑通过与单一OEM合作来提升运营杠杆 [88] - 现实是各地政府和居民对本地品牌车辆有强烈偏好,大规模部署时需要与不同地区本地OEM合作以快速进入市场 [89][90] 将自动驾驶套件适配不同车辆虽是技术挑战,但也展示了技术泛化能力,未来能成为加速区域扩张的竞争优势 [90][91] 例如在欧洲新增了与Stellantis的合作 [91] 问题: 机器人出租车遇到困难时为何使用远程辅助而非远程控制或人工接管,其技术差异 [92] - 远程辅助从不通过方向盘或踏板控制车辆,而是响应服务请求提供支持建议,车辆始终独立驾驶和决策 [92] 辅助仅在车辆请求时启动,车辆根据实际情况及时决策,不依赖网络延迟,确保安全 [92][93] 典型案例如临时交通管制,系统请求辅助以确认决策 [93] AI算法进步正不断提升远程辅助与车辆的比例 [93] 问题: 对中东国家发放全无人驾驶牌照的看法以及公司的海外战略 [96] - 公司使命是“自动驾驶无处不在”,具备全球雄心 [96] 海外拓展聚焦于具有高增长潜力的市场,评估标准包括市场规模、政府支持度和监管环境、当地合作伙伴的实力 [96] 目前已进入8个国家,例如第三季度通过合作进入卡塔尔市场,海外机器人出租车收入快速增长,预计势头将持续,未来将进入有良好增长机会的其他全球市场 [97][98]
杨立昆批评Meta的AI战略,称LLM不是通往人类水平智能的途径;夸克全面接入千问对话助手,将发布全新AI浏览器丨AIGC日报
创业邦· 2025-11-19 00:12
蚂蚁集团AI产品发布 - 蚂蚁集团正式发布全模态通用AI助手“灵光”,可在移动端实现自然语言30秒生成可编辑、可交互、可分享的小应用 [2] - “灵光”是业内首个全代码生成多模态内容的AI助手,首批上线“灵光对话”、“灵光闪应用”、“灵光开眼”三大功能,支持3D、音视频、图表、动画、地图等全模态信息输出 [2] - 该产品已同步登陆安卓与苹果应用商店 [2] 行业巨头AI动态 - 亚马逊创始人杰夫・贝索斯创办名为“Project Prometheus”的人工智能初创公司并担任联席CEO,该公司已获得62亿美元资金并拥有近100名员工,包括来自Meta、OpenAI和谷歌DeepMind的研究人员 [2] - 夸克APP全面接入阿里巴巴千问对话助手,用户可在夸克APP内使用千问的对话能力,夸克定位为AI浏览器并将与千问APP形成战略协同,其PC端也将推出与千问深度结合的全新AI浏览器 [2] - 苹果明星设计师Abidur Chowdhury已从苹果公司离职,加入一家人工智能初创公司,其离职在公司内部引起不小震动 [2] AI技术路径争议 - Meta前首席AI科学家杨立昆批评大型科技公司在大型语言模型上投入巨额资金是一个错误,认为真正的计算机智能不会来自语言模型 [2][3] - 杨立昆认为人工智能的突破将来自“世界模型”,而非依赖于从互联网吸收文本的LLM或视觉数据 [2][3]
李飞飞最新播客:从洞穴实验理解世界模型|Jinqiu Select
锦秋集· 2025-11-17 08:43
文章核心观点 - AI的本质是“智能”的延伸,而非“人工”,是人类理解世界能力的拓展[3][10] - 推动AI发展的核心三要素始终是数据、神经网络和GPU算力,这一组合构成了现代AI的基石[6][24][26] - 当前AI发展的关键瓶颈和未来机遇在于“世界模型”,其旨在解决机器在空间、视觉和行动上理解世界的难题,是连接语言智能与具身智能的桥梁[3][34][40] - 单纯依靠大数据和算力扩展的“苦涩教训”路径在机器人等具身智能领域可能行不通,因为面临数据难以获取、物理系统复杂性等独特挑战[4][47][48] - 公司World Labs发布的全球首个大规模世界模型Marble,展示了生成可导航、可交互三维世界的技术能力,并在影视制作、游戏开发、机器人模拟等领域展现出应用潜力[39][53][59][60] AI发展历程与驱动要素 - AI学科诞生于20世纪50年代,经历了从早期逻辑系统、专家系统到机器学习、神经网络的发展阶段[16][17] - 2006至2007年启动的ImageNet项目,通过整理1500万张网络图片和22000个概念分类,为AI提供了关键的大规模数据集[23] - 2012年成为深度学习与现代AI的开端,多伦多团队利用ImageNet数据、NVIDIA的两块GPU,成功训练出在物体识别上取得突破的神经网络[23][24] - 在2016年前后,科技公司曾因市场接受度问题而避免使用“AI”一词,这一情况在约2017年后发生根本性逆转[28][29][30] - ChatGPT的成功本质仍是数据、神经网络和GPU三要素共同作用的结果,而非技术路径的根本改变[25][26] 世界模型的概念与重要性 - 世界模型是一种基础能力,旨在让机器能够推理、互动并创造世界,其核心是从二维信息理解三维甚至四维世界的能力[3][34][41] - 与大型语言模型不同,世界模型关注的是空间智能,对于机器人、自动驾驶、科学发现(如从二维X射线衍射图推理三维DNA结构)等领域至关重要[40][44] - 公司World Labs于2022年开始布局世界模型研究,认为其与语言模型同等重要甚至互补,是AI未来的关键方向[3][39][53] - 世界模型的应用可显著提升效率,例如在影视虚拟制作领域,有案例显示其能将制作时间缩短40倍[59] 机器人与具身智能的挑战 - 在机器人领域应用“苦涩教训”(即简单模型+大数据)面临两大挑战:训练数据与输出动作难以完美对齐,以及机器人作为物理系统的复杂性[4][47][48] - 机器人训练数据稀缺,尤其缺乏体现真实三维动作的数据,网络视频虽有价值但存在对齐问题,需补充遥操作或合成数据[47][48] - 机器人更接近自动驾驶汽车,不仅需要“大脑”(算法模型),还需要“身体”(硬件)和具体的应用场景,其产品化涉及供应链、硬件成熟度等多方面因素[4][49] - 与在二维平面上运动的自动驾驶汽车相比,在三维世界中行动并操控物体的机器人面临更长的技术发展路径[49] World Labs与Marble产品进展 - World Labs由四位深耕技术研究的联合创始人资助,团队约30人,主要为研究员和研究工程师,致力于将前沿模型与产品结合[53][65] - 公司推出的产品Marble是全球首款允许通过文本或图像提示生成可导航、可交互三维世界的模型[53][54] - Marble采用点状可视化设计,旨在帮助用户理解模型运行并提升体验愉悦感,该特性受到用户积极反馈[55] - 目前Marble已应用于电影虚拟制作、游戏开发、机器人模拟训练及心理学研究等多个领域,展现出横向应用潜力[59][60] - World Labs的技术路线强调空间智能超越二维视频生成,专注于在深度空间中创造、推理和互动[63] 对AGI与未来技术发展的看法 - AGI(人工通用智能)更像一个营销词汇而非严谨科学概念,AI本身即是追求机器像人一样思考和行动的“北极星”目标[32][33] - 当前技术路径(扩展数据、算力、模型)虽能继续推进,但仍需重大创新以解决AI在抽象推理、情感智能、科学发现(如推导物理定律)等方面的不足[34][35][36] - 人类智能以极低功耗(约20瓦)完成复杂任务,这凸显了生物智能的高效性与当前AI技术的差距[52] 人才与行业生态观察 - AI领域竞争激烈,主要体现在模型、技术和高成本人才的争夺上[67][68] - 对于职业发展,建议关注自身热情、团队使命和所能产生的影响,而非过度纠结细节或盲目追逐热点[71][72] - 斯坦福以人为本AI研究所(HAI)的建立,旨在推动AI在科研、教育、政策等领域的负责任发展,并加强科技界与政策制定者(如华盛顿、布鲁塞尔)的沟通[73][74]
理想詹锟ICCV'25讲世界模型从数据闭环到训练闭环PPT
理想TOP2· 2025-10-28 15:18
技术发展路线 - 自动驾驶技术正从基于规则的系统、模仿学习向端到端+视觉语言模型以及无地图方案演进 [6] - 技术性能的提升依赖于仿真效率、数据规模以及人类工程师的经验 [6] - 视觉语言模型和世界模型是构建L4级训练闭环的关键组成部分 [15][16] 数据闭环的价值与规模 - 公司已积累15亿公里的驾驶数据,数据片段长度为15至45秒 [8] - 数据闭环基础设施包含超过200种触发条件,能够实现分钟级的数据反馈 [8] - 数据规模呈现显著增长,从2020年的数据点增长至2025年的规划 [8] 端到端视觉语言模型的数据缩放定律 - 模型性能随着训练片段数量的增加而提升,从100万片段到1000万片段均有对应性能指标 [10] - 在引入“超级对齐”技术后,模型干预间隔里程数显著提高,例如从无对齐时的约20公里提升至超级对齐后的超过200公里 [10] - 性能提升过程具有明显的时间线,从2023年02月27日到2025年01月05日期间持续迭代优化 [10] 数据闭环的局限性 - 数据闭环技术无法单独解决所有复杂驾驶场景,例如交警指挥、车道变化、前方烟花爆炸、羊群突然切入等边缘案例 [11][12] - 行业共识是自动驾驶的竞争已进入下半场,重点从数据闭环转向训练闭环,核心在于评估和真实世界效用 [13][14] 训练闭环的关键技术栈 - 关键技术包括区域级仿真、合成数据、强化学习、世界模型、多模态生成与场景重建等 [17][18] - 仿真技术从重建向生成演进,结合了3D高斯泼溅+神经辐射场、3D高斯泼溅+扩散模型等前沿方法 [19] - 公司在该领域有明确的技术发展路线图和时间表,例如2024年2月的Hierarchy UGP项目至2025年9月的RLGF项目 [20][21][24][26] 生成数据的应用 - 生成数据主要应用于场景编辑、场景迁移和场景生成三大方向 [27][29][30][31][33] - 生成数据能够覆盖多种关键变量,包括车辆、自车行为、交通状态、天气、道路类型和行为等 [34] 强化学习引擎的系统能力 - 强化学习引擎的核心能力取决于世界模型、3D资产、模拟智能体、奖励模型以及GPU算力与效率 [35][36] - 构建多样化的场景、交互行为并提供精确反馈是提升系统泛化能力的关键 [36] - 与基础仿真环境相比,推理过程对计算资源的需求更为密集 [36] 训练闭环的核心挑战 - 交互式智能体是构建训练闭环过程中面临的主要挑战 [38][40] - 模拟环境中是否包含智能智能体对仿真效果有决定性影响 [41] 总结与展望 - 自动驾驶技术的发展方向是从数据闭环演进至训练闭环 [44] - 最终目标是建立由目标驱动、具备自我探索能力的学习方法 [45]
自动驾驶论文速递!VLA、世界模型、强化学习、轨迹规划等......
自动驾驶之心· 2025-10-18 04:00
DriveVLA-W0:世界模型增强自动驾驶VLA - 提出DriveVLA-W0训练范式,通过世界建模预测未来图像提供密集自监督信号,解决VLA模型“监督不足”瓶颈,增强泛化能力与数据扩展性[2][6] - 在NAVSIM v1/v2基准上分别达到93.0 PDMS与86.1 EPDMS,推理延迟降至基线VLA的63.1%[2][6] - 设计轻量级MoE动作专家,将推理延迟降至基线VLA的63.1%[6] - 在70M帧大规模内部数据集上验证数据缩放律放大效应,VQ模型ADE降低28.8%,ViT模型碰撞率降低15.9%[6][9] - 在NAVSIM v1基准上PDMS达93.0%,单摄像头优于多传感器竞品[6][9] CoIRL-AD:协同竞争式模仿强化学习框架 - 提出竞争性双策略框架CoIRL-AD,将模仿学习与强化学习结合在潜在世界模型中[13][15] - 在nuScenes数据集上碰撞率降低18%,在Navsim基准上PDMS得分达88.2[13][15] - 利用潜在世界模型实现基于“想象”的模拟,将强化学习融入端到端自动驾驶框架,无需依赖外部模拟器[15] - 设计基于竞争的学习机制,实现IL与RL的联合训练与结构化互动,避免梯度冲突[15] PAGS:优先级自适应高斯泼溅动态场景重建 - 提出Priority-Adaptive Gaussian Splatting框架,通过语义引导剪枝与正则化实现高质量实时3D重建[23][27] - 在Waymo数据集上达到PSNR 34.63,SSIM 0.933,渲染速度353 FPS,训练时间仅1小时22分钟[23][27][30] - 基于静态语义分数和动态梯度贡献分数的混合重要性度量,简化非关键场景元素,保留安全关键目标细粒度细节[27] - 模型尺寸530 MB,显存占用6.1 GB,优于EmerNeRF、StreetGS等主流方法[27][30] Flow Planner:流匹配自动驾驶规划 - 基于流匹配和交互行为建模技术,在nuPlan Val14基准测试中达到90.43分,是首个无需先验知识突破90分的学习型方法[34][38][40] - 在interPlan基准测试中比Diffusion Planner提升8.92分[34][40] - 提出细粒度轨迹分词技术,将轨迹分解为含重叠区域片段,解决全轨迹建模复杂度高问题[35][40] - 构建交互增强的时空融合架构,通过自适应层归一化将异质特征投影到统一latent空间[40] CymbaDiff:草图驱动3D语义场景生成 - 提出CymbaDiff模型,结合圆柱Mamba结构与空间扩散机制,实现基于草图与卫星图像的3D语义城市场景生成[44][47] - 在Sketch-based SemanticKITTI上FID达40.74,比现有方法提升约16分[44][47] - 构建首个面向3D户外语义场景生成的大规模草图驱动基准数据集SketchSem3D[47] - 设计圆柱曼巴扩散模型,显式编码圆柱连续性与垂直层级,提升空间连贯性[47] DriveCritic:VLM自动驾驶评估框架 - 提出DriveCritic框架,利用视觉语言模型进行上下文感知的自动驾驶评估,在人类偏好对齐任务中达到76.0%准确率[55][57][58] - 揭示现有规则化指标缺乏上下文感知能力与人类对齐性的缺陷[57] - 构建DriveCritic数据集,从NAVSIM采样5730个轨迹对,标注pairwise人类偏好[57] - 采用监督微调加强化学习微调两阶段训练,使模型具备跨视觉符号上下文的轨迹判优能力[57][58]
首个代码世界模型引爆AI圈,能让智能体学会「真推理」,Meta开源
具身智能之心· 2025-09-26 00:04
文章核心观点 - Meta公司发布了一个名为Code World Model的新型代码生成大模型,其采用世界模型架构,旨在通过模拟代码执行过程来提升推理和规划能力,代表了与大语言模型不同的技术路径 [1][5][16] 模型架构与技术特点 - CWM是一个拥有320亿参数的稠密、仅解码器结构的大语言模型,支持长达131k tokens的上下文长度 [7][8] - 模型在Python解释器和智能体式Docker环境中使用了大量观测-动作轨迹进行中间训练,并进行了大规模多任务推理强化学习 [12] - 模型基于大量编码数据和定制的Python + Bash世界建模数据进行训练,使其能够模拟Python函数的执行以及Bash环境中的智能体交互 [22] 模型性能表现 - 在通用编程与数学任务上,CWM表现如下:SWE-bench Verified pass@1为65.8%,LiveCodeBench为68.6%,Math-500为96.6%,AIME 2024为76.0% [8][23] - 在Aider Polyglot基准测试中,采用整文件编辑格式时,CWM的准确率为35.1%,与Gemini 2.0 Pro exp-02-05的35.6%和Grok 3 Mini Beta的34.7%表现接近 [24] - 在Terminal-Bench上,CWM与Terminus 1智能体配合使用的准确率为26.3%,优于Gemini 2.5 Pro的25.3%和o4-mini的18.5% [28] - 在BigOBench复杂度任务中,CWM在时间复杂度预测与生成的全部指标上均超越基线模型,例如时间复杂度的Code Only pass@1达到76.1%,优于Qwen3-32B的70.0% [29][30] 研究意义与未来方向 - CWM提供了一个强大的测试平台,用于探索世界模型在改进代码生成推理与规划能力方面的潜力 [15][31] - 世界模型方法旨在弥合语言层面推理与可执行语义之间的鸿沟,使模型能够预测自身行为的后果,从而实现更有效的决策 [16][17][31] - 消融实验表明,世界建模数据、Python执行轨迹以及可执行的Docker环境能够直接提升下游任务表现 [31] - 该研究支持未来在零样本规划、具身的链式思维、以及稀疏且可验证奖励的强化学习等方向的研究 [31]