世界模型
搜索文档
世界模型==VQA?机器人不用想象画面,预测语义就够了
机器之心· 2025-10-28 00:41
文章核心观点 - 研究提出了一种新型的语义世界模型,该模型不再专注于预测未来的精确像素画面,而是通过回答关于未来结果的语义问题来支持决策规划 [1][8][9] - 该方法将世界建模问题重新定义为一个关于未来结果的视觉问答问题,利用视觉语言模型的强大能力,实现了更灵活、可扩展的机器人控制 [8][9][18] 模型原理与架构 - 语义世界模型以动作条件的视觉语言模型形式存在,输入包括当前观测图像、拟执行的动作序列以及一个关于未来的自然语言问题,输出为相应的文本回答 [11][20][24] - 模型基于开源的30亿参数视觉语言模型PaliGemma构建,包含Transformer自回归语言模型、SigLIP图像编码器和投影矩阵等核心组件 [24] - 通过引入新的投影矩阵将单个动作映射到语言模型的潜空间,使模型能够以动作为条件回答问题 [24][25] - 模型通过优化标准交叉熵损失进行端到端微调,在语言空间中捕捉环境动态,无需显式生成像素级表征 [26][27] 训练方法与数据 - SWM可在对通用序列数据质量要求极低的情况下训练,训练数据可从任何专家或非专家数据语料库中获取,格式为当前观测结果、行动、关于未来的问题及预期答案 [15] - 训练使用状态-动作-问题-答案数据集,混入次优数据比仅使用专家数据进行训练能提高准确率,结合使用专家和次优数据时在LangTable和OGBench上的准确率分别达到92.92%和96.86% [22][35][36] 实验性能与效果 - 在LangTable和OGBench仿真环境上的评估表明,SWM能够准确回答关于未来结果的问题,并能泛化到新场景中 [17] - 基于SWM的规划方法在LangTable上相比基础策略的平均性能从14.4%提升至81.6%;在OGBench上从45.33%提升至76%,在所有任务上均优于AVD和IDQL基线 [31] - 在处理多步长程任务时,SWM的平均策略改进幅度达52.0%,优于AVD基线 [33][34] - 模型展现出组合泛化能力,在引入新物体或修改颜色-形状组合的条件下,与基础策略相比平均性能提高20.0% [39][40] 模型优势与特性 - SWM继承了基础VLM的泛化能力,能够正确关注图像中与任务相关的位置,即使从未在涉及两个以上物体的问题上微调,也能正确关注三个物体 [41] - 该方法与零阶基于采样的方法以及一阶梯度规划方法都兼容,规划方法在计算上可行,相比常规动作选择方法能在测试时带来显著改进 [16][29][31]
郑智化就“连滚带爬”表述致歉;春秋航空招聘已婚已育空嫂;宗馥莉心腹祝丽丹离职;安徽成汽车产量第一省;长安汽车一4S店起火丨邦早报
创业邦· 2025-10-28 00:10
宏胜集团与娃哈哈人事变动 - 宏胜集团法定代表人祝丽丹已离职,其办公室已由人力资源部副部长寇静接手[3] - 祝丽丹与宗馥莉合作多年,曾因与宗馥莉不太和谐被调至娃哈哈集团乔司基地任副总经理,后因业绩不佳被宗庆后免职[3] - 9月以来祝丽丹曾被有关部门两次传唤,其职位此前变为待定状态[3] 汽车行业动态 - 安徽阜阳一家长安汽车4S店发生火灾,多辆车受损,起火原因目前尚无官方信息[6] - 保时捷回应多款燃油车停产传闻,称此为全球产品研发正常规划,但燃油版Macan并未停产[15] - 零跑汽车宣布纯电紧凑型车Lafa5将于11月7日开启预售,最高续航达605公里,高配车型配备激光雷达[18] - 国家统计局数据显示,2025年安徽汽车产量预计将超过广东,登顶全国第一,两省产量差距已扩大至超过30万辆[20] 科技与AI行业融资与产品发布 - AI初创公司Mercor按100亿美元估值完成3.5亿美元融资,由Felicis领投[15] - 鹏脑科技完成数千万元天使轮融资,资金将用于脑机接口技术研发与产品迭代[15] - JBD完成超10亿元人民币B2轮融资,刷新全球MicroLED微显示领域单笔融资纪录[15] - 蚂蚁集团投资AI科技硬件公司艾德未来智能,该公司专注于智能机器人研发和计算机软硬件制造[15] - 滴普科技香港IPO获得超7500倍超额认购,成为今年港股18C特专科技领域超购王[15] - 美团发布并开源LongCat-Video视频生成模型,实现分钟级长视频连贯生成[16] - MiniMax开源并上线MiniMax M2模型,主要应用于Agent和代码,API价格为每百万Token输入0.3美金[16] 互联网与电商平台动态 - 美团宣布骑手养老保险补贴将于11月全国上线,为行业首个面向全部骑手开放的社保补贴方案,美团承担骑手每月养老保险缴费的一半,以月收入8000元计算,美团每年为一名高频骑手承担9600元[12] - 抖音清退中通冷链,因其提供虚假物流轨迹等违规服务,平台将于10月29日对其进行清退处理[13] - 京东获批香港保险经纪牌照,正式进军香港金融市场,牌照有效期至2028年10月13日[13] - 宋旸已接替邵京平出任京东零售平台营销中心负责人,邵京平因个人原因被辞退[13] - 前天猫精灵总裁彭超创业,新公司云玚科技首款产品为运动可穿戴硬件设备+Agent智能体,项目于10月中旬启动[8] 企业高管任命与战略调整 - 零一万物宣布联合创始人沈鹏飞亮相,统筹公司国内ToB、ToG业务,赵斌强与宁宁晋升为副总裁[10] - 沃尔玛中国任命刘鹏为山姆会员店业态总裁,直接向沃尔玛中国总裁及首席执行官朱晓静汇报[13] - 特斯拉董事会主席呼吁股东投票支持CEO马斯克近1万亿美元的薪酬方案,警告若未获批准特斯拉可能失去马斯克并遭受重大价值损失[13] 消费市场与行业趋势 - 春秋航空宣布启动空嫂专项招聘,面向已婚已育女性开放客舱乘务员岗位,年龄放宽至40岁,学历要求为全日制本科及以上[13] - 西贝莜面村工作日就餐需排队半小时,其积极的补贴策略有效提升客流,有顾客实际消费205元在使用代金券后仅支付5元[13] - Sensor Tower数据显示2025年全球手游内购收入有望增长6%至854亿美元,2028年有望超过1050亿美元[20] - 全国年均产生废旧手机超4亿部,但回收价格偏低和个人信息安全顾虑成为回收的重要阻碍[20] 其他科技与产品新闻 - Keep宣布乒乓球世界冠军孙颖莎出任品牌代言人[14] - 消息称三星首款三折叠手机Galaxy TriFold首发仅限中国、韩国等市场,无缘美国[14] - 报道称苹果地图正计划引入广告,可能允许企业付费在搜索结果中获得置顶广告位[14] - 亚马逊宣布未来三年向荷兰投资逾14亿欧元,支持云科技与零售业务[14] - 法拉利推出首款NFT数字车型F76,致敬76年前勒芒首场胜利[16]
今年CVPR,自动驾驶还能冲什么方向?
自动驾驶之心· 2025-10-28 00:03
行业趋势与市场定位 - CVPR 2026投稿量已超2000篇,预计将超过ICLR投稿量[1] - 行业研究趋势显示,CVPR 2026主旋律可能是世界模型,紧跟2024多模态和2025视频生成的趋势[1] - 公司专注于自动驾驶、具身智能、机器人等交叉学科,深耕多年并拥有顶尖学术资源[3] 公司服务与产品核心 - 提供论文辅导服务,内容包括掌握技术脉络、复现模型、产出论文初稿及投稿指导,目标冲击高区或顶会[2] - 拥有300多名专职老师,来自全球QS排名前100,发表过多篇顶会/子刊/A会/B会论文,近3年辅导学员超400名,中稿率高达96%[5] - 服务流程包括个性化论文指导、导师实时互动、录播回看及课后答疑,提供从选题到中稿的一站式科研服务[13] 目标客户与学员成果 - 目标客户包括有科研需求、从事人工智能领域工作、考研申博留学等群体[14] - 学员案例显示,辅导周期2-4个月可达成SCI、CCF A/B、顶会等成果,例如某学员在3个月内完成CCF B类论文并投稿emnlp顶会[6] - 学员要求自带简历并有一定PyTorch基础,主要方向涵盖三维重建、SLAM、点云处理、计算机视觉等[10] 服务优势与附加价值 - 解决导师放养、知识零散、缺乏科研体系等问题,帮助建立科研思维并熟悉流程[7] - 优秀学员可获得清北/MIT等名校推荐信,或内推至阿里达摩院、华为诺亚方舟等企业研发岗[19] - 提供精准匹配系统,根据学员研究方向、目标期刊和基础水平筛选3-5位导师,并支持试听和退款承诺[18][19]
TeraSim World:用开源方式重建「特斯拉式」世界模型
自动驾驶之心· 2025-10-28 00:03
特斯拉世界模型技术特点 - 神经网络驱动的虚拟世界生成器,根据车辆状态和控制输入实时合成八个摄像头视角的高分辨率视频[2] - 在没有真实相机的情况下预测环境变化,重建连续且空间一致的驾驶画面,支持闭环验证和强化学习[2] - 学习通用的"感知—动作—世界变化"映射,可迁移到机器人等其他平台,成为通用物理智能的基础组件[2] TeraSim World开源框架核心能力 - 在开源条件下实现与特斯拉世界模型同级的生成与评测能力,无需真实地图或传感器背景即可自动生成整个城市环境与交通行为[5] - 基于NeuralNDE和NADE两项奠基性研究,既能再现自然交通行为,又能主动生成突发风险与环境干扰[6] - 模块化全自动数据合成流水线,专为生成端到端自动驾驶所需的真实且安全关键数据而设计[7] 真实地图与交通环境构建 - 用户输入位置或路线后,系统自动从公开地图数据获取当地道路结构和交通情况,识别道路类型并生成数字地图[11] - 从实时交通数据服务自动获取实际车流速度与拥堵状况,模拟符合当地节奏的早晚高峰和拥堵点[13] - 自动检索真实世界道路地图并转换为仿真可用格式,与智能体行为建模后端集成[10] 智能体仿真技术 - 通过学习大量真实驾驶数据生成自然的多车交互行为,如红绿灯前减速、狭窄道路错车、环岛礼让等[16] - 根据真实世界事故概率和强化学习机制自动引入安全关键情境,如前车急停、行人闯红灯等罕见但高风险事件[17] - 输出每个参与者的详细轨迹,描述其在道路上的移动和互动[17] 传感器仿真技术 - 依托NVIDIA开源世界模型Cosmos系列,生成真实感摄像头输入并可扩展到其他传感器类别[18][19] - 使用Google Street View API抓取六个方向街景图像,通过多模态语言模型自动生成语义描述[20] - 生成六个摄像头视角的高分辨率视频,最高分辨率达1280×704,帧率为24 fps,确保跨视角几何对齐和光照一致[25][26] 自动化压力测试框架 - 基于NADE研究成果复现动态风险,并扩展到静态风险和环境风险,如交通锥、施工区域、天气变化等[30] - 系统评估自动驾驶系统在多种复杂环境下的稳定性和安全边界[30] - 支持自动生成和验证不同类型的风险场景[30] 系统应用前景与愿景 - 为自动驾驶安全验证提供可扩展、成本更低的替代方案,减少实车采集和路测需求[31] - 采用开放技术路线,希望成为全球研究者与开发者共享的自动驾驶虚拟试验场[32] - 长期愿景是打造开放的端到端自动驾驶仿真与评测体系,让虚拟道路测试成为实车路测的可靠替代[32]
Efficiency Law, 世界模型引擎驱动的具身智能学习新范式
具身智能之心· 2025-10-28 00:02
文章核心观点 - 具身智能行业正面临从“数据驱动”到“引擎驱动”的根本性范式转变,其核心挑战在于高质量数据的生成效率,而非单纯的算法创新[1][2] - 跨维智能与香港中文大学(深圳)联合提出的“基于生成式仿真的世界模型”(GS-World)是解决数据瓶颈、实现Efficiency Law的关键技术,它通过构建物理精确的仿真环境,为具身智能提供了可自演化、可计算的学习引擎[11][16][18] - GS-World引擎驱动的学习范式有望使具身智能从依赖人工设计转向自主演化,是实现产品级鲁棒性和通用性的必然技术路径[28][29][34] Scaling Law与Efficiency Law - Scaling Law在大语言模型中有效,但其前提是存在海量文本数据,而具身智能领域尚未建立支撑该定律的数据范式,导致其指导作用失效[5] - Efficiency Law是专为具身智能提出的新定律,指出在有限时间内,决定模型性能上限的关键因素是高质量数据的生成速率(r_D),而非单纯增加数据量[5][6] - 当数据生成速率(r_D)过低时,模型会进入“数据稀缺区”,性能无法提升;提高r_D能快速“喂饱”大模型,从而突破性能瓶颈[6] 世界模型的物理精确性挑战 - 当前基于视频生成的世界模型(如Sora)主要追求“视觉逼真”,缺乏对真实物理规律(如摩擦、质量、受力)的理解,容易产生违反物理常识的反事实场景[8] - 具身智能要求世界模型必须具备物理精确性,能够根据动力学、运动学原理预测世界状态变化,并保持时序一致性,以支撑可执行的学习与决策[9] 基于生成式仿真的世界模型(GS-World) - GS-World是一种将生成模型与物理仿真引擎深度融合的新型世界模型,其生成过程显式或隐式地引入物理仿真,确保世界的动态演化遵循真实的力学方程[11] - 该模型不仅生成视觉外观,还同时生成三维资产、物体材质、物理参数与交互规则,从源头上保证运动、碰撞等现象的因果合理性[11][12] - GS-World将视频生成视为“自然副产物”,其本质是一个能够内蕴计算完整物理因果过程的引擎,解决了纯视觉模型的物理一致性问题[13] 引擎驱动的具身智能新范式 - GS-World推动形成了“引擎驱动”的具身智能学习范式,相比被动依赖外部数据的“数据驱动”范式,它能主动生成并仿真物理精确的三维世界,形成“生成—交互—反馈—优化”的闭环[17][24] - 该范式将“世界生成、物理仿真、任务构建、反馈优化”整合为统一引擎,使智能体的训练由被动数据驱动转向主动任务生成与环境演化,是实现Efficiency Law的核心机制[20] - 引擎驱动范式是实现产品级成功率和鲁棒抗干扰性的必然选项,因为它能让智能体在仿真中经历无限真实的交互,自主习得对复杂扰动的补偿策略[27][28][29] GS-World作为技能生成与演化场 - 在GS-World中,机器人技能是通过引擎在物理世界中自然“挖掘”出来的,而非人工设计,技能能抽象、组合与迁移,形成可扩展的智能基元[31][32] - GS-World是具身智能机器人的“演化场”,它使智能体的身体结构、控制策略与环境动力学在同一物理生成机制下共同演化,促使机器人实现身体与智能的协同生长[34] - 该平台让机器人从“人工设计产物”走向“自演化生命体”,是实现通用机器人的关键跃迁平台[34]
发布并开源视频生成模型,美团在AI赛道潜行
北京商报· 2025-10-27 12:33
公司AI战略与模型发布 - 公司于2024年将集团战略从"Food+Platform"升级为"零售+科技",明确将AI、机器人、自动驾驶等作为未来核心方向 [7] - 公司在2024财年业绩发布会上正式明确AI战略,通过AI at Work、AI in Products、BuildingLLM三层架构推动技术落地 [8] - 公司LongCat团队在2024年9月至10月期间连续发布并开源三款大模型,包括大语言模型LongCat-Flash-Chat、高效推理模型LongCat-Flash-Thinking以及视频生成模型LongCat-Video [3] 大模型技术细节与性能 - 大语言模型LongCat-Flash-Chat采用混合专家模型架构,总参数5600亿,激活参数186亿至313亿,平均270亿 [3] - 视频生成模型LongCat-Video以统一模型在文生、图生视频基础任务上达到开源最先进水平,可稳定输出5分钟级别长视频且无质量损失 [2][3][4] - LongCat-Video模型参数为136亿,在文生视频、图生视频核心任务中综合性能达到开源最先进水平,在文本对齐度、运动连贯性等关键指标上展现显著优势 [5] 模型应用与内部推广 - 公司自研LongCat大模型结合外部模型为员工推出AI编程、智能会议、文档助手等工具,其API调用量占比从年初10%增长至68% [8] - 公司已上线多款AI应用,包括AI图像生成应用"妙刷"、餐饮推荐问答AI助手问小袋与米鲁、以及支持前端开发等功能的AI编程应用NoCode [8] - 视频生成模型被视为探索"世界模型"的第一步,未来将融入公司自动驾驶、具身智能等业务场景,连接"比特世界"和"原子世界" [7] 行业观点与外部反馈 - 有行业从业者认为公司开发视频生成模型不意外,因其自身有内容需求,且视频模型可为具身智能提供模拟数据 [5] - 有观点认为公司与大模型尤其是视频大模型没有必然联系,客户对视频生成的需求可能不大 [6] - 行业从业者指出评估模型能力可参考同行反馈,看其他公司在发布新模型时是否愿意与之对比 [5]
美团发布并开源视频生成模型:部分参数比肩谷歌最先进模型Veo3
观察者网· 2025-10-27 10:52
模型发布与技术定位 - 美团LongCat团队发布并开源视频生成模型LongCat-Video,该模型在文生视频和图生视频基础任务上达到开源SOTA水平[1] - 模型采用多任务联合训练机制,可在同一框架内处理零帧、单帧及多帧条件输入,区别于以往针对单一任务训练的模型[1] - 该模型的推出被视为公司迈向构建“世界模型”目标的关键一步,未来将与自动驾驶、具身智能等业务相结合[3] 核心技术突破与性能 - 模型原生支持生成长达5分钟、720p分辨率、30帧率的高清视频,重点解决了长时序生成中画面漂移、色彩偏移等难题[3][6] - 通过视频续写预训练、块稀疏注意力等机制,模型保持了较高的时间一致性与视觉稳定性,生成视频动作流畅、镜头移动自然[3][6][9] - 采用“二阶段粗到精生成+块稀疏注意力+模型蒸馏”三重优化,视频推理速度提升至10.1倍,实现了效率与质量的最优平衡[6] 评测表现与行业对比 - 在内部评测中,模型在文生视频任务的视觉质量得分几乎与谷歌Veo3持平,整体质量超越了PixVerse-V5和国内开源模型Wan2.2[8] - 在公开评测平台VBench 2.0上,LongCat-Video在“常识理解”一项中以70.94%的得分位居所有开源模型第一,总分达到62.11%[12] - 在文本对齐度上表现略差于Veo3,在图生视频任务的图像一致性和动作连贯性上仍有改进空间[9]
美团首个视频大模型开源,速度暴涨900%
36氪· 2025-10-27 09:13
模型发布与核心特性 - 公司开源其首款视频生成大模型LongCat-Video,旨在以统一架构支持文生视频、图生视频及视频续写三种能力 [1] - 模型通过多任务联合训练机制处理零帧、单帧及多帧条件输入,原生支持输出5分钟级别长视频,并保持较高的时间一致性与视觉稳定性 [1] - 模型采用"粗到细"两阶段生成策略,结合块稀疏注意力机制和模型蒸馏,使视频生成推理速度提升至原来的10.1倍,提速幅度超900% [1][12][13] 技术架构与训练方法 - 模型采用基于Diffusion Transformer的单流三维结构,融合扩散模型生成能力与Transformer长时序建模优势,并使用3D RoPE位置编码 [7] - 通过VAE将视频像素压缩成潜空间token,整体压缩率高达4×16×16倍,文本输入由umT5多语言编码器处理以支持中英文双语 [7] - 训练采用三阶段流程:基于Flow Matching框架的渐进式预训练、监督微调及基于组相对策略优化的强化学习,以提升生成质量 [9][10] 性能表现与基准测试 - 在VBench公开基准测试中,模型总得分达62.11%,仅次于Veo3和Vidu Q1,其中"常识理解"项以70.94%的得分位居所有开源模型第一 [2][20] - 在内部评测中,模型在文生视频任务的视觉质量得分几乎与谷歌Veo3持平,整体质量超越PixVerse-V5和Wan2.2等模型 [17] - 在图生视频任务中,模型画面细节丰富、风格真实,但在图像一致性和动作连贯性上仍有改进空间 [19] 战略定位与未来展望 - 该模型是公司开发"世界模型"的第一步,高效的长视频生成能解决世界模型中的渲染问题 [22] - 公司计划在视频生成中更好地建模物理知识,集成多模态记忆,并融入大语言模型和多模态大模型的知识 [22] - 模型生成的机器人操作、汽车驾驶等画面,预示其有望与公司在机器人、自动驾驶领域的业务布局产生协同效应 [22]
「世界理解」维度看AI视频生成:Veo3和Sora2水平如何?新基准来了
量子位· 2025-10-27 08:26
评测框架概述 - 提出名为VideoVerse的新评测框架,旨在系统评估文生视频模型在事件因果、物理规律与常识理解等“世界模型”核心能力上的表现[1] - 框架设计包含动态和静态两大视角,共十个评测维度,涵盖事件顺序与因果、力学、交互、材料特性、镜头控制、自然约束、常识、属性正确性、二维布局和三维深度[3] - 采用QA(二元问题)与LCS(最长公共子序列)的混合评分机制,综合评估模型在各维度上的表现[4][5] 评测流程构建 - Prompt构建采用多阶段流程,首先从日常生活、科学实验和科幻三大领域采样原始语料,以确保覆盖真实、受控和超现实场景[8][9] - 使用GPT-4o等大型语言模型自动从视频或文本中抽取事件序列与潜在因果链,将自然语言描述转换为结构化的事件因果链[10][11] - 由具备本科及以上学历的独立人工注释者对自动抽取的prompt进行语义增补,并为其选择适用的评测维度,结合自动化与人工知识保障标注质量[12][13][14] - 基于每条prompt的选定维度,自动或人工生成对应的二元检测问题,用于后续的视觉语言模型评测,并屏蔽原始prompt以降低文本幻觉风险[15] 评测方法与创新 - 评估分为三步:使用VLM提取生成视频的事件序列并通过LCS与真实序列比对评分;各维度下的二元问题独立询问VLM并计分;综合LCS得分与各维度答对问题数之和得出总体得分[16][17][18] - 创新性地引入“隐含语义”评测概念,不仅评估模型对prompt中显式描述内容的理解,还评估其对未明说但合理存在的语义前提的遵循能力,例如评估鸡蛋掉落地面后是否破碎、液体是否流动等隐含物理后果[19][20][21][22][23][24][25][26] 主要评测结果 - 评测结果显示,开源模型在基础维度(如属性、2D/3D布局)上与闭源模型表现接近,但在世界模型级别的能力(如自然约束、常识、事件因果)上与闭源模型存在明显差距[28] - 即便是当前最强的闭源模型Sora2,在“隐藏语义跟随”以及部分物理和材料推断任务上仍存在显著缺陷[29] - 具体模型表现方面,闭源模型如Veo-3和Sora2+在总体得分上领先,例如Veo-3总体得分为1292(总分1608),Sora2+为1299;而开源模型中Wan2.2-A14B总体得分1085,表现较好[30] - 案例分析发现,部分模型能生成正确的描述性内容,但在事件连贯性和常识理解方面表现不佳;还存在明显的反常识错误,例如生成的剃须动作中胡须未被刮掉,或干冰在室温下未呈现升华现象[31][33][34][36][37] 行业影响与未来方向 - VideoVerse框架的推出旨在推动文生视频模型行业从追求“生成逼真画面”向“理解并模拟世界”的根本性转变[40] - 团队已开源相关数据、评测代码并设立排行榜,以促进更多研究者基于该框架开发具备更强世界模型能力的新方法[41]
特斯拉世界模拟器亮相ICCV,VP亲自解密端到端自动驾驶技术路线
36氪· 2025-10-27 08:11
技术发布与核心观点 - 特斯拉在计算机视觉顶会ICCV上展示了其世界模拟器 该模拟器能够生成逼真的驾驶场景视频 [1] - 特斯拉自动驾驶副总裁Ashok Elluswamy首次揭秘了公司的自动驾驶技术路线图 并明确表示端到端AI是智能驾驶的未来 [1][5] 世界模拟器功能与应用 - 世界模拟器可为自动驾驶任务生成新的挑战场景 例如模拟右侧车辆突然连并两条线闯入预设路径 [2] - 生成的场景视频不仅用于自动驾驶模型的训练 也可作为电子游戏供人类体验 [2] - 该模拟器技术同样适用于其他具身智能场景 如特斯拉的擎天柱机器人 [4] 端到端自动驾驶技术优势 - 特斯拉采用端到端神经网络实现自动驾驶 该网络利用来自多个摄像头、运动信号、音频及地图等数据 直接生成车辆控制指令 [8] - 端到端方法相比模块化方法的主要优势包括:更易于从数据中学习人类价值观、通过梯度整体优化网络、易于扩展处理长尾问题、具有确定性延迟的同质计算 [8] - 该方法能处理复杂权衡 例如在视野开阔且对向车道无车时 决策借用对向车道绕过积水 这用传统编程逻辑难以表达 [8][10] 端到端自动驾驶的挑战与解决方案 - 端到端自动驾驶面临评估困难 特斯拉的世界模拟器正是针对此难题 它使用海量数据集训练 能根据当前状态和行动合成未来状态 用于闭环性能评估和大规模强化学习 [11] - 系统面临"维数灾难" 输入信息量巨大 例如7个摄像头×36FPS×5百万像素×30秒画面等数据 大约会产生20亿输入Token 而神经网络需将其精简为2个输出Token(转向和加速) [13] - 为解决维数灾难 特斯拉通过庞大车队每天收集相当于500年驾驶总和的数据 并使用复杂数据引擎筛选高质量样本 以提升模型泛化能力 [13] - 针对可解释性和安全性调试困难的问题 模型可以生成可解释的中间Token用作推理Token [15] 技术实现细节 - 特斯拉的生成式高斯泼溅技术具有出色泛化能力 无需初始化即可建模动态物体 并可与其他模型联合训练 [18] - 该技术中所有的高斯函数均基于量产车配置的摄像头生成 [20] - 推理过程可通过自然语言和视频背景进行 该推理模型的一个小版本已在FSD v14.x版本中运行 [21] 行业技术路线对比 - 尽管端到端被视为未来 但业界在具体算法路线上存在VLA和世界模型之争 [24] - 华为和蔚来是世界模型路线的代表 而元戎启行和理想则选择VLA路线 也有观点认为应结合两者 [24] - VLA路线的优势在于可利用互联网海量数据积累常识 并借助语言能力进行长时序推理 有尖锐观点认为不使用VLA是因为算力不足 [24] - 世界模型路线支持者则认为其更接近问题本质 例如华为车BU CEO靳玉志认为VLA路径看似取巧并不能真正实现自动驾驶 [24] - 特斯拉的方案备受关注 因其在自动驾驶发展历程中的技术选择具有风向标意义 [24]