MindVLA
搜索文档
深扒了学术界和工业界的「空间智能」,更多的还停留在表层......
自动驾驶之心· 2025-12-28 03:30
文章核心观点 - 2025年是自动驾驶从“感知驱动”向“空间智能”全面转型的分水岭[3] - 空间智能是对空间信息进行感知、表征、推理、决策与交互的综合能力,是将三维物理空间信息转化为可计算模型的核心基础[3] - 当前空间智能技术更多停留在感知和表征层面,在深层次的推理决策和交互能力上仍有待突破,因此存在大量发展机会[3] 世界模型在重构物理世界的“预演能力” - **GAIA-2 (Wayve)**: 一种面向自动驾驶的多视图生成式世界模型,通过潜在扩散技术,以自车动力学、道路语义及多智能体交互为控制条件,生成符合物理规律且时空一致的驾驶视频,为破解长尾效应提供数据闭环方案[5] - **GAIA-3 (Wayve)**: 模型规模较GAIA-2提升5倍,旨在通过捕获细粒度时空上下文来表征现实世界的物理因果结构[9] - **GAIA系列空间突破**: 通过潜在扩散模型和超高空间压缩比,实现了多相机视角下的时空一致性,构建了具备物理常识的“沙盒”,解决了空间扭曲问题[10] - **ReSim**: 通过将真实世界专家轨迹与模拟器生成的非专家/危险行为数据进行异构融合,利用扩散Transformer架构实现了对极端与罕见驾驶行为的高保真、强可控模拟[11] - **ReSim空间突破**: 解决了AI对极端空间状态的认知缺失,让AI学会“撞车瞬间的空间演变”,实现了对高风险物理交互的高保真模拟[12] 多模态推理实现从“语义描述”到“几何推理” - **SIG**: 提出“空间智能网格”结构化图谱方案,通过将场景布局、物体关系及物理先验显式编码为网格语义,替代传统纯文本提示,并建立SIGBench基准,旨在解决多模态大模型依赖语言捷径、缺乏真实几何推理能力的难题[16] - **OmniDrive**: 通过引入“反事实推理”生成大规模3D问答数据集,并配合Omni-L/Q代理模型,实现了视觉语言模型从2D认知向3D空间理解与规划的深度对齐[19] - **OmniDrive空间突破**: 引入“反事实推理”,弥补了语言逻辑与物理轨迹之间的鸿沟,让VLM能够真正理解三维环境下的风险评估[19] - **SimLingo**: 一款基于通用视觉语言模型且仅依赖摄像头的闭环自动驾驶系统,通过引入“动作梦境”任务解决了言行不一的难题,实现了驾驶行为与语义指令的高度对齐[21] - **SimLingo空间突破**: 提出“动作梦境”任务,AI必须预测出精确的物理执行信号,证明了通用大模型在理解复杂城市空间后的实时决策潜力[24] 三维物理实体的“实时数字孪生” - **DrivingRecon**: 一款通用型4D高斯重建大模型,通过直接从环视视频中预测4D高斯参数,并结合创新的PD-Block空间优化与动静解耦技术,实现了高效、高保真的自动驾驶场景动态重建与多任务仿真[26] - **DrivingRecon空间突破**: 实现了端到端4D高斯重建,通过“动静解耦”技术精准捕捉路面背景与动态障碍物的几何特征,提供了近乎实时的物理环境数字孪生[26] - **VR-Drive**: 通过引入“前馈3D高斯泼溅”作为辅助任务,实现了无需逐场景优化的在线新视角合成,显著增强了智驾系统在不同相机配置和视角偏差下的鲁棒性[29] - **VR-Drive空间突破**: 解决了硬件适配痛点,即使相机安装角度偏了5度,AI也能通过空间想象力补齐偏差,确保感知与规划在不同物理配置下的稳定性[29] 具身融合——打破“车”与“人”的空间隔阂 - **MiMo-Embodied (小米)**: 全球首个开源跨具身通用大模型,通过多阶段学习、思维链及强化学习微调,首次实现了自动驾驶与具身智能两大领域的深度融合[31] - **MiMo-Embodied空间突破**: 实验证明车辆对宏观交通流的空间感知可增强机器人导航,而机器人对微观物体交互的理解能反哺车辆决策,标志着自动驾驶被纳入“具身智能”版图[32] - **DriveGPT4-V2**: 一款基于多模态大语言模型的闭环端到端自动驾驶框架,通过多视角视觉标记器融合环视图像与车辆状态,并引入专家LLM进行在线模仿学习,实现了能够直接输出底层控制信号的高性能、可解释驾驶决策系统[36] - **DriveGPT4-V2空间突破**: 从“看图说话”进化到“闭环控制”,AI在环视视野中保持高局部空间细节,直接输出转向、加速等底层物理指令,实现了端到端空间智能的闭环落地[37] 工业界架构演进与共识 - **行业共识**: 2025年工业界在自动驾驶架构设计上达成高度共识,即从传统的模块化架构向端到端的VLA架构演进,旨在利用大语言模型的常识推理能力辅助驾驶决策[40] - **Waymo的EMMA与通用基础模型**: Waymo展示了其端到端多模态模型EMMA,该模型构建在Gemini等大规模预训练模型之上,直接将原始摄像头传感器数据映射为驾驶轨迹、感知对象和道路图元素,其核心理念是将所有非传感器输入和输出均表示为自然语言文本[41] - **Waymo的快速与慢速思考架构**: 提出“快速思考与慢速思考”架构,传感器融合编码器负责快速反应性动作,驾驶VLM负责处理复杂的语义推理,例如能通过语义分析命令车辆绕行路面起火等罕见场景[41] - **DeepRoute.ai与可解释的VLA**: 元戎启行推出的DeepRoute IO 2.0架构核心优势在于引入思维链推理,有效解决了端到端模型的“黑盒”问题[43] - **DeepRoute IO 2.0能力**: 系统不仅能执行驾驶动作,还能通过语言模型解释其决策路径,具备强大的空间意识和光学字符识别能力,能实时解读复杂路牌和临时交通指令[44] - **统一具身智能趋势**: MiMo-Embodied的出现标志着自动驾驶与具身机器人在空间智能层面的合流,该模型在12项自动驾驶基准测试及17项机器人基准测试中均创造了新记录[45] - **理想汽车的MindVLA**: 引入了空间智能概念,主要体现在3D Feature上,视觉和Lidar经由3D Encoder得到时序融合后的特征,再经由3D projector传递到下游的MindGPT中[45]
L3自动驾驶量产元年,离L4的梦想又近了一步?
新浪财经· 2025-12-17 06:30
L3级自动驾驶商业化与政策突破 - 工信部首次批准L3级自动驾驶商业化运营,长安深蓝SL03与极狐阿尔法S6两款车型通过准入申请,标志着中国首次允许车辆在特定条件下由系统承担驾驶任务 [1] - 政策明确了L3级自动驾驶的权责划分:在限定路段以不超过80公里时速自主行驶时,若系统激活状态下发生事故,车企或将承担主要责任 [1] - 准入要求传感设备必须为“前装量产”,后改装车辆无法获得试点资格,从源头保障技术稳定性 [1] - 行业普遍认为L3级是从“辅助驾驶”到“完全自动驾驶”的重要过渡,后续L4级将在固定区域内实现完全无人驾驶 [1] - 中国此次准入虽起步晚于德国(德国2021年通过《自动驾驶法》),但一步切入责任核心,直接启动附条件商业化运营,未走“测试”老路 [1] L3级自动驾驶技术定义与行业进展 - 根据国家标准,L3级被定义为有条件自动驾驶,在特定条件下车辆可自主完成所有驾驶任务,驾驶员转变为监督者,仅在系统请求时介入 [4] - 与L2级(组合辅助驾驶)相比,L2级驾驶员需时刻监控并准备接管,而L3级在特定条件下系统可独立完成所有驾驶操作,驾驶员角色发生根本转变 [6][7] - 多家主流车企已将2025年实现L3级有条件自动驾驶落地作为目标,2026年被视为L3级自动驾驶的“量产元年” [1][3] - 华为联合赛力斯、阿维塔、奇瑞、北汽等11家车企在公开场合谈及L3,这些车企基本囊括中国汽车行业四大央企和新势力代表 [3] - 具体车企进展:小鹏汽车已在广州获得L3级道路测试牌照并启动常态化测试,计划2026年推出软硬件达L4级水平的量产车型;广汽集团计划2024年第四季度启动首款L3车型量产上市;奇瑞汽车计划2026年量产L3级车辆,并发布算力达1000 TOPS的猎鹰智驾系统 [3] 自动驾驶技术演进与关键挑战 - 从L2到L3的跨越面临现实挑战,核心在于人机共驾的信任建立,包括系统何时退出以及驾驶员能否及时接管 [2] - 国际数据显示,50岁以上用户从分神到重新掌控车辆平均需6秒以上,而系统发出接管请求后留给驾驶员的反应窗口通常不足10秒 [8] - 在低频激活场景下(有研究称城市道路L3可用时间不足23%),驾驶员极易产生依赖或松懈,反而放大风险 [8] - 当系统检测到难以处理的复杂情况(如恶劣天气、道路施工)时会提前发出接管提示,驾驶员必须迅速响应重新掌握控制权 [8] 智能驾驶技术竞争与AI模型发展 - 汽车行业智驾竞争激烈,主流车企如比亚迪、吉利、奇瑞、广汽等纷纷推出智驾计划,行业进入“得智驾者得天下”的时代 [8] - 自2023年以来,智驾行业掀起BEV、端到端技术浪潮,车企正逐步将AI神经网络融入感知、规划、控制等环节 [8] - “端到端+VLM”曾是主流技术方案,但存在联合训练困难、3D空间理解不足、驾驶知识欠缺、难以处理人类驾驶多模态性等问题 [12][13] - VLA(视觉语言动作)模型正在成为重要技术方向,它通过统一的大模型架构将感知、决策、执行无缝串联,形成“图像输入-语义理解-类人决策-动作输出”的闭环,可同步提高智驾的上限和下限 [13] - VLA模型整合了VLM的感知能力和端到端模型的决策能力,并引入“思维链”技术,具备全局上下文理解与类人推理能力 [14] - 在推理时长方面:传统基于规则方案只能推理1秒路况;端到端1.0系统能推理未来7秒路况;VLA模型则能对几十秒路况进行推理,显著提升决策能力和适应性 [14] - 理想汽车发布了新一代自动驾驶架构MindVLA,计划于2026年量产应用 [9] - VLA被业界认为是端到端2.0的主要技术形态,目前尚处于发展阶段,相关模型包括DeepMind的RT-2、OpenVLA、Waymo的EMMA、Wayve的LINGO-2、英伟达NaVILA等 [14] 车企智能化战略与自研趋势 - 随着汽车从“机电产品”变为“智能体”,用户需求从“能不能开”升级为“开得是否安全”,关注系统决策过程的可理解性与交互性 [15] - 车企自研渐成趋势,更适合自研的项目主要包括三类:核心竞争技术(如自动驾驶算法)、差异化技术(如独特用户界面)、高成本技术部件(如高性能自动驾驶芯片) [16] - 自研道路伴随高昂研发成本、漫长技术积累及未知市场风险,车企需在自研与配套之间找到最佳平衡点,并保持自研技术的持续创新力 [16] - 车企可采用分阶段的研发和投资策略,在每个阶段完成后进行评估和调整,根据项目进展和市场反馈逐步投资,以有效控制风险和成本 [17]
以理想汽车为例,探寻自动驾驶的「大脑」进化史 - VLA 架构解析
自动驾驶之心· 2025-12-07 02:05
自动驾驶技术范式演进 - 行业技术范式快速迭代,从前年的BEV(鸟瞰图视角)到去年的“端到端”(End-to-End),再到2025年的技术焦点VLA(视觉-语言-行动)模型 [1][6] - 传统的端到端(VA)模型存在“黑箱”问题,系统能做出正确操作但缺乏可解释性,引发了信任危机 [1] - 视觉语言模型(VLM)能理解和解释场景,但存在“行动鸿沟”,其输出停留在语言层面,无法直接控制车辆 [3] - VLA模型是一场彻底的范式革命,旨在融合计算机视觉、自然语言处理和强化学习,打造一个既能感知、理解又能执行动作的“可解释的大脑” [6][45] “真”端到端架构辨析 - 一个“真”的端到端驾驶系统必须是一个统一的、完整的神经网络,接收原始传感器输入并直接输出可执行的控制信号,且具备“全程可求导”特性 [8][9] - VLM的引入从架构上“打断”了端到端的闭环,因为其输出是文本而非可执行的轨迹,导致学习信号无法从车辆动作反向传播到VLM,无法受益于自动化的数据闭环驱动 [11][12][13][15][16] - 行业早期的“快慢双核”系统(如理想汽车IM智驾系统)是“半”端到端的过渡形态,它将VLM(慢系统)与传统的VA模型(快系统)拼凑,存在异步冲突、架构臃肿和信息损失、优化困难等致命缺陷 [17][18][20][21][22][26] - VLA是“真”端到端,它回归了从传感输入到轨迹输出的统一神经网络形式,实现了“全程可求导”,驾驶错误信号可以无阻碍地反向传播至整个模型,从而支持高效的数据驱动迭代 [23][25][27] VLA解决的核心痛点 - VLA旨在解决“快慢双核”架构暴露的四大核心痛点:长尾场景挑战、语义鸿沟、空间精度不高、时序建模瓶颈 [31] - 自动驾驶的最大挑战是高度语义化、非标准化的“长尾场景”,如复杂的龙门架、可变车道、临时指示等,传统VA模型无法处理 [32][33][34][35][37] - VLM虽然能理解长尾场景,但其输出的文本与车辆控制器所需的精确数值向量之间存在“语义鸿沟”,导致“行动鸿沟” [36][38][39] - 强行让VLM输出轨迹会导致空间精度不高,其基于语言生成的轨迹点易产生偏差,无法满足高精度控制要求 [40] - VLM在处理时序任务时采用叠加多帧图像的方法,会受到Token长度限制(如8K上下文窗口仅能处理约16帧,约2秒历史)和巨大计算开销的制约,无法进行长时程规划 [41][42][43][44] VLA的通用技术栈 - VLA模型通常由三个核心技术组件构成:视觉编码器(V)、语言编码器(L)和动作解码器(A) [46] - 视觉编码器是VLA的“眼睛”,负责将原始图像转换为LLM能理解的视觉令牌,主流方案包括CLIP/SigLIP和DINOv2 [48] - CLIP/SigLIP提供强大的视觉-文本对齐能力,擅长识别和描述图像内容(“是什么”) [49][51][52] - DINOv2通过自监督学习提供强大的空间理解和高级视觉语义能力(“在哪里/怎么样”) [52] - 顶尖方案(如OpenVLA)采用SigLIP + DINOv2双编码器并联,融合两者特征后通过MLP投影器对齐到LLM的令牌嵌入空间,提供全面的视觉信息 [53][55][56] - 理想汽车MindVLA采用了另一条技术路线,其V模块基于3D高斯建模进行自监督3D编码器预训练,旨在生成高保真的3D场景表示 [57][59][60] - 语言编码器是VLA的“大脑”和决策中枢,负责融合视觉与文本令牌并进行跨模态推理 [62] - 主流选择包括LLaMA家族(如LLaMA-2、Vicuna)和Qwen系列(如Qwen-2.5) [63][64][66][70] - 其工作流程是接收来自V模块的视觉令牌和用户文本指令,通过自注意力计算进行高级推理(如场景分析、动作推理),最终输出高度浓缩的“动作令牌”或“规划令牌”作为意图指令 [67][69][71][72] - 部署优化策略包括LoRA(低秩适应)轻量化微调和MoE(混合专家)架构,理想汽车MindVLA则自研了名为MindGPT的LLM,专为3D驾驶场景和车端实时推理设计 [73][74][75][79] - 动作解码器是VLA的“手脚”,负责将“大脑”输出的意图令牌解码为真实、物理、可执行的控制信号 [76][77][80] - 基于扩散的Transformer是目前最受青睐的“黄金标准”方案,因其擅长建模复杂多模态动作分布,能生成细粒度、平滑、“拟人化”的轨迹 [81][82] - 其他主流方案包括自回归Transformer头、MLP预测器头和嵌入式MPC/规划头 [86] - Diffusion模型通过“迭代去噪”工作,为满足实时性要求,MindVLA等架构采用了ODE采样器等技术将去噪步骤压缩到2到3步内完成 [82] VLA的四个进化阶段 - VLA架构的演进经历了四个清晰的阶段,语言在系统中的角色从被动“解释器”逐步演变为主动“决策核心” [84][85] - 阶段一:语言模型作为“解释器”(Pre-VLA),如DriveGPT-4,其核心目标是增强系统可解释性,输出场景描述或高阶操纵标签,但存在“语义鸿沟”,对实际驾驶帮助有限 [88][89][90] - 阶段二:模块化VLA模型,语言演变为模块化架构中主动的规划组件,如OpenDriveVLA、DriveMoE、RAG-Driver,通过生成可解释的中间表示来指导动作执行,但存在多阶段处理带来的延迟和级联错误风险 [91][92][93][94][97] - 阶段三:统一的端到端VLA模型,在一个单一、可微分的网络中无缝整合感知、语言理解和动作生成,代表作包括EMMA、LMDrive、CarLLaVA和SimLingo,它们通过“行动构想”等技术在语言理解和轨迹输出间建立紧密耦合,反应灵敏但长时程规划和细粒度决策解释能力仍存局限 [95][96][98][99][100][101] - 阶段四:推理增强的VLA模型,这是最新前沿阶段,将VLM/LLM提升为系统的“决策核心”,赋予其“思考”能力,代表作如ORION、Impromptu VLA和AutoVLA,它们将“思维链”与“行动”进行端到端对齐,在输出动作前先进行解释、预测和长时程推理,预示了“可对话的自动驾驶汽车”的未来,但也带来了实时性、记忆索引和安全验证等新挑战 [102][103][104][106]
李想:特斯拉V14也用了VLA相同的技术
自动驾驶之心· 2025-10-19 23:32
OpenAI人工智能五阶段定义 - 聊天机器人阶段的核心是基座模型,功能为压缩人类已知数字知识,类比人类从小学到大学的知识积累过程[19] - 推理者阶段具备思维链和连续性任务能力,依赖SFT和RLHF训练,类比人类读研或师傅带徒弟的经验传授[20][21] - 智能体阶段AI开始实际工作,能使用工具完成长任务,对专业性和可靠性要求极高,需达到80-90分合格标准,类比人类胜任专业岗位[22][23] - 创新者阶段通过出题解题进行强化训练,需要世界模型和RLAIF模拟真实环境,类比职业选手通过上万小时实战成为专家[25][26] - 组织者阶段负责管理大量智能体和创新,防止失控,类比企业管理者的角色[27] 算力需求与技术布局 - 未来5年推理算力需求可能扩大100倍,训练算力需求扩大10倍[29] - 不同阶段需要不同类型算力:智能体阶段主要需要推理算力,机器人设备需要端侧推理,世界模型阶段需要海量云端推理[28][29] - 公司自研技术包括推理模型(MindVLA/MindGPT)、智能体(司机Agent/理想同学Agent)和世界模型[31] - 2026年将为自动驾驶配备自研端侧芯片,实现车与AI深度融合[33] 机器人发展路径与训练方法论 - 机器人发展有两条路径:将现有工具改造为机器人(如自动驾驶车辆),或开发人形机器人操作万物[34][35] - 训练的核心目标是提高成功率,参考人类"一万小时"专业训练理念[36][38] - 专业训练聚焦三大能力:信息处理能力(筛选有效信息)、出题解题能力(定义和解决问题)、资源分配能力(优化有限资源使用)[39][40][41] 行业技术观察与应用实践 - 特斯拉FSD V14证明其采用与VLA相同技术,具备空间完整理解能力和长任务多任务处理能力[44] - 公司内部已实现全面AI化,特别是在VLA技术应用后[45] - 行业领先的AI工具应具备简洁干脆的对话风格,避免过多铺垫性内容[46] - AI资讯获取渠道包括关键账号订阅、B站UP主内容跟踪以及内部多领域研究团队每周同步会议[48]
李想: 特斯拉V14也用了VLA相同技术|25年10月18日B站图文版压缩版
理想TOP2· 2025-10-18 16:03
OpenAI人工智能五阶段定义 - 聊天机器人阶段的核心是基座模型,功能为压缩人类已知数字知识,类比人类从小学到大学的教育过程[13][14] - 推理者阶段具备思维链和连续性任务能力,依赖SFT和RLHF训练,类比人类读研或师傅带教的经验传授[15][16] - 智能体阶段AI开始实际工作并使用工具完成长任务,对专业性和可靠性要求极高,需达到80-90分合格标准[17][18] - 创新者阶段通过出题解题进行强化训练,需要世界模型和RLAIF模拟真实环境,类比职业选手上万小时实战训练[19][20] - 组织者阶段负责管理大量智能体和创新者,防止失控风险,类比企业管理者职能[21] 人工智能发展路径与算力需求 - 预训练基座模型不需要每家企业自研,类比不需要每家企业都开办大学[5][21] - 智能体阶段需要推理能力,机器人设备需要端侧推理,世界模型阶段需要海量云端推理建立数字孪生[6][22] - 未来5年推理算力需求可能扩大100倍,训练算力需求扩大10倍,端侧和云端算力需求都将显著增长[7][23] 理想汽车AI技术布局 - 公司自研技术包括推理模型(MindVLA/MindGPT)、智能体(司机Agent/理想同学Agent)和世界模型[8][24] - 2026年将为自动驾驶配备自研端侧芯片,实现车与AI深度融合[9][26] - V14证明特斯拉使用VLA相同技术,具备空间完整理解能力和长任务多任务处理能力[39] 机器人发展路径 - 机器人发展存在两条路径:将现有工具改造为机器人,或开发人形机器人操作万物[27][28] - 工具改造路径效率更高,如将炒菜工具直接机器人化而非使用人形机器人炒菜[27][28] 人类与AI的协同发展 - 训练目的为提高成功率,可参考一万小时训练理论,核心训练信息处理能力、出题解题能力和资源分配能力[9][32] - 人类需在AI遵循最佳实践训练背景下,要么理解并管理AI,要么与AI协同工作,否则面临被替代风险[30][37] - 信息处理能力训练重点在于识别关键信息并过滤无效信息,不同专业领域信息处理方式各异[33] - 资源分配能力训练关键在于有限资源的高效分配,人类大脑通过高效资源分配实现低功耗高效益[35][36] AI工具应用偏好 - 公司偏好使用Grok的对话方式,因其回答简单干脆,相较国内模型更直接利索[41] - 支持上班族使用AI撰写汇报,认为使用先进工具是人类与其他生物的最大区别[42]
理想基座模型负责人近期很满意的工作: RuscaRL
理想TOP2· 2025-10-03 09:55
文章核心观点 - 理想基座模型团队提出RuscaRL框架,旨在通过结合教育心理学的脚手架理论和量规学习,解决大语言模型在强化学习中面临的探索瓶颈问题,以提升模型的推理能力和智能上限 [1][2][8][12] - 该技术被视为一个体系性创新,其价值在于算法与基础设施的融合,而非单一算法的突破,有望同时受益于面向数字世界的MindGPT和物理世界的MindVLA [2][9] - 团队认为强化学习是大模型智能提升的关键,而当前的关键问题是如何让模型在更广泛的问题上实现能力泛化,其核心挑战在于奖励函数在非客观且结果难以准确量化的场景中的应用 [1][8] RuscaRL框架的技术原理 - 框架核心是引入“显性脚手架”机制,通过为每个任务提供包含不同评价标准的量规来指导模型生成响应,并采用组内差异化和跨步退化策略,逐步减少外部支持以促进模型独立推理 [12][14] - 框架采用“可验证奖励”机制,利用量规设计多维度评分标准,并借助大语言模型作为评判器来生成稳定可靠的奖励信号,以增强探索的多样性和训练稳定性 [13][15] - 该框架被类比为英伟达Eureka水准的工作,同属创建元框架来解决强化学习中的关键难题,但不同于DPO那种基础理论层面的突破,其贡献更偏向框架创新和应用成效 [6] 技术价值与行业定位 - 该工作被定位为探索前景广阔但不成熟领域的高水平工作,其价值体现在明确了强化学习领域的关键问题,并提供了创新且可应用的解决方案 [8][9] - 技术潜在瓶颈包括对人工设计的高质量量规依赖较高,以及因多次采样和复杂评估导致的较大训练量和计算开销 [16] - 创新被认为源于体系能力建设,智能体强化学习的关键问题已从单点算法突破转向算法与基础设施融合的体系性问题解决 [2][9]
理想汽车MoE+Sparse Attention高效结构解析
自动驾驶之心· 2025-08-26 23:32
理想汽车智驾技术架构 - 公司采用"MoE + Sparse Attention"高效结构解决大模型部署时的推理效率问题,通过混合专家架构实现模型容量扩容而不显著增加推理负担[3] - MindGPT大语言模型经过重新设计与预训练,具备3D空间理解和推理能力,但参数量增加导致端侧部署可能出现效率低下问题[3] - 该技术方案针对英伟达Thor-U智驾芯片优化,确保在车载计算平台上的实际应用性能[3] 稀疏注意力机制技术细节 - 采用局部窗口(Local Attention)与跳跃连接(Strided Attention)组合结构,每个token关注附近窗口内token(如前后2个位置)以及步长为s的远端token[9][10] - 注意力矩阵呈现对角线局部连接与分布条纹状跳跃连接相结合的模式,保证token能快速传播到远端同时保留局部建模能力[10][15][16] - 通过构建稀疏注意力mask实现计算优化,在不修改Transformer主体结构前提下限制注意力机制复杂度,仅关注关键输入部分[6][12][14] 混合专家架构实现方案 - 使用8个专家网络(E1-E8),由Router动态选择激活部分专家而非全部,仅在需要时调用相关子模型[6][22] - 采用Top-k路由策略(通常k=2),通过Gate模块计算输入样本对各个专家的偏好程度并选择最优专家[24][32] - 支持分布式部署模式,通过all_to_all通信机制实现跨GPU的专家网络数据交换与负载均衡[34][37] 计算复杂度优化 - 稀疏注意力机制显著降低计算复杂度,相比标准全连接Self-Attention大幅减少计算量[17] - MoE架构通过激活部分专家网络实现计算资源动态分配,在不增加推理成本前提下扩大模型容量[22][25] - 采用专家并行(Expert Parallelism)技术,支持多GPU分布式训练与推理,提升系统整体效率[28][31]
理想i8,撑得起李想的“纯电梦”吗?
新浪财经· 2025-08-02 01:34
理想i8产品发布 - 理想i8正式开售,共推出3款车型,售价32.18万元-36.98万元,比预售价低3万元左右 [1] - 车型定位家庭6座纯电中大型SUV,与理想L8价格持平,分为Pro/Max/Ultra三个版本 [7] - 车身尺寸长5085mm/宽1960mm/高1740mm,轴距3050mm,舱内有效长度超3.5米 [9] - 标配空悬,离地间隙156mm-176mm,风阻系数0.218Cd,显著低于普通SUV [11] - 搭载自研碳化硅驱动电机,综合功率400kW(544马力),零百加速4.5s [14] - 标配三元锂5C超充电池,Pro版续航670km,Max/Ultra版720km,支持10分钟补能500公里 [14] - 续航达成率92.8%,超过特斯拉Model Y(82.6%)和Model 3(73.4%) [15] 产品技术亮点 - 首次搭载自研自动驾驶架构MindVLA,整合空间/语言/行为智能于同一模型 [16][17] - MindVLA可实现实时驾驶决策优化,支持语音指令调节速度、记忆车主偏好等功能 [18] - 采用禾赛定制ATL激光雷达,体积减小60%,功耗降低55%,性能提升1倍 [25] - 电池包采用随形结构和倒置技术,提升空间利用率和安全防护系数 [27] 市场竞争环境 - 主要竞品包括特斯拉Model Y L、蔚来乐道L90(27.99万元起)、问界M8纯电版(37.8万元起) [29] - 30万元以上纯电市场1-4月销量不足8万辆,仅占新能源车市场10%份额 [29] - 理想i8未采取激进定价策略,主要依靠产品综合实力竞争 [4] 公司战略调整 - 组织架构调整:合并销售与服务群组,成立智能汽车群组 [3] - 产品线重组:按价格区间划分三条产品线,纯电SUV单独列为i系列 [23] - 营销策略转变:CEO增加公开曝光,举办公司史上最大规模发布会 [3][21] - 设计投入巨大:仅外观设计改动费用约20亿元 [25] 产品开发背景 - 吸取MEGA车型教训,重新聚焦用户价值和经营效率 [23] - 定位"能越野的小MEGA",避免重复MPV市场失误 [7] - 保留MEGA部分设计元素,但采用更主流SUV造型 [9] - 延续"冰箱彩电大沙发"产品理念,强化家庭用车舒适性 [9] 未来发展预期 - i8被视为i系列"定调之作",后续i6(预计25万元起)将承担冲量任务 [37] - 公司更关注产品能否满足用户需求,而非短期销量目标 [35] - 纯电产品线对理想实现新增长和突破纯电市场至关重要 [27][37]
竞争趋于白热化 六座纯电SUV争雄赛开打
证券时报网· 2025-07-23 03:29
六座纯电SUV市场竞争格局 - 六座纯电SUV正成为家庭用户首选 市场竞争趋向白热化 [1] - 主流产品包括问界M8纯电版 特斯拉Model Y L 理想i8 各具独特卖点 [1] 智能驾驶技术对比 - 问界M8纯电版搭载华为HUAWEI ADS4系统 配备192线激光雷达 后向高精度固态激光雷达 5个4D毫米波雷达 提升主动安全性和智能驾驶辅助性能 [1] - HUAWEI ADS4支持全场景辅助驾驶和泊车功能 并支持OTA升级 持续优化用户体验 [1] - 特斯拉Model Y L以Autopilot系统闻名 算力和算法优势显著 但在国内存在水土不服问题 [1] - 理想i8配备MindVLA辅助驾驶架构 可能采用英伟达Drive AGX Thor-U芯片处理高级传感器数据 [2] 储物空间设计 - 问界M8纯电版车身尺寸5190/1999/1795mm 轴距3105mm 提供五座和六座布局 第二排配备零重力座椅支持120°调节 [3] - 问界M8纯电版前备箱容积达110L 可容纳露营装备等大件物品 [3] - 特斯拉Model Y L采用极简风格 中控区域设大尺寸储物槽 支持分区收纳 [3] - 理想i8通过底盘优化和电池薄型化设计 提供多种储物空间 后备箱采用多层设计 后排腿部空间近1米 [3] 动力与续航表现 - 问界M8纯电版基于华为巨鲸800V高压电池平台 标配宁德时代100度电池组 CLTC续航最高705km 支持800V高压快充 [3] - 特斯拉Model Y L提供多版本续航选择 充电网络高效 适合城市通勤和长途旅行 [4]
VLA的Action到底是个啥?谈谈Diffusion:从图像生成到端到端轨迹规划~
自动驾驶之心· 2025-07-19 10:19
扩散模型原理 - 扩散模型是一种生成式模型,本质是通过正向扩散和反向生成过程对数据分布进行学习和模拟[2] - 正向扩散过程从初始数据分布开始逐步添加噪声,最终达到纯噪声分布[5] - 反向生成过程从纯噪声出发,通过神经网络逐步去除噪声恢复原始数据[6] - 扩散过程基于马尔可夫链,未来状态仅依赖当前状态[8] - U-Net是扩散模型核心架构,采用编码器-解码器结构和跳跃连接增强细节恢复能力[11][12][13] 扩散模型与生成对抗网络对比 - GAN由生成器和判别器组成,通过对抗博弈生成新样本[20] - 扩散模型训练更稳定且样本质量更高,但计算成本较大[27] - GAN可融合多种噪声分布,而扩散模型通常保持噪声类型不变[28] - 扩散模型像"考古修复",GAN像"造假大师"[26] 自动驾驶应用 - 合成数据生成:解决数据稀缺问题,可生成极端天气等罕见场景[30][31] - 场景预测:生成多模态交通参与者行为预测[33] - 感知优化:用于BEV去噪和多传感器融合[34][35] - 路径规划:清华AIR团队Diffusion Planner实现多模态路径生成[36] - 端到端控制:DiffusionDrive实现实时决策[37] - 能量优化:Diffusion-ES算法求解最小能耗路径[42] 企业技术方案 - 毫末智行Diffusion Planner实现预测与规划联合建模,在nuPlan数据集表现优异[47] - 地平线HE-Drive系统利用扩散模型生成舒适驾驶轨迹[48] - 理想汽车MindVLA架构整合扩散模型优化驾驶轨迹[48] - 学术方案:条件扩散模型实现车辆极限漂移控制[49][51]