Workflow
理想TOP2
icon
搜索文档
理想OmniReason: 更像人的VLA决策框架
理想TOP2· 2025-09-07 12:09
核心观点 - 理想汽车发布OmniReason框架 将自动驾驶决策从静态感知重构为动态时空推理 通过知识蒸馏注入人类驾驶先验知识 提升系统智能性、可靠性和可解释性 [1][2] 数据集创新 - 发布两个大规模时空VLA数据集 OmniReason-nuScenes和OmniReason-Bench2Drive 具备密集时空标注和自然语言因果解释 [3] - 相比DRAMA、DriveLM等现有数据集 在多视角图像、时序数据、因果推理支持及天气道路多样性方面实现更全面覆盖 [3] 技术架构 - 采用三步走自动化标注流程:场景感知空间标注确保无幻觉基础描述 人类先验知识引导驾驶原则分析 多模态大模型生成多步推理因果链条 [5][6] - 智能体集成三大模块:环境感知与时序记忆模块采用EVA-02-L视觉编码器 稀疏时序记忆使L2误差从0.38m降至0.34m 碰撞率从0.44%降至0.40% 违规率从3.65%降至3.18% [7] - VLM推理核心处理整合场景特征 知识蒸馏桥梁连接数据与模型 系统性学习结构化决策理据和专家模式 [7] 性能表现 - 开环轨迹规划任务中平均L2距离误差0.34米 与最佳ORION方法持平 平均碰撞率0.40%优于多数基线 违规率3.18%创SOTA纪录 [8] - 驾驶场景VQA任务CIDEr指标提升37.6% BLEU-4指标大幅提升224.0% [8] - 第三方OmniDrive测试中所有指标超越LLaVa-next 72B和Qwen2.5VL 72B等模型 再创SOTA验证架构鲁棒性 [8]
马斯克给了AI5可以跑250B参数模型的预期
理想TOP2· 2025-09-07 12:09
特斯拉AI芯片技术进展 - AI5芯片设计完成 针对参数数量低于2500亿的模型 是推理芯片中硅片成本最低且性能功耗比最高的产品[1] - AI6芯片正在开发 预计成为迄今为止最好的AI芯片 架构从两种切换为一种 使团队能集中资源打造单一高性能芯片[1] - 芯片团队分布情况:约50%在湾区 50%在奥斯汀 另有众多工程师分散在全球各地[1] 芯片性能参数对比 - AI5本地推理参数量达137.9亿 对比理想汽车当前处理40亿参数量 性能提升显著[3] - GPT系列参数量对比:GPT-1为1.17亿参数 GPT-2为15亿参数 GPT-3达1750亿参数[4] - 自动驾驶发展方向需运行更大参数量模型 要求具备或超越人类思考能力并解决时延问题[4] 特斯拉战略调整与合成数据应用 - 解散Dojo超算研发团队 业务调整源于FSD端侧模型训练数据集转向依赖合成数据[5] - 训练与推理概念区分:训练发生在云端调整模型参数 推理发生在车端处理新数据生成输出结果[6] - 新训练流程使用云端世界模型推理生成合成数据 辅以真实道路数据训练可部署的FSD模型[6] 未来2-3年特斯拉AI发展路径 - 采用英伟达GPU集群训练超大参数规模的世界模型[6] - 使用Dojo 3(AI5/AI6芯片组成的推理集群)运行世界模型生成大规模合成数据[6] - 通过Dojo 3与英伟达混合集群训练小参数量FSD模型 用于车端部署和频繁迭代[6] - AI5/AI6芯片将同时应用于车端和机器人端的推理任务[7] 合成数据战略优势 - 转向合成数据主要基于效率提升、成本控制、场景可控性和数据覆盖度考量[7] - 现实世界数据仍重要 作为FSD模型与现实对齐的基础 合成数据用于填补极端场景和扩展长尾分布[7] - 最终形成混合数据策略 结合真实数据与合成数据的优势[7] 推理即数据的新范式 - 世界模型的推理过程直接生产训练材料 通过模拟现实世界生成包括摄像头视角和传感器数据的完整过程[8] - 推理行为本身成为数据生产环节 突破传统推理仅作为模型应用环节的限制[8] 训练即推理的闭环生态 - FSD模型训练核心数据来自世界模型的推理结果 训练过程依赖于推理输出[9] - 形成四步循环:训练世界模型→生成合成数据→训练FSD模型→真实场景数据反馈优化世界模型[10] - 闭环系统实现模型能力与数据规模相互促进 突破传统单向流程中数据断供的限制[10] 芯片战略与行业影响 - AI6芯片可替代Dojo功能 既能上车也能组大集群提供云端算力[11] - 车端芯片集成座舱、智驾及域控功能于专用NPU芯片 要求强大的软件和系统能力[11] - 大算力芯片缺货背景下 具备芯片设计能力+软硬件能力+模型能力的企业将获得显著竞争优势[11]
理想超充站3201座|截至25年9月7日
理想TOP2· 2025-09-07 12:09
超充网络建设进展 - 截至9月7日超充站总数达3201座 单日新增1座 累计较前日增长0.03%[1] - 截至9月6日超充站总数达3200座 单日新增5座 累计较前日增长0.16%[1] - 2025年底目标超4000座 当前剩余待建799座 目标完成率约80%[1] 年度建设进度分析 - 年度新增进度达64.85% 较前日提升0.05个百分点[1] - 年内剩余115天 时间进度完成68.49%[1] - 需日均建设6.95座方可达成年度目标[1] 近期超充站建设详情 - 9月6日新增6座超充站 覆盖湖南/广东/贵州/山东/云南/浙江6省[1] - 长沙梅溪湖站配备2C充电桩3个与5C充电桩1个[1] - 汕头/黔南州/昆明三站均配备4C充电桩6个 青岛站配备5C充电桩4个 金华站配备4C充电桩4个[1] 用户交流渠道 - 通过微信社群提供实际经营情况与长期基本面深度交流渠道[2]
李想25年9月6日对话表示自动驾驶乐观3年悲观5年实现
理想TOP2· 2025-09-06 11:16
自动驾驶技术发展时间表 - 自动驾驶乐观预计3年实现 悲观预计5年实现 [1][28] - 端侧算力目前仅相当于昆虫级别 需要3年左右时间提升算力和模型能力 [1][30] - 实现L4级自动驾驶的三个判断依据:提升AI驾驶能力至超越人类水平 解决时延问题 给资本市场明确预期 [2] 人工智能应用标志性领域 - 数字世界标志性应用是编程 当80%代码由AI生成时标志AI真正成立 [28] - 物理世界标志性应用是自动驾驶 实现后物理世界AI仅相当于个人电脑时代的Apple 2水平 [1][28] - 自动驾驶实现后车内空间设计将发生根本变革 可能参考高铁或私人飞机布局 [2][23] 汽车核心价值定位 - 汽车三大核心价值:A点到B点的交通工具 遮风挡雨的空间 探索世界的伙伴 [2][20][21] - 自动驾驶将解放每天1-2小时通勤时间 显著提升生命体验价值 [22] - 技术变革将使汽车从驾驶工具转变为移动机器人 重新定义人与车的关系 [8][23] 人工智能与人类工作的关系 - AI不会导致大规模失业 历史上技术进步始终创造更多就业机会 [18] - AI训练模式本质是人类最高效学习方式 通过持续反馈迭代进步 [12][13] - 更强AI可帮助减少工作时间 目标是实现每周4天工作制 [26][27] 技术发展路径选择 - 人工智能发展需要采用训练模式而非编程模式 更符合人类最佳实践 [12][17] - 端侧算力不足是当前主要瓶颈 需要提升至接近人类大脑和心脏水平 [1][30] - 远程司机接管只是过渡技术 最终将实现完全自主驾驶 [29][30] 企业战略方向 - 汽车赛事与日常用车属于不同世界 分别对应运动属性和工具属性 [24] - 企业应用AI应聚焦实际效益 衡量标准是否帮助员工减少工作时间 [26] - 技术发展应使人类专注更高价值活动 如创意工作和体验提升 [27][32]
理想自动驾驶芯片最核心的是数据流架构与软硬件协同设计
理想TOP2· 2025-09-05 04:56
自研芯片技术架构 - 理想汽车自研芯片采用数据流架构 计算由数据驱动而非指令驱动 实现更高并行度 更适合大型神经网络[2][5][6] - 芯片集成大量MAC乘加单元 采用软硬件协同设计 将芯片 编译器 运行时系统和操作系统垂直整合 深度优化VLA结构性能[2][3][6] - 与市场顶尖芯片相比 运行大语言模型性能达2倍 运行视觉模型性能达3倍[5][8] 芯片开发进展 - 芯片于2025年初成功流片并返回 目前正在进行车辆测试 预计2026年部署在旗舰车型并交付用户[5][8] - 从项目立案到交付上车周期为三年 2023年左右开始设计 2024年下半年确定VLA架构搭建思路[1][2] VLA架构与推理优化 - VLA在车端芯片实现实时推理是巨大挑战 需通过小词表 投机推理和创新性并行解码方法提升效率[3][4] - 针对语言逻辑推理采用因果注意力机制逐字输出 针对action token采用双向注意力机制一次性输出 实现超过10赫兹推理速度[4] - 自动驾驶模型需输入几秒钟视频和各种信息 与TPU适合处理大批量输入的特性高度契合[3] 行业技术对比 - NPU专为神经网络计算设计 资源集中于矩阵乘法与加法运算 相比GPU通用性更低但效率更高[2] - TPU是谷歌专为TensorFlow定制的NPU 采用脉动阵列架构 数据在计算单元间流动 减少内存访问次数并提升数据复用率[2] - Thor芯片集成CPU集群 GPU集群和NPU阵列 在通用性方面更具优势[3]
理想郎咸朋分享对VLA里语言部分的作用
理想TOP2· 2025-09-04 02:32
文章核心观点 - 语言能力是自动驾驶系统认知理解与决策规划的核心 语言在VLA架构中承担对视觉感知内容的认知理解并形成行动规划和决策 而非仅作为交互界面的文字输出或语音输入[1][2] - VLA架构在L3/L4高阶自动驾驶阶段将展现显著优势 当前辅助驾驶任务简单时与其他方案差异不明显 但在复杂AGI任务中预计将获得碾压性胜利[2] 技术架构解析 - VLA架构由三部分组成 V代表视觉感知 L代表语言能力 A代表动作执行 其中L核心功能是通过人类语言数据学习进行隐式逻辑推理[2] - 语言能力本质是认知框架 语言塑造和限制人类对世界的认知、理解与表达能力 不同语言体系形成差异化认知框架 这是人类与动物的关键区别[1] 技术实现路径 - L语言部分不依赖显式文字推理 而是通过语言数据学习实现隐式逻辑推理 背后核心是长思维链推理过程 文字输出与语音输入仅为可选交互方式[2] - 自动驾驶系统类比人类认知优势 人类视觉不如鹰 行动速度不如猎豹 但凭借语言衍生的认知理解能力成为地球主导物种[2]
Challenge李想成功实践之用数据说话
理想TOP2· 2025-09-03 06:46
一位对理想很有感情人士向TOP2表示,他认为理想很多人挺傲的,对友商的进步优秀之处认识不充 分。给李想本人反馈XX需求时,李想喜欢用用户不需要来回应。这位对理想很有感情人士内心想法 是,根据其接触到的大量用户反馈,其实很多用户是需要的。 本文将分享一个李想认为用户不需要,但后面真改正了的成功实践。 A是L系列车主兼员工,其在高速行驶时,即使和家人同行,也有很强的希望尽量多用电需求,需求 底层源自两点,1.省钱快感。2.纯电更平顺,NVH更好。 故其在家人同行高速场景下,也会脑中计算,采用什么模式,可以尽可能高速多用电。 再加上也有其他人反馈类似需求,A希望理想OTA可以升级功能,实现更加自动化的,面向L系列车 主的高速充电规划,且理念是尽可能多用电,更方便充电,并且根据实际里程,给予新的增程器工作 算法,在尽可能多用电前提下,还尽可能少用油(理想原先的模式里,高速油电混合与纯油模式耗油 量几乎没区别)。 这个思路上报上去时,李想认为这是一个伪需求,他认为大多数理想用户高速就是多用油的,故评审 不通过。 A后面想办法,调后台数据(这个过程并不算很容易,不是直接一导就实现的,还需要挺多步骤与协 调的),发现理想实 ...
山西高速破0, 理想超充站3195座|截至25年9月2日
理想TOP2· 2025-09-03 06:46
超充网络建设进展 - 公司超充站总数达3195座 较前次统计增加5座[1] - 2025年底目标建设4000+座超充站 当前剩余待建805座[1] - 年度建设进度达64.58% 时间进度为67.12% 存在2.54个百分点差距[1] - 需保持日均建设6.71座超充站方可达成年底目标[1] 新增站点分布特征 - 湖北省新增2座站点:神农架5A景区4C站(6桩)与武汉四新体育公园4C站(6桩)[1] - 江苏省新增南通海安商业广场4C站(6桩)[1] - 山西省高速服务区新增5C站(含2C桩3个+5C桩1个)[1] - 陕西省新增榆林市4C站(6桩)[1] - 新增站点中80%为城市型4C站 20%为高速服务区5C站[1] 基础设施建设策略 - 超充站覆盖场景多元化 涵盖景区(20%)、体育场馆(20%)、商业广场(20%)、高速服务区(20%)及城市其他区域(20%)[1] - 4C规格为主导技术标准 单站标配6桩 仅高速服务区采用混合规格[1] - 景区配套建设成为重点方向 神农架5A景区项目体现文旅场景布局[1]
理想超充站3190座|截至25年9月1日
理想TOP2· 2025-09-02 06:35
超充网络建设进展 - 超充站总数从3174座增至3190座 单日新增16座[1] - 2025年底目标超4000座 当前剩余810座待建[1] - 年度目标完成率64.36% 较前次63.66%提升0.7个百分点[1] - 剩余121天需日均建设6.69座方可达成目标[1] 超充站地域分布与技术规格 - 覆盖安徽/北京/广东/广西/海南/河北/江苏/陕西/四川/浙江/重庆等11省市[1][3] - 高速服务区站点采用5C规格(如汕湛高速双向服务区各配置5C×4)[1] - 城市站点以4C为主(如合肥金泉小区4C×6 邢宁晋唐朝酒店4C×4)[1][3] - 高端商圈与地标布局5C大功率站(北京望京万象汇4C×6+5C×2 海口日月广场5C×8)[1][3] 技术配置特征 - 4C规格单站标配4-6个充电桩(占比超70%)[1][3] - 5C规格单站配置4-8个充电桩 宁波上宸新业港实现5C×6配置[3] - 高速路段双向对称建设(汕湛高速双向均设5C×4站点)[1] - 酒店/商圈/写字楼成为城市站点核心落地场景[1][3]
理想PhysGM:前馈式从单张图片30秒生成4D内容
理想TOP2· 2025-09-02 06:35
技术框架与核心创新 - PhysGM是一个4D生成框架 通过一次前馈计算在30秒内直接从单张图片生成完整物理4D模拟 完全绕过传统逐级场景优化流程[1] - 最大创新是将4D生成从优化问题重构为推理问题 并运用黑盒优化思想通过DPO方法解决物理模拟器不可微难题[2] - 采用摊销推理(Amortized Inference)架构 将计算成本分摊到大规模训练中 实现快速低成本推理[2] 性能优势对比 - 推理速度显著领先竞品 仅需30秒 而DreamPhysics需超0.5小时 PhysDreamer超1小时 OmniPhysGS超12小时[3][9] - 流程简化优势明显 无需预处理和逐场景优化 参数计算完全自动化[3][9] - 在五个关键维度全面超越主流方法 包括无需预处理 自动参数计算 可泛化性 不依赖大语言模型和超快推理速度[9] 技术实现路径 - 框架内核为深度神经网络 输入单张图片输出物理3D形态和物理属性[6] - 采用两阶段训练策略:第一阶段有监督预训练建立物理先验 使用双头U-Net架构和PhysAssets数据集(含24000+3D资产)[7] - 第二阶段DPO微调实现对齐 通过自动化评估流程构建赢家-输家偏好对 利用不可微模拟器实现端到端优化[8] 应用潜力与局限 - 具备显著规模化优势 具有更快 更省钱 更易规模化的商业化特征[3] - 泛化能力存在部分局限 对刚性物体外材料适用性待验证 且目前仅预测单一集总物理属性向量[4] - 受基础模型性能制约 3D重建效果依赖LGM和MVDream等模型 可能导致几何细节丢失或纹理不一致[4] 研究背景与团队 - 由北京理工大学Changshend Li担任通讯作者 理想汽车Zequn Chen为项目负责人[5] - 研究成果于2025年8月19日以论文形式发布 标题为PhysGM: Large Physical Gaussian Model for Feed-Forward 4D Synthesis[4]