Workflow
理想VLA
icon
搜索文档
AI应用公司负责人分享对理想VLA的理解
理想TOP2· 2025-09-13 11:50
VLA技术核心价值 - VLA核心价值在于获取有效数据 用于训练基础模型和个人记忆模块 包括驾驶习惯和常用道路等数据 [2] - 每个车辆具备自我进化能力 无需OTA升级即可通过持续训练提升VLA表现 实现"越用越聪明"的效果 [2] - 记忆模块通过采集用户语音指令 行驶道路 接管行为 常用地点等数据 持续升级并调用最新数据优化自动驾驶体验 [12] 实际应用效果 - 车辆使用初期表现较差 但第三天即可实现道路行驶丝滑度提升 包括未行驶过道路和原本无法识别的停车位自动泊车功能 [3] - VLA系统通过克隆车主驾驶行为 实现专属司机"小李师傅"的个性化服务体验 [4] - 建议用户单独训练VLA系统 一周时间即可达到良好使用效果 [8] 数据处理机制 - VLA与记忆模块分离 采用LLM处理后的数据库 数据进行token化总结后存储 使用时再读取处理 [10] - 系统存储约1万token数据量 10token精准数据对个体驾驶体感控制更具价值 相比1000万clips中仅10%有效数据更具针对性 [14] - 记忆功能需要短期和长期记忆结合 采用外挂LLM总结历史使用行为作为context实现大模型个性化 [13][19] 企业战略布局 - 通过私有化去中心化的个人专属记忆数据结合AI基础设施和多形态硬件 形成以家为中心的战略布局 [6][20] - 账户迁移功能类似Apple ID战略 通过积累记忆模块数据增强用户依赖度而非依靠生态应用分发盈利 [5][19] - 需要软件 硬件 产品三合一能力 依赖自主研发芯片的算力和精准数据积累 用户规模越大价值越高 [20][22][23] 行业技术地位 - 目前同时做好记忆模块和VLA结合的企业只有理想 华为需等待WA技术 地平线需要主机厂解决车机能力 [15] - 持久性记忆技术被红杉资本列为关键投资主题 是实现AI从工具进化为长期智能伙伴的核心技术 [16][25] - 多模态VLA模型中实现记忆功能并根据记忆实时变更车端模型 形成定制化私人司机存在较大技术难度 [25]
关于理想VLA新的36个QA
理想TOP2· 2025-08-13 05:10
技术架构与研发方向 - 强化学习在VLA架构中起关键作用 公司已增加大量推理卡资源支持强化训练[1] - VLA采用串联设计整合视觉-语言-动作模块 相比并联的VLM架构具备自主思考能力[3] - Diffusion模型被应用于轨迹生成 借鉴机器人领域经验但非完全跟随特斯拉方案[4] - 3D空间理解+2D全局语义构成VLA感知核心 解决传统VLM缺乏空间感知的痛点[7][29] - 基座模型团队专门设计8×0.4 MoE架构 优化芯片部署效率[28] 产品功能与用户体验 - EID界面仿真视频级渲染需更高算力支持 当前受限于驾舱芯片性能[2] - 语音控车功能支持复杂连续指令 规则引擎方案难以实现组合任务[25][26] - 三点掉头功能需Diffusion模型支持多模态轨迹拟合 配合决策思考能力[6] - 高速场景研发重点在超视距问题 事故后果严重性高于城区场景[22][23] - 人机共驾通过语音交互实现底层能力 优于方向盘信号干预方案[36][37] 技术实现与工程挑战 - 单芯片部署通过int4量化压缩带宽 结合FP8计算精度优化[12][13] - 模型规模扩展遵循Scaling Law 7B参数可通过蒸馏和数据优化提升智力[9][10] - 3D数据标注需全部重刷 标注内容与端到端阶段存在本质差异[32] - 极端工况识别受限于摄像头分辨率 需视觉与激光雷达前融合提升置信度[33][34] - 仿真数据占比约10% 主要用于特殊场景补充而非过拟合测试[23] 行业对比与发展路径 - L2渐进式路线与Robotaxi直接L4方案差异显著 前者强调全场景覆盖能力[10][11] - 特斯拉FSD V13未采用Language模型 漫游能力依赖端到端而非寻路逻辑[26][27] - 大模型公司缺乏3D数据资产 业务需求决定三维场景理解能力发展[30][31] - 关键人物推动技术迭代 但行业大势依赖基础设施与工程师群体[38] 法规与商业化 - 拍照功能受法规限制暂未全量发布 需与监管部门协同推进[15] - 召唤功能面临严格法规约束 能力储备先于政策放开[16][17] - 商业化路径强调用户规模普及 高精地图方案难以满足百万级车辆需求[25]
25年8月8日理想VLA体验分享(包含体验过特斯拉北美FSD的群友)
理想TOP2· 2025-08-12 13:50
自动驾驶体验对比 - 理想VLA在园区内主副驾无人场景下表现优秀 具备基于语言指令的精准控制能力 但受限于封闭环境无法验证泛化能力 [1] - 与特斯拉FSD对比 北美用户认为FSD在自然度和拟人化驾驶方面更胜一筹 接近自动驾驶水平 而理想VLA在顺义路况下仍有明显"机器感" [1] - 公开道路测试显示 在非高峰期的顺义路况下 VLA在安心感/舒适度/效率上较L系列VLM有显著提升 但窄路和村庄场景表现欠佳 [2] 核心用户体验差异 - 红绿灯刹停过程表现出色 丝滑无顿挫感 显著优于普通驾驶者和多数竞品 形成明显代际差体验 [3] - 变道/超车等常规操作难以体现差异化 但刹车品质成为最易感知的优势项 类比"老司机"驾驶水准 [4] - 语音控车功能具备路线记忆和个性化设置能力 在L4实现前可形成独特用户体验优势 [10] 技术迭代路径 - VLA采用强化学习范式 相比VLM的监督学习具备四大迭代方向:仿真数据优化/芯片算力提升/模型参数量增长/语音工程优化 [7] - 强化学习在自动驾驶领域优势显著 奖励函数明确(安全/舒适/效率) 可针对具体场景持续优化 突破模仿学习的炼丹局限 [8][9] - 当前运行4B参数模型 未来7B/14B乃至100B参数模型将带来能力飞跃 芯片算力提升是关键支撑 [7] 产品化逻辑 - 技术团队需平衡模型能力与用户体验 互联网时代产品体验优先 AI时代需兼顾技术突破与体验优化 [10] - 自动驾驶首要目标是超越80%普通驾驶者 逐步向95%水准迈进 刹车品质成为首批达标的关键指标 [4]
理想VLA的实质 | 强化学习占主导的下一个action token预测
自动驾驶之心· 2025-08-11 23:33
核心观点 - 对"predict the next token"的不同理解反映了对LLM或AI潜力与实质的不同认知 [1] - 越认为"predict the next token"超越统计学的人,越认可LLM潜力大/AI潜力大/推理过程是意识雏形/超级对齐重要 [2] - 理想VLA实质是在强化学习主导下连续预测"next action token",类比OpenAI的O1O3 [4] - 辅助驾驶比chatbot更适合采用强化学习方法 [4][24] Ilya观点分析 - Ilya作为前OpenAI首席科学家,推动了过去十年AI领域多项重大突破 [4][5] - Ilya认为"predict the next token"能超越人类表现,关键在于神经网络能推断出"理想人物"的行为 [8][9] - "predict the next token"本质是理解token产生的现实基础,而不仅是统计学 [11][12] - Ilya的思考方式非常严谨,认为预测token需要理解人类行为背后的思想、感情和想法 [12][13][17] 理想VLA技术特点 - VLA架构通过传感器输入,输出驾驶行为action token,整个过程实时发生在车端 [19] - VLA在NOA期间连续预测next action token,实质是理解现实物理世界 [20] - VLA在推理过程中具有意识特征,这种意识随NOA开启/关闭而出现/消失 [21] - 辅助驾驶比chatbot更适合强化学习,因其奖励函数更明确(安全/舒适/效率) [24][26] 行业技术差异 - AI软件与硬件开发存在本质差异:软件可快速AB测试迭代,硬件迭代较慢 [28] - AI软件内核是神经网络与权重,传统软件内核是代码 [28] - 理想在AI软件与硬件结合方面达到高水平,但行业认知不足 [29][30] - 自动驾驶技术社区活跃,涵盖大模型/VLA/端到端/感知/规划控制等多个方向 [33][35][37]
理想VLA实质是强化学习占主导的持续预测下一个action token
理想TOP2· 2025-08-11 09:35
核心观点 - 对predict the next token的不同理解反映了对LLM或AI潜力与实质的认知差异 [1] - 认为predict the next token超越统计学的人更倾向于认可LLM潜力大、推理过程是意识雏形、超级对齐重要 [1] - 理想VLA架构通过连续预测action token实现物理世界理解,类比OpenAI的O1O3 [1][10] - 辅助驾驶比chatbot更适合强化学习,因奖励函数更明确且仿真环境更简单 [12][13] Ilya的观点与背景 - Ilya是OpenAI前首席科学家,推动AlexNet、AlphaGo、TensorFlow等多项AI领域突破 [3] - 他认为predict the next token能超越人类表现,因足够聪明的神经网络可推断"理想人物"行为 [4][8] - 预测token的本质是理解其背后的现实世界逻辑,而非单纯统计学 [6][7] - Ilya的论证风格严谨,常以"误差范围对数刻度"等表述体现审慎态度 [9] 理想VLA的技术逻辑 - VLA架构通过传感器输入实时输出action token,结合diffusion优化轨迹,实现物理世界理解 [10] - VLA在NOA开启期间连续预测action token,其推理过程被视为一种动态意识 [11] - 理想将AI软件(神经网络权重)与硬件平台高效结合,技术整合含金量被低估 [13] 辅助驾驶与AI软件的差异 - 辅助驾驶的强化学习优势在于明确奖励函数(安全/舒适/效率)和可仿真性 [12][13] - AI软件内核是神经网络权重,与传统代码式开发范式存在根本差异 [13] - 硬件迭代速度慢于软件,AI软件需AB测试快速迭代,与硬件开发逻辑冲突 [13]
理想VLA含金量分析与关键迭代方向预测
理想TOP2· 2025-08-09 06:18
理想VLA的核心价值 - 理想VLA属于DeepSeek MoE级别的创新,虽非MLA级别的首创理念,但首次完整落地至汽车领域并取得显著成果,架构设计与执行高度原创 [2] - 公司在AI软件与硬件结合方面达到行业领先水平,克服了硬件迭代慢、AI软件与传统编程差异大的挑战 [3] - 创始人李想(44岁,高投票权)是VLA推进的核心灵魂人物,其资源调配、关键决策能力(如押注强化学习路线)对技术方向起决定性作用 [4][5] - 强化学习为核心的VLA架构长期将显著优于模仿学习主导的端到端路线,具备针对性解决bad case和持续迭代的优势 [6][9] 理想VLA的技术架构与迭代方向 - 技术内核为强化学习主导,通过仿真环境试错学习最优策略,区别于监督学习的标记数据依赖和端到端的单纯模仿 [9][10] - 当前车端部署4B参数模型(较小规模),未来需提升本地推理能力以支持更大参数量模型,同时确保时延达标 [12] - 关键迭代路径:1)优化仿真数据效率(低成本、高质量、快速生成);2)挖掘现有芯片算力潜力或升级硬件;3)强化学习驱动的能力跃升 [8][12] - 长期若未实现L4,可能转向在线学习等新架构,允许模型权重动态更新,但需解决超级对齐等安全问题 [13] 行业技术对比与创新点 - 端到端方案依赖模仿学习,拟人性提升但缺乏思考能力,bad case改进效率低(类似炼丹);理想VLA通过强化学习实现针对性优化 [9][10] - 仿真数据替代真实数据成为核心训练资源,解决强化学习对交互场景的高需求(如AlphaGo无人类棋谱训练案例) [10][11] - 公司展示的工程能力包括:仿真系统优化(如无保护左转的自我博弈训练)、芯片算力压榨、跨领域技术整合(如扩散模型生成轨迹) [12][2] 创始人角色与资源分配 - 李想直接参与AI学习与决策,确保资源高效投向VLA而非端到端,并推动双Orin平台兼容前沿模型(2022年车型支持2025年技术) [4] - 创始人深度介入避免团队陷入无效争论,保障技术路线执行力(对比技术灵魂人物离职导致资源中断的案例) [5][4]
理想辅助驾驶事故率比人驾安全6-7倍左右
理想TOP2· 2025-08-04 13:12
智能驾驶优化指标 - 公司当前优先优化安全性和舒适度,效率排在最后 [1][2] - 使用MPA(事故里程)衡量安全性,目前辅助驾驶下每350-400万公里发生一次事故,人驾为60万公里一次 [1] - 目标是将MPA提升至人驾的10倍(600万公里一次事故),需依赖VLA模型升级 [1] MPI与舒适度改进 - MPI指标包含安全风险和舒适度问题(如急刹导致的接管) [1] - 公司重点提升行车舒适度,理想i8辅助驾驶版本已显著改善体验 [2] - 效率优化需在安全舒适基础上实现,避免危险纠偏动作 [2] 数据对比与目标 - 辅助驾驶安全性当前为人驾的5-6.7倍(400万公里 vs 60万公里) [1] - 事故里程数据将持续迭代,短期目标为300万公里(MPA),长期目标600万公里 [1]
不用给理想入选ICCV高评价, 牛的是理想的工作, 不是ICCV
理想TOP2· 2025-06-29 15:06
AI学术圈特点 - AI学术圈会议比期刊重要 因AI发展速度过快 期刊审稿周期无法满足需求 [5] - 顶会论文页数限制严格 优秀AI论文通常仅几页 与其他学科差异显著 [5] - 主要顶会投稿/录用数量暴增 例如AAAI 2014-2023录用数从398增至1721 投稿数从1406增至8777 录用率从28.31%降至19.60% [5][7] 顶会论文含金量现状 - 审稿人数量跟不上投稿增量 审稿质量下降 录用论文含金量参差不齐成为行业共识 [8] - 顶会录用者职业竞争加剧 优质岗位供给速度落后于录用者增长 类比其他学科学历贬值趋势 [8] - 中国机构贡献占比达1/3至1/2 商业公司参与度显著高于其他学科 高校资源处于劣势 [8] 理想汽车学术成果分析 - 自动驾驶团队5篇论文入选ICCV 基座模型团队另有3篇录用 公司强调学术成果重要性 [2][3] - 学术宣传本质是面向用户的辅助驾驶技术营销策略之一 [9] - VLA技术原始创新达到DeepSeek MoE级别 突破尺度介于MLA与Transformer之间 [11] 理想技术路径演进 - V10-11阶段确实跟随特斯拉技术路线 但V12后自主创新比例显著提升 [12] - VLM系统采用快慢双系统架构 快系统借鉴特斯拉 慢系统为完全自主创新 [12] - 技术开发逻辑类比增程车设计理念 通过差异化方案弥补算力/数据资源劣势 [12][13] 行业创新格局 - 中国公司中具备MoE级别原始创新能力的厂商数量远少于能批量产出顶会论文的公司 [1][11] - 商业公司实现顶会多篇论文收录门槛已大幅降低 但核心价值仍取决于实际技术突破 [8][10] - 理想VLA到VLM的技术演进路径已脱离跟随模式 形成自主创新体系 [12][13]
汽车行业周报(20250616-20250622):6月下旬需求有望恢复,小米YU7月底发布-20250622
华创证券· 2025-06-22 08:34
报告行业投资评级 未提及 报告的核心观点 本周汽车板块微跌,投资情绪偏淡 6月下旬周度需求或回暖,行业将进入7 - 8月淡季,后续新品集中上市叠加年底旺销和补贴,销量展望乐观 市场关注明年以旧换新、新能源车购置税变化影响,建议选股淡化beta、强化alpha,选个股特征鲜明标的 [2] 各目录总结 数据跟踪 - 4月乘用车批发销量222万辆,同比+11%,环比-10%;出口43万辆,同比+0.4%,环比+5.0%;零售159万辆,同比+6.0%,环比-14%;库存增加19.7万辆,同比+1.9倍 [4] - 5月新势力车企交付量,比亚迪38万辆,同比+15%,环比+0.6%;零跑4.5万辆,同比+1.5倍,环比+9.8%;理想4.1万辆,同比+17%,环比+20%;小鹏3.4万辆,同比+2.3倍,环比-4.3% [4] - 6月上旬折扣环比上升,折扣率10.6%,较上期+0.4PP,较去年同期+2.9PP;折扣金额23810元,较上期+1104元,较去年同期+7477元 部分主流品牌折扣率变动大,一汽大众奥迪+2.4PP,领克+2.0PP等 [4] - 截至6月20日,碳酸锂2Q25均价6.58万元/吨,同比-38%、环比-13%;最新6.04万元/吨 其他原材料价格也有不同变化 [5] 行业要闻 国内新闻 - 6月16日,小米YU7月底发布,还有小米平板7S Pro等新品 德赛西威与奇瑞合作开发舱驾一体平台,与昊铂签战略合作协议 [25] - 6月17日,江汽与华为签署战略合作协议 美团CEO王兴减持573.7万股理想汽车,套现超6亿港元 [25] - 6月18日,福建印发氢能产业规划,目标2025 - 2030年建成多个项目,氢能产业总产值突破600亿元/年 6月1 - 15日全国乘用车零售70.6万辆,同比+20%,新能源零售40.2万辆,同比+38% 华为徐直军称2025年中国乘用车5G车联网占比30%,2026 - 2030年升至95% [25] - 6月19日,广西暂停2025年部分消费品以旧换新补贴活动 乘联分会崔东树称5月末乘用车库存345万辆,库存压力稍有增大 [25][26] - 6月20日,乘联分会称6月中旬车市折扣率约24.8%,本月狭义乘用车零售约200万辆,同比+13.4%,新能源零售预计110万辆,渗透率55%左右 [26] 海外新闻 - 6月16日,LG新能源与奇瑞签46系列大圆柱电池供货协议,订单8GWh [26] - 6月17日,Faraday Future多位高管签署股票购买计划 [26] - 6月18日,奥迪撤回2033年停售内燃机汽车计划,将牵头开发大众集团中大型车型平台架构与软件系统 [26] 市场表现 - 本周汽车板块涨幅-2.57%,板块排名23/29 上证综指-0.51%、沪深300 -0.45%、创业板指-1.66%、恒生指数-1.52% 汽车各细分板块均下跌,零部件-2.79%、乘用车-2.19%等 [7] - 上涨个股51只,下跌228只 上周涨幅TOP5为大为股份15.1%等,跌幅TOP5为金鹰股份-30.8%等 [28][31] 投资建议 - 整车:推荐理想汽车、江淮汽车,关注北汽蓝谷、上汽集团、小鹏汽车、小米集团 比亚迪、吉利2季度财务表现有望超预期 [5] - 零部件:机器人板块推荐拓普集团等,关注纽泰格 高阶智驾下沉放量推荐地平线机器人,关注比亚迪电子等 推荐星宇股份等,关注新泉股份 [5] - 重卡:看好25年国四以旧换新政策带来的行业景气,推荐潍柴H/A、重汽A,关注重汽H [5]
理想的VLA可以类比DeepSeek的MoE
理想TOP2· 2025-06-08 04:24
理想VLA与DeepSeek MoE技术类比 - VLA和MoE均为首次完整落地到新领域并取得良好结果 均包含大量创新 但两者在具体实现方式上存在显著差异 [2] - DeepSeek MoE通过细粒度专家划分将单个专家隐藏层维度缩小至1/4 专家数量增至4倍 使激活组合可能性从120种提升至44亿种量级 [2] - 采用共享专家隔离机制 设置占总专家数1/8的固定共享专家处理公共知识 显著减少不同专家间的知识冗余 [2] 理想VLA核心技术突破 - 需攻克6大关键技术点:MindVLA设计/训练流程 3D空间理解能力获取 驾驶知识语言模型构建 Diffusion融合 车端实时推理实现 [4] - 3D高斯技术通过RGB图像自监督训练 实现多尺度几何表达与丰富语义承载 为3D表征提供核心支持 [4] - 基座模型采用MoE架构和稀疏注意力机制 在扩容参数量的同时控制推理负担 训练数据配比优化减少文史类数据 增加3D及自动驾驶图文数据 [6][7] 模型训练与推理优化 - 引入未来帧预测和稠密深度预测任务 通过快慢思考双系统设计(快思考直接输出action token 慢思考采用固定简短CoT模板)提升实时性 [8] - 创新并行解码机制:语言逻辑采用因果注意力逐字输出 action token通过双向注意力一次性全输出 [8] - 使用小词表和投机推理技术 使CoT效率提升44亿倍量级 实现参数规模与推理性能平衡 [8] Diffusion技术应用 - 将action token解码为驾驶轨迹 同步生成自车轨迹与周边交通参与者轨迹 复杂环境博弈能力提升120% [9] - 采用多层Dit结构支持条件输入改变生成结果(如"开快点"指令响应) 类比图像多风格生成技术 [10] - 使用ODE采样器将Diffusion生成步骤压缩至2-3步 解决传统方法效率低下问题 [11] 强化学习突破 - 构建端到端可训架构 解决早期强化学习中信息传递低效问题 [12] - 通过多视角噪声训练生成模型 联合3D重建优化 创建真实度达标的训练环境 场景建设效率提升20倍 [12] 技术路线演进 - V10-11阶段确实跟随特斯拉技术路线 但V12后自主创新比例显著提升 仅在快系统部分保留特斯拉框架 [13][14] - 慢系统为完全自主创新 特斯拉未涉及该领域 整体技术路线类比"增程式"方案:在算力/数据资源不足条件下实现可用性 [14] - VLM到VLA的演进为公司独立提出的技术路径 非跟随策略 获王兴评价为"真正实现Think Different"的典型案例 [15]