Workflow
理想VLM
icon
搜索文档
25年8月8日理想VLA体验分享(包含体验过特斯拉北美FSD的群友)
理想TOP2· 2025-08-12 13:50
自动驾驶体验对比 - 理想VLA在园区内主副驾无人场景下表现优秀 具备基于语言指令的精准控制能力 但受限于封闭环境无法验证泛化能力 [1] - 与特斯拉FSD对比 北美用户认为FSD在自然度和拟人化驾驶方面更胜一筹 接近自动驾驶水平 而理想VLA在顺义路况下仍有明显"机器感" [1] - 公开道路测试显示 在非高峰期的顺义路况下 VLA在安心感/舒适度/效率上较L系列VLM有显著提升 但窄路和村庄场景表现欠佳 [2] 核心用户体验差异 - 红绿灯刹停过程表现出色 丝滑无顿挫感 显著优于普通驾驶者和多数竞品 形成明显代际差体验 [3] - 变道/超车等常规操作难以体现差异化 但刹车品质成为最易感知的优势项 类比"老司机"驾驶水准 [4] - 语音控车功能具备路线记忆和个性化设置能力 在L4实现前可形成独特用户体验优势 [10] 技术迭代路径 - VLA采用强化学习范式 相比VLM的监督学习具备四大迭代方向:仿真数据优化/芯片算力提升/模型参数量增长/语音工程优化 [7] - 强化学习在自动驾驶领域优势显著 奖励函数明确(安全/舒适/效率) 可针对具体场景持续优化 突破模仿学习的炼丹局限 [8][9] - 当前运行4B参数模型 未来7B/14B乃至100B参数模型将带来能力飞跃 芯片算力提升是关键支撑 [7] 产品化逻辑 - 技术团队需平衡模型能力与用户体验 互联网时代产品体验优先 AI时代需兼顾技术突破与体验优化 [10] - 自动驾驶首要目标是超越80%普通驾驶者 逐步向95%水准迈进 刹车品质成为首批达标的关键指标 [4]
不用给理想入选ICCV高评价, 牛的是理想的工作, 不是ICCV
理想TOP2· 2025-06-29 15:06
AI学术圈特点 - AI学术圈会议比期刊重要 因AI发展速度过快 期刊审稿周期无法满足需求 [5] - 顶会论文页数限制严格 优秀AI论文通常仅几页 与其他学科差异显著 [5] - 主要顶会投稿/录用数量暴增 例如AAAI 2014-2023录用数从398增至1721 投稿数从1406增至8777 录用率从28.31%降至19.60% [5][7] 顶会论文含金量现状 - 审稿人数量跟不上投稿增量 审稿质量下降 录用论文含金量参差不齐成为行业共识 [8] - 顶会录用者职业竞争加剧 优质岗位供给速度落后于录用者增长 类比其他学科学历贬值趋势 [8] - 中国机构贡献占比达1/3至1/2 商业公司参与度显著高于其他学科 高校资源处于劣势 [8] 理想汽车学术成果分析 - 自动驾驶团队5篇论文入选ICCV 基座模型团队另有3篇录用 公司强调学术成果重要性 [2][3] - 学术宣传本质是面向用户的辅助驾驶技术营销策略之一 [9] - VLA技术原始创新达到DeepSeek MoE级别 突破尺度介于MLA与Transformer之间 [11] 理想技术路径演进 - V10-11阶段确实跟随特斯拉技术路线 但V12后自主创新比例显著提升 [12] - VLM系统采用快慢双系统架构 快系统借鉴特斯拉 慢系统为完全自主创新 [12] - 技术开发逻辑类比增程车设计理念 通过差异化方案弥补算力/数据资源劣势 [12][13] 行业创新格局 - 中国公司中具备MoE级别原始创新能力的厂商数量远少于能批量产出顶会论文的公司 [1][11] - 商业公司实现顶会多篇论文收录门槛已大幅降低 但核心价值仍取决于实际技术突破 [8][10] - 理想VLA到VLM的技术演进路径已脱离跟随模式 形成自主创新体系 [12][13]
理想的VLA可以类比DeepSeek的MoE
理想TOP2· 2025-06-08 04:24
理想VLA与DeepSeek MoE技术类比 - VLA和MoE均为首次完整落地到新领域并取得良好结果 均包含大量创新 但两者在具体实现方式上存在显著差异 [2] - DeepSeek MoE通过细粒度专家划分将单个专家隐藏层维度缩小至1/4 专家数量增至4倍 使激活组合可能性从120种提升至44亿种量级 [2] - 采用共享专家隔离机制 设置占总专家数1/8的固定共享专家处理公共知识 显著减少不同专家间的知识冗余 [2] 理想VLA核心技术突破 - 需攻克6大关键技术点:MindVLA设计/训练流程 3D空间理解能力获取 驾驶知识语言模型构建 Diffusion融合 车端实时推理实现 [4] - 3D高斯技术通过RGB图像自监督训练 实现多尺度几何表达与丰富语义承载 为3D表征提供核心支持 [4] - 基座模型采用MoE架构和稀疏注意力机制 在扩容参数量的同时控制推理负担 训练数据配比优化减少文史类数据 增加3D及自动驾驶图文数据 [6][7] 模型训练与推理优化 - 引入未来帧预测和稠密深度预测任务 通过快慢思考双系统设计(快思考直接输出action token 慢思考采用固定简短CoT模板)提升实时性 [8] - 创新并行解码机制:语言逻辑采用因果注意力逐字输出 action token通过双向注意力一次性全输出 [8] - 使用小词表和投机推理技术 使CoT效率提升44亿倍量级 实现参数规模与推理性能平衡 [8] Diffusion技术应用 - 将action token解码为驾驶轨迹 同步生成自车轨迹与周边交通参与者轨迹 复杂环境博弈能力提升120% [9] - 采用多层Dit结构支持条件输入改变生成结果(如"开快点"指令响应) 类比图像多风格生成技术 [10] - 使用ODE采样器将Diffusion生成步骤压缩至2-3步 解决传统方法效率低下问题 [11] 强化学习突破 - 构建端到端可训架构 解决早期强化学习中信息传递低效问题 [12] - 通过多视角噪声训练生成模型 联合3D重建优化 创建真实度达标的训练环境 场景建设效率提升20倍 [12] 技术路线演进 - V10-11阶段确实跟随特斯拉技术路线 但V12后自主创新比例显著提升 仅在快系统部分保留特斯拉框架 [13][14] - 慢系统为完全自主创新 特斯拉未涉及该领域 整体技术路线类比"增程式"方案:在算力/数据资源不足条件下实现可用性 [14] - VLM到VLA的演进为公司独立提出的技术路径 非跟随策略 获王兴评价为"真正实现Think Different"的典型案例 [15]