Workflow
自动驾驶之心
icon
搜索文档
一见Auto说理想对2起质量事故内部问责处理18人
自动驾驶之心· 2025-11-15 11:58
文章核心观点 - 理想汽车针对两起批量质量事故进行内部问责,共处理18名相关人员,涉及MEGA电池召回和25款L系列下摆臂问题 [1] - 公司内部认为当前处于发现问题并尝试改正的阶段,但改正效果有待观察,企业文化价值观的落实成为管理层关注重点 [2] - 公司创始人李想的股权结构、年龄和个人驱动力被视为公司能够克服困难、实现价值观回归的关键因素 [2] 质量事故与问责细节 - MEGA电池召回事故中,冷却液验证不充分,研发运营-材料技术相关人员负主要责任 [1] - 动力电池试验验证及渗漏风险评估不充分,整车电动-动力电池相关人员负主要责任 [1] - 研发运营-研发质量、质量安全、服务等部门在冷却液渗漏风险评估、用户车辆处置等环节应对不当,负次要责任 [1] - 25款L系列车型因下摆臂衬套油脂试验验证不充分,对崔某等4名相关员工进行问责处理 [1] 内部管理与文化动态 - HR负责人直接向李想汇报,预示创始人将更大程度地抓价值观落实 [2] - 公司官方价值观内核强调以不同思维方式创造用户价值,激发人向善,讲究科学方法论 [2] - 公司内部有较多秉持理想价值观的员工离开,同时也有相当比例的此类员工留任但处于有劲使不出的状态 [2] - 留任的部分核心员工虽有意愿推动公司向好,但缺乏有效抓手,暂时处于抑郁状态 [2]
招募自动驾驶产品经理/强化学习方向合伙人!
自动驾驶之心· 2025-11-15 03:03
公司战略与内容升级 - 公司正在进行内容升级从单篇文章解读过渡到更深入的技术梳理方案分析和观点讨论[2] - 公司将增加圆桌访谈实战工业级课程咨询等各类输出以应对自动驾驶技术深水区的行业难点和痛点[2] - 公司作为国内自动驾驶领域创作技术平台期望在行业激流中贡献力量成为能给行业带来价值的平台[2] 行业技术动态 - 近期特斯拉小鹏理想都有新的技术分享引起了广泛深入的行业讨论[2] - 自动驾驶已经进入技术深水区行业的难点和痛点需要更多有志之士参与突破[2] 人才招募与合作 - 公司需要更多优秀伙伴加入主要方向包括自动驾驶产品经理4D标注数据闭环世界模型VLA自动驾驶大模型强化学习端到端等多个方向[4] - 岗位主要面向自动驾驶培训合作B端面向企业和高校研究院所培训C端面向学生求职类人群以及课程开发和原创文章创作[5] - 待遇与合作方式可通过添加微信wenyirumo进行进一步沟通[6]
万字长文总结多模态大模型最新进展(Modality Bridging篇)
自动驾驶之心· 2025-11-15 03:03
多模态大语言模型(MLLM)行业技术演进 - 多模态大型语言模型(MLLM)已成为新兴研究热点,其通过将大型语言模型(LLM)作为大脑来执行多模态任务,展现出如基于图像撰写故事和无OCR数学推理等新能力,这指示了通向通用人工智能的潜在路径 [2] - 行业通常在大规模配对数据上进行预训练,以促进不同模态间的对齐,对齐数据集通常为图像文本对或自动语音识别数据集,常见方法是冻结预训练模块并训练一个可学习的接口 [2] - 行业内已涌现大量代表性模型,包括Flamingo、BLIP-2、InstructBLIP、LLaVA系列、Qwen-VL、NExT-GPT、CogVLM等,覆盖了从少样本学习到任意模态输入输出的广泛能力 [3][4] 视觉-语言对齐核心技术 - Flamingo模型采用Perceiver Resampler模块,将视觉编码器输出的可变大小时空特征映射为固定数量的视觉标记(例如64个),从而降低后续交叉注意力的计算复杂度 [6][8] - 模型通过GATED XATTN-DENSE层将视觉信息整合到冻结的语言模型中,训练过程中所有语言模型层均利用了视觉信息,门控值的绝对值随网络深度增加而增长 [9][12] - 模型通过特定的掩码方法处理交错的视觉数据与文本序列,限制文本标记仅能关注其前导图像/视频对应的视觉标记,实现了多视觉输入的支持 [11][14] 高效训练策略与数据工程 - 训练数据的构成对模型性能至关重要,例如在Flamingo中,去除交错的图像文本数据集M3W会导致性能下降超过17%,而去除传统配对图像文本对也会导致性能下降9.8% [15] - BLIP-2采用两阶段策略,第一阶段冻结图像编码器和LLM,训练轻量级Q-Former进行视觉-语言表示学习;第二阶段引导视觉到语言的生成学习,实现零样本图像到文本生成 [16][17][22] - 为提高数据效率并防止过拟合,行业采用数据集加权采样策略,采样概率与数据集大小的平方根成正比,例如InstructBLIP中M3W、ALIGN等数据集的权重分别为1.0、0.2等 [28][31][32] 指令微调与性能优化 - 指令微调对模型性能影响巨大,例如在LLaVA中,未进行指令微调的模型性能相对下降高达61.1%,而采用清晰的响应格式提示能有效引导模型输出长短形式的答案 [34][35] - 通过增加高质量、多样化的指令跟随数据,例如结合GPT-4生成的数据,能显著提升模型的视觉推理、OCR和世界知识能力,LLaVA-NeXT在多个基准上甚至超越了Gemini Pro [40][44][46] - 模型扩展不仅限于参数量,还包括输入图像分辨率的提升,例如Monkey模型将输入分辨率有效提升至896x1344像素,无需从零预训练即可显著提高在文档理解等任务上的性能 [94][96][100] 架构创新与效率提升 - 为降低处理高分辨率图像的计算负担,行业提出多种创新架构,如LLaVA-UHD采用模块化视觉编码策略,将图像分割为可变大小切片,并通过压缩层减少视觉标记数量,在仅使用94%推理计算量的情况下提升性能 [110][113][115] - 稀疏化技术如MoE-LLaVA被引入,通过混合专家(MoE)层,在推理时仅激活排名靠前的专家,使模型在保持约3B稀疏激活参数的情况下,性能达到甚至超过参数更多的密集型模型 [104][106][108] - 深度融合方法受到重视,例如CogVLM在语言模型的每一层引入可训练的视觉专家模块,实现视觉与语言特征的深层对齐,相比浅层对齐方法能有效减少幻觉并提升理解能力 [84][86][91] 多模态理解与应用扩展 - 行业致力于提升模型对文本丰富图像的理解能力,例如LLaVAR通过增强视觉指令调优流程,在基于文本的VQA数据集上准确率提升最高达20% [57] - 模型能力向任意模态输入输出扩展,NExT-GPT系统利用LLM作为核心,通过产生独特的模态信号标记来指示解码层输出图像、视频、音频等内容,构建端到端的任意模态MM-LLM [68][70][71] - 针对长视频理解等复杂任务,LLaMA-VID提出用两个标记(上下文标记和内容标记)表示每一帧,显著减少计算负担,支持长达一小时的视频输入 [102][103]
端到端自动驾驶算法工程师的一天
自动驾驶之心· 2025-11-15 03:03
端到端自动驾驶技术发展趋势 - 规控算法的学习化已成为绝对主流,基于规则的算法无法满足高阶智驾需求[4] - 衍生出一段式和两段式等多种算法,其中一段式是目前主流的端到端量产范式[4] - 端到端并非单一模型可解决所有问题,量产涉及模型、数据、场景等多方面经验[4] 主流技术框架与方案 - 两段式框架涉及感知与规划控制的信息传递建模,PLUTO算法是经典实战案例[8] - 一段式框架可实现信息无损传递,性能优于两段式,包括基于VLA和Diffusion等方法[9] - VAD系列是深入掌握一段式方法的关键学习内容[9] 关键算法与应用 - 强化学习可配合Diffusion和自回归模型使用,弥补纯模仿学习的不足[4][11] - 导航信息在自动驾驶中起引导、选路、选道作用,需学习其编码与嵌入方式[10] - 轨迹优化涉及模仿学习与强化学习结合,包括扩散模型和自回归算法实战[12] 量产落地与工程实践 - 时空联合规划作为兜底方案,通过轨迹平滑优化算法保证输出轨迹稳定可靠[13] - 量产经验需从数据、模型、场景、规则等多视角选用合适工具提升系统能力边界[14] - 拥堵加塞等场景需针对性优化强化学习奖励函数,并设计闭环训练方法[2]
英伟达长达41页的自驾VLA框架!因果链推理,实车可部署
自动驾驶之心· 2025-11-15 03:03
技术框架创新 - 提出Alpamayo-R1(AR1)视觉-语言-动作(VLA)框架,通过融合因果链推理与轨迹规划来解决端到端自动驾驶在长尾场景中的性能瓶颈 [1][2] - 核心创新包括构建因果链数据集、模块化VLA架构以及多阶段训练策略,旨在实现可解释推理与精准控制的衔接 [2][5] - 相较于仅基于轨迹的基准模型,AR1在高难度场景下的规划准确率提升高达12%,在闭环仿真中偏离车道率降低35%,近距离碰撞率降低25% [2] 性能与效率表现 - 模型参数从0.5B扩展至7B时性能持续提升,经强化学习后训练后推理质量提升45%,推理-动作一致性提升37% [2] - 实车道路测试验证模型具备实时性能,延迟为99毫秒,并成功部署于城市路况 [2] - 采用基于流匹配的动作专家轨迹解码器,相较于自回归解码方法,解码速度提升1.16倍,舒适性指标从44.05%提升至97.38% [121] 数据与训练策略 - 通过混合标注流程构建因果链数据集,包含70万个带结构化因果链标注的视频片段,覆盖8万小时驾驶数据 [48][91] - 训练策略包含三阶段:动作模态注入、有监督微调激发推理能力、强化学习后训练优化推理质量与一致性 [61][62] - 数据规模消融实验显示,模型性能随训练数据量增加而持续提升,200万样本模型较10万样本模型性能提升14.0% [113][115] 架构设计与组件优化 - 采用Cosmos-Reason作为VLM主干网络,该网络经过物理智能领域有监督微调,在LingoQA基准上的零样本评估准确率达66.2%,优于GPT-4V等对比模型 [16][117] - 支持多摄像头token化策略,可将每幅图像的token数量减少3.9倍,实现高效视觉编码而不显著牺牲驾驶指标 [22] - 使用基于单轮车动力学模型的轨迹表示方法,通过控制信号生成轨迹,提升闭环性能与物理可行性 [27] 应用与部署前景 - AR1框架为实现L4级自动驾驶提供了一条切实可行的路径,未来计划发布模型及部分因果链数据集 [2] - 在开环评估中,AR1在6秒时域的最小平均位移误差为0.794米,较基准提升4.8%,在高难度场景中提升达12% [96][98] - 闭环评估显示,AR1的AlpaSim评分从0.38提升至0.50,证明基于推理的决策能提升动态场景中的安全性 [100]
端到端和VLA的岗位,三年经验月薪到70k了
自动驾驶之心· 2025-11-14 00:04
行业人才需求 - 主机厂和供应商对端到端和视觉语言动作模型技术人才需求旺盛[1] - 招聘网站上3-5年经验的专家岗位月薪高达70k[1] 技术发展趋势 - 自动驾驶技术正从模块化量产算法向端到端和视觉语言动作模型发展[1] - 核心算法涉及BEV感知、视觉语言模型、扩散模型、强化学习和世界模型等前沿领域[1] 课程内容设置 视觉语言动作模型与大模型实战课程 - 课程涵盖视觉语言模型作为自动驾驶解释器、模块化视觉语言动作模型、一体化视觉语言动作模型和推理增强视觉语言动作模型三大领域[2] - 配套理论基础包括视觉/语言/动作三大模块、强化学习和扩散模型等内容[2] - 设置大作业章节指导学员从零搭建自己的视觉语言动作模型和数据集[2] 端到端与视觉语言动作模型自动驾驶课程 - 重点讲解一段式/两段式端到端自动驾驶算法的重点内容和理论基础[11] - 详细解析BEV感知、大语言模型、扩散模型和强化学习技术[11] - 设置两大实战项目:基于扩散模型的规划器和基于视觉语言动作模型的ORION算法[11] 师资团队构成 - 教师团队来自清华大学等顶尖高校和国内顶级主机厂[7][10][13] - 团队成员在ICCV、IROS、EMNLP等国际顶级会议发表多篇论文[7][10][13] - 具备丰富的自动驾驶感知、大模型框架工具开发和算法量产交付经验[7][10][13] 学员入学要求 - 需要自备GPU设备,推荐算力在4090及以上[14] - 要求具备自动驾驶领域基础知识和Transformer大模型、强化学习、BEV感知等技术概念[15] - 需要概率论、线性代数基础和Python、PyTorch编程能力[15]
小鹏刘先明:VLA 2.0的「涌现」过程极其突然......
自动驾驶之心· 2025-11-14 00:04
第二代VLA技术架构与突破 - 技术研发遵循第一性原理,旨在省去从视觉到语言的转译部分,避免云端繁重计算和数据标注,从而极大提高推理速度[9][10] - 核心创新包括输入信号尽量使用真实世界的物理视频流,输出空间采用连续信号而非离散化文字表达,使网络结构极其简单[17] - 通过大量模仿学习和自监督,模型能够学会范本并进行推理,例如测试车在红灯转绿前能像人类一样缓缓起步,甚至通过观察两侧红绿灯变化进行推测[11] - 该架构在训练过程中直接内嵌推理逻辑,量产部署时可去掉云端计算部分,直接在本地芯片上运行,大大提高了测算和推理效率[22] - 为实现量产,公司从头设计了编译器,并结合模型、软件、编译器和硬件进行联合优化,以在图灵芯片上实现实时高帧率运行[24] 技术投入与“涌现”现象 - 从2024年至今,公司投入了3万张卡的算力,训练费用超过20亿元,并在今年二季度出现一次巨大的性能跳跃[7] - 技术“涌现”被描述为并非偶然,而是持续坚持投入和对Know-how累积的结果,例如长期处于痛苦阶段的研发工作突然迸发成效[5][8] - 在机器人领域,当数据和算力达到一定程度后出现阶跃,例如人形机器人IRON的步态在3月的一个晚上突然变得非常拟人[35][36] 传感器策略与视觉算法优势 - Robotaxi将不会装配激光雷达,因为激光雷达扫描频率仅10赫兹,且提高功率不符合车规级标准,在雨雾天气中还会产生噪声点[25][26] - 摄像头提供的信息量远超激光雷达,高像素摄像头每个像素包含三个通道,每通道8比特,一秒钟信息量巨大,但此前系统缺乏足够大的模型来充分利用[27] - 摄像头在图像信号处理算法转换时会损失16比特信息,动态范围值为2的16次方,在强光、逆光等环境下并非无法成像,而是信息被过滤处理[27] 人形机器人技术进展 - 公司人形机器人IRON除螺丝外全部自研,源于机器人产业链尚不成熟,且自研有助于降本和加速迭代[29] - 机器人能力提升被视为螺旋上升过程,从30分实际场景应用中发现新问题,逐步提升至40分,并在此过程中出现涌现时刻[32][33] - 超拟人步态的实现与仿造人类脊柱、肌肉群、腹腔和皮肤的腰部设计直接相关,前脚掌增加自由度并结合自研生成式控制器[39][41][42] - 第三代控制器采用生成式模型,步态与风格嵌入控制模型而非轨迹跟随,第四代“反重力器”控制器能根据连续姿态输入完成相应动作[45][46] - 基于通用生成式控制器,机器人可丝滑执行打太极、叶问蹲等动作,通过录制大师轨迹直接输入控制系统即可[46]
一句话,就能创造出随便乱逛的3D世界!
自动驾驶之心· 2025-11-14 00:04
产品发布与定位 - WorldLabs公司正式推出名为Marble的生成式世界模型产品,该产品面向全球用户开放使用[2][7] - Marble是新一代世界模型,能够通过单张图片或简短文字提示创建完整的3D世界[41] - 该产品与公司自家实时模型RTFM的区别在于能创建持久化、可下载的3D环境,而非实时生成世界[28] - 产品定位为AI原生编辑工具,提供混合3D编辑器功能,用户可先构建空间结构框架再由AI填充细节[31] 技术功能特点 - 模型支持多模态输入,包括2D图片、3D模型(需付费)、文本提示、多图像和短视频,可生成多种场景类型与艺术风格的3D世界[16][42][48] - 内置AI原生编辑工具,支持局部物体移除、区域修饰、风格替换和结构重构等精细操作[50] - 推出Chisel功能,允许用户在三维空间中直接雕琢世界布局,实现对物体尺寸和位置的精确控制[55] - 导出选项包括高斯溅射点(最高保真度)、三角网格模型(含低精度碰撞体网格)和视频格式,支持与THREE.js等行业标准工具集成[58][60][65] 产品发展历程 - 模型两个月前以限量测试版亮相,此次为正式上线[28] - 去年十二月公司展示的早期模型仅能通过单张图像生成交互式3D场景,且移动范围受限并存在渲染错误[32][33] - 当前版本实现重大突破,生成内容可任意旋转镜头、放大缩小,效果逼真度显著提升[14][34] 商业模式与定价 - 采用分级订阅制,免费版可生成4个世界,标准版月费20美元(首月1美元),专业版月费95美元可生成75个世界[83][84][85] - 付费功能包括3D模型上传、多图像/视频输入、世界编辑和高质量网格导出等[29][88] - 商业权利仅向标准版及以上用户开放,高阶版本提供更多积分和生成次数[88] 行业影响与愿景 - 产品发布契合李飞飞提出的"空间智能"概念,被视为AI下一个十年的关键发展方向[5][71] - 世界模型被定义为具备多模态能力,能整合视觉、听觉、触觉与语言信号构建三维世界[36][38] - 未来重点将聚焦交互性突破,为仿真、机器人技术等领域解锁新应用场景[69][70]
不用术语看懂世界模型:从日常预测到自动驾驶
自动驾驶之心· 2025-11-14 00:04
世界模型核心定义 - 世界模型的本质是根据已感知的过去信息(如图像、声音、速度、距离)来预测未来的信息,核心逻辑是“输入过去,输出未来”[2][3] - 该模型在自动驾驶和具身智能中至关重要,使系统能基于预判提前采取行动,而非被动反应,这与人类行为模式一致[4] - 预测基于从海量数据中总结的规律,而非随机猜测,例如“刹车灯亮预示前车减速”[4] 世界模型与神经网络关系 - 神经网络是实现世界模型的工具,擅长模仿和识别特定模式,但缺乏直接预判和理解能力[5][6] - 世界模型利用神经网络处理具体信息,并在此基础上进行场景规律的预判,如同导演指挥演员[8][10] - 没有世界模型,神经网络只能模仿而不会思考未来;没有神经网络,世界模型无法处理具体信息[10] 特型世界模型分类 - 不存在“全能”世界模型,因不同场景规律差异大且预判需求不同,现实中均为专注特定领域的特型模型[11][12] - 视频生成世界模型专注于视觉连续性和动作合理性的预测,如生成画画的后续过程[12] - 音乐生成世界模型依据乐理规则和风格统一性预测音符组合[14] - 游戏世界模型预测游戏下一状态,基于游戏规则和玩家行为习惯[14] - 工业生产世界模型预测生产流程步骤,遵循工艺和物理化学规则[14] 自动驾驶世界模型 - 自动驾驶世界模型是最严格的特型模型,要求毫秒级响应和接近100%的准确率,直接关系生命安全[18][22] - 核心工作是整合传感器数据(如车速、车距、交通灯状态),预测路况的下一秒变化,例如前车减速或行人横穿[19][21] - VLA模型是自动驾驶世界模型的增强版,在路况预测基础上融入语言逻辑,使预测更贴合用户指令和交通规则[23][26][27] - VLA模型与普通自动驾驶世界模型的关键区别在于其内在规律部分来源于语言规则,而后者主要依赖路况数据[26][27] 应用价值与发展方向 - 世界模型的核心价值在于帮助应对未知,通过规律预测最可能的结果,使系统能提前准备,如规避车祸风险[29] - 未来发展方向是更专业化而非全能化,在细分场景提升预测准确率和速度,并结合更多信息源(如语言)[29] - 该技术是AI从模仿走向思考决策的关键一步,其强大之处在于专业化的预判能力[29][30]
特斯拉FSD藏了VLA吗?下周一场VLA和世界模型的深度讨论~
自动驾驶之心· 2025-11-14 00:04
活动与嘉宾信息 - 直播活动主题为自动驾驶世界模型和VLA的深度探讨,于11月17日晚举行 [4][5] - 主讲嘉宾詹锟为理想汽车视觉-语言-动作团队高级总监,硕士毕业于北京航空航天大学,2017年加入百度Apollo,2021年加入理想汽车并主导搭建自动驾驶技术栈,团队实现了高速NoA(2022年)、城市NoA(2023年)、端到端+VLM双系统架构(2024年)以及VLA框架(2025年)等一系列里程碑 [1] - 连线嘉宾许凌云为中国科学院博士,卡内基梅隆机器人研究所博士后,发表12篇机器人领域顶级期刊或会议文章,获DARPA SUBT无人车挑战赛2019年世界冠军,现任长安汽车泊车团队负责人 [2] - 其他嘉宾包括博世中央研究院高级算法科学家江岸青、上海交通大学AutoLab创始人张志鹏,主持人为自动驾驶之心运营负责人Gloria [3][4] 核心讨论议题 - 核心议题为探讨特斯拉FSD v14是否隐藏了VLA技术,以及谁在定义自动驾驶下一代方案:WA(可能指传统模块化架构)与VLA的对比 [5][8] - 讨论重点包括特斯拉FSD v14中值得国内关注的技术,以及世界模型和VLA的未来发展方向与融合统一的可能性 [8] - 议题涵盖数据和算力高需求背景下学术界的参与机会 [8] 后续内容与资源 - 完整版深度内容已独家上线知识星球「自动驾驶之心」,涵盖所有技术细节、QA及未公开彩蛋 [12] - 后续深度解析内容包含DriveBench:VLM在自动驾驶中的可靠性评估、自驾数据闭环工程探讨、以及AI Day直播主题LangCoop:自动驾驶以人类语言范式思考等 [12]