自动驾驶之心
搜索文档
秋招太难了,坚持!就有好日子了......
自动驾驶之心· 2025-11-15 16:04
文章核心观点 - 当前秋招市场对普通应届生存在挑战 但10月后是普通求职者的主要机会期 线下招聘流程更快 [1] - 简历质量是求职关键 在学历不占优情况下 亮眼的论文和项目成果是超越竞争对手最直接的方法 [2] - 公司提供论文辅导服务 旨在帮助学生通过产出高质量论文提升简历竞争力 进而获取工作offer或升学机会 [3][8][18] 公司业务与服务 - 公司为自动驾驶之心旗下平台 是国内最大的AI类技术自媒体 拥有自动驾驶之心、具身智能之心、3D视觉之心等IP [6] - 公司拥有300多名专职老师 来自全球QS排名前100 发表过多篇顶会及子刊论文 近3年辅导学员超过400名 中稿率高达96% [6] - 主要服务方向包括三维重建、SLAM、点云处理、机器人导航、计算机视觉等 [10] - 提供个性化论文指导服务 包括导师实时互动、录播回看、课后答疑等 服务覆盖从选题到中稿的全流程 [16] 目标客户群体 - 服务对象包括想为秋招春招早做准备丰富简历的学生 以及想申博但科研成果不突出的人群 [8] - 旨在解决导师放养、科研体系不清晰的问题 帮助学生建立科研思维并熟悉流程 [9] - 也面向有科研需求以提升职称或学术成就 以及从事AI领域工作想升职加薪的人群 [18] 服务模式与承诺 - 公司提供精准导师匹配系统 根据学员研究方向、目标期刊和基础水平 从300多名导师中筛选3至5位最契合的 [22] - 承诺零基础学员通过6个月辅导可完成一篇小论文 课程提供基础内容供自主学习 [21] - 优秀学员可获得清北、MIT等名校推荐信 或获内推至阿里达摩院、华为诺亚方舟等企业研发岗 [23] - 提供预收定金后与名师meeting服务 meeting不满意可免费更换老师或退款 [23]
楼天城:VLA帮不了L4
自动驾驶之心· 2025-11-15 16:04
文章核心观点 - L4级自动驾驶(Robotaxi)的技术发展已进入超越人类理解的阶段,其决策逻辑与L2级辅助驾驶有本质区别,L2模仿人类而L4必须超越人类[5][6] - 小马智行发布的第七代自动驾驶系统实现了100%车规级零部件,成本下降70%,并基于世界模型技术使安全性达到人类驾驶的10倍[8][9] - 公司认为实现L4级自动驾驶面向个人用户的时间将晚于2020年代,目前技术降维至量产车仍面临挑战,而具身智能领域正经历类似自动驾驶早期的真空期[22][24][26] 技术路线与模型应用 - 世界模型技术在机器学习领域有30年历史,小马智行已使用近6年,L4公司普遍采用强化学习模式进行技术演进[12] - 自Transformer出现后,公司开始整合从感知到执行的模块,并于2023年8月将感知、预测、规控三大模块打通为统一端到端模型,该模型在L4车辆中扮演冗余系统角色[15] - 视觉语言模型(VLA)被视为“全科大夫”,其跨领域通用性不适合L4对极端场景安全性的深度优化需求,在L4应用上帮助有限[17] 商业化与成本控制 - 小马智行Robotaxi车队已累计运行至少50万小时,覆盖市中心及高快速路场景,第七代系统的使命是实现降本与量产[29][30][33] - 降本两大里程碑为“去掉人”和“实现车规化量产硬件”,公司强调云代驾方案成本极高,相当于购买并折旧十辆普通车辆的总和,因此从未采用该逻辑[33][34] - 尽管成本下降70%,第七代Robotaxi定价将在合理范围内相对较高,公司认为AI应提供高质量服务而非追求最低价格[34] 行业发展趋势 - L2级辅助驾驶技术已逐渐“平权”,行业向L3进阶是合理趋势,但L3做法仍延续L2思路,无法渐进至L4,L4的安全及格线接近满分,L2目前远未达到该标准[19][21] - 自动驾驶被视为智能体(Agent)领域中最前沿的应用,Robotaxi是当前最好落地的场景,若无法在此领域突破则难以参与行业竞争[28] - 具身智能与机器人领域与自动驾驶存在技术通用性,但商业化需解决长尾问题,目前状态类似自动驾驶2018年阶段,需经历真空期才能衡量商业价值[23][24][26]
扩散语言模型的潜力被严重低估了!新国立发现可全面超越自回归
自动驾驶之心· 2025-11-15 16:04
研究核心观点 - 扩散语言模型在数据成为瓶颈的未来展现出超越传统自回归语言模型的巨大潜力 [1] - 在数据受限条件下,DLM比AR模型具有大约3倍的数据效率,能更快达到性能交叉点 [5] - DLM通过去除因果偏置和噪声增强技术,能够从有限数据中提取更多信息 [44] 实验设计与设置 - 实验总训练token数量固定为96B,独特token数量从0.5B到96B不等,模型规模为1B [12] - 使用经过修改的Megatron-LM代码库,数据集包括Nemotron-CC、c4-en和RefinedCode [12] - 批量大小为256,序列长度2048,学习率采用预热—稳定衰减策略,初始为2e-4 [12] - 架构采用GPT-2 tokenizer、RoPE、SwiGLU激活函数、预层RMSNorm等技术 [12] 数据预算对性能的影响 - 在较低数据预算下,DLM显著超越AR模型,训练0.5B独特token的DLM可达训练1.5B独特tokenAR模型的性能 [13] - 随着独特数据量增加,交叉点出现越来越晚,数据量越大AR模型越能表现优势 [13] - 在计算资源充足、数据丰富情况下,AR模型更有效拟合数据 [13] 数据质量的影响 - 使用三种质量等级数据(低、中、高质量)训练1B参数的AR和DLM模型 [14] - 数据质量提高使AR模型对质量变化更敏感,DLM交叉点稍微推迟 [16] - 在高质量数据上两者表现都改善,但DLM在数据受限时仍占优势 [16] 模型规模的影响 - 模型规模从1B到8B参数,训练1B独特token,共96个epoch [17] - 较大模型规模使交叉点提前出现,AR模型在数据受限时很快饱和 [19] - DLM可充分利用更大模型规模,随着参数增加表现持续提高 [19] 架构稀疏性对比 - 使用MoE架构对比稀疏和密集模型 [20] - 所有稀疏性水平下DLM始终超越AR模型,交叉点时机为8B密集模型 < 8B1A MoE < 1B密集模型 [22] - 增加FLOPs能显著改善性能,DLM密集架构在数据受限时优于稀疏架构 [22] 噪声注入分析 - 通过向AR模型输入数据注入噪声模拟DLM过程 [24] - 噪声注入对AR模型有提升作用,但无法超越DLM [26] - DLM通过蒙特卡洛采样和噪声增强在数据受限环境中表现更稳定 [26] 大规模扩展验证 - 在大规模独特token数据集上验证交叉点现象,计算预算约1.5T tokens [27] - 训练初期DLM在下游基准任务上明显超越AR模型 [31] - 即使训练达到1.5T token,DLM仍未完全收敛,具有大量未开发潜力 [31] 过拟合与验证损失 - AR模型验证损失上升不一定意味着性能下降,在下游任务中表现仍持续改进 [33] - 即使验证损失上升,正确答案与错误答案之间的NLL差距持续增加 [36] - DLM在极端数据重复情况下(480个epoch,480B tokens)在HellaSwag和MMLU上分别达到56%和33%准确率,显著超过AR模型的41%和29% [40] 技术优势与限制 - DLM去除因果偏置,允许任意顺序建模,更好捕捉数据中的复杂模式 [44] - 训练时DLM需要比AR多约100倍FLOPs,推理时消耗也大得多 [44] - 通过蒙特卡洛采样进行数据增强,从有限数据中更有效学习 [44]
一见Auto说理想对2起质量事故内部问责处理18人
自动驾驶之心· 2025-11-15 11:58
文章核心观点 - 理想汽车针对两起批量质量事故进行内部问责,共处理18名相关人员,涉及MEGA电池召回和25款L系列下摆臂问题 [1] - 公司内部认为当前处于发现问题并尝试改正的阶段,但改正效果有待观察,企业文化价值观的落实成为管理层关注重点 [2] - 公司创始人李想的股权结构、年龄和个人驱动力被视为公司能够克服困难、实现价值观回归的关键因素 [2] 质量事故与问责细节 - MEGA电池召回事故中,冷却液验证不充分,研发运营-材料技术相关人员负主要责任 [1] - 动力电池试验验证及渗漏风险评估不充分,整车电动-动力电池相关人员负主要责任 [1] - 研发运营-研发质量、质量安全、服务等部门在冷却液渗漏风险评估、用户车辆处置等环节应对不当,负次要责任 [1] - 25款L系列车型因下摆臂衬套油脂试验验证不充分,对崔某等4名相关员工进行问责处理 [1] 内部管理与文化动态 - HR负责人直接向李想汇报,预示创始人将更大程度地抓价值观落实 [2] - 公司官方价值观内核强调以不同思维方式创造用户价值,激发人向善,讲究科学方法论 [2] - 公司内部有较多秉持理想价值观的员工离开,同时也有相当比例的此类员工留任但处于有劲使不出的状态 [2] - 留任的部分核心员工虽有意愿推动公司向好,但缺乏有效抓手,暂时处于抑郁状态 [2]
招募自动驾驶产品经理/强化学习方向合伙人!
自动驾驶之心· 2025-11-15 03:03
公司战略与内容升级 - 公司正在进行内容升级从单篇文章解读过渡到更深入的技术梳理方案分析和观点讨论[2] - 公司将增加圆桌访谈实战工业级课程咨询等各类输出以应对自动驾驶技术深水区的行业难点和痛点[2] - 公司作为国内自动驾驶领域创作技术平台期望在行业激流中贡献力量成为能给行业带来价值的平台[2] 行业技术动态 - 近期特斯拉小鹏理想都有新的技术分享引起了广泛深入的行业讨论[2] - 自动驾驶已经进入技术深水区行业的难点和痛点需要更多有志之士参与突破[2] 人才招募与合作 - 公司需要更多优秀伙伴加入主要方向包括自动驾驶产品经理4D标注数据闭环世界模型VLA自动驾驶大模型强化学习端到端等多个方向[4] - 岗位主要面向自动驾驶培训合作B端面向企业和高校研究院所培训C端面向学生求职类人群以及课程开发和原创文章创作[5] - 待遇与合作方式可通过添加微信wenyirumo进行进一步沟通[6]
万字长文总结多模态大模型最新进展(Modality Bridging篇)
自动驾驶之心· 2025-11-15 03:03
多模态大语言模型(MLLM)行业技术演进 - 多模态大型语言模型(MLLM)已成为新兴研究热点,其通过将大型语言模型(LLM)作为大脑来执行多模态任务,展现出如基于图像撰写故事和无OCR数学推理等新能力,这指示了通向通用人工智能的潜在路径 [2] - 行业通常在大规模配对数据上进行预训练,以促进不同模态间的对齐,对齐数据集通常为图像文本对或自动语音识别数据集,常见方法是冻结预训练模块并训练一个可学习的接口 [2] - 行业内已涌现大量代表性模型,包括Flamingo、BLIP-2、InstructBLIP、LLaVA系列、Qwen-VL、NExT-GPT、CogVLM等,覆盖了从少样本学习到任意模态输入输出的广泛能力 [3][4] 视觉-语言对齐核心技术 - Flamingo模型采用Perceiver Resampler模块,将视觉编码器输出的可变大小时空特征映射为固定数量的视觉标记(例如64个),从而降低后续交叉注意力的计算复杂度 [6][8] - 模型通过GATED XATTN-DENSE层将视觉信息整合到冻结的语言模型中,训练过程中所有语言模型层均利用了视觉信息,门控值的绝对值随网络深度增加而增长 [9][12] - 模型通过特定的掩码方法处理交错的视觉数据与文本序列,限制文本标记仅能关注其前导图像/视频对应的视觉标记,实现了多视觉输入的支持 [11][14] 高效训练策略与数据工程 - 训练数据的构成对模型性能至关重要,例如在Flamingo中,去除交错的图像文本数据集M3W会导致性能下降超过17%,而去除传统配对图像文本对也会导致性能下降9.8% [15] - BLIP-2采用两阶段策略,第一阶段冻结图像编码器和LLM,训练轻量级Q-Former进行视觉-语言表示学习;第二阶段引导视觉到语言的生成学习,实现零样本图像到文本生成 [16][17][22] - 为提高数据效率并防止过拟合,行业采用数据集加权采样策略,采样概率与数据集大小的平方根成正比,例如InstructBLIP中M3W、ALIGN等数据集的权重分别为1.0、0.2等 [28][31][32] 指令微调与性能优化 - 指令微调对模型性能影响巨大,例如在LLaVA中,未进行指令微调的模型性能相对下降高达61.1%,而采用清晰的响应格式提示能有效引导模型输出长短形式的答案 [34][35] - 通过增加高质量、多样化的指令跟随数据,例如结合GPT-4生成的数据,能显著提升模型的视觉推理、OCR和世界知识能力,LLaVA-NeXT在多个基准上甚至超越了Gemini Pro [40][44][46] - 模型扩展不仅限于参数量,还包括输入图像分辨率的提升,例如Monkey模型将输入分辨率有效提升至896x1344像素,无需从零预训练即可显著提高在文档理解等任务上的性能 [94][96][100] 架构创新与效率提升 - 为降低处理高分辨率图像的计算负担,行业提出多种创新架构,如LLaVA-UHD采用模块化视觉编码策略,将图像分割为可变大小切片,并通过压缩层减少视觉标记数量,在仅使用94%推理计算量的情况下提升性能 [110][113][115] - 稀疏化技术如MoE-LLaVA被引入,通过混合专家(MoE)层,在推理时仅激活排名靠前的专家,使模型在保持约3B稀疏激活参数的情况下,性能达到甚至超过参数更多的密集型模型 [104][106][108] - 深度融合方法受到重视,例如CogVLM在语言模型的每一层引入可训练的视觉专家模块,实现视觉与语言特征的深层对齐,相比浅层对齐方法能有效减少幻觉并提升理解能力 [84][86][91] 多模态理解与应用扩展 - 行业致力于提升模型对文本丰富图像的理解能力,例如LLaVAR通过增强视觉指令调优流程,在基于文本的VQA数据集上准确率提升最高达20% [57] - 模型能力向任意模态输入输出扩展,NExT-GPT系统利用LLM作为核心,通过产生独特的模态信号标记来指示解码层输出图像、视频、音频等内容,构建端到端的任意模态MM-LLM [68][70][71] - 针对长视频理解等复杂任务,LLaMA-VID提出用两个标记(上下文标记和内容标记)表示每一帧,显著减少计算负担,支持长达一小时的视频输入 [102][103]
端到端自动驾驶算法工程师的一天
自动驾驶之心· 2025-11-15 03:03
端到端自动驾驶技术发展趋势 - 规控算法的学习化已成为绝对主流,基于规则的算法无法满足高阶智驾需求[4] - 衍生出一段式和两段式等多种算法,其中一段式是目前主流的端到端量产范式[4] - 端到端并非单一模型可解决所有问题,量产涉及模型、数据、场景等多方面经验[4] 主流技术框架与方案 - 两段式框架涉及感知与规划控制的信息传递建模,PLUTO算法是经典实战案例[8] - 一段式框架可实现信息无损传递,性能优于两段式,包括基于VLA和Diffusion等方法[9] - VAD系列是深入掌握一段式方法的关键学习内容[9] 关键算法与应用 - 强化学习可配合Diffusion和自回归模型使用,弥补纯模仿学习的不足[4][11] - 导航信息在自动驾驶中起引导、选路、选道作用,需学习其编码与嵌入方式[10] - 轨迹优化涉及模仿学习与强化学习结合,包括扩散模型和自回归算法实战[12] 量产落地与工程实践 - 时空联合规划作为兜底方案,通过轨迹平滑优化算法保证输出轨迹稳定可靠[13] - 量产经验需从数据、模型、场景、规则等多视角选用合适工具提升系统能力边界[14] - 拥堵加塞等场景需针对性优化强化学习奖励函数,并设计闭环训练方法[2]
英伟达长达41页的自驾VLA框架!因果链推理,实车可部署
自动驾驶之心· 2025-11-15 03:03
技术框架创新 - 提出Alpamayo-R1(AR1)视觉-语言-动作(VLA)框架,通过融合因果链推理与轨迹规划来解决端到端自动驾驶在长尾场景中的性能瓶颈 [1][2] - 核心创新包括构建因果链数据集、模块化VLA架构以及多阶段训练策略,旨在实现可解释推理与精准控制的衔接 [2][5] - 相较于仅基于轨迹的基准模型,AR1在高难度场景下的规划准确率提升高达12%,在闭环仿真中偏离车道率降低35%,近距离碰撞率降低25% [2] 性能与效率表现 - 模型参数从0.5B扩展至7B时性能持续提升,经强化学习后训练后推理质量提升45%,推理-动作一致性提升37% [2] - 实车道路测试验证模型具备实时性能,延迟为99毫秒,并成功部署于城市路况 [2] - 采用基于流匹配的动作专家轨迹解码器,相较于自回归解码方法,解码速度提升1.16倍,舒适性指标从44.05%提升至97.38% [121] 数据与训练策略 - 通过混合标注流程构建因果链数据集,包含70万个带结构化因果链标注的视频片段,覆盖8万小时驾驶数据 [48][91] - 训练策略包含三阶段:动作模态注入、有监督微调激发推理能力、强化学习后训练优化推理质量与一致性 [61][62] - 数据规模消融实验显示,模型性能随训练数据量增加而持续提升,200万样本模型较10万样本模型性能提升14.0% [113][115] 架构设计与组件优化 - 采用Cosmos-Reason作为VLM主干网络,该网络经过物理智能领域有监督微调,在LingoQA基准上的零样本评估准确率达66.2%,优于GPT-4V等对比模型 [16][117] - 支持多摄像头token化策略,可将每幅图像的token数量减少3.9倍,实现高效视觉编码而不显著牺牲驾驶指标 [22] - 使用基于单轮车动力学模型的轨迹表示方法,通过控制信号生成轨迹,提升闭环性能与物理可行性 [27] 应用与部署前景 - AR1框架为实现L4级自动驾驶提供了一条切实可行的路径,未来计划发布模型及部分因果链数据集 [2] - 在开环评估中,AR1在6秒时域的最小平均位移误差为0.794米,较基准提升4.8%,在高难度场景中提升达12% [96][98] - 闭环评估显示,AR1的AlpaSim评分从0.38提升至0.50,证明基于推理的决策能提升动态场景中的安全性 [100]
端到端和VLA的岗位,三年经验月薪到70k了
自动驾驶之心· 2025-11-14 00:04
行业人才需求 - 主机厂和供应商对端到端和视觉语言动作模型技术人才需求旺盛[1] - 招聘网站上3-5年经验的专家岗位月薪高达70k[1] 技术发展趋势 - 自动驾驶技术正从模块化量产算法向端到端和视觉语言动作模型发展[1] - 核心算法涉及BEV感知、视觉语言模型、扩散模型、强化学习和世界模型等前沿领域[1] 课程内容设置 视觉语言动作模型与大模型实战课程 - 课程涵盖视觉语言模型作为自动驾驶解释器、模块化视觉语言动作模型、一体化视觉语言动作模型和推理增强视觉语言动作模型三大领域[2] - 配套理论基础包括视觉/语言/动作三大模块、强化学习和扩散模型等内容[2] - 设置大作业章节指导学员从零搭建自己的视觉语言动作模型和数据集[2] 端到端与视觉语言动作模型自动驾驶课程 - 重点讲解一段式/两段式端到端自动驾驶算法的重点内容和理论基础[11] - 详细解析BEV感知、大语言模型、扩散模型和强化学习技术[11] - 设置两大实战项目:基于扩散模型的规划器和基于视觉语言动作模型的ORION算法[11] 师资团队构成 - 教师团队来自清华大学等顶尖高校和国内顶级主机厂[7][10][13] - 团队成员在ICCV、IROS、EMNLP等国际顶级会议发表多篇论文[7][10][13] - 具备丰富的自动驾驶感知、大模型框架工具开发和算法量产交付经验[7][10][13] 学员入学要求 - 需要自备GPU设备,推荐算力在4090及以上[14] - 要求具备自动驾驶领域基础知识和Transformer大模型、强化学习、BEV感知等技术概念[15] - 需要概率论、线性代数基础和Python、PyTorch编程能力[15]
小鹏刘先明:VLA 2.0的「涌现」过程极其突然......
自动驾驶之心· 2025-11-14 00:04
第二代VLA技术架构与突破 - 技术研发遵循第一性原理,旨在省去从视觉到语言的转译部分,避免云端繁重计算和数据标注,从而极大提高推理速度[9][10] - 核心创新包括输入信号尽量使用真实世界的物理视频流,输出空间采用连续信号而非离散化文字表达,使网络结构极其简单[17] - 通过大量模仿学习和自监督,模型能够学会范本并进行推理,例如测试车在红灯转绿前能像人类一样缓缓起步,甚至通过观察两侧红绿灯变化进行推测[11] - 该架构在训练过程中直接内嵌推理逻辑,量产部署时可去掉云端计算部分,直接在本地芯片上运行,大大提高了测算和推理效率[22] - 为实现量产,公司从头设计了编译器,并结合模型、软件、编译器和硬件进行联合优化,以在图灵芯片上实现实时高帧率运行[24] 技术投入与“涌现”现象 - 从2024年至今,公司投入了3万张卡的算力,训练费用超过20亿元,并在今年二季度出现一次巨大的性能跳跃[7] - 技术“涌现”被描述为并非偶然,而是持续坚持投入和对Know-how累积的结果,例如长期处于痛苦阶段的研发工作突然迸发成效[5][8] - 在机器人领域,当数据和算力达到一定程度后出现阶跃,例如人形机器人IRON的步态在3月的一个晚上突然变得非常拟人[35][36] 传感器策略与视觉算法优势 - Robotaxi将不会装配激光雷达,因为激光雷达扫描频率仅10赫兹,且提高功率不符合车规级标准,在雨雾天气中还会产生噪声点[25][26] - 摄像头提供的信息量远超激光雷达,高像素摄像头每个像素包含三个通道,每通道8比特,一秒钟信息量巨大,但此前系统缺乏足够大的模型来充分利用[27] - 摄像头在图像信号处理算法转换时会损失16比特信息,动态范围值为2的16次方,在强光、逆光等环境下并非无法成像,而是信息被过滤处理[27] 人形机器人技术进展 - 公司人形机器人IRON除螺丝外全部自研,源于机器人产业链尚不成熟,且自研有助于降本和加速迭代[29] - 机器人能力提升被视为螺旋上升过程,从30分实际场景应用中发现新问题,逐步提升至40分,并在此过程中出现涌现时刻[32][33] - 超拟人步态的实现与仿造人类脊柱、肌肉群、腹腔和皮肤的腰部设计直接相关,前脚掌增加自由度并结合自研生成式控制器[39][41][42] - 第三代控制器采用生成式模型,步态与风格嵌入控制模型而非轨迹跟随,第四代“反重力器”控制器能根据连续姿态输入完成相应动作[45][46] - 基于通用生成式控制器,机器人可丝滑执行打太极、叶问蹲等动作,通过录制大师轨迹直接输入控制系统即可[46]