Workflow
端到端
icon
搜索文档
开放几个自动驾驶技术交流群(世界模型/端到端/VLA)
自动驾驶之心· 2025-09-20 16:03
技术交流社群建立 - 自动驾驶领域专业社群成立 涵盖世界模型 端到端 VLA等多个前沿技术方向[1] - 社群定位为技术交流平台 面向开学季和秋招期从业人员与学生群体[1] - 通过指定联系方式可申请加入 需备注昵称与研究方向[1]
VLA搞到现在,可能还是情绪价值的内容偏多一些......
自动驾驶之心· 2025-09-20 16:03
端到端自动驾驶技术现状 - 学术界端到端研究呈现方法远多于问题的状态,各种流派百花齐放,只要实现传感器输入到轨迹规划输出的模型串联即符合端到端范式 [1] - 工业界端到端研发更加务实,车载算力限制将许多热门模型排除在外,但工业界拥有海量驾驶数据优势 [4] - 工业界对端到端技术的研发进度可能已领先于学术界,行业已超越依靠演示和论文证明实力的阶段,转向以量产模型表现为衡量标准 [5] 数据集与技术迭代关系 - 大模型时代数据集迭代速度需与技术迭代同步,固定数据集会阻碍技术发展,摩尔定律在算力和计算机行业均有体现 [2] - 研究团队通过发布数据集维持长期的高影响力产出,互联网海量文本数据是NLP领域大模型成功的关键因素 [3][4] - 工业界数据量达天文数字,不存在数据阻碍技术迭代的问题,反而更容易辨别学术界方法的实用价值 [4] 强化学习在VLA中的应用 - 强化学习适用于无标准答案但能定义答案特征的问题,VLA应用场景符合此特点 [7] - 模仿学习基于最大似然估计,倾向于将示范结果视为最优,而强化学习通过奖励机制定义正向和负向行为特征 [8][9] - 强化学习以奖励最大化为目标,避免错误示范干扰,节省数据采集成本,例如车辆平稳抵达+10分,压实线-10分,闯红灯-20分 [9] 视觉语言大模型发展前景 - VLA短期成果情绪价值偏多,真实控车作用尚不明确,长期串联万物成为行业共识趋势 [10][11] - 量产参考需综合算法、数据、训练策略等多重因素,包括部署难度、数据替代性、复现难度等非单一测试指标 [12] - 行业主流厂商对Large Vision-Language Model的潜力均无质疑,焦点集中于实现时间预期 [11]
小鹏&理想全力攻坚的VLA路线,到底都有哪些研究方向?
自动驾驶之心· 2025-09-17 23:33
技术趋势分析 - 端到端与视觉语言动作模型标志着智能驾驶从规则驱动向数据驱动的根本性转变 [1] - 端到端模型虽能打通上下游视角,但在处理复杂困难场景时仍受限制,量产模型迭代陷入无限处理极端案例的循环 [1] - 视觉语言动作模型可视为一种更直白干净的端到端方法,取消了复杂的3D感知任务,凭借更强大的通用泛化能力为解决极端案例提供了可能性 [1] - 自动驾驶视觉语言动作模型技术栈尚未收敛,一系列算法如雨后春笋般出现 [2] 课程核心价值 - 课程基于Just-in-Time Learning理念,通过通俗易懂的语言和案例帮助学员短时间内掌握核心技术栈 [3] - 课程帮助学员梳理自动驾驶视觉语言动作模型的研究发展脉络,掌握领域核心框架,学会将论文分类并提取创新点 [4] - 课程配有实战环节,完成从理论到实践的完整闭环 [5] - 课程涵盖视觉感知、语言模块、动作模块及大模型前沿技术,包括检索增强生成、思维链、强化学习、混合专家模型等广泛技术栈 [2] 课程内容架构 - 第一章概述自动驾驶视觉语言动作模型算法概念及发展历史,介绍开源基准和常见评测指标 [9][10] - 第二章讲解视觉、语言、动作三个模块的基础知识,以及大模型与自动驾驶视觉语言动作模型的结合,包括以Qwen 2.5VL-72为例的开源大模型部署使用 [11][12] - 第三章讲解作为自动驾驶解释器的视觉语言模型经典及最新算法,包括DriveGPT4、TS-VLM、DynRsl-VLM、SENNA等算法的动机、网络结构及核心 [13][14] - 第四章聚焦模块化与一体化视觉语言动作模型,讲解视觉感知、语言模型、动作模块的基础知识及检索增强生成、思维链、监督微调、强化学习、混合专家模型等技术 [15][16] - 第四章实战代码选取华科和小米最新提出的ReCogDrive,涵盖预训练、模仿学习训练和强化学习训练三个阶段的主流范式 [17] - 第五章聚焦推理增强视觉语言动作模型子领域,讲解长思维链推理、记忆和交互等趋势 [18][19] - 第五章实战代码选取清华AIR和博世提出的Impromptu视觉语言动作模型,基于开源Qwen2.5 VL进行数据集制作、训练和推理 [19] - 第六章大作业基于ms-swift框架,从网络构建开始,自定义数据集和加载模型,开启训练任务并进行微调 [21] 学术前沿覆盖 - 课程覆盖慕尼黑工大提出的OpenDriveVLA、上海交通大学提出的DriveMoE、博世和清华AIR提出的DiffVLA、UC Berkeley和Waymo中稿CVPR2025的S4-Driver等前沿算法 [24] - 课程涵盖华科&小米 ICCV2025中稿的ORION、阿里&西交团队提出的FutureSightDrive、UCLA提出的AutoVLA、中科院和华为诺亚提出的Drive-R1等最新研究 [25] 教学团队与安排 - 讲师团队包括清华大学硕士生、QS30高校博士在读研究人员,在ICCV/IROS/EMNLP/Nature Communications等顶级会议发表多篇论文,具备多模态感知、自动驾驶视觉语言动作模型、大模型Agent等前沿算法预研经验 [22] - 课程于10月20日开课,预计两个半月结课,采用离线视频教学结合VIP群内答疑及三次线上答疑的模式 [27]
那些号称端到端包治百病的人,压根从来没做过PnC......
自动驾驶之心· 2025-09-16 23:33
端到端自动驾驶技术发展现状 - 国内新势力车企正在推进VLA(Vision-Language-Action)技术的落地和优化 而另一部分企业则聚焦WA(World Model)路线 更多车企和Tier1供应商仍处于端到端技术攻坚阶段[2] - 端到端系统通过输入传感器原始数据直接输出控制信号或自车轨迹 代表性算法包括UniAD和Sparse系列[3] - 端到端本质是实现感知信息的无损传递 解决模块化方法中人工定义感知结果无法覆盖开集场景的问题 目前工业界普遍采用模仿学习方法进行优化[4] 端到端技术挑战与行业共识 - 端到端系统虽提高性能上限但下限稳定性不足 实际落地仍需传统规控方法兜底 learning-based输出轨迹仍需经过传统PnC处理[5] - 行业共识是自动驾驶从规则驱动转向认知驱动 但端到端技术距离成熟仍有较长距离 需要更多时间沉淀[5] - 车企为突破感知模型迭代瓶颈 积极布局VLA和WA技术路线 但需理性看待端到端替代传统规控的局限性[5] 自动驾驶技术社区生态 - 自动驾驶之心知识星球社区规模已超4000人 覆盖超300家机构与自动驾驶公司 目标两年内达到近万人规模[8][102] - 社区整合40+技术方向学习路线 包括VLA、端到端、多模态大模型等前沿领域 并提供与一线产业界/学术界大佬的直接交流渠道[8][9][17] - 社区提供岗位内推机制 成员来自蔚小理、地平线、华为、英伟达等头部企业 以及国内外顶尖高校实验室[17] 技术资源体系 - 社区汇总近60+自动驾驶数据集 涵盖VLM预训练/微调/思维链/强化学习等类型 并整合3D目标检测/BEV感知/Occupancy等开源项目[37][53][55] - 提供七大福利视频教程 内容覆盖世界模型、自动驾驶大模型、Transformer等 已举办超百场专业技术直播[88][91] - 详细梳理端到端自动驾驶技术体系 包括一段式/二段式量产方案、VLA算法及里程碑方法 兼顾学术界与工业界需求[39][47]
2025年,盘一盘中国智驾的自动驾驶一号位都有谁?
自动驾驶之心· 2025-09-10 23:33
行业技术趋势 - 2023年起自动驾驶领域迎来以端到端为主导的技术转向 2024年成为行业公认的新一代量产主流方案 2025年VLA和世界模型成为下一代量产突破方向[1] - 技术架构迭代伴随研发路径 人才结构与竞争格局重新洗牌 领军人物技术判断决定团队在重构期能否站稳脚跟甚至超车领先[1] - 端到端架构正逐步成为智能驾驶新基座 大模型 世界模型 VLM方案等技术加速从学术界走向工业界[53] 理想汽车 - 郎咸朋2018年加入理想汽车担任自动驾驶负责人 职位从自动驾驶业务总经理转变为自动驾驶副总裁[5] - 2023年年底全场景NOA推送标志理想辅助驾驶从高速向城市场景延展 2024年7月15日推送无图NOA功能首次实现对先验信息依赖突破[5] - 去年E2E+VLM双系统成为业界智驾方案标杆 今年主攻VLA司机大模型已量产[5] 小米汽车 - 叶航军2021年初被雷军点将主持小米自动驾驶业务 小米SU7爆火后智能技术能力快速提升[7][8] - 1000万Clips版小米端到端辅助驾驶系统出厂即搭载 学术界推出VLA 强化学习 世界模型 3DGS等前沿工作[9] - 小米不惜代价做好辅助驾驶 正努力跻身智驾第一梯度[9] 蔚来汽车 - 任少卿2020年8月加入蔚来担任智能驾驶研发副总裁 曾担任Momenta研发总监兼联合创始人[11] - 大力推动蔚来智能驾驶技术发展 特别在城区NOA规模铺开和全域领航辅助NOP+功能发布做出重要贡献[11] - 今年主推世界行为WA自动驾驶路线 核心思路是海量使用云端仿真数据让大模型理解世界而学会驾驶[11] 小鹏汽车 - 李力耘2019年6月加入小鹏汽车 2023年8月2日接班吴新宙成为小鹏智驾总负责人[14][15] - 负责小鹏汽车高速和城市自主导航辅助驾驶系统NGP研发 是国内为数不多纯视觉方案拥簇[14][15] - 算力算法数据域控制器线控底盘全链路布局 传感器以外采为主坚持纯视觉方案[15] - 近期小鹏G7 Ultra将迎来OTA升级 AI智能辅助驾驶系统融入全场景VLA大模型[16] 比亚迪 - 杨冬生现任比亚迪副总裁兼产品规划及汽车新技术研究院院长 2005年加入比亚迪[18] - 作为DM-i超级混动系统总设计师 主导研发技术助力比亚迪新能源销量自2022年起多次夺取月度销量冠军[18] - 2024年比亚迪全系车型都将搭载天神之眼高阶智驾系统 开启全民智驾新时代[20] 地平线 - 苏箐2022年加入地平线担任高阶智能驾驶项目总负责人 曾任华为汽车BU智能驾驶产品线总裁[22] - 地平线端到端HSD方案搭载J6P量产上车 自研芯片+智驾方案双管齐下[22] - 大众汽车与地平线成立合资企业 苏箐担任CTO[22] Momenta - 曹旭东2016年创办Momenta 提出一个飞轮两条腿战略 飞轮是数据驱动 两条腿是量产自动驾驶L2和完全无人驾驶L4[25] - 战略核心理念是通过L2量产车收集数据反哺L4技术迭代 形成数据→算法→产品→数据正向循环[25] - 技术路线选择端到端大模型和无图方案 2025年已跻身智驾第一梯队成为全球品牌共同选择[26] - R6飞轮大模型频繁现身公众视野 2019年把核心精力投入数据领域布局进入成果初现阶段[26] 大疆车载(卓驭) - 沈劭劼担任大疆车载总负责人 香港科技大学电子和计算机工程系副教授 科大-DJI联合创新实验室主任[30] - 截至2025年5月卓驭已与9家主流车企达成合作 包括大众汽车 上汽通用五菱 比亚迪等[31] - 已有20余款车型量产 还有30多款车型即将量产落地 预计2025年有200万台车型搭载大疆车载智驾系统上路[31] 英伟达 - 吴新宙2023年加入英伟达现任自动驾驶团队总负责人 曾担任小鹏汽车自动驾驶副总裁[35][36] - 在小鹏汽车期间带领团队完成高速NGP和城市NGP量产落地 推动小鹏汽车在智能驾驶领域发展[35] - 英伟达自动驾驶推出覆盖从数据 感知到大模型智能体的全栈技术[36] 百度 - 王亮现任百度智能驾驶事业群组首席研发架构师 IDG技术委员会主席 阿波罗智能技术董事[40] - 2024年主导VTA基础大模型和纯视觉智驾路线在极越01车型实现量产应用[40] - 带领团队推出支持全国300城覆盖的领航辅助驾驶方案[40] 博世中国 - 吴永桥2024年1月出任博世智能驾驶与控制系统事业部中国区总裁 推动博世城市NOA产品落地[42] - 2024年5月发布首款城市NOA产品并计划年底覆盖24个城市[42] - 主张主机厂聚焦用户体验而供应商承担标准配置开发 提出智能驾驶技术趋同 特斯拉算法领先等观点[42] - 博世坚定推进一段式端到端技术 与文远知行联合基于英伟达Orin Y打造一段式端到端方案8月底在奇瑞高端车型量产[43] 小马智行 - 楼天城小马智行联合创始人兼首席技术官 中国公认大学生计算机编程第一人 算法领域卓越成就[45] - 主导开发世界模型技术 使小马智行在L4级自动驾驶领域建立独特技术优势[45] 元戎启行 - 周光2021年正式任职元戎启行CEO 公司完成阿里巴巴战略领投3亿美元B轮融资[48] - 近日发布最新一代搭载VLA模型的辅助驾驶平台DeepRoute IO 2.0[49]
后端到端时代:我们必须寻找新的道路吗?
自动驾驶之心· 2025-09-01 23:32
行业技术发展趋势 - 2025年VLA(Vision-Language-Action)成为行业新焦点,但技术路径出现明显分歧,部分企业积极推广而部分头部团队选择回避 [1][5][6] - 相较于2023-2024年端到端技术达成行业共识的局面,VLA技术路线呈现"分歧中的探索"态势 [5][6] - 技术切换期被视为占领用户心智和证明研发优势的关键窗口 [4] 企业战略布局差异 - 理想汽车通过VLA巩固端到端技术红利带来的领先优势 [4] - 元戎启行借助VLA提升辅助驾驶系统性能上限 [4] - 小鹏汽车将具身智能领域积累的VLA技术迁移至辅助驾驶系统,并采用自研高算力芯片解决实时性问题 [4][22] - 华为ADS明确主张WA(World Model + Action)为自动驾驶终极方案,回避VLA路径 [5] - 蔚来在低速场景应用世界模型但对外宣传保持低调 [5] - 地平线否认其HSD系统属于VLA,坚持VA(Vision-Action)技术路线 [23] VLA技术原理与应用 - VLA通过视觉模块感知环境、语言模块表述任务、动作模块执行驾驶行为,实现感知-决策一体化 [9] - 技术优势在于结合端到端的性能与语言的可解释性,理想状态下可映射人类驾驶本能 [10] - Wayve的LINGO系列实现边驾驶边用自然语言解释决策,LINGO-2支持实时语言指令调整行为 [12] - OpenDriveVLA融合2D/3D视觉token与语言生成控制轨迹,在Nuscenes数据集取得最优结果 [14][16] - 谷歌Deepmind的RT系列将互联网视觉-语言知识迁移至机器人控制,提升泛化能力 [17][18] 技术挑战与局限性 - 自然语言存在模糊性与不完备性,例如"慢一点"等指令缺乏精确动作约束 [19] - 语言-动作不对称性问题导致监督学习存在噪声,语言主要在任务级别有效而非细粒度控制 [19] - 多模态Transformer推理开销巨大,OpenVLA模型约7B参数需15GB显存且运行频率仅6Hz,低于行业10Hz标准 [21] - 实际部署中多用于上层任务分配,轨迹输出仍由传统模型执行并需兜底机制 [23] 替代技术路径发展 - VA(Vision-Action)方案通过内隐世界模型实现环境状态向量化表示,华为与地平线采用此路径 [23] - 地平线HSD系统通过深度神经网络实现决策统一性,在不同场景下保持自适应行为 [25] - 采用平衡数据分布并筛选优化人类驾驶数据,使决策更符合直觉 [25] - 坚持模块最小化架构,屏蔽激光雷达输入以避免感知依赖,保持系统简洁性与可维护性 [28] - 纯视觉版本结合软硬件一体方案具备成本优势 [31] 行业本质问题与未来方向 - 辅助驾驶核心问题仍是缺乏对世界的深度理解能力 [33] - 语言作为新输入维度类似激光雷达,提供抽象能力但非终极解决方案 [33] - 行业面临选择新道路或深化现有路径的战略抉择,不同技术路线均存在发展机会 [34]
自动驾驶之心业务合伙人招募来啦!模型部署/VLA/端到端方向~
自动驾驶之心· 2025-08-28 08:17
业务拓展计划 - 公司计划在国内外招募10名业务合伙人[2] - 合伙人将负责自动驾驶相关课程研发、论文辅导业务开发及硬件研发[2] 技术研究方向 - 重点招募方向包括大模型/多模态大模型、扩散模型、VLA、端到端自动驾驶[3] - 涵盖具身交互、联合预测、SLAM及3D目标检测领域专家[3] - 需要世界模型、闭环仿真3DGS、大模型部署与量化感知推理等专业人才[3] 人才资质要求 - 要求应聘者来自QS200以内高校且具有硕士及以上学历[4] - 优先考虑拥有顶会论文发表记录的候选人[4] 合作激励机制 - 提供自动驾驶行业资源共享包括求职、读博及出国留学推荐[5] - 设立丰厚的现金激励方案[5] - 开放创业项目合作与推荐机会[5]
端到端/大模型/世界模型秋招怎么准备?我们建了一个求职交流群...
自动驾驶之心· 2025-07-30 23:33
行业人才发展现状 - 学校学习内容与实际工作需求存在明显差距,导致应届生在求职时缺乏竞争力 [1] - 从业者转型需求强烈,方向包括大模型、世界模型、具身智能等前沿领域,但对行业实际动态了解不足 [1] 社群平台定位与功能 - 社群目标为搭建连接学校与企业的桥梁,整合全行业人才资源形成综合型平台 [1] - 社群内容聚焦产业动态、公司研究、产品研发及求职跳槽等实战话题 [1] - 提供行业人脉拓展渠道,帮助成员第一时间获取产业前沿信息 [1]
上半年净利大增44%,药明康德加速回到增长轨道
36氪· 2025-07-11 13:48
核心观点 - 药明康德2025年上半年业绩表现强劲,营收和净利润均实现显著增长,核心业务增长动力强劲 [4][9][11] - 公司独特的"一体化、端到端"CRDMO业务模式是业绩增长的关键驱动力 [14][15] - TIDES业务(多肽、寡核苷酸等新分子业务)成为新的增长点,收入4年间增长超8倍 [16][17] - 公司持续扩建产能以承接更多业务需求,预计2025年资本开支达70-80亿元 [18][19] - 二级市场对公司业绩表现给予积极反馈,股价大幅上涨 [5][20] 业绩表现 - 2025年上半年预计实现营业收入约207.99亿元,同比增长20.64%,其中持续经营业务同比增长24.24% [4] - 预计实现经调整归母净利润约63.15亿元,同比增长44.43% [4][11] - 预计实现归母净利润约85.61亿元,同比增长101.92%,包含出售联营公司部分股权所得投资收益32.1亿元 [4][10][11] - 每股收益预计约3.01元/股,同比增长106.16% [4] - 2024年半年报净利润同比下降20.20%,2025年实现显著恢复 [7][8][9] 业务模式与增长驱动 - "一体化、端到端"CRDMO业务模式形成"漏斗型"管线,确保在手订单持续增长 [14][15] - 2024年R端合成小分子数达46万个,中后期D&M阶段管线新增分子1187个,其中366个由R转化而来 [15] - 2024年在手订单达493.1亿元,同比增长47.0% [15] - TIDES业务2024年收入达58.0亿元,同比增长70.1%,在手订单同比增长103.9% [16][17] - 多肽固相合成反应釜总体积2024年底达41000L,预计2025年底提升至超100000L [18] 产能建设与资本开支 - 预计2025年资本开支达70-80亿元 [19] - 持续投入瑞士库威基地,2024年口服制剂产能翻倍 [19] - 推进美国米德尔顿基地建设,计划2026年底投入运营 [19] - 新加坡研发及生产基地2024年5月开工建设,一期计划2027年投入运营 [19] 市场表现与行业前景 - 2025年7月11日港股药明康德股价大涨超10%,一度突破90港元 [5] - 2025年初至今A股累计涨超40% [20] - 全球生物医药投融资回暖,国内创新药行情持续火热,多重利好共振 [21] - 海外市场是收入主力军,海外需求改善节奏快于国内 [16]
当我们谈大模型和vla岗位的时候,究竟有哪些内容?(附岗位)
自动驾驶之心· 2025-07-11 11:23
大模型与VLA技术差异 - 所有依赖大模型的方案都可归为大模型岗位 包括VLM和VLA等技术方向 关键技术涉及微调 轻量化 量化和部署等 [2] - VLA概念包含执行环节(Vision+Language+Action) 属于端到端技术范畴 当前行业存在两阶段(大模型+Diffusion)和单阶段(纯大模型)两种实现方案 [2] - 大模型在自动驾驶领域应用需进行场景适配 例如采用qwen等模型进行微调以提升场景理解与预测能力 [2] 岗位需求与薪资水平 - 大模型研发工程师岗位月薪范围30k-80k 工作地点覆盖深圳/上海 [2] - VLA/VLM大模型算法岗位月薪达40k-100k 工作地点包括北京/上海/杭州 要求3-5年自动驾驶或AI算法经验 [8] - 端到端/VLA工程师需参与驾驶系统全流程研发 包含数据集构建 模型调优及闭环评测系统开发 [6] 核心技术能力要求 - 需精通Transformer架构及多模态大模型训练 熟悉PyTorch/DeepSpeed等框架 具备轨迹预测或决策规划项目经验 [9] - 优先考虑顶会论文发表者(CVPR/ICCV等)或算法竞赛获奖者(ACM/IOI) 需掌握模仿学习/强化学习技术 [5][9] - 视觉大模型方向要求搭建数据pipeline 探索数据合成技术 优化垂直场景下的模型推理性能 [5] 前沿技术应用方向 - 研发重点包括千亿参数级大模型训练 驾驶场景生成式模型开发(Diffusion/LLM)以及多模态数据挖掘 [11] - 需探索大模型在自动驾驶的创新应用 如视觉-语言-行为的多模态决策系统 融合模仿学习与强化学习技术 [10] - 行业关注世界模型与仿真场景构建 要求熟悉nuScenes/Waymo等数据集 具备量产项目经验者更具竞争力 [11]