VLA
搜索文档
没有导师指导,最快多久可以产出一篇具身领域相关论文?
具身智能之心· 2025-09-28 07:00
行业发展趋势 - VLA及其相关衍生方向在机器人与AI顶会中占据了近一半的具身产出 [1] - 长程操作、泛化、少样本、VLA+RL、人形相关是当前热门研究方向 [1] - 国内外具身智能领域处于蓬勃发展阶段 Unitree、智元、星海图、银河通用、逐际动力等团队从实验室走向商业化 [6] - 华为、京东、腾讯等科技巨头积极布局具身智能领域 与国外Tesla、Figure AI等公司共同推动行业发展 [6] VLA技术特点与应用 - VLA模型通过语言指令和视觉信号直接生成机器人可执行动作 打破了传统单任务训练的局限性 [7] - VLA使得机器人能够在多样化场景中自主决策 灵活应对未见过的环境 [4] - 该技术广泛应用于制造业、物流和家庭服务等领域 [4] - VLA模型可应用于机械臂、四足机器人和人形机器人等多种平台 为各类智能机器人发展提供广泛潜力 [4] 前沿研究项目 - VLA领域已推动多个前沿项目发展 包括pi0、RT-2、OpenVLA、QUAR-VLA和HumanVLA [4][7] - 这些研究促进了学术界与工业界的合作 [4] - RT-2、OpenVLA和PI0等模型实现了从视觉输入和语言指令到机器人动作的端到端映射 [10] 技术演进路径 - VLA范式技术演进包括从早期抓取位姿检测到行为克隆 再到近期Diffusion Policy和多模态基础模型 [10] - 研究关注如何将大型语言模型推理能力与机器人控制系统结合 实现从高级任务描述到低级运动规划的有效转换 [11] - PaLM-E、RT-X等模型通过多模态预训练和微调策略 增强机器人在开放环境中的适应性和鲁棒性 [11] 核心研究挑战 - 具身智能面临的核心挑战包括跨域泛化、长期规划与世界模型构建 [11] - 前沿研究方向包括多模态感知融合、触觉反馈整合、基于物理的推理以及社会互动能力 [11] - 领域未解决难点包括长期记忆、VLA+RL原子技能库构建、动作解码问题、多模态思维链等多个前沿方向 [16]
VLA这个方向的论文产出,是真的多......
具身智能之心· 2025-09-26 00:04
行业技术趋势 - VLA及其相关衍生方向在机器人与AI顶会中占据近一半的具身产出,重点关注长程操作、泛化、少样本、VLA+RL和人形机器人等领域[1] - VLA技术打破传统单任务局限,使机器人能在多样化场景中自主决策并灵活应对未见环境,广泛应用于制造业、物流和家庭服务[3] - 该模型已成为研究热点,推动pi0、RT-2、OpenVLA、QUAR-VLA和HumanVLA等多个前沿项目发展,促进学术界与工业界合作[3] 产业动态与竞争格局 - 国内外具身智能领域处于蓬勃发展阶段,Unitree、智元、星海图、银河通用、逐际动力等团队正从实验室走向商业化[5] - 华为、京东、腾讯等科技巨头积极布局,与国外Tesla、Figure AI等公司共同推动领域发展[5] - VLA技术具有高度适应性,可应用于机械臂、四足机器人和人形机器人等多种平台,为各类智能机器人发展提供广泛潜力[3] 技术演进与核心挑战 - VLA范式技术演进包括从早期抓取位姿检测到行为克隆,再到近期Diffusion Policy和多模态基础模型[8] - 前沿模型如RT-2、OpenVLA和PI0实现从视觉输入和语言指令到机器人动作的端到端映射,应用于复杂任务规划和执行[9] - 领域面临核心挑战包括跨域泛化、长期规划与世界模型构建,需将大型语言模型推理能力与机器人控制系统结合[9] 前沿研究方向 - 重点关注多模态感知融合、触觉反馈整合、基于物理的推理以及社会互动能力等发展方向[9] - 研究如何突破"看得见但摸不着"、"只关注当下不能预测未来"等局限性,向通用机器人智能迈进[9] - 系统分析具身智能领域未解决难点,包括长期记忆、VLA+RL原子技能库构建、动作解码问题和多模态思维链等前沿方向[14]
VLA及其相关方向占据了顶会近一半的具身工作,特别是这几个......
具身智能之心· 2025-09-23 04:00
行业技术趋势:VLA成为具身智能关键驱动力 - 从今年各机器人与AI顶会来看,Vision-Language-Action模型及其相关衍生方向占据了近一半的具身智能产出,特别是在长程操作、泛化、少样本学习、VLA与强化学习结合以及人形机器人相关领域[1] - VLA模型打破了传统机器人方法的单任务局限,使机器人能在多样化场景中自主决策,灵活应对未见过的环境,广泛应用于制造业、物流和家庭服务等领域[1] - VLA模型已成为研究热点,推动了多个前沿项目的发展,如pi0、RT-2、OpenVLA、QUAR-VLA和HumanVLA,这些研究促进了学术界与工业界的合作[1][4] - VLA模型的适应性体现在能应用于机械臂、四足机器人和人形机器人等多种平台,为各类智能机器人的发展提供了广泛的潜力和实际应用价值[1] 产业发展与竞争格局 - 国内外具身智能领域正处于蓬勃发展阶段,Unitree、智元、星海图、银河通用、逐际动力等团队正从实验室走向商业化[3] - 华为、京东、腾讯等国内科技巨头积极布局具身智能领域,与国外的Tesla、Figure AI等公司共同推动该领域发展[3] 技术演进与核心挑战 - VLA范式是具身智能领域的新范式,能从给定的语言指令和视觉信号直接生成机器人可执行的动作,使机器人模型向更通用和泛化的方向发展[4] - 技术演进路径包括从早期的抓取位姿检测到行为克隆,再到近期的Diffusion Policy和多模态基础模型[7] - 前沿模型如RT-2、OpenVLA和PI0实现了从视觉输入和语言指令到机器人动作的端到端映射,应用于复杂任务规划和执行[7] - 领域面临的核心挑战包括跨域泛化、长期规划与世界模型构建[8] - 研究前沿包括将大型语言模型的推理能力与机器人控制系统结合,实现从高级任务描述到低级运动规划的有效转换,以及通过PaLM-E、RT-X等模型的多模态预训练和微调策略增强机器人在开放环境中的适应性和鲁棒性[8] - 前沿发展方向包括多模态感知融合、触觉反馈整合、基于物理的推理以及社会互动能力,旨在突破“看得见但摸不着”、“只关注当下不能预测未来”等局限性[8] 研究热点与未解难题 - 具身智能领域存在大量未解决的研究难点,包括长期记忆、VLA与强化学习结合的原子技能库构建、动作解码问题、多模态思维链等多个前沿方向[13] - VLA模型体系可系统梳理为隐式端到端、显式端到端、分层端到端三大类[9]
打算招聘几位大佬共创平台(世界模型/VLA等方向)
自动驾驶之心· 2025-09-21 06:59
公司业务与招聘计划 - 公司计划在2024年向国内外招募10名业务合伙人 [2] - 业务合伙人将负责自动驾驶相关课程研发、论文辅导业务开发以及硬件研发 [2] 招聘主要技术方向 - 招聘方向涵盖大模型/多模态大模型、扩散模型、视觉语言模型、端到端自动驾驶、具身交互、联合预测、SLAM、3D目标检测、世界模型、闭环仿真3DGS、大模型部署与量化感知推理等前沿技术领域 [3] 岗位要求与待遇 - 候选人需来自QS200以内高校,拥有硕士及以上学历,拥有顶会论文者优先 [4] - 提供的待遇包括自动驾驶行业资源共享、丰厚的现金激励以及创业项目合作与推荐机会 [5]
开放几个自动驾驶技术交流群(世界模型/端到端/VLA)
自动驾驶之心· 2025-09-20 16:03
技术交流社群建立 - 自动驾驶领域专业社群成立 涵盖世界模型 端到端 VLA等多个前沿技术方向[1] - 社群定位为技术交流平台 面向开学季和秋招期从业人员与学生群体[1] - 通过指定联系方式可申请加入 需备注昵称与研究方向[1]
人形机器人考察要点_市场展望、组件与具身人工智能-Humanoid Robot tour takeaways_ market outlook, components and embodied AI
2025-09-18 13:09
**行业与公司** 行业涉及人形机器人及自动驾驶 公司包括机器人初创企业优必选UBTECH 大族机器人Leju 越疆科技Dobot 以及零部件供应商奥比中光Orbbec 兆威机电Zhaowei 速腾聚创RoboSense 固高科技Googol 机器人制造设备供应商联想控股LK Tech 及自动驾驶方案提供商Minieye [1][7] **核心观点与论据** *市场前景* 人形机器人市场未来十年将快速扩张 当前主要用于教育和研发 未来2-3年将广泛用于工厂场景 长期有望进入商业和家庭应用领域 当前全功能人形机器人BOM成本约5-6万美元 未来5年成本将快速下降 得益于产品设计改进和规模效应 [1] 自动驾驶领域 日益严格的法规将为AD零部件提供更多机会 例如L3要求可能带来长距离物体检测需求 利好激光雷达LiDAR 而前视摄像头模块FVCM和驾驶员监控系统DMS因强制自动紧急制动AEB安装规定面临巨大增长潜力 [1] *零部件机遇* 灵巧手供应商兆威机电于2024年底推出人形机器人灵巧手模型 凭借寿命 温控和负载性能优势 长期目标全球市场份额10-15% 假设2030年全球人形机器人出货量达300万台 公司灵巧手出货量预计60-90万台 灵巧手BOM成本占机器人总成本20-30% 按单台机器人20-30万元人民币计算 单台价值量4-6万元人民币 [12][13] 视觉系统方面 奥比中光认为深度相机(包括结构光相机和间接飞行时间iToF)是人形机器人主流选择 而速腾聚创预计LiDAR采用率将因成本下降和远距离传感需求上升而提高 [2][21][22] 运动控制系统供应商固高科技凭借多自由度控制专业知识 其控制器可很好应用于人形机器人执行器 [2][15] 材料方面 联想控股看到镁合金在人形机器人结构材料中采用率上升 因减重要求和生产工艺成熟 镁合金可使功能部件减重30-40% 每辆汽车镁合金用量从2020年1.5-3公斤增至2024年燃油车5公斤和新能源车10公斤 政策目标是2030年达到45公斤 [25][26] *算法与数据* 视觉-语言-行动模型VLA和世界模型World Model是具身AI的两条竞争技术路线 VLA采用单一端到端模型 而世界模型学习现实世界物理规律 所需边缘侧计算能力更少 在长流程任务中表现良好 当前高质量数据可用性是关键瓶颈 机器人初创企业可能结合使用模拟数据和真实数据 或与政府支持的数据收集中心合作 [3][24] *公司具体动态* 优必选Walker系列人形机器人现已部署于比亚迪 极氪 东风 一汽大众等汽车工厂用于物料搬运 目标2025年出货500台 2026年出货2000-3000台 当前BOM成本5-6万美元 预计未来2-3年成本快速下降 [23] 速腾聚创新款EMX激光雷达在精度(192通道对64通道) 探测距离(300米对200米)和自研SPAD-SOC芯片方面优于竞争对手禾赛ATX产品 截至2025年8月已为40多款车型获得EM4/EMX设计订单 很可能成为小米 理想 零跑和长安的第二供应商 预计2025年ADAS激光雷达出货60-70万台 2026年150万台 其中约50%来自比亚迪 20-25%来自吉利 约10%来自上汽 [10] 越疆科技是全球领先协作机器人COBOT品牌 2025年上半年六轴协作机器人销售同比增长47% 大幅超越行业增长 显示份额提升 2025年一季度推出首款人形机器人原型 三季度推出第二版 [8][9] 大族机器人目标2025年出货超过1000台 2026年预计5000-10000台 关节是人形机器人关键部件 占成本40%以上 包括电机 减速器和执行器 当前产品有28个关节 下一代目标31个关节 预计平均售价ASP将随规模效应下降 到2026-2028年降至15万元人民币(约2万美元) [18][19][20] *自动驾驶与安全法规* Minieye提供从L0到L2的iSafety解决方案(前视摄像头模块FVCM) L2+到L3的iPilot解决方案(域控制单元DCU)以及L4的iRobo解决方案 中国已规定从2026年起商用车强制安装AEB 很可能从2028年起乘用车也强制安装 2024年中国乘用车AEB渗透率约为60% [16][17] **其他重要内容** *投资评级与风险* 联想控股XBQXF目标价3.2港元 基于10倍2026年预期每股收益 下行风险包括低于预期的总可寻址市场TAM和竞争 [27][28] 速腾聚创XEDSF目标价46港元 基于DCF和EV/销售额估值平均 下行风险包括汽车市场价格竞争 LiDAR市场竞争加剧 ASP/毛利率下降以及美国收入关税风险 [29][32] *研究范围* 报告涵盖工业及汽车行业多个公司 包括买入 中性和表现不佳评级 [33][34][35][36] *免责声明* 美国银行证券与其覆盖的发行人有业务往来 可能存在利益冲突 投资者应将此报告仅作为投资决策的单一因素 [4][5]
小鹏&理想全力攻坚的VLA路线,到底都有哪些研究方向?
自动驾驶之心· 2025-09-17 23:33
技术趋势分析 - 端到端与视觉语言动作模型标志着智能驾驶从规则驱动向数据驱动的根本性转变 [1] - 端到端模型虽能打通上下游视角,但在处理复杂困难场景时仍受限制,量产模型迭代陷入无限处理极端案例的循环 [1] - 视觉语言动作模型可视为一种更直白干净的端到端方法,取消了复杂的3D感知任务,凭借更强大的通用泛化能力为解决极端案例提供了可能性 [1] - 自动驾驶视觉语言动作模型技术栈尚未收敛,一系列算法如雨后春笋般出现 [2] 课程核心价值 - 课程基于Just-in-Time Learning理念,通过通俗易懂的语言和案例帮助学员短时间内掌握核心技术栈 [3] - 课程帮助学员梳理自动驾驶视觉语言动作模型的研究发展脉络,掌握领域核心框架,学会将论文分类并提取创新点 [4] - 课程配有实战环节,完成从理论到实践的完整闭环 [5] - 课程涵盖视觉感知、语言模块、动作模块及大模型前沿技术,包括检索增强生成、思维链、强化学习、混合专家模型等广泛技术栈 [2] 课程内容架构 - 第一章概述自动驾驶视觉语言动作模型算法概念及发展历史,介绍开源基准和常见评测指标 [9][10] - 第二章讲解视觉、语言、动作三个模块的基础知识,以及大模型与自动驾驶视觉语言动作模型的结合,包括以Qwen 2.5VL-72为例的开源大模型部署使用 [11][12] - 第三章讲解作为自动驾驶解释器的视觉语言模型经典及最新算法,包括DriveGPT4、TS-VLM、DynRsl-VLM、SENNA等算法的动机、网络结构及核心 [13][14] - 第四章聚焦模块化与一体化视觉语言动作模型,讲解视觉感知、语言模型、动作模块的基础知识及检索增强生成、思维链、监督微调、强化学习、混合专家模型等技术 [15][16] - 第四章实战代码选取华科和小米最新提出的ReCogDrive,涵盖预训练、模仿学习训练和强化学习训练三个阶段的主流范式 [17] - 第五章聚焦推理增强视觉语言动作模型子领域,讲解长思维链推理、记忆和交互等趋势 [18][19] - 第五章实战代码选取清华AIR和博世提出的Impromptu视觉语言动作模型,基于开源Qwen2.5 VL进行数据集制作、训练和推理 [19] - 第六章大作业基于ms-swift框架,从网络构建开始,自定义数据集和加载模型,开启训练任务并进行微调 [21] 学术前沿覆盖 - 课程覆盖慕尼黑工大提出的OpenDriveVLA、上海交通大学提出的DriveMoE、博世和清华AIR提出的DiffVLA、UC Berkeley和Waymo中稿CVPR2025的S4-Driver等前沿算法 [24] - 课程涵盖华科&小米 ICCV2025中稿的ORION、阿里&西交团队提出的FutureSightDrive、UCLA提出的AutoVLA、中科院和华为诺亚提出的Drive-R1等最新研究 [25] 教学团队与安排 - 讲师团队包括清华大学硕士生、QS30高校博士在读研究人员,在ICCV/IROS/EMNLP/Nature Communications等顶级会议发表多篇论文,具备多模态感知、自动驾驶视觉语言动作模型、大模型Agent等前沿算法预研经验 [22] - 课程于10月20日开课,预计两个半月结课,采用离线视频教学结合VIP群内答疑及三次线上答疑的模式 [27]
论文解读之港科PLUTO:首次超越Rule-Based的规划器!
自动驾驶之心· 2025-09-15 23:33
PLUTO模型技术架构 - 采用典型的两段式网络架构作为端到端自动驾驶的Planner模型 [1] - 不基于BEV特征图进行下游控制任务,而是直接对感知输出的结构化信息(如边界框、车道线等)进行编码 [1] - 将编码后的结构化信息作为序列标记输入到解码器中 [1] - 二段式端到端架构非常适合新人入门练手 [1] PLUTO模型训练机制 - 包含三个主要损失函数,主任务损失由回归损失和分类损失共同组成模仿学习损失 [7] - Agent轨迹预测损失有专门设计 [7] - 添加了多个辅助损失以帮助模型收敛 [9] 端到端自动驾驶技术发展趋势 - 端到端自动驾驶已发展出多个技术方向,需要掌握多模态大模型、BEV感知、强化学习、视觉Transformer、扩散模型等知识 [13] - 技术发展迅速,去年的技术方案已不适合当前环境 [13] - VLA(视觉语言动作)范式是当前端到端自动驾驶的皇冠,上限高但难度大,行业招聘需求旺盛 [29] - 基于扩散模型输出多模轨迹成为学术界和工业界追捧的热点,多家公司尝试落地 [26] 课程内容体系 - 第一章介绍端到端算法发展历史,涵盖从模块化方法到端到端的演变,分析一段式、二段式和VLA范式的优缺点 [20] - 第二章重点讲解端到端涉及的背景知识,包括大语言模型、扩散模型、强化学习、BEV感知等,这些是未来两年求职面试频率最高的技术关键词 [20][21][27] - 第三章聚焦二段式端到端,分析经典算法PLUTO、CVPR'25的CarPlanner和最新工作Plan-R1 [21] - 第四章涵盖一段式端到端与VLA,包括基于感知的方法(UniAD、VAD、PARA-Drive)、基于世界模型的方法(Drive-OccWorld、OccLLaMA)、基于扩散模型的方法(DiffusionDrive、Diffusion Planner、DiffE2E)和基于VLA的方法(ORION、OpenDriveVLA、ReCogDrive) [22][24][26][29] - 第五章设置RLHF微调大作业,提供预训练模块和强化学习模块的搭建实践 [31] 课程特色与目标 - 基于Just-in-Time Learning理念,通过通俗易懂的语言和案例帮助学员快速掌握核心技术栈 [15] - 帮助学员构建领域框架,梳理端到端自动驾驶研究发展脉络,形成自己的研究体系 [16] - 理论结合实践,配备实战环节完成从理论到实践的完整闭环 [17] - 学完课程能够达到1年左右端到端自动驾驶算法工程师水平,掌握端到端技术框架和关键技术 [36] - 可复现扩散模型、VLA等主流算法框架,将所学应用到实际项目中 [37]
扩散模如何重塑自动驾驶轨迹规划?
自动驾驶之心· 2025-09-11 23:33
扩散模型技术原理 - 扩散模型是一种生成式模型 本质是通过去噪过程学习数据分布 噪声符合特定分布 [1] - 原理基于正向扩散和反向生成两个过程 模拟墨水在清水中扩散和恢复的物理过程 [2] - 通过神经网络学习分布规律 从纯噪声中恢复原始数据 [2] - 自2020年提出后已获得超过2万次学术引用 [2] 自动驾驶领域应用 - 应用于数据生成 场景预测 感知增强和路径规划等多个自动驾驶关键环节 [11] - 可处理连续分布噪声和离散分布噪声 适用于决策规划等离散问题 [11] - 在端到端和VLA(Vision-Language-Action)架构中发挥重要作用 [11] - 扩散模型在多模轨迹预测中应用广泛 能更好适应自动驾驶环境的不确定性 [28] 端到端自动驾驶课程体系 - 课程涵盖端到端自动驾驶发展历史 技术范式演变及业界动态 [22] - 重点技术栈包括多模态大模型 BEV感知 强化学习 视觉Transformer和扩散模型 [15][29] - 第二章聚焦背景知识 包含视觉Transformer BEV感知 扩散模型理论和VLM强化学习等核心内容 [29] - 课程设置四大核心章节:端到端算法介绍 背景知识 二段式端到端 一段式端到端与VLA [22][23][24] 技术模块深度解析 - 一段式端到端包含基于感知(UniAD/VAD/PARA-Drive) 世界模型(Drive-OccWorld/OccLLaMA) 扩散模型(DiffusionDrive/Diffusion Planner/DiffE2E)和VLA四大方向 [24][26][28] - 世界模型技术可应用于场景生成 端到端控制和闭环仿真 是近年热门研究方向 [26] - VLA架构融合视觉大语言模型 BEV 扩散模型和强化学习 代表端到端自动驾驶最高技术形态 [31] - 课程配备Diffusion Planner和ORION(小米VLA系统)两大实战项目 [28][31] 课程特色与收益 - 采用Just-in-Time Learning理念 通过案例教学快速掌握核心技术栈 [17] - 帮助构建领域知识框架 提升论文分类和创新点提取能力 [18] - 通过RLHF微调大作业实现理论到实践的完整闭环 [33] - 学员需具备4090及以上GPU算力 及Python/PyTorch 概率论 线性代数基础 [38] - 完成课程可达到1年左右端到端算法工程师水平 掌握主流算法框架并具备项目应用能力 [38][39]
2025年,盘一盘中国智驾的自动驾驶一号位都有谁?
自动驾驶之心· 2025-09-10 23:33
行业技术趋势 - 2023年起自动驾驶领域迎来以端到端为主导的技术转向 2024年成为行业公认的新一代量产主流方案 2025年VLA和世界模型成为下一代量产突破方向[1] - 技术架构迭代伴随研发路径 人才结构与竞争格局重新洗牌 领军人物技术判断决定团队在重构期能否站稳脚跟甚至超车领先[1] - 端到端架构正逐步成为智能驾驶新基座 大模型 世界模型 VLM方案等技术加速从学术界走向工业界[53] 理想汽车 - 郎咸朋2018年加入理想汽车担任自动驾驶负责人 职位从自动驾驶业务总经理转变为自动驾驶副总裁[5] - 2023年年底全场景NOA推送标志理想辅助驾驶从高速向城市场景延展 2024年7月15日推送无图NOA功能首次实现对先验信息依赖突破[5] - 去年E2E+VLM双系统成为业界智驾方案标杆 今年主攻VLA司机大模型已量产[5] 小米汽车 - 叶航军2021年初被雷军点将主持小米自动驾驶业务 小米SU7爆火后智能技术能力快速提升[7][8] - 1000万Clips版小米端到端辅助驾驶系统出厂即搭载 学术界推出VLA 强化学习 世界模型 3DGS等前沿工作[9] - 小米不惜代价做好辅助驾驶 正努力跻身智驾第一梯度[9] 蔚来汽车 - 任少卿2020年8月加入蔚来担任智能驾驶研发副总裁 曾担任Momenta研发总监兼联合创始人[11] - 大力推动蔚来智能驾驶技术发展 特别在城区NOA规模铺开和全域领航辅助NOP+功能发布做出重要贡献[11] - 今年主推世界行为WA自动驾驶路线 核心思路是海量使用云端仿真数据让大模型理解世界而学会驾驶[11] 小鹏汽车 - 李力耘2019年6月加入小鹏汽车 2023年8月2日接班吴新宙成为小鹏智驾总负责人[14][15] - 负责小鹏汽车高速和城市自主导航辅助驾驶系统NGP研发 是国内为数不多纯视觉方案拥簇[14][15] - 算力算法数据域控制器线控底盘全链路布局 传感器以外采为主坚持纯视觉方案[15] - 近期小鹏G7 Ultra将迎来OTA升级 AI智能辅助驾驶系统融入全场景VLA大模型[16] 比亚迪 - 杨冬生现任比亚迪副总裁兼产品规划及汽车新技术研究院院长 2005年加入比亚迪[18] - 作为DM-i超级混动系统总设计师 主导研发技术助力比亚迪新能源销量自2022年起多次夺取月度销量冠军[18] - 2024年比亚迪全系车型都将搭载天神之眼高阶智驾系统 开启全民智驾新时代[20] 地平线 - 苏箐2022年加入地平线担任高阶智能驾驶项目总负责人 曾任华为汽车BU智能驾驶产品线总裁[22] - 地平线端到端HSD方案搭载J6P量产上车 自研芯片+智驾方案双管齐下[22] - 大众汽车与地平线成立合资企业 苏箐担任CTO[22] Momenta - 曹旭东2016年创办Momenta 提出一个飞轮两条腿战略 飞轮是数据驱动 两条腿是量产自动驾驶L2和完全无人驾驶L4[25] - 战略核心理念是通过L2量产车收集数据反哺L4技术迭代 形成数据→算法→产品→数据正向循环[25] - 技术路线选择端到端大模型和无图方案 2025年已跻身智驾第一梯队成为全球品牌共同选择[26] - R6飞轮大模型频繁现身公众视野 2019年把核心精力投入数据领域布局进入成果初现阶段[26] 大疆车载(卓驭) - 沈劭劼担任大疆车载总负责人 香港科技大学电子和计算机工程系副教授 科大-DJI联合创新实验室主任[30] - 截至2025年5月卓驭已与9家主流车企达成合作 包括大众汽车 上汽通用五菱 比亚迪等[31] - 已有20余款车型量产 还有30多款车型即将量产落地 预计2025年有200万台车型搭载大疆车载智驾系统上路[31] 英伟达 - 吴新宙2023年加入英伟达现任自动驾驶团队总负责人 曾担任小鹏汽车自动驾驶副总裁[35][36] - 在小鹏汽车期间带领团队完成高速NGP和城市NGP量产落地 推动小鹏汽车在智能驾驶领域发展[35] - 英伟达自动驾驶推出覆盖从数据 感知到大模型智能体的全栈技术[36] 百度 - 王亮现任百度智能驾驶事业群组首席研发架构师 IDG技术委员会主席 阿波罗智能技术董事[40] - 2024年主导VTA基础大模型和纯视觉智驾路线在极越01车型实现量产应用[40] - 带领团队推出支持全国300城覆盖的领航辅助驾驶方案[40] 博世中国 - 吴永桥2024年1月出任博世智能驾驶与控制系统事业部中国区总裁 推动博世城市NOA产品落地[42] - 2024年5月发布首款城市NOA产品并计划年底覆盖24个城市[42] - 主张主机厂聚焦用户体验而供应商承担标准配置开发 提出智能驾驶技术趋同 特斯拉算法领先等观点[42] - 博世坚定推进一段式端到端技术 与文远知行联合基于英伟达Orin Y打造一段式端到端方案8月底在奇瑞高端车型量产[43] 小马智行 - 楼天城小马智行联合创始人兼首席技术官 中国公认大学生计算机编程第一人 算法领域卓越成就[45] - 主导开发世界模型技术 使小马智行在L4级自动驾驶领域建立独特技术优势[45] 元戎启行 - 周光2021年正式任职元戎启行CEO 公司完成阿里巴巴战略领投3亿美元B轮融资[48] - 近日发布最新一代搭载VLA模型的辅助驾驶平台DeepRoute IO 2.0[49]