Workflow
端到端模型
icon
搜索文档
自动驾驶的流派纷争史
36氪· 2025-09-28 02:50
自动驾驶商业化进展 - 截至2025年5月 Waymo在美国4个城市运营1500辆自动驾驶出租车 每周完成超25万次付费出行服务[1] - 百度Apollo全球部署超1000辆无人驾驶汽车 累计提供超1100万次出行服务 安全行驶里程超1.7亿公里[1] 传感器技术路线分歧 - 纯视觉方案采用8个环绕摄像头模拟人类视野 依赖深度学习算法从二维图像重建三维环境 成本极低适合大规模商业化[7] - 多传感器融合方案以激光雷达为主 可生成精确3D点云图 早期造价达7.5万美元 但能应对恶劣天气条件[5][9] - 主流车企包括Waymo、小鹏、蔚来选择多传感器融合 认为安全冗余是不可逾越的红线[9] 传感器内部选择差异 - 激光雷达角分辨率极高 能清晰分辨行人姿态和车辆轮廓 是L4/L5自动驾驶必备传感器[11] - 4D毫米波雷达成本仅数百元 具备强大穿透能力 可在恶劣天气下工作 但点云稀疏无法勾勒物体轮廓[13] - L4 Robotaxi和豪华车采用"激光雷达为主 毫米波雷达为辅"策略 L2+/L3经济车主要依赖"摄像头+毫米波雷达"方案[15] 系统架构发展路径 - 模块化设计将驾驶任务拆分为感知、预测、规划、控制等独立子任务 可解释性强且易于调试[16] - 端到端模型直接将传感器原始数据映射到驾驶控制指令 全过程无信息损失但存在黑箱难题[18] - 行业出现"显式端到端"折中方案 保留可行驶区域等中间输出以平衡性能与可解释性[18] 大模型应用方向 - VLM视觉语言模型追求过程可控 利用图像-文本配对数据预训练 技术相对成熟更易落地[19][23] - VLA视觉语言动作模型主张模型自主学会驾驶规则 需要海量视频-控制信号配对数据 训练成本高昂[21][23] - Waymo、Cruise、华为、小鹏选择VLM路线 特斯拉、吉利和理想探索VLA路线[25] 技术融合趋势 - 纯视觉方案开始引入更多传感器 多传感器融合方案中视觉算法地位提升[9] - 模块化架构开始吸收端到端优势 大模型为所有系统注入认知智能[25] - 激光雷达与视觉正在融合为多模态感知系统[25]
具身智能,为何成为智驾公司的下一个战场?
雷峰网· 2025-09-26 04:17
行业趋势与市场前景 - 具身智能已成为智能驾驶创业者的新战场 多家前智能驾驶高管转入具身智能领域创业[2] - 2025年中国具身智能市场规模预计达52.95亿元 占全球市场约27%[3] - 人形机器人市场规模预计达82.39亿元 占全球约50% 多家企业宣布2024年量产千台人形机器人[3] - 行业保持40%以上年增长率 为智能驾驶公司提供新增长渠道[21] 技术融合与转型基础 - 智能驾驶与具身智能共享"具身认知"理论框架 均需通过物理实体与环境互动实现智能[6] - 技术架构高度一致 包含感知层(多传感器融合)、决策层(路径规划)、控制层(运动控制)、仿真层(虚拟测试)四大层级[7] - 感知技术通用性构成第一支柱 SLAM技术同时应用于机器人导航和自动驾驶高精度定位[8][9] - 决策算法迁移性构成第二支柱 基于深度强化学习的端到端决策系统可双向迁移[10] - 控制系统适应性构成第三支柱 运动控制的动力学建模和实时控制原理高度一致[11] 企业布局与产品进展 - 地平线机器人、知行科技等通过投资并购和设立子公司布局具身智能[4] - 知行科技2024年12月启动具身智能调研 通过收购小工匠机器人获得关节及机械臂开发能力[10][13] - 推出首款大小脑一体化主控制器iRC100 集成128 TOPS算力 支持BEV Transformer和VLA算法部署[14][17][19] - 采用单SoC架构解决多芯片协同痛点 支持各类传感器和执行器接入[16][18] 商业模式与战略价值 - 形成"人形机器人+专用机器人"双线发展格局 智能驾驶公司可根据技术优势选择切入点[22] - 专业服务机器人毛利率达50%以上 显著高于自动驾驶套件15-25%的水平[23] - 具身智能产品具更强差异化和更低边际成本 核心模块开发后场景适配成本近乎为零[25] - 技术界限逐渐模糊 特斯拉将自动驾驶汽车视为"轮式机器人"并共享AI芯片架构[26]
斑马智行司罗:智能座舱正经历范式重构,端到端+主动感知成破局关键
中国经济网· 2025-09-22 09:07
他指出,智能汽车场景兼具三重核心特征:一是高复杂性,需融合语音、视觉、传感器等多模态输 入,同时打通出行、办公、家庭等跨场景需求;二是高安全性,不仅要满足毫秒级响应要求,还需通过 ASIL-D等工业强标认证;三是高商业价值,斑马智行已与行业伙伴合作落地800多万辆车,验证了技术 规模化应用的可行性。 在司罗看来,智能座舱是智能驾驶之后,智能汽车对接用户体验与互联网AI生态的核心入口,已 然成为兼具技术深度与商业价值的黄金赛道。 演讲中,司罗系统拆解了智能座舱的五层融合架构,清晰勾勒出技术落地的底层逻辑:芯片与算力 层:以英伟达、高通及崛起的国产化芯片为核心,构成算力支撑基础;系统层:由斑马智行、华为等企 业主导,通过操作系统、虚拟化、安全技术等提供高效系统级服务;大模型层:融合通用大模型与车载 垂直领域大模型,重点解决车内多模态处理、数据安全与隐私保护问题;智能体层:承担中枢决策功 能,精准识别用户需求并调度对应服务模块;平台服务层:基于自然语言交互实现AI原生服务直达, 最终完成交互范式升级。 司罗强调,这五层架构并非孤立存在,而是环环相扣的有机整体,共同支撑智能座舱的技术迭代。 在9月17日举行的聚合智能 ...
黄仁勋随特朗普访英:26亿美元下注英国AI,智驾公司Wayve或获5亿美元加码
搜狐财经· 2025-09-20 09:57
20 亿英镑,是英伟达给英国送上的新礼物。 近日,英伟达首席执行官黄仁勋宣布,他们将在英国投资 20 亿英镑(约合 26 亿美元),催化英国的人工智能初创企业生态系统,并 加速创造新公司、新工作和引领全球变革的人工智能业务。 Wayve,一家总部位于英国的无人驾驶初创公司,有望凭一己之力拿到其中的五分之一。该公司日前宣布,已与英伟达签署意向书, 后者将在其下一轮融资中"评估 5 亿美元的投资"。同时,Wayve 即将推出的 Gen 3 硬件平台,将完全基于英伟达的 DRIVE AGX Thor 车载计算平台打造。 图 | 亚历克斯·肯德尔(Alex Kendall)个人主页(来源:肯德尔) 图 | Wayve 宣布与英伟达签署投资意向书(来源:Wayve) 英伟达曾在 2024 年 5 月参与了 Wayve 的 10.5 亿美元 C 轮融资,当时的投资者还包括软银和微软等。此次,在 Wayve 尚未披露 D 轮 融资日程的情况下,英伟达就展现出了积极的意向,足见其对 Wayve 的青睐。 Wayve 联合创始人兼首席执行官亚历克斯·肯德尔(Alex Kendall)表示:"我们的 AV2.0 构建具身人工智能 ...
机器人跨越“三重门”——具身智能创新者亲历的现实与趋势
新华网· 2025-09-15 08:08
行业现状与趋势 - 人形机器人赛道呈现"冰与火之歌"局面:一方面机器人展示接近人类的肢体能力并进入日常生活场景 另一方面行业融资超百亿但实际订单不足百台[1] - 2025年被视为"人形机器人量产元年" 投资机构从观望转向竞逐 超20家机器人产业链企业走向IPO[1] - 全球首个城市级常态化运营的人形机器人示范区于2025年8月落地北京 由机器人经营的无人超市"银河太空舱"开张[5] 技术发展路径 - 行业形成两大技术流派:以宇树科技为代表的"运动派"专注于腿足控制和全身运动能力展示 以银河通用为代表的"干活派"专注于实际场景作业能力[11] - "干活派"存在两种技术路径:视觉算法+轨迹生成 与端到端VLA(视觉-运动-动作一体化生成)模型[11] - 当前技术瓶颈主要在于数据获取而非硬件或模型 高质量数据的丰富性和准确性决定机器人泛化性和鲁棒性[7] - 数据策略采用99%合成数据+1%真实数据的组合方式:合成数据解决从0到1的问题 真实遥操数据解决从1到100的问题 视频数据处理从100到10000的问题[15] 商业化落地挑战 - 演示视频(demo)与实际产品存在显著差距:demo对可靠性要求低且多在受控环境中运行 实际产品需要具备24小时工作的高可靠性和环境泛化能力[12] - 行业面临"鸡生蛋"困境:没有订单就无力迭代技术 技术不成熟就无法获得订单[41] - 未来3年是行业"生死分水岭" 能找到可击穿场景的企业将留在牌桌 未来1年需实现千台到万台的批量交付才能验证行业价值[18] - 人形机器人单台成本超10万元 加上维修成本更高 而工人年薪仅5-8万元 成本效益比亟待优化[46] 应用场景选择 - 工业场景被视为短期落地重点 银河通用已在流水线搬运、分拣等环节实现规模化应用 并在北京海淀落地10多家智慧药房 计划年内在全国开设100家[12] - 加速进化公司战略性放弃工业场景 因现有专机(机械臂、AGV)已实现高度自动化 且工业数据属于固定不变的"死数据"[47] - 足球赛事成为机器人能力测试场 加速进化帮助中国队在2025RoboCup巴西机器人足球世界杯成人组首次夺冠 打破欧美国家28年垄断[39] - 家庭场景被多家企业视为终极目标 虽然场景更复杂多变 但数据是"活"的且价值空间更大[47] 核心技术突破 - 银河通用2025年初以10亿级合成大数据训练端到端VLA大模型 6月推出端到端导航大模型 使机器人具备"听-看-懂-走"闭环运动能力[13] - 自变量公司开发通用具身大模型WALL-A 实现"一脑多用"的端到端技术 使机器人具备零样本泛化能力[23] - 端到端模型相比传统分层模型优势明显:能通过实时感知决策闭环调整策略 处理动态变化和陌生状况时只需少量样本即可迁移学习[30] - 操作系统被视为真正护城河 当越来越多开发者基于特定操作系统开发 机器人的软硬件能力才能快速迭代和迁移[44] 能力迁移与进化 - 足球场景训练的能力可向其他场景迁移:运动控制层面的动态平衡、敏捷移动能力可迁移到家庭与工业场景 环境感知层面的识别预测能力可迁移到分拣、避障任务[45] - 机器人通用能力分为运动、导航、交互、操作四个维度 操作能力是进厂入户的最关键能力 这也是自动驾驶模型无法直接迁移到机器人的主要原因[36] - 对于"成年"前的机器人 运动能力突破可为数据收集与算法训练提供支撑 推动感知、决策、规划能力提升[41]
π0.5开源前,国内也开源了一个强大的端到端统一基础模型!具备强泛化和长程操作
具身智能之心· 2025-09-11 02:07
开源模型技术突破 - Physical Intelligence开源π0.5模型 通过知识隔离训练实现更强的开放世界泛化能力[1] - 自变量机器人开源端到端具身智能基础模型WALL-OSS 包含完整预训练模型权重、训练代码和部署文档[3] - WALL-OSS采用紧耦合架构与多策略训练 在单一框架内整合指令推理、子目标分解与细粒度动作合成[8] 技术架构创新 - 采用QwenVL2.5-3B作为主干网络 接收视觉与文本输入并生成多模态输出[12] - 训练采用"先离散、后连续、再联合"三阶段pipeline 仅需RTX 4090级别算力即可完成全流程[14] - 通过流匹配方法实现离散到连续动作预测的转换 采用共享注意力+专家分流架构[16] - 实现统一跨层级思维链 覆盖从语义到感觉运动的完整推理链条[18] 性能表现优势 - 在具身视觉问答基准测试中 WALL-OSS在物体定位任务达到91.6%准确率 较基础模型46.1%提升显著[27][28] - 场景描述任务准确率87.6% 较基础模型57.7%提升近30个百分点[27][28] - 在抓取放置任务中 对已知物体指令达到85%平均任务进度 对新物体指令保持61%性能[29] - 在数据稀缺任务中(500条演示) 预训练模型保持90%以上成功率 未预训练模型降至20%以下[31] - 在积木拼写任务中 字母识别准确率达87% 数字识别达95% 显著高于动作专用模型的26%和80%[34] 数据集与训练 - 构建数万小时具身中心多源数据集 包含自收集机器人数据、开源动作数据和多模态视觉问答数据[20] - 数据集涵盖短程操作任务和长程推理任务 需任务分解、进度跟踪和实时决策能力[22] - 采用多模型pipeline进行细粒度步骤标注 辅以人工抽查和质量控制[23] - 按场景/物体/任务/形态分层抽样 对长程任务和稀缺技能采用温度控制重采样策略[24] 行业影响与公司发展 - 端到端系统被业内公认为最终形态 国内外具身团队都在深入研究突破[3] - 自变量机器人成立于2023年12月 聚焦自研通用具身智能大模型[39] - 公司已完成近10亿元A+轮融资 资金将投入全自研通用具身智能基础模型的持续训练[39] - 行业形成本体和大脑两条创业路线 硬件看宇树 大脑看自变量[39]
拆解华为乾崑智驾ADS 4:世界模型乱战,尖子生如何闯关?
21世纪经济报道· 2025-08-29 13:53
智能驾驶技术演进 - 行业从依赖算力和规则驱动转向端到端模型 但传统端到端模型仅模仿人类驾驶行为 无法真正理解物理规律 [6] - 世界模型成为自动驾驶新方向 通过多模态数据融合和物理世界推演 实现预判与决策 而非单纯反应 [2][8] - 华为乾崑ADS 4系统于2025年4月发布 9月将量产上车 标志世界模型进入落地阶段 [3][4][9] 华为乾崑技术架构与优势 - 自研WEWA架构包含云端世界引擎(WE)和车端世界行为模型(WA) WE专注生成极端场景 WA实现实时推理与拟人化决策 [3][12][13] - 云端WE通过自研生成式模型创造高价值Corner Case(如突然横穿的行人) 并通过奖惩函数训练模型安全合规行为 [13][14] - 车端WA直接通过多模态信号(视觉、声音等)控车 专为驾驶优化 避免语言模型缺乏空间感知的缺陷 [10][14] - 智驾系统搭载量突破100万辆 覆盖11家车企28款车型 新车型匹配周期缩短至6-9个月 [15] 市场竞争与行业动态 - 2024年华为乾崑在国内三方前装辅助驾驶域控全栈软硬一体方案市场中占据79.0%份额 稳居第一 [9] - 特斯拉在CVPR2023展示世界模型研究 蔚来2024年发布自研NWM模型 可在100毫秒内推演216种场景 [11] - 小鹏采用云端大模型(LLM为骨干)与车端小模型协同 通过VLA路径将视觉信息转换为语言token再生成控制动作 [12] 技术路径对比 - 端到端模型依赖大规模真实数据 但可能模仿人类驾驶缺陷(如90%保守行为导致系统犹豫) 泛化能力存在天花板 [6][7] - VLA路径引入语言模型 擅长语义理解但缺乏三维空间精确感知 华为明确拒绝此路径 [10] - 世界模型通过融合深度学习与思维链推理 自主生成行为链 突破长逻辑局限 提升复杂环境判断能力 [8]
拆解华为乾崑智驾ADS 4:世界模型乱战,“尖子生”如何闯关?
21世纪经济报道· 2025-08-29 10:42
智能驾驶技术演进 - 行业从依赖算力、规则驱动转向端到端模型 但仍面临根本挑战 端到端模型本质是模仿人类驾驶行为 而非真正理解物理世界 导致系统可能继承人类驾驶缺陷如犹豫和保守 [6] - 2024年行业在特斯拉技术路线催化下集体驶向端到端 但随后意识到其局限性 包括无法超越训练数据品质与分布 泛化能力存在天花板 [6][7][10] - 2025年行业开始探索新路径 包括彻底抛弃模块化的端到端方案 引入视觉语言模型VLA/VLM 或加入世界模型以理解物理世界运行机制 [10] 世界模型核心价值 - 世界模型通过超大规模融合多模态数据 包括数百万公里真实路况、仿真场景与交通规则 构建动态可推理的数字化交通世界 使车辆能预测和推演而不仅是感知当下 [2] - 世界模型解决端到端模型只会模仿不会思考的瓶颈 让AI理解驾驶环境、预测未来变化并自主生成合理行为链 融合深度学习与思维链CoT推理框架 [11] - 世界模型突破训练数据稀缺和质量不均问题 打开模型能力天花板 提升复杂环境中的判断能力 [11][12] 华为乾崑技术布局 - 华为乾崑2025年4月发布基于世界模型的ADS 4系统 依托自研WEWA架构 包含云端世界引擎WE负责海量数据训练与场景生成 车端世界行为模型WA实现实时环境推理与拟人化决策 [4][19] - 华为乾崑智驾ADS 4系统将于2025年9月陆续上车 标志高阶辅助驾驶进入新阶段 系统开始理解物理规律本身而非仅学习人类驾驶行为 [4] - 华为乾崑在国内三方前装辅助驾驶域控全栈软硬一体方案市场中以79.0%的绝对市场份额稳居第一 [12] 华为技术路径差异化 - 华为乾崑拒绝VLA视觉语言模型路径 认为其缺乏对三维空间的精确感知与运动推演能力 选择专为智能驾驶而生的世界行为模型WA 直接通过多模态信息输入控车 [12][14][22] - 华为云端世界引擎WE专注生成极端场景和Corner Case 如突然横穿的行人、暴雨中的滚动障碍物 并通过严格算法校验确保合成场景符合真实世界物理 [21] - 华为车端世界行为模型WA从零开始训练 专为安全行驶设计 融合多模态感知信号实现实时推理 不依赖语言中介 更专注空间推理 [19][22][23] 行业竞争格局 - 除华为外 蔚来2024年发布中国首个智能驾驶世界模型NWM 具备多模态自回归特性 能在100毫秒内推演出216种可能场景/轨迹 [18] - 小鹏采用云端大模型和车端小模型并进路径 云端大模型以LLM为骨干 通过VLA路径将视觉信息转换为语言token进行训练 [19] - 特斯拉在2023年CVPR上展示世界模型研究动态 推崇扩散模型diffusion 但研发尚处于初期 [17] 华为规模化优势 - 华为乾崑智驾系统搭载量已突破100万辆 覆盖11家车企、28款车型 包括东风、长安、广汽、北汽、比亚迪、赛力斯等品牌 [24] - 百万量级智能车队实时反馈复杂场景 数据持续流向云端 通过世界引擎WE筛选和增强 生成有效训练场景 推动模型迭代 形成感知-云端训练-车端进化的自主进化闭环 [25] - 华为乾崑智驾方案匹配一款车型最快仅需6至9个月 加速规模化落地 为L3及以上级别自动驾驶做准备 [24][25]
VLA:何时大规模落地
中国汽车报网· 2025-08-13 01:33
VLA技术发展现状 - 理想i8成为首款搭载VLA司机大模型的车型,主打"像家人一样懂你"的辅助驾驶体验 [2] - 博世认为VLA短期难以落地,坚持投入一段式端到端技术,因多模态对齐和数据训练困难 [2] - 行业对VLA落地时间存在分歧,乐观预测2025年为元年,保守估计需3-5年技术成熟 [2][12][13] 技术路线对比 - 模块化端到端保留部分人工设计接口,存在感知与决策衔接难题 [2] - 一段式端到端采用全局优化模型,特斯拉FSD V12代码量从30万行缩减至2000行 [4] - VLA通过思维链实现可解释性决策,在潮汐车道等复杂场景表现优于传统端到端 [4][5] - VLA单日可完成30万公里仿真测试,显著降低实车数据依赖 [5] 技术演进路径 - 行业主流从端到端+VLM双系统转向VLA原生融合架构 [6] - 端到端+VLM需同步处理TB级视频流与百亿参数模型,车载算力紧张 [6] - VLA通过对比学习实现多模态特征对齐,仿真复现率达99.9% [7] - 理想汽车通过端到端+VLM升级至VLA架构,实现空间理解等四大能力 [5] 算力与芯片挑战 - 当前智驾芯片算力不足,英伟达Orin(254TOPS)不支持语言模型直接运行 [9] - 英伟达Thor芯片实际算力缩水,基础版仅300TOPS [9] - VLA低速自动驾驶需10赫兹运行频率,高速需20赫兹 [9] - 车企加速自研芯片:理想马赫100计划2026量产,特斯拉AI 5算力或达2500TOPS [11] 落地时间表 - 短期(2025-2026):特定场景如高速路/封闭园区应用 [14] - 中期(2027-2029):算力达2000TOPS时覆盖城市全场景,接管率或低于0.01次/公里 [14] - 长期(2030年后):光计算架构+脑机接口实现类人直觉决策 [14] - 需突破多模态对齐、训练效率、芯片能效比等关键技术 [14]
「智驾」人才争夺战:帮新员工支付前司百万竞业赔偿
36氪· 2025-05-23 13:58
车企AI辅助驾驶人才争夺战 - 行业核心人才遭哄抢,理想、华为、Momenta成为被挖角最严重的公司,理想核心人员每人接到20+猎头电话[3][4][6] - 竞业协议诉讼频发,理想起诉跳槽员工案例涉及千万元赔偿,南方车企员工赔付超百万元[4][5] - 技术保密手段升级,理想要求VLA项目员工签署保密协议,离职需脱敏6个月;华为采取类似措施[12][14] 技术路线演进与竞争格局 - 技术路径从规则方案转向端到端模型,VLM/VLA多模态大模型成为新方向[6][9][24] - 头部企业技术布局: - 理想尝试4种技术路线(城市NOA/轻地图/端到端+VLM/VLA),与清华合作开发双系统方案[9][25] - 小鹏采用"世界基座模型"训练方式[10] - 华为乾崑智驾装机量突破50万,Momenta方案搭载量近30万辆[10] - 特斯拉停止公开FSD技术细节后,国内企业进入自主探索阶段[8][23] 车企人才战略与市场动态 - 传统车企加速布局: - 比亚迪推出5.58万元级辅助驾驶车型,下半年计划推出自研城市NOA[11] - 比亚迪技术院高层亲自招揽新势力背景人才,团队已吸纳多名竞品员工[11] - 小米引进Wayve科学家陈龙,强化辅助驾驶团队[11] - 人才流动双向性: - 理想曾为关键人才支付数百万竞业赔偿[12] - 端到端技术导致理想精简团队,部分人才外溢[12] 行业技术挑战与发展趋势 - 当前技术局限性: - 端到端方案存在场景泛化难题[23] - VLA模型面临人才稀缺、数据获取、问题定义等量产挑战[25] - 未来技术重点: - 生成式AI世界模型仿真器[25] - 强化学习在规控/仿真领域应用[25] - Momenta已率先在预测/规控环节应用AI模型和强化学习[26] 行业生态与潜在问题 - 技术泄露现象严重,存在代码被员工携带跳槽或出售的情况[18] - 部分企业通过"白盒"获取供应商代码进行拼凑开发,与头部"好用"方案存在差距[19][20] - 行业面临工程化能力与AI不确定性的双重挑战,需原创性思考突破技术迷雾[23][26]