Workflow
端到端
icon
搜索文档
投注“端到端”:AI驶向物理世界,阿里云加速“闭环”
第一财经· 2025-09-27 12:39
人工智能浪潮下,具身智能、智能辅助驾驶正载着AI开启一场从数字世界穿梭到物理世界,Agentic AI 时代正在到来,一场新的竞赛也正在开启。 "过去这一年,AI的兴起让我们看到一个比较大的赛道涌现,就是自动驾驶与具身智能。"2025云栖大 会上,阿里云大数据AI平台负责人汪军华告诉记者,阿里云对这两个行业非常关注,这不仅体现在资本 层面的投入,更重要的是进行了高强度的基础设施技术栈投入。 智能辅助驾驶技术架构正在从"多模块多阶段串联"走向"端到端一体化"变革,底层的大数据 AI 工程架 构也面临不断升级的需求,产业界看得到"端到端"范式革命拐点的到来,也在走向新的技术难关。在 机器人研发落地的场景中,云厂商也发现了相似的趋势与需求。 如何帮助智驾和机器人实现"越用越聪明"?诸多云厂商正看好并投入这个产业难关的攻克抢占未来市 场。实现大数据 AI 闭环被视作关键破局点之一。一场在两个AI落地前沿行业中的"卡位"战正悄然兴 起。 1."端到端"来了 "自动驾驶从2003年左右开始发展,近二十年是没有太大进步的状态,直到'端到端'出现了。" 卓驭AI 首席技术官陈晓智对记者表示。 刚刚过去的云栖大会上,阿里云便宣 ...
基于模仿学习的端到端决定了它的上限不可能超越人类
自动驾驶之心· 2025-09-24 06:35
基于模仿学习的端到端本质只是在模仿人类,对物理世界的理解并不透彻。 因此VLA提供了这样一种可能,从模仿人类到成为人类。 业内这两年追捧的端到端,标志着智能驾驶从规则驱动向数据驱动的根本转变。但在实际量产中,端到端虽然提供了一个打通上下游视角的能力,但面对复杂的困难场景 仍然受限。如果在自动驾驶公司工作过,就知道量产模型的迭代仍然被限制在无限corner case的循环中。这里也借用李想AI Talk的一段话: " 端到端比较像什么呢?端到端比较像哺动物的智能,比如像马戏团里的一些动物,向人类学习怎么骑自行车。它学了人类的这些行为,人类怎么去做出各种的行为的开 车。但是它对物理世界并不理解,它只是看到了一个什么样的三维的图像,知道自身的速度,并给出了一个什么样的轨迹,所以它应付大部分的泛化是没有问题的,去面 对它从来没有学到的、特别复杂的,其实就会遇到问题。所以这时候我们也会配合,视觉语言模型 VLM,然后放进来。但是我们能够用到的视觉语言模型这些开源的, 用在交通上的能力都非常的有限,所以只能起到一些非常有限的辅助的一个作用。我觉得第二个阶段就是哺乳动物智能运作的一个方式。 " VLA本质上也可以算作是一种 ...
自动驾驶VLA发展到哪个阶段了?现在还适合搞研究吗?
自动驾驶之心· 2025-09-22 08:04
智能驾驶技术演进 - 行业正经历从规则驱动向数据驱动的根本转变 端到端方法虽能打通上下游视角 但在复杂困难场景中仍受限 [1] - 视觉语言动作模型成为新焦点 其本质是一种更直白干净的端到端架构 取消了复杂的3D感知任务 借鉴视觉语言模型的通用泛化能力 提供解决极端案例的可能性 [1] 技术发展现状 - 自动驾驶视觉语言动作模型技术栈尚未收敛 多种算法如雨后春笋般涌现 包括模块化架构和一体化架构等不同范式 [2] - 行业面临技术栈多样化带来的入门困难 论文数量繁多且知识碎片化 缺乏高质量文档和系统实战指导 从理论到实践的过渡存在挑战 [2] 课程体系设计 - 课程采用即时学习理念 通过通俗易懂的语言和案例帮助学员快速掌握核心技术栈 [3] - 构建领域框架提升研究能力 帮助学员梳理研究发展脉络 掌握核心框架 学会论文分类和创新点提取 [4] - 理论结合实践完成闭环学习 配备实战环节实现从理论到实践的完整过渡 [5] 课程内容架构 - 第一章概述视觉语言动作模型算法概念及发展历史 详细介绍开源基准测试和常见评测指标 [14][15] - 第二章聚焦视觉 语言 动作三大模块的基础知识 并扩展大模型部署使用内容 以Qwen 2.5VL-72为例讲解本地部署 [16][17] - 第三章讲解作为自动驾驶解释器的视觉语言模型经典算法 包括DriveGPT4 TS-VLM DynRsl-VLM SENNA等 重点分析算法动机和网络结构 [18][19] - 第四章深入模块化与一体化视觉语言动作模型 涵盖BEV感知 动静态检测 占用网络 轨迹预测 序列建模 模态对齐 动作解码器 RAG 思维链 监督微调 强化学习 混合专家模型等技术要点 [20][21] - 第五章专注推理增强视觉语言动作模型子领域 讲解思维链 记忆体 工具调用等推理模块 分析长时序规划和因果解释能力 [23][24] - 第六章设置大作业实践 基于ms-swift框架开展自定义数据集训练和模型微调 提供可修改优化的演示代码 [26] 实战案例配置 - 选用华科与小米最新提出的ReCogDrive作为第四章实战案例 包含预训练 模仿学习训练和强化学习训练三阶段 涵盖GRPO和扩散模型轨迹输出等技术栈 [22] - 选用清华AIR与博世提出的Impromptu VLA作为第五章实战案例 基于开源Qwen2.5 VL进行数据集制作 训练和推理 [24] 师资与学术资源 - 教学团队来自清华大学和QS30高校 在ICCV IROS EMNLP等顶级会议发表多篇论文 具备多模态大模型与自动驾驶研发经验 [27] - 课程覆盖多项前沿研究成果 包括慕尼黑工大OpenDriveVLA 上海交大DriveMoE 博世DiffVLA UC Berkeley S4-Driver 华科ORION 阿里FutureSightDrive UCLA AutoVLA 中科院Drive-R1等 [29][30] 教学安排要求 - 课程于10月20日开课 预计两个半月完成 采用离线视频教学配合VIP群答疑和三次线上答疑 [32] - 学员需自备4090及以上算力GPU 具备自动驾驶基础 Transformer大模型 强化学习 BEV感知等技术背景 熟悉Python和PyTorch开发语言 [31]
拟派发现金红利10.3亿!药明康德实施首次中期分红
新浪财经· 2025-09-22 03:07
分红与股东回报 - 公司实施首次中期分红方案 派发现金红利共计10.3亿元 其中A股派发约8.66亿元(含税) 派发日期为9月26日 [1] - 今年以来通过年度分红、特别分红和中期分红累计派发现金红利48.8亿元 现金分红和股份回购及注销合计达68.8亿元 占2024年归母净利润70%以上 [1] 财务业绩表现 - 上半年营业收入207.99亿元 同比增长20.6% 归母净利润82.87亿元 同比增长95.5% 均创历史同期新高 [1] - 第二季度营业收入111.45亿元 首次在第二季度突破百亿规模 第二季度归属净利润48.89亿元 创历史同期新高 [1] - 经调整Non-IFRS净利润63.15亿元 同比增长44.43% [4] 业务运营与订单情况 - 截至2025年6月末持续经营业务在手订单566.9亿元 同比增长37.2% [2] - 报告期内持续经营收入204.1亿元 其中美国客户收入140.3亿元(同比增长38.4%) 欧洲客户收入23.3亿元(同比增长9.2%) 中国客户收入31.5亿元(同比下降5.2%) 其他地区客户收入9.0亿元(同比增长7.6%) [2] 业绩驱动因素 - 公司聚焦"一体化、端到端"CRDMO业务模式 持续拓展新能力、建设新产能 优化生产工艺提升经营效率 [4] - 出售联营公司WuXi XDC Cayman Inc部分股权获得投资收益约32.10亿元 占净利润比例达38.74% [4] 财务预测与指引 - 预计2025年持续经营业务收入增速从10%-15%上调至13%-17% 全年整体收入预期从415-430亿元上调至425-435亿元 [4] 应收账款状况 - 应收账款从2020年36.65亿元持续增长至2025年第一季度73.18亿元 [5] - 应收账款占营业收入比重持续攀升 从2022年15.18%上升至2023年19.59% 2024年进一步增加至20.26% [5] 股价表现 - 9月22日A股股价震荡下行 一度上涨1.83%后下跌0.10% 报108.64元/股 市值3206.5亿元 [1]
开放几个自动驾驶技术交流群(世界模型/端到端/VLA)
自动驾驶之心· 2025-09-20 16:03
欢迎大家加入一起交流相关的内容。感兴趣的同学欢迎添加小助理微信进群:AIDriver005, 备注:昵称 +方向加群。 自动驾驶之心技术交流群成立了,开学季&秋招期我们开放了几个技术交流群(世界模型/端到端/VLA等方 向)。 ...
VLA搞到现在,可能还是情绪价值的内容偏多一些......
自动驾驶之心· 2025-09-20 16:03
摩尔定律不仅体现在芯片算力上,也体现在整个计算机行业。一旦数据集固定下来,以现在的AI技术和庞大算 力,其测试指标的收敛速度也会越来越快。 这两天和星球大佬聊了下关于端到端和VLA的看法,感受颇深,分享给大家: 关于端到端的讨论 学术界的端到端现在是遍地开花的状态,什么流派都有,毕竟【端到端】只是一个范式,你只要实现用一个模型 把传感器输入和轨迹规划的输出串起来,这就是端到端。 所以做什么的都有。 但是,AI进入大模型时代后,相信大家都有一个共识,那就是数据集的迭代速度一定不能比技术迭代慢太多, 技术日新月异的时候,如果数据集反反复复还是那几个,那么毫无疑问数据集一定会阻碍技术的迭代。 所以才有一些研究团队在发论文的同时发布一个数据集,这样可以保持很长一段时间的高impact输出。 学术界的端到端现在处在方法远比问题多的状态。 工业界的端到端更加务实,车上的算力限制就能把相当一部分热门模型拒之门外。但是, 工业界最得天独厚的 优势就是有海量的数据,这给模型研发提供了无限可能。 要知道,chatgpt的成功很大程度上归功于互联网给了我们收集海量数据的机会。为什么超大规模transformer模型 率先在NLP领 ...
小鹏&理想全力攻坚的VLA路线,到底都有哪些研究方向?
自动驾驶之心· 2025-09-17 23:33
VLA绝对是今年自动驾驶学术界和工业界的主流关键词。 去年的端到端+VLM,标志着智能驾驶从规则驱动向数据驱动的根本转变。在实际中使用我们发现,端到端虽然提供了一个打通上下游视角的能力,但面对复杂的困难场 景仍然受限。如果在自动驾驶公司工作过,就知道量产模型的迭代仍然被限制在无限corner case的循环中。 VLA本质上也可以算作是一种端到端,不过更加直白和干净,很多方法也取消了传统端到端的复杂的3D感知任务。借鉴VLM更强大的通用泛化能力,除了任务更简洁, VLA更重要的还是提供了一种解决corner case的可能性。 而随着学术界和工业界的目光投向端到端这个技术领域,我们发现了很多问题。自动驾驶VLA的技术栈仍然没有收敛!一系列算法如雨后春笋般冒出: 技术栈多?入门困难? 前一段时间我们推出了《端到端与VLA自动驾驶小班课》,这门课侧重在端到端自动驾驶的技术栈梳理,同学们的反馈很好。 所以很多同学联系自动驾驶之心想学习更多 关于VLA的前沿知识! 因此我们联合国内外的教研团队共同打造了《自动驾驶VLA实战教程》,针对自动驾驶VLA的技术栈进行了全面的梳理。 学习自动驾驶VLA,是一个一站式强化多领域 ...
那些号称端到端包治百病的人,压根从来没做过PnC......
自动驾驶之心· 2025-09-16 23:33
端到端自动驾驶技术发展现状 - 国内新势力车企正在推进VLA(Vision-Language-Action)技术的落地和优化 而另一部分企业则聚焦WA(World Model)路线 更多车企和Tier1供应商仍处于端到端技术攻坚阶段[2] - 端到端系统通过输入传感器原始数据直接输出控制信号或自车轨迹 代表性算法包括UniAD和Sparse系列[3] - 端到端本质是实现感知信息的无损传递 解决模块化方法中人工定义感知结果无法覆盖开集场景的问题 目前工业界普遍采用模仿学习方法进行优化[4] 端到端技术挑战与行业共识 - 端到端系统虽提高性能上限但下限稳定性不足 实际落地仍需传统规控方法兜底 learning-based输出轨迹仍需经过传统PnC处理[5] - 行业共识是自动驾驶从规则驱动转向认知驱动 但端到端技术距离成熟仍有较长距离 需要更多时间沉淀[5] - 车企为突破感知模型迭代瓶颈 积极布局VLA和WA技术路线 但需理性看待端到端替代传统规控的局限性[5] 自动驾驶技术社区生态 - 自动驾驶之心知识星球社区规模已超4000人 覆盖超300家机构与自动驾驶公司 目标两年内达到近万人规模[8][102] - 社区整合40+技术方向学习路线 包括VLA、端到端、多模态大模型等前沿领域 并提供与一线产业界/学术界大佬的直接交流渠道[8][9][17] - 社区提供岗位内推机制 成员来自蔚小理、地平线、华为、英伟达等头部企业 以及国内外顶尖高校实验室[17] 技术资源体系 - 社区汇总近60+自动驾驶数据集 涵盖VLM预训练/微调/思维链/强化学习等类型 并整合3D目标检测/BEV感知/Occupancy等开源项目[37][53][55] - 提供七大福利视频教程 内容覆盖世界模型、自动驾驶大模型、Transformer等 已举办超百场专业技术直播[88][91] - 详细梳理端到端自动驾驶技术体系 包括一段式/二段式量产方案、VLA算法及里程碑方法 兼顾学术界与工业界需求[39][47]
2025年,盘一盘中国智驾的自动驾驶一号位都有谁?
自动驾驶之心· 2025-09-10 23:33
行业技术趋势 - 2023年起自动驾驶领域迎来以端到端为主导的技术转向 2024年成为行业公认的新一代量产主流方案 2025年VLA和世界模型成为下一代量产突破方向[1] - 技术架构迭代伴随研发路径 人才结构与竞争格局重新洗牌 领军人物技术判断决定团队在重构期能否站稳脚跟甚至超车领先[1] - 端到端架构正逐步成为智能驾驶新基座 大模型 世界模型 VLM方案等技术加速从学术界走向工业界[53] 理想汽车 - 郎咸朋2018年加入理想汽车担任自动驾驶负责人 职位从自动驾驶业务总经理转变为自动驾驶副总裁[5] - 2023年年底全场景NOA推送标志理想辅助驾驶从高速向城市场景延展 2024年7月15日推送无图NOA功能首次实现对先验信息依赖突破[5] - 去年E2E+VLM双系统成为业界智驾方案标杆 今年主攻VLA司机大模型已量产[5] 小米汽车 - 叶航军2021年初被雷军点将主持小米自动驾驶业务 小米SU7爆火后智能技术能力快速提升[7][8] - 1000万Clips版小米端到端辅助驾驶系统出厂即搭载 学术界推出VLA 强化学习 世界模型 3DGS等前沿工作[9] - 小米不惜代价做好辅助驾驶 正努力跻身智驾第一梯度[9] 蔚来汽车 - 任少卿2020年8月加入蔚来担任智能驾驶研发副总裁 曾担任Momenta研发总监兼联合创始人[11] - 大力推动蔚来智能驾驶技术发展 特别在城区NOA规模铺开和全域领航辅助NOP+功能发布做出重要贡献[11] - 今年主推世界行为WA自动驾驶路线 核心思路是海量使用云端仿真数据让大模型理解世界而学会驾驶[11] 小鹏汽车 - 李力耘2019年6月加入小鹏汽车 2023年8月2日接班吴新宙成为小鹏智驾总负责人[14][15] - 负责小鹏汽车高速和城市自主导航辅助驾驶系统NGP研发 是国内为数不多纯视觉方案拥簇[14][15] - 算力算法数据域控制器线控底盘全链路布局 传感器以外采为主坚持纯视觉方案[15] - 近期小鹏G7 Ultra将迎来OTA升级 AI智能辅助驾驶系统融入全场景VLA大模型[16] 比亚迪 - 杨冬生现任比亚迪副总裁兼产品规划及汽车新技术研究院院长 2005年加入比亚迪[18] - 作为DM-i超级混动系统总设计师 主导研发技术助力比亚迪新能源销量自2022年起多次夺取月度销量冠军[18] - 2024年比亚迪全系车型都将搭载天神之眼高阶智驾系统 开启全民智驾新时代[20] 地平线 - 苏箐2022年加入地平线担任高阶智能驾驶项目总负责人 曾任华为汽车BU智能驾驶产品线总裁[22] - 地平线端到端HSD方案搭载J6P量产上车 自研芯片+智驾方案双管齐下[22] - 大众汽车与地平线成立合资企业 苏箐担任CTO[22] Momenta - 曹旭东2016年创办Momenta 提出一个飞轮两条腿战略 飞轮是数据驱动 两条腿是量产自动驾驶L2和完全无人驾驶L4[25] - 战略核心理念是通过L2量产车收集数据反哺L4技术迭代 形成数据→算法→产品→数据正向循环[25] - 技术路线选择端到端大模型和无图方案 2025年已跻身智驾第一梯队成为全球品牌共同选择[26] - R6飞轮大模型频繁现身公众视野 2019年把核心精力投入数据领域布局进入成果初现阶段[26] 大疆车载(卓驭) - 沈劭劼担任大疆车载总负责人 香港科技大学电子和计算机工程系副教授 科大-DJI联合创新实验室主任[30] - 截至2025年5月卓驭已与9家主流车企达成合作 包括大众汽车 上汽通用五菱 比亚迪等[31] - 已有20余款车型量产 还有30多款车型即将量产落地 预计2025年有200万台车型搭载大疆车载智驾系统上路[31] 英伟达 - 吴新宙2023年加入英伟达现任自动驾驶团队总负责人 曾担任小鹏汽车自动驾驶副总裁[35][36] - 在小鹏汽车期间带领团队完成高速NGP和城市NGP量产落地 推动小鹏汽车在智能驾驶领域发展[35] - 英伟达自动驾驶推出覆盖从数据 感知到大模型智能体的全栈技术[36] 百度 - 王亮现任百度智能驾驶事业群组首席研发架构师 IDG技术委员会主席 阿波罗智能技术董事[40] - 2024年主导VTA基础大模型和纯视觉智驾路线在极越01车型实现量产应用[40] - 带领团队推出支持全国300城覆盖的领航辅助驾驶方案[40] 博世中国 - 吴永桥2024年1月出任博世智能驾驶与控制系统事业部中国区总裁 推动博世城市NOA产品落地[42] - 2024年5月发布首款城市NOA产品并计划年底覆盖24个城市[42] - 主张主机厂聚焦用户体验而供应商承担标准配置开发 提出智能驾驶技术趋同 特斯拉算法领先等观点[42] - 博世坚定推进一段式端到端技术 与文远知行联合基于英伟达Orin Y打造一段式端到端方案8月底在奇瑞高端车型量产[43] 小马智行 - 楼天城小马智行联合创始人兼首席技术官 中国公认大学生计算机编程第一人 算法领域卓越成就[45] - 主导开发世界模型技术 使小马智行在L4级自动驾驶领域建立独特技术优势[45] 元戎启行 - 周光2021年正式任职元戎启行CEO 公司完成阿里巴巴战略领投3亿美元B轮融资[48] - 近日发布最新一代搭载VLA模型的辅助驾驶平台DeepRoute IO 2.0[49]
后端到端时代:我们必须寻找新的道路吗?
自动驾驶之心· 2025-09-01 23:32
行业技术发展趋势 - 2025年VLA(Vision-Language-Action)成为行业新焦点,但技术路径出现明显分歧,部分企业积极推广而部分头部团队选择回避 [1][5][6] - 相较于2023-2024年端到端技术达成行业共识的局面,VLA技术路线呈现"分歧中的探索"态势 [5][6] - 技术切换期被视为占领用户心智和证明研发优势的关键窗口 [4] 企业战略布局差异 - 理想汽车通过VLA巩固端到端技术红利带来的领先优势 [4] - 元戎启行借助VLA提升辅助驾驶系统性能上限 [4] - 小鹏汽车将具身智能领域积累的VLA技术迁移至辅助驾驶系统,并采用自研高算力芯片解决实时性问题 [4][22] - 华为ADS明确主张WA(World Model + Action)为自动驾驶终极方案,回避VLA路径 [5] - 蔚来在低速场景应用世界模型但对外宣传保持低调 [5] - 地平线否认其HSD系统属于VLA,坚持VA(Vision-Action)技术路线 [23] VLA技术原理与应用 - VLA通过视觉模块感知环境、语言模块表述任务、动作模块执行驾驶行为,实现感知-决策一体化 [9] - 技术优势在于结合端到端的性能与语言的可解释性,理想状态下可映射人类驾驶本能 [10] - Wayve的LINGO系列实现边驾驶边用自然语言解释决策,LINGO-2支持实时语言指令调整行为 [12] - OpenDriveVLA融合2D/3D视觉token与语言生成控制轨迹,在Nuscenes数据集取得最优结果 [14][16] - 谷歌Deepmind的RT系列将互联网视觉-语言知识迁移至机器人控制,提升泛化能力 [17][18] 技术挑战与局限性 - 自然语言存在模糊性与不完备性,例如"慢一点"等指令缺乏精确动作约束 [19] - 语言-动作不对称性问题导致监督学习存在噪声,语言主要在任务级别有效而非细粒度控制 [19] - 多模态Transformer推理开销巨大,OpenVLA模型约7B参数需15GB显存且运行频率仅6Hz,低于行业10Hz标准 [21] - 实际部署中多用于上层任务分配,轨迹输出仍由传统模型执行并需兜底机制 [23] 替代技术路径发展 - VA(Vision-Action)方案通过内隐世界模型实现环境状态向量化表示,华为与地平线采用此路径 [23] - 地平线HSD系统通过深度神经网络实现决策统一性,在不同场景下保持自适应行为 [25] - 采用平衡数据分布并筛选优化人类驾驶数据,使决策更符合直觉 [25] - 坚持模块最小化架构,屏蔽激光雷达输入以避免感知依赖,保持系统简洁性与可维护性 [28] - 纯视觉版本结合软硬件一体方案具备成本优势 [31] 行业本质问题与未来方向 - 辅助驾驶核心问题仍是缺乏对世界的深度理解能力 [33] - 语言作为新输入维度类似激光雷达,提供抽象能力但非终极解决方案 [33] - 行业面临选择新道路或深化现有路径的战略抉择,不同技术路线均存在发展机会 [34]