端到端
搜索文档
开放几个自动驾驶技术交流群(世界模型/端到端/VLA)
自动驾驶之心· 2025-10-13 23:33
技术交流社群 - 自动驾驶行业成立了专注于前沿技术方向的技术交流群 [1] - 技术交流群覆盖世界模型、端到端、VLA等当前行业重点研究方向 [1]
任少卿的智驾非共识:世界模型、长时序智能体与 “变态” 工程主义
自动驾驶之心· 2025-10-11 16:03
公司技术路线与架构选择 - 公司选择了一条高算力、多传感器、全新架构(世界模型加强化学习)的技术组合,被内部形容为“变态”的困难路径[8][9] - 该技术路线旨在建立一套真正接近物理世界的能力栈,虽然意味着更重的训练和更长的周期,但被认为是通向未来的道路[9][10] - 公司是国内第一个提出世界模型概念的厂商,其核心是以视频为底座,建立高带宽的时空认知能力,而非在语言模型上做模态扩展[21][26][27] - 公司认为端到端是智能驾驶历史阶段的产物,是“填坑”行为,而公司的目标是超越端到端,探索世界模型和强化学习等更根本的AGI路径[16][60][66] - 公司在2022年3月实现基于英伟达OrinX芯片的全栈自研平台Banyan量产,并在2024年5月推送了世界模型NWM的OTA更新[42][100] 世界模型技术解析 - 世界模型被定义为包含两个层面:物理规律的内建(如重力、惯性)和时空操作能力(理解预测物体在三维空间加时间维度的运动)[23] - 世界模型与语言模型是并行关系,前者解决“认知时空和规律”,后者解决“认知语言和概念”,两者融合才能形成真正的AGI[25] - 世界模型的核心优势在于建立高带宽的时空认知,类比脑机接口,旨在用图像直接交互,摆脱低带宽语言描述的限制[26][27] - 与世界模型相比,VLA(视觉-语言-动作)本质仍是语言模型的模态扩展,其“根”在语言上,视觉是“外挂”的转换器[25][29][30] - 训练世界模型需要大量视频数据,来源主要包括游戏引擎生成的数据和真实世界的车载传感器数据[54] 数据策略与强化学习应用 - 公司建立了三层递进的数据系统:数据闭环系统(DLB)、伴生测试系统、风险评估控制系统(RAMS),形成了业界顶尖的数据处理能力[74][76][77] - 数据策略上,公司倾向于使用“脏”但量大的量产数据,而非干净但量小的专家数据,认为通过强化学习清洗数据能学到更复杂的真实世界情况[55][57][59] - 强化学习被赋予两个关键作用:能“洗数据”,将模型输出的好的分布往前排;能延长“上下文”,让模型学会处理长时序推理,摆脱“5秒记忆的金鱼”状态[60][75] - 公司认为行业至今没有完全接受强化学习的重要性,而公司已在内部实验并计划在年底新版本中推出基于强化学习的长时序能力[60][64] - 通过端到端AEB模型和伴生测试体系,公司将AEB的真实场景响应率从不到10%提升至70%-80%,并获保险公司数据验证事故损失下降25%[86][88] 工程体系与研发管理 - 公司研发组织采用“4×100米接力棒”模式,明确划分为预研、量产、平台复制、车型复制四个阶段,职责清晰以提升效率[95][97][105] - 公司拥有三代智驾平台量产经验(Aspen, Banyan, Cedar),且均为对应芯片(Mobileye EyeQ4, 英伟达OrinX, 自研神玑)的全球首个量产平台,工程能力被极致锻炼[100][101] - 在工程上,公司自建了CUDA之上的软件栈(cuDNN、框架层、工具层),为自研芯片对接和快速量产打下基础,此做法在行业中非常独特[103] - 平台策略上,高算力平台(4颗Orin)提供安全冗余、新功能先发和更早迭代的优势,再通过技术蒸馏迁移到低算力平台(如乐道的1颗Orin)[92][93] - 公司强调技术追求简单高效,认为复杂高效不可持续,目标是建立“又新又轻松”的架构,用更少资源达到更好效果,提升竞争力上限[113][115] 产品进展与未来目标 - 公司在2025年5月于地库场景首发了语言交互找出口功能,为国内首个量产的此类功能,并计划在年底到明年Q1逐步推出开放集指令交互(Open-set)[39][40] - 公司将主动安全(如AEB)置于最高优先级,目标是切实减少事故,最新目标是力争在年内将事故损失降低50%[86][118] - 公司认为当前技术体系可以通往L3、L4,明年智驾竞争将更明显地向L3/L4迈进,技术端的关键是搞定世界模型的长时序能力[108][109] - 公司智驾研发的终极目标并非单纯实现L3功能,而是让系统更像人,能处理人所处理的各类长短时序决策,核心价值在于解放精力和减少事故[107][117] - 公司通过统一架构处理高速和城区场景,虽然初期开发量大、节奏显慢,但避免了方案割裂,旨在获得更干净、更具扩展性的长远优势[51][84]
任少卿的智驾非共识:世界模型、长时序智能体与 “变态” 工程主义
晚点Auto· 2025-10-09 12:17
文章核心观点 - 蔚来智能驾驶负责人任少卿认为,实现高级别自动驾驶和通用人工智能(AGI)的正确路径是构建以视频为核心的“世界模型”,并结合强化学习,而非当前行业主流的以语言模型为基础的端到端或VLA方案 [6][7][9][10] - 公司选择了一条技术更复杂、投入更高的路线,包括高算力平台(如4颗Orin芯片)、多传感器配置以及全新架构,旨在建立对物理世界时空认知的底层能力,短期内可能显得进展较慢,但长期看上限更高 [7][23][25][57] - 蔚来已建立起包括三层数据系统、三代首发平台和“4×100米接力”研发体系在内的核心能力,其工程能力和数据体系被认为是行业领先的,并已通过端到端AEB等技术验证了实际效果,如事故损失下降25% [34][36][42][44][45][54][63] 技术路径:世界模型与强化学习 - **对主流方案的批判**:端到端是智能驾驶发展阶段的产物,本质是“填坑”,将过去拆分的模块重新拼接;VLA本质是语言模型的模态扩展,根在语言上,但语言带宽低,无法承载现实世界的连续复杂性 [9][13][14][16] - **世界模型的定义与优势**:以视频为核心,直接学习时空和物理规律,建立高带宽的时空认知能力;与语言模型并行,前者解决“概念认知”,后者解决“时空认知”,两者融合才能实现AGI [10][11][13][27] - **强化学习的关键作用**:模仿学习只能解决短时序问题,强化学习能将系统从“5秒记忆的金鱼”进化为能处理长时序(30秒、60秒)规划的智能体,并能“清洗”海量但嘈杂的真实驾驶数据,提升模型能力 [7][28][29][31][32] - **与友商技术对比**:理想和小鹏的基座模型以语言模型为训练底座;华为的WA模型本质也是世界模型,只是表述不同;特斯拉是否构建世界模型尚不确定 [17] 研发与工程体系 - **数据系统**:建立三层数据系统——数据闭环系统(DLB)用于自动筛选数据;伴生系统用于大规模AB测试,每周测试里程达几千万公里;风险评估控制系统用于自动化分析每日数百万次接管数据 [36][42] - **工程能力**:三代智驾平台均实现全球首个芯片量产(Mobileye EyeQ4、英伟达Orin、自研神玑),团队仅大几十人,通过统一软件栈(仅保留CUDA底层,上层自研)支撑多平台,工程能力被锻炼得特别强 [54][55][56] - **研发组织“4×100米接力”**:第一棒预研团队专注将不确定性转化为确定性方案;第二棒量产团队负责将预研成果高质量交付;第三棒平台复制团队将功能适配到不同芯片平台;第四棒车型复制团队将方案快速部署到不同车型 [47][48][51][52][53] 产品化进展与目标 - **已实现成果**:2024年5月推送世界模型架构OTA更新;2023年底推出端到端AEB,经保险公司数据验证,事故损失下降25%;2025年5月在地库实现语言指令找出口功能,为国内首发 [22][40][44][45][63] - **近期规划**:计划在2024年底至2025年Q1推出Open-set开放集指令交互功能,使用户能通过自然语言与车辆自由交互,而非仅限于有限指令集,此举被认为将领先行业 [18][19][22] - **安全目标**:将主动安全置于最高优先级,下一个版本的目标是将事故损失降低50% [40][64][65] 战略选择与行业定位 - **硬件策略**:高算力平台(如4颗Orin)提供安全冗余、承载更多新功能且迭代更早;低算力平台(如乐道用1颗Orin)通过功能蒸馏和压缩实现主流体验,但最新功能会滞后 [45][46][50] - **发展节奏**:选择统一高速与城区方案的架构,虽初期开发量大、显得慢,但长期架构更干净、扩展性更好;跨大洲(中国和欧洲)同步量产也对研发和供应链构成极限压力 [25][39][43] - **核心优势**:底层平台、数据和工程能力经过三代架构锤炼;当前处于新架构(世界模型)初期,重点是将新架构潜力释放60%-80%;方向明确指向AGI,在更大技术语境下没有争议 [25][56][57][72]
任少卿的智驾非共识:世界模型、长时序智能体与 “变态” 工程主义
晚点LatePost· 2025-10-09 10:14
文章核心观点 - 蔚来智能驾驶负责人任少卿认为,智能驾驶的未来在于构建“世界模型”并结合强化学习,这是一条比当前行业主流的“端到端”和“VLA”模型更艰难但上限更高的技术路径,旨在实现真正的通用人工智能[4][5][8] - 蔚来选择了一条高算力、多传感器、全新架构的激进技术路线,短期内面临开发周期长、进展慢的挑战,但长期看有望构建起接近物理世界的认知能力,形成核心竞争优势[5][21][23] - 公司将安全视为最高优先级,通过自建三层数据系统和引入端到端模型,已实现事故损失下降25%,并设定了年内再降50%的目标,体现了技术的社会价值[42][61][62] 技术路径与架构 - **对主流技术的批判与超越**:认为端到端模型是智能驾驶特定历史阶段的产物,本质是“填坑”,其能力止步于短时序问题[4][7];VLA模型虽整合了视觉、语言和动作,但核心仍是低带宽的语言模型,无法承载现实世界的连续复杂性[4][11][12] - **世界模型的核心主张**:以视频为底座,建立高带宽的“时空认知”能力,内建物理规律(如重力、惯性)和理解时空运动的能力,与语言模型的“概念认知”并行,最终融合走向AGI[8][9][14] - **强化学习的关键作用**:智驾行业尚未完全接受强化学习的重要性,其能“清洗”海量但嘈杂的量产数据,并将系统的规划能力从模仿学习的“5秒记忆”扩展到处理长时序决策,是实现真正智能体的关键[5][27][29][30] - **与同行的技术差异**:理想和小鹏的基座模型以语言模型为训练底座,华为的WA模型本质是世界模型但强调点不同,蔚来是国内首个提出并量产世界模型架构的公司,并在该架构内实现了VLA[15][20][31] 研发体系与工程能力 - **三代首发平台的经验**:公司历经三代智驾平台全球首发(Mobileye EyeQ4、英伟达Orin、自研神玑芯片),克服了芯片首发的大量工程难题,锻炼出强大的工程能力[52][53] - **独特的三层数据系统**:构建了DLB(数据闭环)、伴生测试系统、RAMS(风险评估控制)三层系统,实现了数据自动筛选、大规模AB测试和每日数百万次接管的自动化分析,支撑快速迭代[34][36][40] - **“4×100米接力”研发组织**:将研发流程细化为预研、量产、平台复制、车型复制四个明确阶段,形成“铁打的营盘”,职责清晰,提升整体效率[45][46][49] - **自研软件栈优势**:在英伟达Orin平台上,仅保留最底层的CUDA,其上工具链全部自研,为自研芯片的平滑对接和快速量产奠定了基础[54] 产品进展与战略选择 - **统一架构的长期主义**:在2022年同时推进国内和欧洲量产时,选择将高速与城区功能统一到一套架构下推倒重来,而非采用两套方案追求短期速度,虽初期进度慢但长期架构更干净[37][41] - **安全优先的产品策略**:优先推动端到端AEB功能上线,通过真实数据覆盖将场景响应率从不足10%提升至70%-80%,已验证事故损失下降25%,将社会价值置于即时用户体验之前[38][39][42] - **高算力平台的差异化**:高算力平台(如4颗Orin)提供安全冗余、承载新功能先行开发,再通过技术蒸馏迁移至低算力平台,用户体验基本无差异但功能上线有先后[43][44][48] - **开放集交互的规划**:计划在2024年底至2025年Q1推出Open-set(开放集指令交互),使用户能像与真人司机一样用自然语言随意下达指令,而非局限于有限指令集,这将是国内首个此类量产功能[16][17][20] 行业竞争与未来展望 - **对竞争态势的判断**:认为明年行业竞争将聚焦于基于世界模型的长时序能力建设,并明显向L3/L4级功能迈进[55] - **公司的核心优势**:扎实的数据与工程体系、经受三代平台考验的团队、以及在新架构上的先行布局,是应对未来竞争的基础[51][54][70] - **人才吸引的立足点**:为年轻技术人才提供世界模型这一AGI早期领域的探索机会、海量真实数据、成熟工程体系及产品快速落地的平台,是吸引顶尖人才的关键[69][70]
学术界和工业界都在如何研究端到端与VLA?三个月搞定端到端自动驾驶!
自动驾驶之心· 2025-10-09 04:00
自动驾驶端到端算法技术趋势 - 端到端算法是当前自动驾驶量产的核心算法 技术栈丰富 主要分为一段式和两段式两大范式 [1] - 一段式范式以UniAD为代表 直接从传感器输入建模自车轨迹输出 两段式则基于感知结果进一步输出自车和他车轨迹 [1] - 一段式端到端算法衍生出多个子领域 包括基于感知 基于扩散模型 基于世界模型以及基于VLA的算法 其中基于VLA的算法相关论文正爆发式发表 工业界也在争先量产 [1] 前沿技术栈构成 - 核心算法涉及BEV感知 视觉语言模型 扩散模型 强化学习 世界模型等多项前沿技术 [3] - 通过学习端到端与VLA自动驾驶 可以掌握学术界和工业界最前沿的技术方向 [3] 自动驾驶VLA与大模型实战课程 - 课程聚焦VLA领域 内容涵盖从VLM作为自动驾驶解释器开始 到模块化VLA 一体化VLA 以及当前主流的推理增强VLA [3] - 课程配套理论基础梳理 包括Vision/Language/Acition三大模块 强化学习 扩散模型等基础 [3] - 课程设有专门的大作业章节 指导学员从零搭建自己的VLA模型及数据集 [3] 课程师资团队 - 师资团队包括来自清华大学等高校的硕士生和博士生 在ICCV IROS EMNLP等国际顶级会议发表多篇论文 [7][9] - 团队成员研究方向涵盖多模态感知 自动驾驶VLA 大模型Agent等前沿领域 拥有丰富的研发和实战经验 [7][9] - 部分成员长期维护GitHub开源项目 总Star数已超过2k 具备扎实的研发能力 [7] 端到端与VLA自动驾驶课程 - 该课程由工业界专家带队 聚焦端到端自动驾驶宏观领域 梳理一段式/两段式方向的重点算法和理论基础 [10] - 课程详细讲解BEV感知 大语言模型 扩散模型和强化学习 并设计两大实战项目 基于扩散模型的Diffusino Planner和基于VLA的ORION算法 [10] - 课程讲师为国内TOP主机厂算法专家 拥有端到端 大模型 世界模型等前沿算法的预研和量产经验 并主持完成多项算法的产品量产交付 [10] 目标学员要求 - 学员需自备GPU 推荐算力在4090及以上 [13] - 要求学员具备一定的自动驾驶领域基础 熟悉基本模块 并了解transformer大模型 强化学习 BEV感知等技术的基本概念 [13] - 学员需具备一定的概率论和线性代数基础 熟悉常用数学运算 并具备一定的python和pytorch语言基础 [13]
自动驾驶之心招募合伙人啦!4D标注/世界模型/模型部署等方向
自动驾驶之心· 2025-10-04 04:04
业务拓展计划 - 公司计划在2024年向国内外招募10名业务合伙人 [2] - 合伙人将负责自动驾驶相关课程研发、论文辅导业务开发以及硬件研发 [2] 重点技术方向 - 招募方向聚焦于大模型/多模态大模型、扩散模型、VLA、端到端自动驾驶 [3] - 其他关键技术领域包括具身交互、联合预测、SLAM、3D目标检测 [3] - 世界模型、闭环仿真3DGS、大模型部署与量化感知推理也是重点方向 [3] 合伙人资质要求 - 候选人需毕业于QS200以内高校并拥有硕士及以上学历 [4] - 拥有顶级学术会议成果的候选人将获得优先考虑 [4] 合伙人待遇与资源 - 提供自动驾驶领域的资源共享,包括求职、读博、出国留学推荐等 [5] - 合伙人将获得丰厚的现金激励 [5] - 提供创业项目合作与推荐机会 [5]
投注“端到端”:AI驶向物理世界,阿里云加速“闭环”
第一财经· 2025-09-27 12:39
行业趋势:AI技术范式革命 - 智能辅助驾驶技术架构正从“多模块多阶段串联”向“端到端一体化”变革,带来范式革命 [1] - 具身智能和智能辅助驾驶正推动AI从数字世界进入物理世界,Agentic AI时代到来 [1] - 行业看到“端到端”范式革命拐点到来,但面临新的技术难关 [1] 技术架构变革:端到端优势 - 传统自动驾驶采用模块化技术架构,受制于“感知-决策-规控”分阶段架构瓶颈,依赖人工定义规则 [3] - 端到端架构具备scaling law性质,实现视觉、语言和行动能力深度融合的VLA架构模型 [3] - 新架构只需关注数据和场景训练,就能实现复杂场景自主应对,带来能力快速迭代 [3] 基础设施挑战:数据与算力需求 - 传统自动驾驶训练需几个PB数据,当前主流智驾企业单次训练需10P-30P数据量 [4] - 数据量限制车企模型快速迭代,需要整体大数据并发能力提升 [4] - 具身智能需要掌握物理规律,数据分散、算力需求特殊、通信要求苛刻 [4] - 客户算力需求达万卡规模以上,对多模态数据处理和合规要求变高 [5] 阿里云解决方案:技术支撑体系 - 建立模型、AI基础设施、数据基础设施、端到端工具四大要素的技术支撑 [5] - 通过元数据管理实现对百PB级数据高效管控,降低数据备份、流动和处理成本 [5] - 支持Lance格式非结构化数据读写和训练加速,提升压缩能力减少存储空间 [5] - 架构升级加速千万级Clip数据生产和千亿级训练数据高性能检索 [5] 实际应用效果:效率提升显著 - 某车企使用阿里云方案后实现百万级任务管理,支持上万任务并发运行 [7] - 产能达30万clips/天,持续突破调度瓶颈,效率较升级前提升2-3倍 [7] - 满足机器人数据预处理、分布式部署、训练和数据远程回传需求 [7] - 80%以上中国车企和多家头部机器人企业使用阿里云大数据AI平台 [7] 生态合作与战略布局 - 与英伟达在Physical AI领域合作,集成Isaac Sim、Isaac Lab等软件工具栈 [9] - 形成覆盖数据预处理、仿真数据生成、模型训练评估的全链路平台支撑 [9] - 阿里云Data+AI在全模态兼容、弹性可扩展、安全合规方面市场领先 [9] - 公司正超越“技术供应商”角色,成为产业变革引领者 [9] 未来基础设施需求 - 具身智能对云计算有高可用性和“网存算一体”的极端通信需求 [10] - 新计算范式需要超大规模基础设施和全栈基础积累 [11] - 未来每个家庭、工厂、公司都需要众多Agent和机器人24小时服务 [11] - 每个人可能需要使用100张GPU芯片,全球可能只有5-6个超级云计算平台 [11]
基于模仿学习的端到端决定了它的上限不可能超越人类
自动驾驶之心· 2025-09-24 06:35
自动驾驶VLA技术趋势与行业认知 - 基于模仿学习的端到端自动驾驶本质是模仿人类行为,对物理世界的理解并不透彻 [1] - 端到端技术标志着智能驾驶从规则驱动向数据驱动的根本转变,但在面对复杂困难场景时仍然受限 [2] - 视觉语言模型提供了从模仿人类到成为人类的可能性,其更强大的通用泛化能力为解决corner case提供了新路径 [2] - VLA技术栈尚未收敛,一系列新算法正不断涌现 [3] 自动驾驶VLA实战课程核心内容 - 课程涵盖VLA三大子领域:作为解释器的VLM、模块化与一体化VLA、推理增强VLA [12] - 系统讲解视觉感知、语言模型、动作基础等核心技术模块 [12][21] - 包含大模型与自动驾驶结合的前沿技术:RAG、CoT、RL、MoE等 [12][21] - 提供从数据集定义到模型搭建、训练、性能提升的完整实战路径 [5][23] 课程教学团队与资质 - 讲师团队来自清华大学等顶尖院校,在ICCV、IROS、EMNLP等顶级会议发表多篇论文 [6][7][8][9][10] - 团队具备丰富的自动驾驶、大模型研发和实战经验,GitHub开源项目总Star数超过2k [6][8][10] - 教研团队联合国内外学术力量共同打造国内最新VLA实战课程 [16] 课程特色与学习价值 - 采用Just-in-Time Learning理念,直击学习痛点,帮助学员快速掌握核心技术栈 [17] - 构建领域框架,提升研究能力,帮助学员形成自己的研究体系和工作经验 [18] - 理论结合实践,配备实战环节,完成从理论到实践的完整闭环 [19][23] - 课程预计两个半月结课,采用离线视频教学加VIP群内答疑模式 [43] 自动驾驶VLA人才市场需求 - VLA/VLM大模型算法专家岗位薪资达40-70K,要求3-5年经验、硕士学历 [14] - 模型量化部署工程师薪资40-60K,要求1-3年经验、本科学历 [14] - 多模态VLA大模型方向顶尖技术人才薪资达90-120K,面向在校/应届博士 [14] - VLM实习生日薪220-400元,要求硕士学历 [14] 课程技术深度与实战项目 - 详细讲解BEV感知、目标检测、在线地图、OCC、轨迹预测等视觉感知技术 [21][32] - 涵盖Transformer基础、VL统一技术、判别式与生成式解码器等核心算法 [21] - 实战项目包括华科与小米的ReCogDrive和清华与博世的Impromptu VLA [22][23][33][35] - 大作业要求学员基于ms-swift框架搭建自己的VLA模型,完成数据准备、模型训练和微调全流程 [23][37]
自动驾驶VLA发展到哪个阶段了?现在还适合搞研究吗?
自动驾驶之心· 2025-09-22 08:04
智能驾驶技术演进 - 行业正经历从规则驱动向数据驱动的根本转变 端到端方法虽能打通上下游视角 但在复杂困难场景中仍受限 [1] - 视觉语言动作模型成为新焦点 其本质是一种更直白干净的端到端架构 取消了复杂的3D感知任务 借鉴视觉语言模型的通用泛化能力 提供解决极端案例的可能性 [1] 技术发展现状 - 自动驾驶视觉语言动作模型技术栈尚未收敛 多种算法如雨后春笋般涌现 包括模块化架构和一体化架构等不同范式 [2] - 行业面临技术栈多样化带来的入门困难 论文数量繁多且知识碎片化 缺乏高质量文档和系统实战指导 从理论到实践的过渡存在挑战 [2] 课程体系设计 - 课程采用即时学习理念 通过通俗易懂的语言和案例帮助学员快速掌握核心技术栈 [3] - 构建领域框架提升研究能力 帮助学员梳理研究发展脉络 掌握核心框架 学会论文分类和创新点提取 [4] - 理论结合实践完成闭环学习 配备实战环节实现从理论到实践的完整过渡 [5] 课程内容架构 - 第一章概述视觉语言动作模型算法概念及发展历史 详细介绍开源基准测试和常见评测指标 [14][15] - 第二章聚焦视觉 语言 动作三大模块的基础知识 并扩展大模型部署使用内容 以Qwen 2.5VL-72为例讲解本地部署 [16][17] - 第三章讲解作为自动驾驶解释器的视觉语言模型经典算法 包括DriveGPT4 TS-VLM DynRsl-VLM SENNA等 重点分析算法动机和网络结构 [18][19] - 第四章深入模块化与一体化视觉语言动作模型 涵盖BEV感知 动静态检测 占用网络 轨迹预测 序列建模 模态对齐 动作解码器 RAG 思维链 监督微调 强化学习 混合专家模型等技术要点 [20][21] - 第五章专注推理增强视觉语言动作模型子领域 讲解思维链 记忆体 工具调用等推理模块 分析长时序规划和因果解释能力 [23][24] - 第六章设置大作业实践 基于ms-swift框架开展自定义数据集训练和模型微调 提供可修改优化的演示代码 [26] 实战案例配置 - 选用华科与小米最新提出的ReCogDrive作为第四章实战案例 包含预训练 模仿学习训练和强化学习训练三阶段 涵盖GRPO和扩散模型轨迹输出等技术栈 [22] - 选用清华AIR与博世提出的Impromptu VLA作为第五章实战案例 基于开源Qwen2.5 VL进行数据集制作 训练和推理 [24] 师资与学术资源 - 教学团队来自清华大学和QS30高校 在ICCV IROS EMNLP等顶级会议发表多篇论文 具备多模态大模型与自动驾驶研发经验 [27] - 课程覆盖多项前沿研究成果 包括慕尼黑工大OpenDriveVLA 上海交大DriveMoE 博世DiffVLA UC Berkeley S4-Driver 华科ORION 阿里FutureSightDrive UCLA AutoVLA 中科院Drive-R1等 [29][30] 教学安排要求 - 课程于10月20日开课 预计两个半月完成 采用离线视频教学配合VIP群答疑和三次线上答疑 [32] - 学员需自备4090及以上算力GPU 具备自动驾驶基础 Transformer大模型 强化学习 BEV感知等技术背景 熟悉Python和PyTorch开发语言 [31]
拟派发现金红利10.3亿!药明康德实施首次中期分红
新浪财经· 2025-09-22 03:07
分红与股东回报 - 公司实施首次中期分红方案 派发现金红利共计10.3亿元 其中A股派发约8.66亿元(含税) 派发日期为9月26日 [1] - 今年以来通过年度分红、特别分红和中期分红累计派发现金红利48.8亿元 现金分红和股份回购及注销合计达68.8亿元 占2024年归母净利润70%以上 [1] 财务业绩表现 - 上半年营业收入207.99亿元 同比增长20.6% 归母净利润82.87亿元 同比增长95.5% 均创历史同期新高 [1] - 第二季度营业收入111.45亿元 首次在第二季度突破百亿规模 第二季度归属净利润48.89亿元 创历史同期新高 [1] - 经调整Non-IFRS净利润63.15亿元 同比增长44.43% [4] 业务运营与订单情况 - 截至2025年6月末持续经营业务在手订单566.9亿元 同比增长37.2% [2] - 报告期内持续经营收入204.1亿元 其中美国客户收入140.3亿元(同比增长38.4%) 欧洲客户收入23.3亿元(同比增长9.2%) 中国客户收入31.5亿元(同比下降5.2%) 其他地区客户收入9.0亿元(同比增长7.6%) [2] 业绩驱动因素 - 公司聚焦"一体化、端到端"CRDMO业务模式 持续拓展新能力、建设新产能 优化生产工艺提升经营效率 [4] - 出售联营公司WuXi XDC Cayman Inc部分股权获得投资收益约32.10亿元 占净利润比例达38.74% [4] 财务预测与指引 - 预计2025年持续经营业务收入增速从10%-15%上调至13%-17% 全年整体收入预期从415-430亿元上调至425-435亿元 [4] 应收账款状况 - 应收账款从2020年36.65亿元持续增长至2025年第一季度73.18亿元 [5] - 应收账款占营业收入比重持续攀升 从2022年15.18%上升至2023年19.59% 2024年进一步增加至20.26% [5] 股价表现 - 9月22日A股股价震荡下行 一度上涨1.83%后下跌0.10% 报108.64元/股 市值3206.5亿元 [1]