端到端
搜索文档
宇树科技IPO辅导火速通关 冲刺A股“人形机器人第一股”
21世纪经济报道· 2025-11-17 13:24
宇树科技IPO进展 - 宇树科技IPO辅导状态更新为“辅导验收”,已完成递交招股书前的准备工作,计划在10月到12月正式递交IPO招股书 [1] - 公司从7月7日开启IPO辅导到11月10日完成验收,仅用132天,远快于平均6-12个月的辅导时长,辅导速度创下A股新纪录 [1][4] - 辅导券商中信证券出动了合计24位辅导人员的团队,帮助公司快速完成股份制改造、募投计划、公司治理等辅导工作 [2] 公司治理与资质 - 宇树科技在10月23日完成董事变更,新任董事李宗彦、倪晨凯、宋华盛三人均为高校教授且有上市公司独立董事经历,此举是完善新董事会架构的关键步骤 [2][3] - 公司年营收已超10亿元,满足科创板上市规则中未盈利企业最低营收2亿元以上的要求 [5] 人形机器人行业资本化动态 - 除宇树科技外,人形机器人头部企业资本化诉求强烈,乐聚机器人已递交境外上市申请,智元机器人有赴港IPO计划或通过买壳方式上市 [2] - 行业普遍面临上市后两难选择:需提振报表数据维持资本市场信心,又需持续投入算力资源追求通用具身智能,这可能导致报表数据不佳 [7] 行业技术与市场挑战 - 工业场景人形机器人面临两大技术路径争议:“端到端”高算力方案存在节拍不足、幻觉较多问题,且客户需承担持续工作的算力成本;“遥操”固定算法方案虽稳定性好,但难以体现通用机器人的优势 [7][8] - 市场开拓存在风险,教育类、展览类人形机器人销售在2025年后可能遇瓶颈,工业场景则可能面临良率不足、交付不及预期、产能无法释放等问题 [7] - 当前各公司营收主力并非双足人形机器人,宇树科技过往销售主力为四足机器人,优必选则以消费级家用机器人如扫地机器人为营收主力 [8]
马斯克宣布:无方向盘时代正式倒计时
老徐抓AI趋势· 2025-11-06 01:12
特斯拉自动驾驶技术突破 - 特斯拉宣布即将实现无人监督自动驾驶的安全性全面超越人类 [2] - 公司计划在明年第二季度正式生产无方向盘和脚踏板的Cybercab车型 [2] - 方向盘消失象征汽车工业百年来的范式转变 [5] 端到端自动驾驶技术优势 - 特斯拉采用端到端AI学习模式而非传统规则编写方法 [8] - 系统通过神经网络处理视频、速度、导航数据直接输出驾驶指令 [10] - 已积累60亿英里真实行驶数据 每日新增数据相当于人类驾驶500年 [10] - FSD V12版本删除33万行代码 全部由神经网络取代 [11] - 系统具备危险预判能力 能在事故发生前0.3秒开始减速 [10] 世界模型与虚拟训练 - 特斯拉构建超逼真虚拟地球模型用于测试验证 [13] - 虚拟环境可重现各种道路、天气、光线及驾驶行为 [13] - 虚拟训练效率提升达百万倍级别 同时训练自动驾驶和机器人Optimus [13][15] - 同一套AI大脑可迁移至人形机器人及其他可移动物体 [20] 行业影响与市场前景 - 无方向盘设计将重估汽车行业生态 非自动驾驶车辆残值可能大幅下降 [17] - 2026年被视为产业重生标志 车辆将具备自主行驶和盈利能力 [31] - 特斯拉可能重现2019-2020年股价大幅上涨行情 [19] - AI大脑将扩展至卡车、仓储机器人、安保机器人等多领域应用 [20]
IPO前夜互掐,一场价值超90亿元的口水战
虎嗅APP· 2025-11-04 13:34
事件背景 - 小马智行在面向香港投资人的路演PPT中,将文远知行的开放运营城市仅标注为“北京”,订单量标注为“零”[6] - 此举引发文远知行CFO李璇连夜发文驳斥,称小马智行有“片面不实、刻意贬低的表述”,并就运营区域、运营数据、技术实力及技术路线逐一进行回应[6] - 两家公司同样定于11月6日冲刺港股,此次交锋发生在上市前夕的敏感时刻[9] 竞争核心:数据规模 - 自动驾驶行业的估值关键基石是数据规模与技术路线的先进性[11] - 车队行驶的总里程是核心指标,因为里程越多,捕获的有效数据越丰富,算法迭代的燃料就越充足[11] - 小马智行招股书内总行驶里程为4860万公里,文远知行官网显示总里程超4000万公里,但最新招股书内数字改为5500万公里,双方实力在伯仲之间[11] 竞争核心:技术路线 - 争论焦点在于谁真正掌握了更前沿的“端到端”技术[13] - 文远知行强调其与博世、奇瑞合作的“一段式端到端”方案已实现量产,并反驳小马智行称其仅有“两段式”技术的说法[12] - 文远知行同时指出“小马智行L2+项目没有量产”,暗示其宣称的“完全端到端”缺乏落地支撑[12] - “端到端”技术由马斯克在2023年力推,被视为自动驾驶下一代解决方案,能否跟上此潮流直接关系到公司的创新形象和市场估值[13] 行业背景与商业化困境 - 两家公司同为百度系出身,早期路径高度重合:聚焦L4,推进Robotaxi试点[16] - Robotaxi商业化进展缓慢,而L2+辅助驾驶市场竞争激烈[16] - 政策是影响自动驾驶发展的关键因素,政策开放的缓步前行使得Robotaxi规模化难以实现[17] - 技术优势不再绝对,商业化路径不确定,两家公司都尝试向L2+市场寻求出路,但面临华为、Momenta等强敌以及车企自研的竞争压力[18] 财务状况与上市募资 - 2025年上半年,小马智行净亏损6.81亿元,同比扩大约75.07%,文远知行净亏损7.92亿元,同比收窄10.32%[18] - 小马智行三年半合计亏损34亿元,文远知行三年半合计亏损65亿元[18] - 小马智行美股总市值70.82亿美元,文远知行为34.09亿美元,即便上半年文远知行的毛利率约为小马智行的两倍[19] - 小马智行香港上市最终发行价定为每股139港元,预计募集约67.1亿港元(约合8.64亿美元),并确认5名基石投资者[19] - 文远知行计划在香港发行约8825万股股票,筹资29.32亿港元,无基石投资者[19] - 小马智行募资主要用于做规模、补研发,其上半年现金流出暴涨超459.55%;文远知行募资主要用于自动驾驶技术开发、L4级车队的商业化量产和运营[19] 竞争态势总结 - 当前自动驾驶赛道远未到你死我活的程度,两家公司的交锋更像是L4赛道集体焦虑的一次集中宣泄[20] - 在真正的蛋糕做大之前,关于规模和技术的较量或许只是漫长竞赛中的一个插曲[20]
端到端和VLA,这些方向还适合搞研究
自动驾驶之心· 2025-11-03 00:04
自动驾驶技术发展路线 - 技术路线从基于规则时期转变为以理想、小鹏等新势力为代表的端到端到VLA范式时期,现阶段进入以蔚来为代表的世界模型时期[1] - 深度学习始终是技术路线的核心组成部分,行业建议学习前沿理论、底层基础理论和代码能力以应对技术快速迭代[1] 课程内容与目标 - 课程涵盖从模块化量产算法到端到端、VLA的技术演进,核心算法包括BEV感知、视觉语言模型VLM、扩散模型、强化学习、世界模型等[5] - 学习目标为掌握端到端技术框架,复现扩散模型、VLA等主流算法,学完后可达1年左右端到端自动驾驶算法工程师水平[5] 导师资质与行业资源 - 主讲导师为C9本科+QS前50 PhD背景,发表CCF-A论文2篇,现任国内TOP主机厂算法专家,主持过多项自动驾驶感知和端到端算法的量产交付[6] - 公司拥有300+专职于自动驾驶/具身智能方向的导师,来自全球QS前100高校,近3年辅导学员超400名,中稿率达96%[8][15] - 优秀学员可获得清北/MIT等名校推荐信或内推至阿里达摩院、华为诺亚方舟等企业研发岗[19] 科研辅导服务 - 辅导覆盖选题、调研、idea验证、代码实现、实验、润色、投稿全流程,目标包括CCF-A/B/C、SCI1-4区、EI会议等[15] - 服务包含班主任全程督学,针对零基础学员提供基础课程,承诺6个月可完成一篇小论文[18] - 通过精准匹配系统从300+导师中筛选3-5位方向契合者,支持试听和退款机制[18][19]
摇人!寻找散落在各地的自动驾驶热爱者(产品/4D标注/世界模型等)
自动驾驶之心· 2025-10-25 16:03
业务拓展方向 - 公司计划在自动驾驶领域的企业培训和求职辅导等方向进行业务拓展 [2] - 合作领域包括技术服务、培训、课程开发与科研辅导等多个方面 [2] - 主要面向自动驾驶产品经理、4D标注/数据闭环、世界模型、VLA、自动驾驶大模型、强化学习、端到端等多个技术方向 [4] 目标客户与岗位说明 - 培训合作业务B端主要面向企业和高校、研究院所 [5] - 培训合作业务C端面向较多学生和求职类人群 [5] - 岗位职责包括自动驾驶培训合作、课程开发和原创文章创作 [5] 合作与资源 - 公司面向全球自动驾驶领域从业者发出合作邀请 [2] - 公司将提供高额的酬金与丰富的行业资源以吸引合作伙伴 [3] - 感兴趣的从业者可通过指定微信联系方式进行进一步咨询 [6]
VLA/世界模型/WA/端到端是宣传分歧, 不是技术路线分歧
理想TOP2· 2025-10-25 05:21
自动驾驶技术路线定义与共识 - VLA/世界模型/端到端等技术路线缺乏公认的排他性定义,其共同点是要求模型具备生成与真实世界一致的道路视频数据的能力,并以视觉信息为输入最终控制车辆行动 [1][2] - 技术路线之间的核心区别在于语言是否参与、参与深度以及架构形式,例如语言相关的token是当前LLM的text token还是潜在的photon token [2] - 不同企业宣传的VLA细节可能存在巨大差异,未来VLA与VLA之间的区别可能大于VLA与传统方法的区别 [2][3] 头部车企技术路线共性分析 - 头部智驾车企在自动驾驶探索上共同性大于差异性,内核是宣传分歧而非技术路线分歧 [1] - 理想汽车与特斯拉均认为扩散模型有利于自动驾驶,3D高斯泼溅生成世界模型优于神经辐射场,且世界模型用于评估很重要 [12] - 两家公司均认为将人类价值观编入代码极其困难,并且在输出层面,理想汽车认为输出轨迹优于直接输出油门方向盘电信号 [5][12] 语言在自动驾驶中的作用与潜力 - 语言在自动驾驶中的作用主要体现在长推理、用户交互价值观对齐以及理解世界 [1] - 对“预测下一个token”的理解分歧影响对LLM潜力的判断,越认为其不只是概率分布的人越认可语言可以理解世界 [1][12] - OpenAI联合创始人Ilya Sutskever认为,足够好的下一个token预测意味着模型理解了token产生的潜在现实,这使其可能推断出超越已有数据范围的高智慧行为 [13][15][17] 端到端架构的具体实现探讨 - 端到端缺乏公认的排他性定义,传感器信号进、输出轨迹亦可称为端到端,在此定义下理想汽车的VLA架构符合端到端特征 [5][7] - 有观点认为特斯拉端到端模型实际输出的是轨迹而非油门方向盘电信号,依据包括跨车型适配的冗余设计问题及特斯拉高管在公开场合的模糊回应 [5][6] - 特斯拉技术负责人Ashok Elluswamy在ICCV 2025上表示,端到端的核心前提是梯度必须端到端流动,输出形式是经验性问题,这进一步支持了端到端定义的宽泛性 [6] 技术演进的长远视角 - 马斯克提出长远来看AI模型输入和输出99%以上将是光子,这回应了关于DeepSeek-OCR等工作中降低计算量的潜力 [10] - VLA定义的最大公约数是输入为视觉或多模态,语言以某种形式参与,最终输出指向广义机器人动作的模型 [11] - 长远来看,可能不再使用text token来理解语言,而是采用更底层的表征方式 [10][11]
自动驾驶之心合伙人招募!
自动驾驶之心· 2025-10-24 16:03
业务拓展计划 - 公司计划在2024年向国内外招募10名业务合伙人 [2] - 合伙人将负责自动驾驶相关课程研发、论文辅导业务开发及硬件研发 [2] 重点技术方向 - 公司关注的前沿技术方向包括大模型/多模态大模型、扩散模型、VLA、端到端自动驾驶 [3] - 其他重点方向涵盖具身交互、联合预测、SLAM、3D目标检测、世界模型 [3] - 同时关注闭环仿真3DGS、大模型部署与量化感知推理等关键技术 [3] 人才招聘要求 - 合伙人岗位要求应聘者毕业于QS200以内高校并拥有硕士及以上学历 [4] - 优先考虑在顶级学术会议上有研究成果的候选人 [4] 合伙人待遇与激励 - 提供自动驾驶领域的资源共享,包括求职、读博及出国留学推荐 [5] - 合伙人将获得丰厚的现金激励 [5] - 提供创业项目合作与推荐机会 [5]
自动驾驶“黑话”使用手册:新势力造车又“造词”
36氪· 2025-10-20 08:33
行业技术趋势与话语权竞争 - 自动驾驶行业出现大量技术“黑话”,如VLA(视觉语言动作模型)和“世界模型”,这反映了车企在硬件同质化后围绕下一代技术话语权的争夺战 [1] - 智驾能力成为新势力最关键的身份标签,抢先定义未来意味着抢占用户认知与技术品牌高度 [1] - 存在“期货式”技术发布现象,有车企高管坦言团队常在技术未成熟时被推至台前发布,导致交付节点压力巨大 [2] 技术演进路径:从规则到特斯拉引领 - 2022年前行业技术路径由特斯拉和Waymo定义,早期辅助驾驶基于工程师编写的规则,分为感知、规划、控制三大模块 [3] - 特斯拉自2016年起引领行业从规则时代走向AI,并在2021年AI DAY公布BEV+Transformer架构,将多摄像头2D图像统一投射形成360°鸟瞰图,实现跨摄像头特征“前融合” [3] - BEV+Transformer使特斯拉摆脱对高精地图依赖,仅凭传感器实现广泛场景泛化,并在FSD Beta V11将NOA功能从高速扩展到城市道路 [4] - 2022-2023年,小鹏XNGP、蔚来NOP+、理想AD Max 3.0、华为ADS2.0相继实现自研BEV+Transformer方案量产,并展开无图NOA“开城”竞速 [4] 范式转移:端到端技术 - 特斯拉在2022年AI DAY推动以“端到端”为核心的范式转移,用庞大神经网络同时处理感知、规划,取代30万行代码 [5][6] - 中国新势力集体转向端到端架构,小鹏和华为早期采用保守的“多段式”端到端,将感知和规划模块分别用模型取代 [6] - 小鹏在2024年中向所有扶摇架构车型推送“一段式”端到端系统,华为ADS 3.0宣布升级为“端到端”架构 [6][7] - 地平线将端到端系统演化分为三代:第一代两段式、第二代一段式加重后处理、第三代更彻底的端到端 [8] - 地平线CEO余凯在2024年4月坦言,当时国内还没有真正的一段式端到端 [8] 新范式:VLA模型的应用与竞赛 - VLA模型最初用于让机器人理解人类语言指令并执行动作,自动驾驶汽车被视为“轮式机器人” [9][10] - 特斯拉的端到端系统架构被认为应用了VLA理念,元戎启行是首个公开宣称将VLA技术应用于自动驾驶的公司 [10] - 理想在2025年3月将其双系统方案切换为VLA方案,并于2025年8月在理想i8上率先实现量产 [10] - 小鹏计划2025年三季度推送其VLA方案,在车端堆了2200 Tops算力,其中约1200 Tops用于辅助驾驶 [11] 算力竞赛:云端与车端 - 算力竞赛蔓延到云端,特斯拉2025年预计累计储备8.5万颗英伟达H100,小鹏云端算力规模为10 EFlops,理想超过13 EFlops [11] - 小鹏和理想用云端算力研发大参数量基座模型,小鹏基座模型参数量为720亿,是主流VLA模型的35倍 [12] 世界模型:从仿真到车端控制 - 世界模型研究始于2018年,让AI智能体通过“想象”进行规划学习,特斯拉通过占用网络构建3D空间的做法应用了此思路 [13] - 理想和小鹏将世界模型用于仿真测试和云端训练,理想用其搭建“考试系统”,小鹏用其训练720亿参数基座模型 [13] - 蔚来和华为更激进地将世界模型直接部署于车端,蔚来命名NWM,能在行驶中每0.1秒生成216种可能轨迹并选优 [14] - 华为2025年4月发布WEWA架构,同样将世界模型用于实时控车,并视其为“通向自动驾驶的终极方案” [15] 关键技术术语解析 - BEV+Transformer:特斯拉提出的视觉感知技术,将多摄像头2D图像投射到统一3D俯视坐标系形成360°环境感知 [18] - 占用网络:用于3D环境感知的AI模型,将周围空间划分为微小体素来识别未知物体,特斯拉提出后国内车企跟进自研 [19] - 端到端:系统接收传感器信号后直接输出行驶轨迹控制车辆,特斯拉FSD V12首次应用 [29] - VLA:视觉-语言-动作模型,通过海量“图像-文本-动作”数据协同训练,使机器能根据语言指令或视觉理解执行动作 [31] - 世界模型:让智能体内部对真实世界动态规律建模模拟的模型,用于预测未来状态序列 [39]
新势力卖车,为何满嘴“黑话”?
虎嗅· 2025-10-20 07:22
行业技术演进背景 - 自动驾驶行业技术术语频出,如“端到端”、“VLA”、“世界模型”,反映了下一代技术话语权的争夺[1] - 当硬件配置趋于同质化,智能驾驶能力成为新势力车企最关键的身份标签和品牌差异化要素[1] - 技术“黑话”不仅是技术路线的宣言,更是对技术品牌的精心包装,但背后存在落地体验落差与研发团队承压的问题[2] 技术架构演进:从规则到BEV - 早期辅助驾驶系统基于工程师编写的规则,分为感知、规划、控制三大模块[4] - 特斯拉在2021年AI DAY上公布BEV+Transformer技术架构,将多个摄像头2D图像统一投射到俯视坐标系形成360°鸟瞰图,有效解决遮挡与透视问题[4] - BEV+Transformer实现了跨摄像头特征的“前融合”,相比传统“后融合”方法大大提升了感知能力,并使特斯拉摆脱了对高精地图的依赖[5][6] - 2022-2023年,小鹏XNGP、蔚来NOP+、理想AD Max 3.0、华为ADS2.0相继实现自研BEV+Transformer方案量产,并展开无图NOA的“开城”竞速[8] 范式转移:端到端技术 - 特斯拉在2022年AI DAY披露FSD Beta V12架构,用一个庞大神经网络同时处理感知、规划,取代30万行代码,推动以“端到端”为核心的范式转移[9] - 中国新势力集体转向端到端架构,但早期出于安全考量,小鹏和华为采用相对保守的“多段式”端到端,将感知和规划模块分别用模型取代[10] - 小鹏在2024年中才向所有扶摇架构车型推送“一段式”端到端系统,华为ADS 3.0也宣布升级为“端到端”架构[10] - 理想在2024年发布“端到端+VLM”双系统方案,端到端模型负责“快思考”处理常规场景,VLM模型负责“深思考”应对复杂情况[12] - 地平线将端到端系统演化分为三代:第一代两段式、第二代一段式加重后处理、第三代更彻底的端到端,实现更拟人驾驶体验[14][16] 新一代技术架构:VLA与世界模型 - VLA模型将视觉感知、语言理解与物理动作控制关联,让机器根据人类语言指令或视觉场景理解执行动作[15][46] - 理想在2025年3月将双系统方案切换为VLA方案,并于2024年8月在理想i8上率先实现量产;小鹏计划2024年三季度推送其VLA方案[18] - 世界模型让AI智能体通过“想象”进行规划学习,再迁移到真实环境;蔚来直接将世界模型部署到车端命名为NWM,华为发布WEWA架构同样将世界模型用于实时控车[21][24][25] - 特斯拉通过占用网络构建3D空间的做法应用了世界模型思路,理想和小鹏将世界模型用于仿真测试和云端训练[23] 算力竞赛与模型研发 - 小鹏在车端堆叠2200 Tops算力,其中约1200 Tops用于辅助驾驶,理想的AD Max算力为700 Tops,蔚来的神玑NX9031芯片算力1000 Tops[18] - 小鹏CEO何小鹏预测特斯拉下一代硬件平台AI 5算力将在2000 Tops-4000 Tops之间[18] - 算力竞赛蔓延到云端:特斯拉2025年计划储备累计8.5万颗英伟达H100,小鹏云端算力规模为10 EFlops,理想超过13 EFlops[18][55] - 小鹏基座模型参数量为720亿,是主流VLA模型的35倍,通过知识蒸馏技术生成较小模型再部署到车端;理想基座模型起初用于智能座舱后延用到自动驾驶[19][54] 传感器技术路线 - 自动驾驶存在纯视觉与激光雷达两大感知路线:特斯拉坚持纯视觉,理想今年起标配激光雷达,小鹏取消激光雷达改用摄像头+4D毫米波雷达,华为和蔚来在高阶方案中搭载激光雷达[36] - 激光雷达成本已下降到200美元,4D毫米波雷达常被当作激光雷达的“平替”[36] - “无图”方案通过车载传感器实时感知理解道路,不依赖高精地图,对车辆感知和决策能力要求更高[37]
工业界和学术界都在怎么搞端到端和VLA?
自动驾驶之心· 2025-10-17 00:03
端到端自动驾驶技术趋势 - 端到端算法是当前自动驾驶量产的核心算法,技术栈丰富,业内主要存在一段式和两段式两大类范式 [1] - 一段式范式以UniAD为代表,直接从传感器输入建模自车轨迹输出,而二段式则基于感知结果进一步输出自车和他车轨迹 [1] - 一段式端到端算法可进一步延伸出基于感知、扩散模型、世界模型以及视觉语言模型(VLA)等多种子领域,尤其是基于VLA的算法相关论文正爆发式发表,工业界也在争先量产 [1] 自动驾驶VLA与大模型技术 - 核心算法涉及BEV感知、视觉语言模型(VLM)、扩散模型、强化学习、世界模型等,代表了学术界和工业界最前沿的技术方向 [3] - 自动驾驶VLA与大模型实战课程聚焦VLA领域,内容涵盖从VLM作为自动驾驶解释器,到模块化VLA、一体化VLA,以及当前主流的推理增强VLA [3] - 课程配套理论基础梳理,包括Vision/Language/Action三大模块、强化学习、扩散模型等,并设有大作业章节指导从零搭建VLA模型及数据集 [3] 课程师资与团队 - 课程教师团队包括来自清华大学等顶尖院校的研究人员,在ICCV、IROS、EMNLP等国际顶级会议发表多篇论文,研究方向涵盖多模态感知、自动驾驶VLA、大模型Agent等前沿领域 [8][11] - 教师团队具备丰富的自动驾驶、大模型研发和实战经验,例如有教师主持完成多项自动驾驶感知和大模型框架工具,其维护的开源项目总Star数超过2k [8] - 工业界教师团队包括来自国内顶级主机厂的算法专家,拥有CCF-A/B论文发表记录,并主持完成多项自动驾驶感知和端到端算法的产品量产交付,具备丰富的端到端算法研发经验 [12][14] 端到端自动驾驶课程内容 - 端到端与VLA自动驾驶课程由工业界专家带队,聚焦端到端自动驾驶宏观领域,梳理一段式/两段式方向的重点算法和理论基础 [12] - 课程详细讲解BEV感知、大语言模型、扩散模型和强化学习等关键技术 [12] - 课程设计两大实战项目:基于扩散模型的Diffusion Planner和基于VLA的ORION算法 [12] 课程参与要求 - 参与者需要自备GPU,推荐算力在RTX 4090及以上 [15] - 参与者需具备一定的自动驾驶领域基础,熟悉自动驾驶基本模块,并了解transformer大模型、强化学习、BEV感知等技术的基本概念 [17] - 参与者需具备一定的概率论和线性代数基础,熟悉常用数学运算,并具备一定的Python和PyTorch语言基础 [17]