世界模型
搜索文档
随到随学!端到端与VLA自动驾驶小班课正式结课
自动驾驶之心· 2025-12-09 19:00
行业技术发展趋势 - 2023年是端到端自动驾驶量产的元年,2024年将是其量产的大年,目前头部新势力和主机厂均已实现端到端量产 [1] - 工业界存在两种主要技术范式:一段式(如UniAD,从传感器输入直接建模自车轨迹)和二段式(基于感知结果进一步输出自车及他车轨迹) [1] - 自2023年以来,一段式端到端技术发展迅速,衍生出基于感知、世界模型、扩散模型及视觉语言模型(VLA)等多种方法 [3] - 主流自动驾驶企业,包括智驾方案供应商和车企,均在发力端到端自动驾驶的自研与量产 [3] - 基于视觉语言模型(VLA)的端到端方法被认为是目前该领域的皇冠,上限高且难度大,因此业内招聘需求也最为旺盛 [12] 课程核心内容与结构 - 课程旨在系统讲解端到端与VLA自动驾驶,内容涵盖BEV感知、视觉语言模型、扩散模型、强化学习等前沿技术栈 [5] - 第一章介绍端到端算法的发展历史、概念起源、从模块化到端到端的演进,以及一段式、二段式和VLA范式的优缺点与适用场景 [8] - 第二章重点讲解端到端涉及的背景知识,包括大语言模型、扩散模型、强化学习及BEV感知,这些被认为是未来两年求职面试的高频技术关键词 [8][9] - 第三章聚焦二段式端到端,解析其定义、出现原因,并讲解经典算法PLUTO、CVPR'25的CarPlanner及最新的Plan-R1等工作 [9] - 第四章作为课程精华,深入讲解一段式端到端的各个子领域:基于感知的UniAD、基于世界模型、基于扩散模型以及基于VLA的方法 [10] - 第五章设置RLHF微调大作业,进行实战演练,内容包括预训练与强化学习模块搭建,该技能可迁移至VLA相关算法 [11][13] 关键技术详解与实战案例 - 基于感知的一段式方法将讲解奠基之作UniAD、地平线VAD以及CVPR'24的PARA-Drive [12] - 基于世界模型的方法将讲解AAAI'25的Drive-OccWorld和复旦团队的OccLLaMA,世界模型技术方向热门,应用广泛,包括场景生成、端到端驾驶和闭环仿真 [12] - 基于扩散模型的方法将讲解业内应用广泛的DiffusionDrive、Diffusion Planner和吉大的DiffE2E,并配有Diffusion Planner实战,扩散模型用于多模轨迹预测以更好适应环境不确定性 [12] - 基于VLA的方法将讲解小米的ORION、慕尼黑工大的OpenDriveVLA以及最新的ReCogDrive,并以小米ORION(截至2025年7月已开源推理和评测模块)作为实战案例 [12] - 课程第二章将详细拆解多项基础技术:从Transformer扩展到视觉Transformer,讲解CLIP和LLaVA;详解BEV感知在3D检测、车道线、OCC、轨迹预测与规划中的应用;讲解扩散模型理论;以及VLM相关的强化学习技术如RLHF和GRPO [11] 课程目标与受众要求 - 该课程是首个面向端到端自动驾驶的进阶实战教程,旨在推动端到端技术在工业界的落地 [14] - 期望学员学完后能达到具备1年左右经验的端到端自动驾驶算法工程师水平 [16] - 学员需自备GPU,推荐算力在RTX 4090及以上;需具备一定的自动驾驶领域基础,熟悉基本模块;了解transformer大模型、强化学习、BEV感知等基本概念;具备概率论、线性代数基础及Python和PyTorch编程能力 [16] - 课程收获包括:掌握涵盖一段式、两段式、世界模型、扩散模型等的端到端技术框架;对BEV感知、多模态大模型、强化学习、扩散模型等关键技术有更深刻理解;可复现扩散模型、VLA等主流算法框架;能够将所学应用于实际项目设计 [16]
端到端落地小班课:核心算法&实战讲解(7个project)
自动驾驶之心· 2025-12-09 19:00
讲师介绍 王路, C9本科+QS50 PhD,已发表CCF-A和CCF-B论文若干。现任国内TOP tier1算法专家,目前从事大模型、世界模型等前沿算法的预研和量产,所研发算法已成功 落地并量产,拥有丰富的端到端算法研发和实战经验。 课程大纲 点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近30个 方向 学习 路线 这两天和业内一位招聘朋友聊了聊,现在自驾的招聘需求在悄悄的发生一些变化。两年前热门的感知岗位进一步收缩, 目前需求较高的在端到端、VLA、世界模型 等方向上。 头部玩家已经验证了端到端这条路走的通,其他车企也开始铺 从模型优化、场景优化、数据优化,再到下游的规划兜底 人力和资源跟进。但候选人往 往只懂一部分,这些岗位其实涉及的技术栈很广。具体的量产经验如导航信息的引入、强化学习调优、轨迹的建模及优化都有很多门道,都是实际的落地痛点。 为 此我们花了三个月的时间设计了端到端量产进阶课程,从实战到落地层层展开。 该课程涉及的核心算法包括:一段式端到端、两段式端到端、导航信息的量产应用、开闭环强化学习、扩散模型+强化学习、自回归+强化学习、时空联合规划等 等,最后分享一些实 ...
Khosla 继 OpenAI 后的最大赌注,General Intuition 凭 38 亿个游戏高光片段做世界模型
海外独角兽· 2025-12-09 12:05
公司概况与融资 - 公司General Intuition是一家专注构建世界模型的公益性初创公司,其战略目标是成为“原子到原子”时代的智能标准,而非重新发明LLM [4] - 2024年10月,公司完成了高达1.34亿美元的种子轮融资,由硅谷传奇投资人Vinod Khosla领投,这是其自2019年首次投资OpenAI以来开出的最大单笔种子轮投资 [2][5] - 投资人Vinod Khosla的投资逻辑类似当年下注OpenAI,是基于第一性原理推演出的变革性技术路径,他看重的是公司宏大的终极愿景和战略推演能力 [6] 核心数据资产 - 公司从游戏高光片段剪辑平台Medal分拆而来,拥有超过38亿个游戏短视频片段,构成了其无法复制的独特数据集 [2][7] - 该数据集与Twitch或YouTube的流媒体直播有本质区别,它通过“回溯录制机制”天然经过了人类筛选,剔除了99%的无意义垃圾时间,只保留了代表“人类高光行为”的片段,被描述为人类在模拟环境中的“情景记忆” [11][12] - 数据不仅包含视频画面,还通过底层技术同步记录了玩家在每一帧下的具体操作输入,形成了数十亿小时的“人类操作(因)”与“屏幕反馈(果)”的完美配对数据 [13] - 公司对数据进行了标准化和隐私处理,雇佣了数千名标注员将不同游戏中的操作映射为标准化的动作空间,并规避了原始按键日志的隐私风险 [14] - 据CEO估计,公司拥有的带动作标签的视频数据集规模,比目前互联网上其他同类数据集高出1-2个数量级 [14] 技术路径与演示 - 公司的技术目标是构建真正的世界模型,其预测目标是在连续的物理空间中进行“下一个动作/状态预测”,这与LLM的“下一个词预测”形成本质区别 [31][32] - 技术演示显示,其训练的AI智能体在一款射击游戏中基于纯视觉输入进行实时对战,不依赖游戏底层代码或API,仅通过“看到”的屏幕像素来理解环境并生成操作 [20][21] - 智能体通过大规模模仿学习,表现出了拟人化特征,如准星移动带有自然平滑曲线,并复刻了人类玩家查看计分板、无聊切刀等“坏习惯”或“无意义动作” [23] - 模型展现出对“物体恒存性”的理解,即使在目标被烟雾或墙壁完全遮挡(部分可观测)的情况下,仍能根据其消失前的轨迹推测并锁定位置 [25] - 模型在生成画面时表现出物理一致性,例如在爆炸场景中生成原版游戏可能没有的镜头晃动,表明其正在学习跨越虚拟与现实的通用物理法则 [26][27] 与LLM的互补关系 - 公司认为其空间智能技术与LLM是互补而非竞争关系:LLM擅长处理被文本高度压缩后的符号逻辑,而公司模型旨在处理被文本压缩掉的、高维的时空信息,掌握人类的直觉与物理常识 [28][29] - 在未来AI架构中,LLM扮演“指挥官”角色,负责高层语义理解和任务规划;而公司的世界模型则是“执行者”,负责处理毫秒级的视觉输入和物理动作控制 [30] - 这种分工解决了LLM落地物理世界时推理延迟过高和缺乏物理直觉导致动作失败的两个致命问题 [30] 商业化路线图 - **第一阶段:游戏产业**。为游戏开发者提供API,用基于视觉的通用AI替换传统的硬编码逻辑或行为树,使游戏角色行为更自然。核心价值是充当“智能替补”,在非高峰时段生成与真人无异的AI对手,以提升玩家留存率 [34][36][37] - **第二阶段:模拟环境(如自动驾驶)**。利用虚拟世界(如模拟驾驶游戏)的低成本数据对现实世界模型进行预训练。例如,玩《欧洲卡车模拟》的玩家数量远超Waymo的实际路测车队,且能获取现实中稀缺的“负样本”(如车祸数据)。公司认为,模型在模拟中学到通用驾驶直觉后,现实自动驾驶公司可能只需原本1%或10%的真实路测数据进行微调即可达到同等安全性 [37][38][39] - **第三阶段:机器人与物理世界**。终极愿景是实现“Atoms to Atoms”闭环,驱动物理世界中的原子交互。公司设想在2030年,其模型能够驱动全球约80%的原子级物理交互(如抓取、移动、避障),成为智能的“金标准” [3][5][40] 创始团队与公司文化 - CEO Pim de Witte是技术产品型领袖,拥有深厚的游戏社区(Medal.tv创始人)、GPU编程和基础设施经验,并通过系统性学习深入理解深度学习与模型原理 [41][42] - 核心研究团队由在世界模型领域有开创性贡献的学者组成,包括GAIA(自动驾驶生成模型)核心负责人、DIAMOND论文作者等,他们因看重公司独一无二的数据集潜力而加入 [44][46] - 公司追求高“人才密度”,并致力于复兴AI领域的“开放研究文化”,例如与开放科学实验室Kyutai合作,认为其数据护城河允许其通过开放协作吸引顶尖人才 [44][47] 行业背景与机遇 - 公司崛起得益于“算力硬件的红利”,消费级GPU算力的指数级爆发使其技术路线在经济上可行。2024年的Diamond论文证明了复杂世界模型可在单张消费级显卡上以10 FPS或更高帧率运行 [17] - 这使得公司可采用“端侧推理”策略,将计算任务下放到用户本地设备(如玩家电脑),从而消除云端推理成本并解决延迟问题,这与LLM公司面临高昂云端推理成本的情况形成对比 [19] - 公司将其技术路径定位为AI发展的第三阶段(Atoms to Atoms),即机器人在物理世界中执行任务,而LLM主导的第一阶段(Bits to Bits,如文本生成)已趋于商品化 [4][5]
世界模型与自动驾驶小班课正式推出!特斯拉世界模型、视频OCC生成一网打尽~
自动驾驶之心· 2025-12-09 07:59
课程核心内容与定位 - 课程名称为《世界模型与自动驾驶小班课》,是首个面向端到端自动驾驶的进阶实战教程,旨在推动端到端技术在工业界的落地,并助力学员真正理解端到端自动驾驶 [2][10] - 课程由“自动驾驶之心”公众号联合工业界大佬推出,是继《端到端与VLA自动驾驶小班课》后进一步推出的课程,聚焦于通用世界模型、视频生成、OCC生成等世界模型算法 [2] - 课程讲师Jason拥有C9本科和QS50 PhD背景,发表多篇CCF-A/B论文,现任国内TOP主机厂算法专家,主持并完成多项自动驾驶感知和端到端算法的产品量产交付,具备丰富的研发和实战经验 [2] 课程大纲与章节详解 - **第一章:世界模型介绍** 复盘世界模型与端到端自动驾驶的联系,讲解其发展历史、当下应用案例,并介绍纯仿真、仿真+Planning、生成传感器输入、生成感知结果等不同流派,以及它们在业界的应用、解决的问题、所处环节、相关数据集和评测 [5] - **第二章:世界模型的背景知识** 讲解世界模型的基础知识,包括场景表征、Transformer、BEV感知等,为后续章节奠定基础,其内容是当下世界模型求职面试频率最高的技术关键词 [5][6] - **第三章:通用世界模型探讨** 聚焦通用世界模型和近期热门工作,涵盖李飞飞团队的Marble、DeepMind的Genie 3、Meta的JEPA、导航世界模型,以及业界广泛讨论的VLA+世界模型算法DriveVLA-W0和特斯拉ICCV上分享的世界模型模拟器 [6] - **第四章:基于视频生成的世界模型** 聚焦视频生成类世界模型算法,从Wayve的GAIA-1 & GAIA-2开始,扩展到上交CVR'25的UniScene、商汤的OpenDWM、中科大ICCV'25的InstaDrive,兼顾经典与前沿进展,并以商汤开源的OpenDWM进行实战 [7] - **第五章:基于OCC的世界模型** 聚焦OCC生成类世界模型算法,包含三大论文讲解和一个项目实战,此类方法不局限于OCC生成,可较易扩展为自车轨迹规划,从而进一步实现端到端 [8] - **第六章:世界模型岗位专题** 基于前五章算法基础,分享工业界应用经验,探讨行业痛点、期望解决的问题,以及如何准备相关岗位面试和公司真正关注的内容 [9] 课程技术深度与学后收获 - 课程将详细讲解Transformer、视觉Transformer、CLIP、LLAVA、BEV感知、占用网络(Occupancy Network)、扩散模型、闭环仿真、NeRF、3DGS、VAE、GAN及Next Token Prediction等关键技术概念 [11] - 课程涵盖OCC生成类世界模型的多个前沿工作,包括清华的OccWorld、复旦的OccLLaMA、华科ICCV'25的HERMES以及西交最新的II-World [12] - 学员学完本课程后,预期能够达到1年左右世界模型自动驾驶算法工程师水平,掌握世界模型技术进展(涵盖视频生成、OCC生成等方法),对BEV感知、多模态大模型、3DGS、扩散模型等关键技术有更深刻了解,并可复现II-World、OpenDWM等主流算法框架,能够将所学应用到项目设计中,对实习、校招、社招均有助益 [13] 课程安排与面向人群 - 课程开课时间为1月1号,预计两个半月结课,采用离线视频教学,辅以VIP群内答疑和三次线上答疑 [14] - 章节解锁时间安排如下:第一章于12月10日解锁,第二章于1月1日解锁,第三章于1月20日解锁,第四章于2月4日解锁,第五章于2月24日解锁,第六章于3月1日解锁 [14] - 面向人群需自备GPU(推荐算力在4090及以上),具备一定的自动驾驶领域基础,熟悉自动驾驶基本模块,了解transformer大模型、扩散模型、BEV感知等技术的基本概念,具备一定的概率论、线性代数基础以及Python和PyTorch语言基础 [13]
3个月斩获5亿元!华为重投的具身智能机器人创企,又完成新一轮融资!
Robot猎场备忘录· 2025-12-09 00:03
公司融资情况 - 公司于2025年12月8日完成2亿元A2轮融资,由达晨财智领投,老股东华控基金联合领投,多家知名机构跟投[2] - 公司在2025年内密集完成多轮融资,包括Pre-A轮、Pre-A+轮、A1轮及A2轮,A系列累计融资额达5亿元[3] - 公司自成立以来累计完成7轮融资,早期融资包括2024年9月的近5000万天使及天使+轮,以及2023年3月的数千万元种子轮[5] - 公司是华为投资的第二家具身智能领域创企,另一家千寻智能已完成5轮累计近14亿元融资[5] 公司定位与核心团队 - 公司于2023年1月在北京注册成立,定位为物理AI公司,专注世界模型驱动的物理世界通用智能,是国内第一家专注「世界模型 x 具身大脑」方向的科技公司[5] - 核心团队兼具业内领先的研究能力和大规模的产业落地经验,是少有的同时具备计算机视觉和大模型经验的创始团队[7] - 创始人兼CEO黄冠为清华大学人工智能方向博士,国家级创新领军人才,拥有超过十年AI技术和产业经验[10] - 首席科学家朱政为中科院自动化所博士、清华博士后,拥有超过70篇视觉和AI方向顶会论文,连续四年入选全球前2%顶尖科学家榜单[10] - 其他核心高管包括来自百度、阿里云、地平线等公司的资深工程、产品及算法负责人[10] 技术路线与产品布局 - 公司采取全栈自研策略,同时布局“本体+大脑”,产品包括世界模型平台GigaWorld、具身基础模型GigaBrain、通用具身本体Maker等物理AI全栈软硬件产品[8] - 软件层面,世界模型平台GigaWorld应用于驾驶和具身两个方向,已发表DriveDreamer、EmbodiedDreamer等多个代表性成果[11] - 2025年12月2日,公司发布并开源具身世界模型GigaWorld-0,全球范围内首次实现世界模型生成数据在VLA训练中占比达90%,并使具身VLA大模型性能飙升300%[11] - GigaWorld-0是业内首个采用FP8精度端到端训练的世界模型,在三大泛化维度上均实现近300%的性能提升[11] - 2025年7月,公司发布全球首个主要依靠世界模型生成数据驱动的端到端VLA具身基础模型GigaBrain-0 Preview[12] - 2025年10月底,与湖北人形机器人创新中心联合发布GigaBrain-0,为国内首个利用世界模型生成数据实现真机泛化的VLA基础模型[12] - 2025年10月31日,公司正式开源三大AI基础设施框架:GigaDatasets、GigaModels和GigaTrain[13] - 硬件层面,2025年11月26日公司推出首款轮式仿生机器人Maker H01,采用双臂+移动底盘形态,全身拥有二十余个自由度[14] - Maker H01搭配GigaBrain和GigaWorld工具链,旨在快速在家庭、商业服务、轻工业等开放场景中以更低成本、更高成功率落地[14] 业务与商业化进展 - 公司已和多个行业头部客户达成签约和量产合作,包括全球多个头部主机厂、多地人形机器人创新中心和实训场、多个具身方向头部工业/服务/家庭场景公司等[18] 行业背景与公司优势 - 在具身智能领域,双系统架构技术路径VLA模型已成为主流,但仍存在数据、黑盒风险、泛化能力等问题[19] - 业内人士认为,未来机器人通用大模型的架构演进方向之一是将“世界模型”引入决策推理流程[20] - 英伟达、谷歌DeepMind以及李飞飞的World Labs等头部科技公司和创企都在加速布局世界模型方向[20] - 公司是国内第一家专注世界模型方向的创企,并在世界模型和VLA大模型方向都处于领先水平[21] - 强大的AI能力是现阶段人形机器人商业化的核心壁垒,自研机器人大模型、构建技术闭环才能掌握主动权[21] - 具备强大AI能力且同时涉及本体的初创公司已成为资本市场青睐的对象,公司在2025年接连完成大额融资并取得商业化突破[22] - 公司采取具身智能大模型和人形机器人本体同时涉及的路线,在软硬件上全栈推进,是其被资本青睐的重要原因[22]
中游智驾厂商,正在快速抢占端到端人才......
自动驾驶之心· 2025-12-09 00:03
行业技术发展趋势 - 智能驾驶领域的技术焦虑正在产业链中游厂商间快速传播[1] - 业内认为端到端等前沿技术的大规模量产起点将在明年[2] - 当前智能驾驶前沿技术发展放缓,行业量产方案趋于同质化,L2级智能驾驶正走下沉路线[2] - 随着明年L3级法规的进一步推进,中游厂商面临迫切的技术升级压力[2] - 近期许多公司的算法负责人正积极寻求了解端到端、世界模型、VLA、3DGS等前沿技术[2] 市场现状与规模 - 二十万元以上的乘用车年销量约为700万辆[2] - 头部新势力品牌在该价格区间的销量占比不足三分之一[2] - 搭载端到端量产方案的车型占比则更低[2] - 地平线公司宣布将进军10万元级市场,表明高阶智能驾驶正迅速向更多国民车型下沉[2] 技术落地与产业影响 - 端到端技术不仅仅是一个算法,其成熟落地需要完善的云端与车端基础设施、数据闭环、工程部署、闭环测试、模型优化及平台开发等全套体系支持[2] - 端到端技术的成熟被视为更大规模量产的开端[2] - 可以预见,市场对中阶智能驾驶相关岗位的需求将更加旺盛[2] - 近几个月,行业对端到端和VLA技术的学习与入门需求显著增加[3] 行业培训与人才需求 - 为应对技术升级需求,出现了针对端到端和VLA技术的实战培训课程[3] - 相关课程由工业界与学术界的专家联合开展,聚焦量产落地[3] - 课程内容涵盖导航信息应用、强化学习优化、Diffusion和自回归模型量产经验、时空联合规划等关键模块[3] - 另有课程专注于VLA领域,内容从视觉语言模型作为解释器,覆盖到模块化、一体化及主流的推理增强型VLA[11] - 课程要求参与者具备一定的自动驾驶基础、了解Transformer大模型、强化学习、BEV感知等概念,并拥有Python和PyTorch编程能力[10]
智驾国产芯片格局变化
2025-12-08 15:36
行业与公司 * **行业**:智能驾驶(智驾)芯片与算法行业,涉及乘用车及Robotaxi/Robotone领域[1] * **主要公司**: * **整车厂**:蔚来、小鹏、理想、小米、比亚迪、奇瑞、吉利、长城、丰田、大众[1][3][4][5][6][7][9][10][11][12][13] * **芯片供应商**:英伟达、地平线、高通、黑芝麻、TI[1][4][7][9][10][11][12][17][22] * **算法/方案供应商**:Momenta、元戎[7][9][11][18][23][24][25] 核心观点与论据:车企智驾方案规划(2025-2026) * **蔚来汽车**:智驾方案全栈自研,主推世界模型但效果相对落后[1][3] 明年主要任务是提升车位到车位功能的接网率及处理复杂案例[1][3] 自研9031芯片已在ET9使用,明年将扩展至ET6、ET5、ES6和E6等车型,高端车型搭载两颗,中低端车型搭载一颗[3] 乐道和萤火虫系列预计仍将使用英伟达方案[1][3] * **小鹏汽车**:中高端车型(如G6、G7)将搭载自研图灵芯片,中端车一般配备两颗,高端车配备3至4颗,算力达1,000多TOPS[1][3] 算法重点在于VLA和世界模型的迭代,深度融合BL模块[1][3] 计划在Robotic业务线中使用4颗图灵芯片,优化Robot Taxi的通行效率和安全性[1][5] 还在开发第二颗算力高达2000多TOPS的高端芯片,但难度较大[21] * **理想汽车**:自研M100苏马赫芯片预计2026年Q2量产,首发于L9、I8等高端改款车型[1][5] AD Max系统将存在M100与地平线混合方案并存的情况[1][5] AD Pro系统继续采用地平线方案,但可能升级至G6H版本[1][5] 算法方面坚定走VOL路线,借鉴特斯拉架构[1][5] * **小米汽车**:计划在所有高端车型上采用英伟达42系列芯片[1][6] 自研玄戒O2芯片因未满足车规要求且量产难度大暂缓使用[6] 明年算法将采用以世界模型为主、语言模型辅助的架构,解决停车场出入、道路标识牌识别及城市通勤问题[1][6] * **比亚迪**:高端方案将升级至英伟达索尔方案,首发于仰望U8改款车型,由Momenta提供R6大模型plus版本算法[1][7] 终端方案天翼云B1有两个版本,一个继续使用Orin 3OX低成本方案,另一个可能使用地平线G6P[7] 计划大量采用Orin方案并替换地平线GLM低成本方案[1][7] 2026年Q3/Q4有望推出玄机芯片对标地平线G6M,应用于部分天使之眼C系列改款车型[2][8] * **奇瑞汽车**:2026年智能驾驶方案分多个层次[4][9] 猎鹰500系列主要采用地平线和高通8650平台,地平线方案占约60%份额[4][9] 猎鹰700系列采用双Orin X平台,供应商主要是Momenta[4][9] 猎鹰900系列使用Sora Ultra平台,正与元戎和Momenta接洽[9] * **吉利汽车**:智能驾驶布局涵盖低、中、高端车型[10] 低端车型(如千里浩瀚H3和H5)混用黑芝麻1,000和地平线Orin芯片[10] 中端车型(千里浩瀚H7)采用单Orin X和双Orin X芯片[10] 高端车型(千里浩瀚H9)使用Soar和双Soar芯片,将在极氪旗舰车如极氪001上首发[10] * **长城汽车**:智能驾驶解决方案分为三个平台[11] 低算力平台主要使用TI TDA 4VH芯片以及地平线GLM芯片[11] 中算力平台目前与Momenta合作[11] 高算力平台包括双Orin X和Soar,其中Soar预计将在2026年取代双Orin X[11] * **合资品牌**:预计丰田、大众等合资品牌将在2026年成为增量最大的第三方芯片采购商之一[4][12] 丰田计划从2026年Q2开始在国内新能源车及插电混动车型中引入新智驾方案,2027年扩展至更多混动车型[12][13] 大众计划从2026年Q2起加速智能化,大量采用地平线G6P及G6M解决方案[4][12][13] 核心观点与论据:芯片市场格局与成本趋势 * **增量采购商**:预计比亚迪、奇瑞、吉利、长城等自主品牌,以及丰田、大众等合资品牌将在2026年成为增量最大的第三方芯片采购商[4][12] * **成本趋势**: * 2025年中算力平台(如比亚迪天链B1)单车成本约为8,000-9,000元[14] 预计2026年成本将下降约10%,降至7,000元左右[14] * 低端方案(如地平线GO6M)硬件成本每年下降5%-7%[14] 若使用自研芯片,成本可降低30%,前提是出货量足够大[14] * 目前低端纯视觉方案(如地平线Orin M)整体报价在5,000-6,000元之间[14] * 高端方案(如索尔)目前报价集中在16,000-18,000元区间,预计2026年降本幅度较小,主要依赖软件供应商降价和出货量增加[14] * **具体芯片价格**:地平线G6P目前单芯片加软件的报价约为5,000元,加上传感器等其他组件后,总体方案价格在8,000-9,000元之间[15] 预计2026年G6P芯片自身降本15%左右,如比亚迪谈判可能达到20%[15] * **软件成本**:终端市场的软件授权费用可能随着出货量增加而下降,如从2000多元降至1,600-1,700元左右[16] 核心观点与论据:技术发展、供应链与市场预期 * **国产芯片现状**: * 国产低端芯片已能满足需求,但终端高算力芯片仍是空白,目前国内尚无对标英伟达Orin4的量产上市产品[21] * 在高端领域,国产芯片与英伟达相比在生态系统、训练迁移以及算力释放率方面仍有显著差距[21] 英伟达的算力释放率可达到85%到90%,而国产高端芯片通常仅为50%至70%[21] * **供应商动态**: * **Momenta**:优先主打中算力终端市场,以满足15万元级别车型对性价比的需求[18] 正在开发性能对标英伟达高端芯片的新产品[18] 其软件能力强,可以反过来定义硬件以实现软硬结合[25] * **黑芝麻**:A1,000主要应用于吉利的千里好汉H3和H5平台上的领克系列[22] A2000则定点于东风旗下某款新能源品牌车型[22] * **算法表现**:在复杂场景(如环岛、窄路、特殊路口)中,Momenta表现优于地平线[23][24] 在人车混流场景中,两者性能相近,但Momenta在无保护左转及对向车辆礼让策略上更聪明[24] * **Robotaxi领域**:目前以英伟达为主导,但国产厂商如地平线也有希望进入,有厂商已开始考虑使用地平线G6P方案以降低成本[17] * **技术平移**:乘用车与Robot Taxi技术平移成本较低,业内普遍通过已有量产乘用车进行适配,不增加额外传感器[27] * **出货量预期**:2024年智能驾驶系统出货量约为18万套[19] 预计2025年将达到45万套[19] 到2026年则有望突破百万级别[19] 2026年的出口量大约在2万到3万左右[20] * **自研与外采逻辑**:高端车使用自研芯片可以提高利润率并打出差异化[26] 低端车采用外采方案主要是因为成本低且出货量大,可以保证质量并实现性价比[26]
达晨财智领投 极佳视界完成2亿元A2轮融资
新浪财经· 2025-12-08 15:14
公司融资与业务进展 - 具身智能公司极佳视界近期完成2亿元人民币A2轮融资 由达晨财智领投 老股东华控基金联合领投 并有首发展创投 浦耀信晔 财鑫资本 珠海科技产业集团 张科垚坤 复琢创投等机构跟投 老股东合鼎共资本超额跟投 [1][3] - 公司在3个月内连续完成Pre-A Pre-A+ A1及A2共四轮融资 累计完成5亿元人民币A轮系列融资 [1][3] - 公司已于2025年11月26日发布相应本体 布局物理AGI的终端业务 [1][3] 公司产品与技术布局 - 公司产品矩阵为物理AI全栈软硬件产品 包括世界模型平台GigaWorld(驾驶和具身) 通用具身大脑GigaBrain 通用具身本体Maker [1][3] - 公司技术采用“世界模型+行动模型+强化学习”的原生范式 其中每一环节均以世界模型为驱动 [1][3] - 公司认为以“操作与上肢”为中心 能更好与物理世界交互 数据优先的原生本体是关键需求 “传感器-执行器-数采设备-通用模型”之间可规模化的闭环迭代价值凸显 [2][4] 行业趋势与公司观点 - 行业模型架构正向通用行动模型(如VLA与世界行动模型)收敛 数据来源转向以真机数据与世界模型生成数据为核心 学习方式形成“模仿学习+强化学习+世界模型”的通用范式 [2][4] - 世界模型正成为物理AGI在数据来源 学习方式与模型架构层面的核心驱动力 [2][4] - 公司认为物理AI正在进入全新的关键时代 未来2-3年是物理AGI突破的关键窗口期 物理世界的“ChatGPT时刻”正在加速到来 [2][5]
Roblox CEO感叹AI研究进展:曾博览群书的自己都快看不懂了
搜狐财经· 2025-12-08 11:28
行业研究动态 - AI研究更新速度飞快,新论文几乎每天出现,技术概念复杂,Roblox CEO认为想真正看懂所有论文极其困难[1] - AI研究浪潮规模巨大、速度惊人,从Transformer到扩散模型再到世界模型,内容多到难以完全掌握[3] - 随着AI从学界扩展到国家战略高度,Meta、微软等公司纷纷建立自己的研究部门,并以极高薪资吸引顶尖人才[3] - AI研究变得更封闭,2023年谷歌决定减少公开发表的AI论文,公司进入要靠内部知识竞争的阶段[3] - OpenAI联合创始人认为,真正决定AI走向的仍是研究本身,现在重新回到研究时代,只不过用的是更大的计算机[3] 公司观点与战略 - Roblox CEO在创业初期几乎读遍从物理模拟到图形渲染的各类研究且都能理解,但AI时代的到来改变了一切[3] - Roblox CEO的结论是,AI在三维世界里仍然处于非常初期的阶段[3] - AI依赖的是人类制造出来的文本和图像,是用自己创造的内容训练AI,而不是用真实世界的三维原始数据[3]
达晨、华控领投,极佳视界A2轮再融2亿,押注“世界模型+行动模型”原生架构
钛媒体APP· 2025-12-08 07:17
公司融资与团队背景 - 具身智能公司极佳视界在3个月内连续完成Pre-A、Pre-A+、A1及A2四轮融资,累计融资额达5亿元,其中A2轮融资2亿元 [2] - 本轮融资由达晨财智领投,老股东华控基金联合领投,多家知名机构跟投,老股东合鼎共资本超额追加投资 [2] - 公司创始人兼CEO黄冠博士拥有清华大学自动化系创新领军工程博士背景,曾担任地平线机器人视觉感知技术负责人、鉴智机器人合伙人兼算法副总裁,并曾在三星中国研究院、微软亚洲研究院等顶尖科研机构工作 [2] - 创始人团队在过去十年深度参与并推动了物理AI从技术萌芽到产业落地的关键演进,带领团队在FRVT、COCO、VOT等全球最具影响力的视觉AI竞赛中多次斩获冠军,并实现多项技术的大规模产业化应用 [2] 核心技术优势与历史成就 - 在自动驾驶领域,公司团队提出的BEVDet系列方法已成为全球最具影响力的BEV感知范式之一,长期稳居nuScenes榜单首位,并已实现规模化量产 [3] - 团队主导了地平线AIDI平台(业内最大规模的数据闭环系统)以及百度Apollo仿真框架的研发与商业化落地,奠定了其在智能系统工程化方面的领先优势 [3] 行业趋势与公司战略判断 - 行业正加速向通用行动模型(如VLA与世界行动模型)演进,数据来源日益依赖真机实采与高保真世界模型合成,学习范式逐步统一为“模仿学习 + 强化学习 + 世界模型”的融合架构 [3] - 公司判断物理AI正迈入决定性突破的关键窗口期,未来2至3年将是物理AGI从实验室走向规模化落地的分水岭 [3] - 随着世界模型与行动模型的持续跃迁,属于物理世界的“ChatGPT时刻”正在加速到来 [3] - 公司面向具身智能新时代,率先提出“世界模型 + 行动模型 + 强化学习”的原生AGI范式,强调以世界模型为核心驱动力,贯通数据生成、模型训练与决策执行全链路 [3] 核心产品发布:模型与机器人平台 - 公司已正式发布两大物理AGI核心模型:原生行动模型GigaBrain-0与原生世界模型GigaWorld-0,并同步推出高自由度具身智能机器人平台Maker H01,共同构建端到端的具身智能系统 [4] - GigaBrain-0是一款基于视觉-语言-动作(VLA)架构的端到端决策控制模型,可融合图像、深度、文本及本体状态等多模态输入,输出结构化的任务规划与运动指令 [5] - GigaBrain-0重点强化了3D空间感知与结构化推理能力,以提升在复杂环境中的导航精度与长序列任务执行能力,具备更强的泛化性能 [5] - GigaWorld-0是公司自研的高质量世界模型,依托“GigaWorld”平台,通过几何一致、物理准确的建模机制生成高保真、可控且多样化的具身交互数据,实现高效“数据放大” [6] - GigaWorld-0构建了目前最完整的具身训练数据体系,在三大关键泛化维度(新纹理、新视角、新物体位置)上实现近300%的性能提升 [6] - 在PBench(Robot Set)基准测试中,GigaWorld-0以最小参数量实现最高整体性能,成为当前最具性价比的世界模型方案 [6] - Maker H01是专为家庭、商业服务与轻工业等开放场景设计的高自由度具身机器人,采用双臂 + 全向全驱移动底盘架构,全身拥有20+自由度,单臂支持公斤级负载,配备多指灵巧手爪 [6] - Maker H01标准版高度约1.6米,适配多种空间环境,适用于物品取放、巡检、接待、实验协助、仓储搬运等真实业务场景 [6] 产品性能与应用场景 - GigaBrain-0已成功应用于一系列高难度、长程的具身任务,在真实场景中展现出卓越的综合能力,能稳定高效地完成制作咖啡、叠衣服、整理卷纸、桌面清理、倒饮料、搬运箱子、拾取衣物等复杂任务 [5] - 在多项权威基准测试中,GigaBrain-0的任务成功率显著超越当前最先进的方法(SOTA) [5] - Maker H01不仅是可靠的作业平台,也是高效的算法验证载体,支持多种遥操作方案,并与自研“具身大脑”GigaBrain深度集成,实现抓取、搬运、协作等复杂动作的全身协同控制 [7] - 通过GigaBrain-0、GigaWorld-0与Maker H01的三位一体架构,公司正加速推动具身智能从实验室走向规模化落地,迈向真正“可用、可靠、可泛化”的物理AGI时代 [7]