世界模型
搜索文档
第八届 「GAIR 全球人工智能与机器人大会」即将启幕:穿越AI长夜,共睹群星闪耀
雷峰网· 2025-11-10 10:05
大会基本信息 - 第八届GAIR全球人工智能与机器人大会将于2025年12月12-13日举办 [2] - 大会地点为深圳南山·博林天瑞喜来登酒店 [2] 大会核心议题与焦点 - 大会将开设三个主题论坛,聚焦大模型、具身智能、算力变革、强化学习与世界模型等多个前沿议题 [3] - 将探讨强化学习的“策略优化”和世界模型的“心智模拟”等关键技术 [3] - 重点关注AI如何与物理世界深度融合、与现实共生,议题涵盖具身智能的实现 [4] 参会嘉宾与行业洞察 - 参会者包括年轻学者和已穿越多个AI周期的资深前辈,形成跨越代际的交流 [4] - 来自欧洲、美国、日本等地的顶尖学者将与中国同行共同探讨 [4] - 产业界参与者包括穿越“死亡谷”的创业者和持续校准方向的行业巨头,将分享AI商业化实践方法论 [4] 算力赛道的商业价值 - 算力被定义为万人竞逐、最早兑现价值的赛道 [4] - 大会将复盘大型算力基建在市场与政策中的发展,洞察芯片概念与资本热潮背后的逻辑 [4] - 将在激荡的Infra市场中寻找下一个值得被看见的破局者 [4] 大会历史与行业地位 - GAIR大会始于2016年,由高文院士、朱晓蕊、林军等人联合发起 [5] - 历届大会曾邀请多位图灵奖、诺贝尔奖得主,以及50位院士、30位人工智能国际顶会主席、100多位Fellow [5] - 2018年第三届GAIR成为国内首个突破5000名AI专家参会的人工智能论坛 [7]
世界模型有望带来机器人与具身智能的下一个“奇点时刻”?
机器人大讲堂· 2025-11-09 15:30
世界模型的技术内核 - 世界模型是通过对真实世界的高维认知建模,赋予智能体理解、预测和规划能力的生成式AI框架[2] - 具备空间内化特性,通过3D高斯表征、点云等技术将二维感知数据转化为三维语义空间,精准还原环境的几何结构与空间关系[3] - 具备规律内化特性,学习物理世界的基本规则如物体运动轨迹、碰撞逻辑、交通流规律等,形成可复用的知识体系[3] - 具备时序内化特性,通过长时序记忆机制整合历史数据与实时信息,实现对动态场景的连续理解与趋势预测[3] - 与VLA模型的核心差异在于绕开语言中间层,直接通过空间感知数据进行物理规律推演[6] 世界模型的发展历程 - 思想最早可追溯至1990年Richard S Sutton提出的Dyna算法,首次实现学习-规划-反应的一体化机制[7] - 2018年David Ha与Jürgen Schmidhuber发布《World Models》论文,标志世界模型正式进入深度学习阶段[7] - 2019年以来进入加速发展期,DeepMind推出MuZero算法,LeCun提出JEPA模型,形成编码器-内部世界模拟器-策略决策器的完整架构[9] - 特斯拉率先将世界模型理念融入FSD系统,通过对场景的连续建模减少对高精地图的依赖[10] - 截至2025年6月,我国智能驾驶及相关机器人领域注册企业总数已超过7000家,其中近60%的头部企业已布局世界模型技术[10] 世界模型对机器人行业的影响 - 打破数据荒的行业瓶颈,通过少量真实数据种子生成海量虚拟场景,实现训练成本指数级下降[12] - 实现训练场景的大规模可能性,将测试场景扩展至2000余种,实现从样本测试到全场景验证的跨越[13] - 赋予机器人类人决策能力,通过感知-理解-生成的闭环能力在内部世界预判未来动态[15] - 提升时空一致性,通过高精度图像渲染与多模态时空对齐技术破解仿真-现实鸿沟[15] 世界模型产业化面临的挑战 - 长时序任务处理存在记忆衰减和信息断裂问题,影响决策连贯性和安全性[16] - 仿真与现实的本质差异在物品纹理、动态一致性、多模态干扰等方面仍存在[16] - 决策逻辑呈现黑盒化特征,需要建立可解释、可追溯的决策链路和行业标准[18] 世界模型与机器人行业的未来趋势 - 与VLA、VLM等多模态技术深度耦合,实现语义、感知和决策的无缝衔接[19] - 算法与算力提升将推动形成以世界模型为核心的端到端闭环解决方案[19] - 算力架构从单一端侧算力堆叠向云端-端侧协同演进,形成高效协同的算力体系[21] - 部署在边缘端的MoE与模型蒸馏技术将成为主流,通过激活部分专家网络降低计算负荷[21] - 到2030年,全球搭载世界模型的机器人市场规模将突破3万亿元,其中智能驾驶机器人占比达到60%[22]
招募4D标注和世界模型方向的合伙人!
自动驾驶之心· 2025-11-08 16:03
文章核心观点 - 自动驾驶之心公众号正在积极拓展业务范围 从内容平台向企业培训 求职辅导和技术服务等领域延伸[2][4] - 公司面向全球招募自动驾驶领域从业者进行合作 合作方向涵盖产品经理 4D标注 世界模型等多个前沿技术领域[4][5] - 合作模式主要包括B端企业高校培训 C端学生求职辅导 课程开发和原创内容创作[4][6] 业务拓展方向 - 企业培训需求多样化 包括技术进展梳理 发布会方案解读和行业发展总结[2] - 求职辅导需求集中在简历优化和项目经验补充方面[3] - 合作领域覆盖自动驾驶产品经理 4D标注/数据闭环 世界模型 VLA 自动驾驶大模型 强化学习和端到端等方向[5] 合作模式与资源 - 合作岗位主要面向自动驾驶培训合作 B端服务企业和高校研究院所 C端服务学生和求职人群[6] - 合作形式包括课程开发和原创文章创作[6] - 公司将提供高额酬金与丰富行业资源吸引合作伙伴[5]
招募4D标注和世界模型方向的合伙人!
自动驾驶之心· 2025-11-08 12:35
公司业务拓展 - 公司正积极拓展业务范围,从原有的内容平台向企业培训和求职辅导等方向进行能力输出 [2] - 业务拓展的驱动力来自行业内越来越多的企业和个人的明确需求 [2] - 公司面向全球自动驾驶领域从业者发出合作邀请,计划在技术服务、培训、课程开发与科研辅导等多个领域展开合作 [4] 市场需求分析 - 企业端培训需求呈现多样化特征,涵盖技术进展梳理、发布会方案解读以及行业发展趋势总结 [2] - 个人用户端存在显著的求职辅导需求,求职者普遍面临简历缺乏亮点、急需项目经验补充和专业技能指导的困境 [3] 合作方向与岗位说明 - 合作聚焦于多个前沿技术方向,包括自动驾驶产品经理、4D标注/数据闭环、世界模型、VLA、自动驾驶大模型、强化学习、端到端等 [5] - 合作岗位主要涉及自动驾驶培训、课程开发及原创文章创作 [6] - 培训业务明确划分为面向企业和高校研究院所的B端市场,以及面向学生和求职者的C端市场 [6] 合作激励 - 公司为合作者提供具有吸引力的高额酬金 [5] - 合作者将有机会获得公司提供的丰富行业资源 [5]
人形机器人,如何跨越规模交付瓶颈?
财联社· 2025-11-08 05:06
行业前景与落地时间表 - 明年将是人形机器人落地的关键年 [1][2] - 工业场景将率先落地实现全自主工作 商业场景已有真正应用如导览讲解 家庭场景因标准和安全问题预计需8-10年 [2] - 未来三年有希望最先突破标准化场景如工业场景和物流分拣 [4] - 小型人形机器人在娱乐和教育领域已具备大量落地能力 走进工厂可能在五年内 [4] - 人形机器人在工业领域明年有望出现采购交付数量过万的企业 相关技术预计未来五年迈过“基本可用”门槛 [9] 当前应用场景与挑战 - 人形机器人已在一定范围内应用于表演、交互、展厅导览等场景 [1] - 无人物流车正迎来快速普及契机 可应用于前置仓、闪购仓等标准化程度高数量庞大的场景 [4] - 人形机器人大规模交付仍存在瓶颈 距离真正产业化尚有差距 [1][6] - 无人物流车大规模应用面临核心挑战是如何精准识别和处理数千甚至上万个SKU [4] - 制造企业核心挑战在于过度依赖自动化易引发刚性生产 过度依赖人工则易造成效率瓶颈与质量一致性差 [2] 技术发展趋势 - 具身智能核心点是“类人” 需要拥有感知-决策-执行整套闭环控制 [6] - 机器人产业正从基础本体制造向更细分高难度领域探索 未来将持续向上游延伸朝更精细化技术密集度更高方向发展 [1][6] - 今年趋势是手的自由度越来越高越来越灵活 [6] - 在硬件本体层面核心在于整合上下游生态资源实现灵活任务切换 在软件算法层面关键在于通过算法数据沉淀复制人类工艺经验 [9] - 世界模型和VLA模型代表两条并行互补技术路线 中短期内VLA是补充 长远看大概率走向世界模型但依赖大量数据训练 [9] 产业链与市场机遇 - 中国积累的制造优势与场景优势正转化为出海优势 机器人企业能提供具有国际竞争力的解决方案 [4][6] - 在视触觉传感器等新兴领域中国企业机遇很大 但需要提升参数性能及量产能力 能实现10万百万量级量产的企业还比较稀缺 [6] - 机器人正在大规模走进全球工厂和生活 这为中国机器人企业提供了前所未有的出海窗口期 [4]
ICCV涌现自动驾驶新范式:统一世界模型VLA,用训练闭环迈向L4
量子位· 2025-11-08 04:10
自动驾驶技术范式转变 - 行业共识自动驾驶技术进入下半场,技术范式从端到端架构转向强化学习[6][8] - 端到端架构统一技术栈释放Scaling Law潜力,但模仿学习只能达到数据平均水平难以超越人类司机[6][8] - 特斯拉和理想汽车在ICCV 2025共同展示以云端生成式世界模型为新基座的趋势[2] 理想汽车训练闭环架构 - 公司构建全球首个世界模型与强化学习闭环量产自动驾驶架构,从数据闭环迈向训练闭环[11] - 训练闭环通过环境生成和反馈迭代实现设定目标,覆盖边缘场景提升模型性能[8][11] - 世界模型系统包含环境构建、智能体构建、反馈构建和场景多推演三大能力[13] 仿真技术路径与成果 - 采用重建与生成结合的仿真路线,重建保证稳定性,生成增强泛化性[14][15][16] - 联合研发的Street Gaussians算法被ECCV 2024收录,Hierarchy UGP实现SOTA大规模动态场景重建[17][19][21] - 生成方式占比将不可逆增加,因能低成本大规模生成多样边缘场景数据[23] 合成数据与强化学习引擎 - 合成数据通过场景编辑、迁移和全场景生成使数据分布均衡,覆盖更多极端复杂案例[23] - 强化学习世界引擎包含仿真智能体、奖励模型和性能优化五大关键因素[25][31] - 仿真智能体建模多车交互行为比实现单车L4更难,公司通过目标函数和奖励函数约束智能体行为[27] 研发投入与底层技术突破 - 2023年和2024年全年研发投入连续超百亿元,2025年上半年研发投入为53亿元[33] - 自研整车操作系统理想星环OS实现软硬件解耦,芯片适配验证加快至4周内[33] - 星环OS采用跨系统架构,在120km/h时速下缩短7米刹停距离,降低几十亿元BOM成本[35][39] 开源生态与学术认可 - 星环OS开源后与16家产业链玩家组建生态联盟,帮助行业节省数亿元研发预算[36][39] - 开源数据集3DRealCar包含2500辆真实汽车,每辆车200张高分辨率RGB-D图像,被AI顶会ICCV收录[40][43] - 研究成果如DriveVLM已落地量产,形成研产闭环能力快速转化预研成果[52] 公司战略定位与竞争优势 - 公司重新定义为空间机器人企业,具备造车基本盘、VLA技术、顶会级预研和研产闭环四大优势[48][50][51][52] - 同时实现算法训练闭环、商业化闭环和研产闭环,在车企底色AI公司中与特斯拉并列领先[52][53]
全球Robotaxi第一股前传:九年长跑,天才远征
36氪· 2025-11-06 10:18
公司发展历程 - 公司于2016年底由彭军和楼天城在硅谷联合创立,两位创始人均拥有顶尖技术背景 [4] - 2017年下半年将业务拓展至中国,并在广州南沙设立办公室 [4] - 2018年2月2日在广州南沙的公开道路上成功推出中国首个对公众开放的Robotaxi服务 [5] - 2024年11月在美国纳斯达克以代码"PONY"成功上市,成为全球Robotaxi第一股 [1] - 2026年在港交所以代码2026挂牌,构建起"美股+港股"双重主要上市架构 [1][16] 技术路线与突破 - 2019年公司技术路线出现重大转折,从依赖海量真实路测数据的"数据为王"路线,转向构建"世界模型"虚拟训练场 [7][8] - 世界模型是一个高仿真的虚拟环境,让AI"虚拟司机"进行海量练习以自我进化,旨在实现超越人类驾驶员10倍的系统表现 [8][9][11] - 该技术底座实现了50万小时全场景、全天候、全无人驾驶运营,覆盖雨天、夜间、复杂路口等高难度场景 [12] - 世界模型每周可生成超100亿公里的虚拟测试数据,使系统在仿真环境中快速迭代 [12] - 基于世界模型的自动驾驶系统安全性已超越人类驾驶10倍 [12] 产品商业化进展 - 公司认识到在北上广深等城市,Robotaxi投放量达到1000台时运营才会达到盈亏平衡点,即"千车之约" [15] - 2023年启动代号"昆仑"的Robotaxi量产计划,核心成果为第七代Robotaxi系统 [15] - 第七代系统实现三大突破:自动驾驶套件成本较上一代骤降70%;100%车规级零部件,设计寿命达60万公里;平台化设计可灵活适配多种车型 [15] - 截至发稿时,公司Robotaxi车队规模已超720辆,正稳步向千辆目标迈进,并在广、深开展7x24小时不间断运营 [16] - 公司预计明年(2027年)将达到单车层面盈利回正 [16] 融资与资本认可 - 公司融资历程从早期顶级美元VC,到中期拥抱丰田等产业资本,再到成功获得沙特NEOM基金等中东主权财富基金青睐 [17] - 实现双重上市拓宽了融资渠道,构建了多元化、全球化的资本"朋友圈" [17] - 2024年6月公司成为首个被纳入纳斯达克中国金龙指数的L4自动驾驶公司 [17] - 获得包括Cathie Wood旗下方舟基金多次加仓,以及富达、柏基等全球顶级机构的持续买入 [18] 全球化战略布局 - 公司加速"出海"布局,在中东、欧洲等地与阿联酋、卡塔尔、新加坡等地的政府和企业达成合作 [18] - 公司认为在中国这个全球最复杂、最具活力的交通环境中锤炼出的技术和运营能力是其全球化优势 [18] - 公司坚信汽车行业是长赛道,资源会向头部聚集,核心目标是成为头部公司 [18]
全球Robotaxi第一股前传:九年长跑,天才远征
36氪· 2025-11-06 09:51
公司里程碑与资本架构 - 公司于2024年11月在美国纳斯达克以股票代码"PONY"成功上市,成为"全球Robotaxi第一股" [3] - 不到一年后公司在港交所以代码2026 HK挂牌,正式构建"美股+港股"双重主要上市架构 [3][23] - 2024年6月公司成为首个纳入纳斯达克中国金龙指数的L4自动驾驶公司,标志中国自动驾驶科技受主流投资认可 [25] 创始团队与技术基因 - 公司由彭军和楼天城于2016年底在硅谷联合创立,彭军曾任谷歌工程师和百度美国研发中心首席架构师,楼天城是计算机竞赛传奇人物并曾在Google X自动驾驶团队工作 [7] - 早期团队由清华姚班同学和竞赛高手组成,几乎全是工程师,目标为实现L4级无人驾驶 [7] - 创始人楼天城以每周工作100小时的竞赛强度投入创业,带动整个技术团队保持惊人投入 [8] 技术突破与战略转型 - 2019年公司经历关键认知转折,从"数据为王"转向构建"世界模型"虚拟训练场 [11][13] - 世界模型系统通过高仿真虚拟环境让AI进行海量练习,每周可生成超100亿公里虚拟测试数据 [14][17] - 该系统实现了50万小时全场景、全天候、全无人驾驶运营,自动驾驶安全性已超越人类驾驶10倍 [17] - 2023年启动"昆仑"Robotaxi量产计划,第七代系统实现套件成本降70%、100%车规级零部件、设计寿命60万公里 [22] 商业化进展与运营数据 - 公司提出"千车之约"概念,在北上广深等城市Robotaxi投放量达1000台时运营将达到盈亏平衡点 [21] - 目前Robotaxi车队规模已超720辆,在广深开展7x24小时运营,累计无人运营时间突破50万小时 [23] - 公司与北汽、广汽埃安、丰田等主机厂合作,多款Robotaxi车型进入量产阶段 [23] - 公司明确2025年将实现单车层面盈利回正 [23] 全球化布局与资本支持 - 公司获得丰田等产业资本及沙特NEOM基金等中东主权财富基金投资 [25] - 加速出海布局,在中东、欧洲等地与阿联酋、卡塔尔、新加坡政府和企业达成合作 [25] - 获得方舟基金多次加仓,富达、柏基等全球顶级机构持续买入 [25] - 公司定位要做头部企业,认为资源会越来越向头部聚集 [26] 技术路线与产品战略 - 公司坚守L4 Robotaxi和Robotruck两大主线,拒绝简单降维做L2 [16][27] - 推出的L2++业务与Robotaxi技术栈有近70%相通,定位无限接近L3级人机共驾与L4级自动驾驶 [27] - 自动驾驶被定位为长跑赛道,需要耐力和瞬时爆发力 [16]
阿里新研究:统一了VLA和世界模型
自动驾驶之心· 2025-11-06 08:43
WorldVLA模型框架概述 - 提出WorldVLA统一框架,融合视觉语言动作模型与世界模型,旨在让AI理解世界 [1] - 该框架由阿里巴巴达摩院、湖畔实验室和浙江大学共同提出 [1] - 实验结果表明,WorldVLA表现显著优于独立的动作模型与世界模型,体现二者相互增强效应 [2] 技术架构与实现细节 - 基于Chameleon模型初始化,使用三套独立分词器对图像、文本和动作进行编码 [8] - 图像分词器采用VQ-GAN模型,压缩比为16,码本大小为8192 [8] - 对于256×256图像生成256个token,对于512×512图像生成1024个token [8] - 动作分词器将连续机器人动作每个维度离散化为256个区间,动作由7个token表示 [8] - 提出针对动作生成的替代注意力掩码,使自回归框架能并行生成多个动作 [11][12] 模型性能评估 - 在无预训练情况下,WorldVLA(256×256)平均成功率为79.1%,优于OpenVLA的76.5% [19][21] - WorldVLA(512×512)平均成功率提升至81.8%,显示模型性能与图像分辨率呈正相关 [21][22][23] - 引入世界模型后,动作模型平均成功率从62.8%提升至78.1% [25][26] - 在视频生成质量上,WorldVLA在50帧序列的FVD指标为674.1,优于纯世界模型的718.6 [32] 技术优势与应用前景 - 世界模型通过预测未来图像学习环境物理规律,提升动作生成准确性 [5][25] - 动作模型基于图像观测生成后续动作,反向促进世界模型视觉生成能力 [5][17] - 框架结合VLA抽象思考与世界模型物理感知,被视为通往具身智能的路径 [36][37]
自动驾驶迎来“港股时刻”:小马智行二次上市背后释放了哪些信号?
36氪· 2025-11-06 07:21
行业拐点与资本认可 - 全球自动驾驶行业从技术验证期迈向规模商业化的临界点,产业变革信号明确 [2] - 小马智行于2025年11月6日成功回港上市,创下2025年全球自动驾驶最大规模IPO及港股AI领域最大规模IPO,标志着“自动驾驶港股第一股”诞生和“美股+港股”全球双主场战略迈出关键一步 [2] - 国际资本重新押注自动驾驶,ARKQ基金在2025年二季报披露后首次建仓小马智行斥资1290万美元,并在9月17日和18日分别加仓88335股和31764股 [4] - 英国柏基资本二季度斥资超1亿美元重仓入股,富达投资、威灵顿管理等14家国际顶级机构集体增持,小马智行成为全球资本押注自动驾驶的核心标的 [5] - 低利率环境为长周期高投入科技企业提供友好融资条件,AI技术突破为自动驾驶注入新动能,国际资金重新评估板块长期成长性 [6] - ARK报告预测到2030年全球Robotaxi市场规模将达到10万亿美元,行业总估值高达34万亿美元 [7] 公司财务与业务表现 - 2025年上半年公司实现营收3543万美元(约合人民币2.54亿元),同比增长43.3% [4] - 核心业务Robotaxi板块上半年收入达325.6万美元(约合人民币2332万元),同比大幅增长178.8% [4] - Robotaxi乘客车费收入在2025年第一季度和第二季度分别实现约800%和超300%的同比飙升,全无人Robotaxi日均订单量超15单 [12] - 公司预计2025年实现单车运营盈亏平衡,开始迈向Robotaxi大规模商业化之路 [12] - 公司拥有超过720辆Robotaxi及170多辆Robotruck,预计年底Robotaxi车辆数量达千辆规模 [8] - 公司是目前唯一在北京、上海、广州、深圳四大一线城市均取得无人驾驶出行服务许可并开展全无人收费运营的企业,在广州、深圳等地提供7x24小时全天候运营 [8] - 截至2025年,公司累计测试与运营里程超7000万公里,其中全无人驾驶路测里程超1000万公里 [9] - 自动驾驶卡车货运量超10.7亿吨公里,自动驾驶里程约为680万公里 [11] 技术突破与成本优化 - 第七代L4级Robotaxi与北汽、丰田、广汽合作开启量产,完成产能爬坡进入稳态生产,并在北京、上海、广州获得L4级自动驾驶示范许可 [10] - 第七代Robotaxi使用自研车规级域控制器(四颗英伟达OrinX芯片),100%采用车规级零部件,生产物料成本较上一代大幅下降70%,设计寿命达10年60万公里 [10] - 公司是全球首家也是目前唯一使用车规级SoC计算芯片实现L4级全无人Robotaxi的企业,花旗银行报告指出其自动驾驶系统方案BOM成本全球最低 [10][11] - 自研域控制器算力达1016 TOPS,体积、重量、功耗降低超50%,成本降低80%,成为全球首个可大规模商业化的L4全场景量产域控解决方案 [15] - 世界模型(PonyWorld)通过强化学习生成仿真训练环境,每周生成百亿公里测试数据,支持虚拟司机自我演进,大幅压缩研发周期(第七代Robotaxi从首发到运营仅用7个月) [13][15] - 自动驾驶系统实现50万小时全场景全天候全无人驾驶运营零事故,接管率低至1次/百万公里(行业平均为1次/10万公里),L4安全性比人类驾驶高10倍 [14] 商业化路径与盈利前景 - Robotaxi投放量达1000台时运营将达盈亏平衡点,超过后每增加一台车辆成本更低毛利率更高,进入自我造血阶段 [11] - Robotruck业务复用Robotaxi 80%技术,通过B端场景率先实现单线盈利,反哺Robotaxi长期技术迭代与市场拓展 [11] - 公司已成功跨越技术验证阶段,进入规模化运营加速周期,盈利时间表明确 [12]