世界模型
搜索文档
未来智造局|当AI走进物理世界:从一场技能赛看具身智能的“能”与“不能”
新华财经· 2025-12-17 16:53
新华财经上海12月17日电(记者杜康、龚雯)在日前举办的2025全球开发者先锋大会上,机器人在插 花、搬运、救灾等真实场景中"各显神通"。冷冰冰的技术参数,在这里化作了鲜活的技能比拼。当然, 大赛也暴露了具身智能"笨拙"的一面:在叠衣服、拧螺丝等精细操作背后,不少机器人仍连着"遥操 作"的手柄。 恰恰是在这"能"与"不能"的缝隙中,公众得以窥见这一火热领域的技术边界与未来方向。 从机器人的"能"里看技术进阶 回望过去一年,中国具身智能领域"快步疾行":智元远征A2人形机器人完成无间断百公里跨省行走, 充分证明了机器人能够"走得稳";行业商业化"大单"频现,机器人真正进入工厂,负责分拣、上下料; VLA(视觉-语言-动作)模型的进化,则让机器人大脑更聪明,能够听懂人的需求。 在2025全球开发者先锋大会上,观众再一次真切看到了机器人的"能"。 更棘手的是环境干扰。"光照变化、桌子周边物体的摆放、强光下周边物体在桌子上的倒影等,都有可 能让机器人'智商下线',操作不准。这种难以将目标与'背景噪音'剥离的困境,折射出当下具身智能在 物理场景理解能力上的短板——泛化性不足。"参赛队员对记者表示。 ——拧螺丝等精细活儿 ...
深度解析世界模型:新范式的路线之争,实时交互与物理仿真
海外独角兽· 2025-12-17 07:53
文章核心观点 - 2026年将是多模态技术大年,视频生成将快速进步并推动应用大规模落地,世界模型将在研究上取得科学突破并开始从研究走向生产 [2] - 世界模型领域正分化为两条主要路线:一条以实时视频生成为核心,服务文娱、游戏等面向人类的消费者场景;另一条以显式3D结构为中心,服务机器人、自动驾驶等面向AI的领域 [2] - 世界模型相比视频生成模型,需要在交互性、实时性、长时记忆和物理合理性四个方面更进一步 [2] 世界模型定义与重要性 - 世界模型被定义为能理解时间和空间规律,并能根据当前环境和动作模拟未来世界演化的模型 [5] - 其重要性提升源于三大趋势:语言作为有损压缩的智能进步遇到局限,空间成为下一个重要智能来源;自回归Transformer与扩散模型的算法进步及融合,使生成模型具备智能层面的扩展定律;具身智能的需求倒逼,机器人行业需要高保真虚拟世界来满足指数级的数据需求 [5] 世界模型相比视频生成的关键进步方向 - **长时记忆**:需生成持续、连贯的长时间世界,保持全局一致性,当前视频模型通常只能生成十秒级片段 [6] - **交互性**:需支持在任意帧动态注入动作指令以影响后续画面,训练数据需同时包含视频帧序列和对应动作 [7][8] - **实时性**:交互式应用要求低延迟,游戏需低于0.1秒,VR理想情况应低于0.01秒,当前扩散模型推理难达30FPS以上,业界通过蒸馏和架构改进(如DMD将50步扩散压缩为4步)来提升实时性 [12] - **物理合理性**:对自动驾驶、机器人等高风险领域,模拟结果必须符合真实物理规律,当前模型在极端物理条件下易出现幻觉,研究者通过引入物理约束后处理或结合可微物理引擎进行校正 [16] 世界模型的两种发展路线 - **路线一:实时视频世界模型**:以实时性为核心优化目标,适用于文娱、游戏等to C场景,包括互动内容创作与新型“引擎”、直播和虚拟形象、AR/VR三大应用场景 [18][19][20] - **路线二:3D/4D结构化世界模型**:以物理准确性为核心,采用NeRF、3D高斯散点等显式3D表示,优势在于3D一致性强,适用于机器人、自动驾驶等for AI的领域,劣势在于数据获取和计算成本高 [18][21][22] 市场玩家四象限格局与代表公司分析 - 横轴表示表示形式(左侧Video-based,右侧3D/物理结构),纵轴表示服务对象(上部分面向人类,下部分面向AI与机器人) [24] - **World Labs**:位于右下象限,强调3D一致性与持久性,估值超10亿美元,融资总额约2.3亿美元,核心产品Marble是基于浏览器的交互式3D世界生成平台 [24][26][30][32] - **General Intuition**:位于左上象限,作为公益性公司,专注于利用游戏数据训练能进行时空推理的agent,其关联平台Medal每年可获得约20亿个游戏视频片段,拥有1000万MAU,公司已完成1.34亿美元种子轮融资 [24][33][35][38] - **Decart**:位于左下象限,推出可交互“开放世界”AI模型Oasis,该模型以Minecraft游戏视频训练,可实现端到端实时闭环,生成速度约25帧/秒,公司已完成3200万美元A轮融资,投后估值超5亿美元 [24][39][41][44] - **Odyssey**:位于右下象限,追求极致真实感与可编辑性,采用重装备采集数据和3D高斯泼溅技术,其Explorer模型可将单图像转化为高保真3D场景资产,公司已完成1800万美元A轮融资 [24][45][47][48]
中国下一批千亿公司
投资界· 2025-12-17 03:08
文章核心观点 - 具身智能是当前贝塔最高的投资赛道,但其核心“大脑”部分的技术范式尚未收敛,仍处于探索突破阶段[3][4] - 中国在具身智能大脑的研发上存在独特的技术路径(如类脑计算),并有望实现领先,但国内在资金和数据投入上与国外差距正在拉大[8][14][24] - 解决数据稀缺和计算效率问题是具身大脑落地的关键,不同公司通过类脑解耦、世界模型预训练及自动化数据处理等不同方式应对挑战[12][14][16][17] - 具身大脑的成熟将实现本体无关和场景泛化,其技术范式有望在2年内初步收敛,并将催生比语言大模型更大的市场和更多的巨头公司[20][21][26][27] 行业现状与挑战 - 具身智能是过去几年最热、贝塔最高的投资方向,但“大脑”部分远未成熟,其“DeepSeek、ChatGPT时刻”尚未到来[3][4] - 国内与国外在具身大脑领域的差距不是在缩小,而是在变大,主要原因是国外企业获得更多资金用于数据Scaling,每周有上十万小时的数据持续回流[8] - 国内在大脑的投入远远不够,而技术范式已从去年年底、今年年初开始向视频预训练切换,特斯拉Optimus团队、Figure的Go-Big项目都在进行相关实践[8] - 具身智能的数据非常少,现有数据量仅对应3-5岁小孩的水平,远未达到成年人的能力预期[14][15] 公司技术路径与方案 千诀科技 - 公司孵化于清华类脑中心,致力于打造一个可让所有机器人使用的“缸中之脑”,该大脑不分形态,可持续学习、自我演化和分化分区[4] - 技术核心是类脑计算与解耦,模仿人脑分区独立优化与演化的机制,而非端到端模型,这种方式可将样本效率提高至少一万倍[5][16] - 已完成第三代模型的预训练,并在7大类、20多小类机器人形态上完成适配,与头部公司合作,预计明年将有10万台设备接入其大脑[4] - 已实现“四个跨”的自主智能泛化:跨场景、跨物体、跨任务、跨形态,机器人可在无人类指令下仅凭出厂设置和通识预训练工作[25] - 认为中长期解决方案是“类脑大模型+类脑芯片”,以解决端侧部署的功耗与性价比矛盾,中国在此技术路线上全球领先[24] 流形空间 - 公司聚焦于构建世界模型驱动的具身大脑,技术孵化自清华大学电子系的FIB实验室,团队是国内最早研究世界模型的工业界团队之一[6][7] - 已开发出对标李飞飞RT-M的、可单图生成可交互空间的基础世界模型,并应用于机器人大脑和无人机[6] - 技术范式区别于VLA,其通过空间智能的世界模型预训练再部署到机器人,认为VLA路线因通信带宽低、泛化性差,不适合作为大脑基座[6][7] - 拥有全栈自动化数据处理能力,内部有超过100个计算机视觉算子自动化处理视频标签,无需人工,旨在将数据变为公司资产[12][13] - 认为世界模型应是数据驱动的黑盒模型,以避免人为先验知识限制其能力上限,坚信机器智能最终将超越人类(ASI)[19] 关键技术范式探讨 - **世界模型的定位**:世界模型应是对世界的极致压缩,是机器人的Foundation Model,而不仅是环境模型[11] - **世界模型的类型**:主要分为两种范式,一种是构建人能看见的、输出视频的显空间世界模型;另一种是构建编码高维世界知识的隐空间世界模型,后者可能更具发展潜力[9][10] - **白盒与黑盒之争**:对于世界模型是否可解释存在分歧,一方认为基于因果推理的模型应是白盒;另一方则认为数据驱动的视觉模型必然是黑盒,其能力上限不应被人为理解所限制[18][19] - **实现路径**:要实现通用机器人,需要两个阶段:首先是世界模型预训练提供通识教育(0-60分能力),其次是结合具体场景的软硬一体后训练进行过拟合,兜底性能下界[21][22] 发展预期与落地展望 - 技术范式收敛时间预计在2年以内,前提是数据利用范式和管线得到提升[26] - 若追求处理更复杂的功能,具身大脑可能永远不会收敛到端到端范式,而是收敛到一个持续学习、动态变化的分区结构,类似于人脑[27] - 具身智能是比语言大模型更大的方向,未来将出现更多的创业公司和千亿级公司[27]
Alex Wang“没资格接替我”,Yann LeCun揭露Meta AI“内斗”真相,直言AGI是“彻头彻尾的胡扯”
36氪· 2025-12-17 02:45
"通往超级智能的那条路——无非是不断训练大语言模型、喂更多合成数据、雇上几千人做后训练、再在强化学习上搞点新花样——在我看来完全是胡 扯,这条路根本行不通。" 近日,在一档名为《The Information Bottleneck》的访谈栏目中,主持人 Ravid Shwartz-Ziv 和 Allen Roush 与图灵奖得主、前 Meta 首席 AI 科学家 Yann LeCun 展开了一场近两小时的高质量对话,在访谈中,LeCun 解释了为什么会在 65 岁这个别人已经退休的年纪他还在创业,此外,他也对当前硅谷主流 的人工智能发展路径给出了罕见而尖锐的评价。 结束在 Meta 长达 12 年的职业生涯后,LeCun 正将个人学术声誉与职业"遗产"押注在一套截然不同的 AI 愿景之上。他直言,业界对大语言模型规模化的 执念,正在把人工智能引向一条看似高速、实则封闭的死胡同。 在 LeCun 看来,真正制约 AI 进步的关键,并不是如何更快地逼近"人类级智能",而是如何跨越一个常被低估却极其困难的门槛——让机器具备"狗的智 能水平"。这一判断挑战了当前以语言能力和知识覆盖面为中心的评估体系。在他看来,现实世 ...
数字科技产业观察 | 双周要闻(2025.12.02—12.16)
每日经济新闻· 2025-12-16 10:45
部委动态 - 工信部修订印发《产业技术基础公共服务平台管理办法》,明确服务平台申报单位应明确服务行业领域及范围,重点行业包括装备、石化化工、钢铁、有色、建材、轻工、纺织、食品、医药、新一代信息技术、生物技术、新能源、新材料、新能源汽车、人工智能、元宇宙、脑机接口等,服务范围涵盖计量检测、标准验证与检测、质量可靠性试验检测、认证认可、产业信息、知识产权、技术成果转化等,该办法自2025年12月5日起施行 [1] - 国家发展改革委、国家数据局等多部门联合发布关于加强数据要素学科专业建设和数字人才队伍建设的意见,旨在建立数据领域学科专业设置调整机制和人才培养模式,激活数据要素赋能新质生产力的创新引擎作用,促进教育链、人才链与产业链、创新链融合发展 [1] - 生态环境部印发《产品碳足迹因子数据库建设工作指引》,以指导社会主体探索数据研制或数据库开发,支撑产品碳足迹管理体系构建 [1] - 工信部就《元宇宙产业综合标准化体系建设指南(2026版)》公开征求意见,目标到2028年制定国家标准和行业标准20项以上,到2030年制定50项以上,以初步构建并完善支撑元宇宙产业创新发展的标准体系 [1] 地方行动 - 山东省在“十五五”规划建议中提出,推动深海空天、具身智能、生物制造、脑机接口、量子科技、元宇宙、氢能等成为新的经济增长点,并支持济南、青岛建设未来产业先导区 [1] - 江苏省元宇宙标准化技术委员会在南京成立,将重点承担元宇宙标准化路线规划、发展策略制定及前沿标准前期研究等顶层设计工作 [1] - 上海市2025年度关键技术研发计划“元宇宙”专项对15个项目予以立项,市科委资助总额4600万元,其中2025年拨款1840万元 [2] 成员单位动态 - 博瑞传播拟以6649.02万元受让每经科技51%股权,交易完成后将成为其控股股东,旨在联手每经传媒打造智能传播头部企业 [2] - 智谱正式开源其工业级语音合成模型GLM-TTS,该系统仅需3秒语音样本即可复刻人声,支持多情感表达,推动AI语音技术走向产业深度融合 [2] 行业动态 - 北京GPU公司摩尔线程于12月5日在科创板上市,成为“国产GPU第一股”,发行7000万股新股,占发行后总股本14.89%,每股发行价114.28元,开盘价650.00元/股,较发行价大涨468.78%,总市值达3055亿元,为2024年以来科创板最大规模IPO [2][3] - 谷歌宣布向Google翻译引入Gemini模型能力,推出可通过耳机进行的实时语音翻译Beta版,并提升文本翻译的语境理解能力,同时通过Google Labs推出一款名为“Disco”的实验性AI浏览器 [3] 院士观点 - 中国工程院外籍院士张亚勤提出,新一轮人工智能是信息智能、物理智能和生物智能的融合,并预测基础大模型最终将不超过10个 [3] - 中国工程院院士谭建荣强调,在重视大模型的同时不应忽略小模型,指出大模型的根基在于“小模型”和建模能力,并预判行业将转向“面向行业、面向产品”的小模型与智能体 [3][4] 行业洞察 - 图灵奖得主Yann LeCun认为,硅谷对不断“堆大”大型语言模型的痴迷是一条死路,并指出当前AI智能水平有限,他正将学术声誉押注于构建“世界模型”这一不同技术路线 [4] - 斯坦福大学教授李飞飞在访谈中深度解读,认为空间智能是通往通用人工智能的关键技术,并回顾其构建的ImageNet项目如何成为AI领域的大数据拐点 [4] 技术与应用 - 工业和信息化部正式公布我国首批L3级有条件自动驾驶车型准入许可,两款车型将在重庆、北京指定区域开展上路试点,标志着L3级自动驾驶从测试迈入商业化应用的关键一步 [4] - 数学家陶哲轩与团队在多种AI工具辅助下,仅用48小时便解决了尘封50年的数学难题Erdős1026 [4]
穿越周期的早期投资:从赛道思维到认知红利|甲子引力
搜狐财经· 2025-12-16 10:45
文章核心观点 - 在AI、具身智能等赛道高度拥挤、共识形成极快的市场环境下,早期投资的决胜点已从“赌赛道”转向对“人、周期及非共识”的深刻理解,即挖掘“认知红利” [1][2] - 投资机构正通过全链条布局、深度研究输出、个人IP打造等不同方式构建独特的“认知模型”和项目雷达,以在红海中识别机会 [1] - 保持投资“手感”、建立正向反馈循环以及在行业低谷期坚持布局,是捕捉下一个成功项目的关键 [1] 投资机构概况与策略 - **红杉中国种子基金**:成立于2018年,管理规模超过100亿人民币,7年来支持了400多家早期公司,其中约70%为第一轮投资,致力于成为创业者“最早的”投资人 [3] - **元禾原点**:成立12年,为元禾控股旗下早期投资平台,已投资300多个项目,主打硬科技、早期及医疗健康标签,依托国资背景与市场化结合 [4] - **峰瑞资本**:成立10年,为综合型早期基金,覆盖医疗、科技和消费,旨在赛道热起来之前进入,以对抗板块轮动周期 [5][6] - **心资本**:专注于科技与数字化领域的早期风险投资机构,团队曾投资小鹏汽车、满帮、速腾聚创等项目的早期轮次 [7] 当前重点投资方向 - **具身智能与AI硬件**:被视为重要方向,包括机器人、AI驱动的消费电子等 [8] - **AI应用与基础设施**:包括AI模型、应用、GPU、推理芯片等 [8][12] - **前沿与交叉学科**:包括AI for Science、量子科技、生物制造、核聚变、氢能、6G等“十五五”未来科技方向 [9] - **非共识与留白**:机构均保留一部分资金用于布局确定性不高、处于极早期的新兴技术和方向 [10][12] 构建认知差异的关键要素 - **投人重于投赛道**:早期投资的核心是识别优秀的创业者,例如红杉投资宇树科技主要基于对创始人王兴兴坚韧品质的认可,尽管当时行业共识不足 [14] - **长期跟踪与体系化布局**:通过长期(如5-10年)持续关注和投入,在赛道爆发前形成前瞻性认知,例如元禾原点自2011年投资江苏北人后,体系化布局了机器人及自动驾驶赛道 [16] - **穿越周期与低谷期布局**:在行业低谷期坚持投资,以便在技术拐点或市场回暖时抓住机会,例如红杉在去年市场不热时投资了外骨骼公司极壳和智能眼镜公司Even Realities [14][19] - **个性化认知模型**:投资决策如同大模型,每个人的背景、经历和过往案例(参数)不同,导致对同一创始人的评估和兴奋点截然不同 [21] 项目来源与机构影响力构建 - **红杉的全链条与孵化机制**:通过从想法阶段到IPO的全阶段布局,积极进行人才追踪和创业孵化,构建持续迭代的行业认知 [13][24] - **峰瑞资本的内容影响力**:通过创始人李丰(丰叔)的活跃输出、团队深度研究分享以及线上线下活动(如播客、美国路演)提升品牌能见度,间接促进优质项目触达 [25][26] - **心资本的思考开源**:通过运营“AI大航海”公众号(年更新5-6篇深度文章)开源关于AI的思考,旨在吸引志同道合的创业者,形成学习、投资、输出的正向循环 [26][27][28] - **元禾原点的资源融合**:作为人民币基金,学习美元基金开放打法,依托地方产业资源和国家方针引导,同时坚持市场化竞争,在硬科技领域与头部美元基金出现更多交汇与合作 [30][31] 未来投资展望关键词 - **AI全面聚焦**:机构普遍表示将大部分资金投向AI相关领域,峰瑞资本计划将70%资金投到AI上,近乎All in AI [33] - **AI基础底座**:元禾原点强调将更加注重在AI基础底座发力 [34] - **AI应用细分**:红杉中国表示将继续聚焦AI应用的各个细分领域 [34] - **投有积累的人**:心资本强调投资那些在特定领域有“10万小时积累”的创始人 [32]
许华哲,抓紧时间慢慢等具身的未来......
具身智能之心· 2025-12-16 00:02
文章核心观点 - 行业观察到具身智能领域在2025年存在发展速率与落地现实不协调的现象 具体表现为技术演示与真实世界应用之间存在差距 [6][7][8] - 行业认为中美在具身智能的发展路径上出现分野 中国公司侧重量产与商业化 美国公司侧重探索AI技术上限 行业担忧过度关注确定性量产可能错过最根本的AI技术突破 [9][10][11] - 行业主张具身智能应类比大模型 不应局限于简单、重复的落地场景 而应挑战需要强操作和高泛化能力的困难任务 以训练出高质量的通用模型 [12] - 行业指出具身智能面临数据瓶颈 其发展路径将是预训练与基于真实交互的持续学习螺旋上升 而非一次性完成数据训练 [15] 两个世界的机器梦 - 自2022年、2023年同步起步后 中美具身智能发展路径在2025年出现明显分野 [9] - 中国公司投入更多精力在量产和商业化上 而美国公司如1X Technologies(展示Gen0精细操作)、Figure(展示长程任务能力)、Sanctuary AI(展示持续工作能力)等则致力于展示AI技术上限 [9] - 行业认为机器人本质不同于汽车 AI能力是核心驱动力 需要由AI技术领跑 而非单纯追求量产 [9] - 行业呼吁在具身智能领域应建立原始创新的信心 而非仅采用跟随策略 需要容忍高失败率的探索性研发 [10] 落地简单场景还是挑战困难场景 - 行业观察发现 高价值、高重复性的场景往往已被传统自动化设备解决(例如解决90%的问题) 剩余未自动化场景通常因单价低或重复度低而不具经济性 [12] - 基于此 行业认为具身智能的定位应更接近大模型 不应将资源耗费在简单任务上 而应致力于挑战需要“强操作”和“高泛化”能力的困难场景 [12] - 挑战困难场景有助于训练出高质量的通用模型 从而更广泛地解决问题 尽管向具体场景的早期落地有其价值 可为未来积累迁移经验 [12][13] “预训练”配合“先验学习” - 具身智能面临天然的数据瓶颈 包括仿真数据不足和真机数据缺乏 这一问题将持续存在 [15] - 因此 行业发展不能遵循“先穷尽数据预训练,再探索模型”的线性路径 而需采用“预训练”与“真实世界交互学习”螺旋上升的模式 [15] - 行业认为 足够好的世界模型无法仅从人类采集的数据中训练获得 必须让机器人自主与世界交互才能构建其独有的世界模型 [15] - 行业对未来探索使用统一强化学习目标函数贯穿预训练与后训练的模式表示兴趣 [15]
世界模型与自动驾驶:最新算法&实战项目(特斯拉、视频、OCC等)
自动驾驶之心· 2025-12-15 06:00
点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近30个 方向 学习 路线 世界模型,近一年自动驾驶学术界和工业界的热词。很多小伙伴咨询柱哥,有没有一门系统讲解世界模型和自动驾驶的精品课程,筹备了很久终于和大家见面! 我们联合 工业界大佬 共同开展,先前的《端到端与VLA自动驾驶小班课》备受大家好评,因此我们进一步推出这门世界模型小班课, 课程聚焦于通用世界模型、 视频生成、OCC生成等世界模型算法,涵盖特斯拉世界模型、李飞飞团队Marble等。欢迎大家加入学习~ 早鸟优惠!开课即止~ 讲师介绍 Jason:C9本科+QS50 PhD,已发表CCF-A论文2篇,CCF-B论文若干。现任国内TOP主机厂算法专家,目前从事端到端、大模型、世界模型等前沿算法的预研和量 产,并已主持和完成多项自动驾驶感知和端到端算法的产品量产交付,拥有丰富的端到端算法研发和实战经验。 课程大纲 这门课程讲如何展开 第一章:世界模型介绍 第一章主要针对自动驾驶世界模型概括性的内容讲解。 这一章老师会先复盘世界模型和端到端自动驾驶的联系,接着讲解世界模型的发展历史以及当下的应用案 例。然后介绍世界模型有哪些流派 ...
中游智驾厂商正在快速抢占端到端人才......
自动驾驶之心· 2025-12-15 00:04
行业技术发展趋势 - 智能驾驶领域的技术焦虑正在产业链中游厂商间快速传播[1] - 业内认为,端到端等前沿技术的大规模量产起点将在明年[2] - 当前智驾前沿技术发展放缓,量产方案趋同,L2级智能驾驶正走下沉路线[2] - 随着明年L3法规的进一步推进,中游厂商面临迫切的技术升级压力[2] - 近期许多公司的算法负责人正积极寻求了解端到端、世界模型、VLA、3DGS等前沿技术[2] 市场与量产现状 - 中国二十万以上的乘用车年销量约为700万辆[2] - 头部新势力品牌在此价格区间的销量占比不及三分之一[2] - 已实现端到端技术量产的车型占比更低[2] - 端到端技术的成熟被视为开启更大规模量产的关键[2] - 地平线公司宣布将进军10万级市场,表明高阶智驾正迅速向更多国民车型下沉[2] 技术实施与人才需求 - 端到端自动驾驶不仅仅是一个算法,其落地需要完善的云端与车端基础设施、数据闭环、工程部署、闭环测试、模型优化及平台开发等全套能力[2] - 可以预见,市场对中阶智能驾驶相关岗位的需求将更加旺盛[2] - 端到端和VLA(视觉语言动作模型)领域的招聘需求预计将显著增长[3] 行业培训动态 - 为应对技术升级需求,市场出现了针对端到端和VLA技术的实战培训课程[3] - 相关课程由工业界与学术界的专家联合开展,聚焦量产落地[3] - 课程内容涵盖导航信息应用、强化学习优化、Diffusion和自回归模型量产经验、时空联合规划等核心模块[3] - 另有课程专门梳理BEV感知、大语言模型、扩散模型和强化学习在端到端领域的应用,并设计相关实战项目[6] - 针对VLA领域,有课程从VLM(视觉语言模型)解释器到模块化、一体化及推理增强VLA进行全面梳理,并包含从零搭建模型的大作业[11] - 课程讲师及团队背景雄厚,多来自国内顶级主机厂、Tier1供应商及顶尖高校,拥有丰富的算法研发、预研及量产交付经验[5][8][13][14]
东方理工金鑫:如何找到自动驾驶与机器人统一的「空间语言」丨GAIR 2025
雷峰网· 2025-12-14 06:27
文章核心观点 - 文章介绍了宁波东方理工大学金鑫教授团队在空间智能与世界模型领域的研究进展,其核心思路是采用“混合”路径构建世界模型,即结合明确的物理规则知识与数据驱动方法,并率先应用于工业制造等产业场景以实现技术验证与落地 [3][4][5] 空间智能(世界模型)的起源与概念 - 空间智能概念在SLAM技术时期已被讨论,2024年由斯坦福大学李飞飞教授拓展至与物理世界的交互、感知和理解 [8] - 世界模型技术近期取得显著进步,例如李飞飞团队发布的Marble 3D世界模型和谷歌DeepMind发布的Genie 3,后者在写实性、一致性及物理正确性上达到更高水平 [9] - 世界模型有望成为继数据增强、数据合成之后,为人工智能训练提供高效路径的新选择 [9] 空间智能的技术框架 - 团队将空间智能或世界模型划分为三个部分:空间感知(基础3D建模与物理定律嵌入)、空间交互(支持智能体与环境及多智能体间互动)、空间的理解泛化与生成(基于充分理解衍生生成能力) [10][12][13][14] - 整体工作细分为两个方向:空间构建(搭建仿真环境)与智能体训练(在环境中训练AI),两者可形成不断优化迭代的闭环 [15][18] 核心研究成果:自动驾驶场景生成 - **UniScene**:团队提出的专注于驾驶场景生成的工作,已被CVPR接收,后续有V2等版本 [20] - **生成动机**:由于合规、隐私及车队规模限制,真实数据难以覆盖足够多的“corner case”危险场景,需通过生成式方法合成逼真有价值的场景数据 [22] - **技术路径**:采用以Occupancy(占据栅格)为中心的生成方案,因其蕴含丰富语义与必要几何信息,是连接场景理解与建模的有效“桥梁” [27][32] - **生成流程**:以简单的鸟瞰图布局为输入,首先生成语义Occupancy,再以此为中心分别衍生生成激光雷达点云和多视角视频,是一个两阶段的解耦过程 [34] - **进展与产业合作**:UniScene V2版本在NuPlan数据集上扩展了数据量,新增深度图和语义分割模态,并能根据车辆传感器位置生成对应视角数据 [37][40];该版本在GitHub上线不到一周获得数百个star(后超过2000个) [41];正与理想汽车合作,测试生成器对带有镜头畸变数据的泛化能力,以低成本支持其自动驾驶算法迭代 [41] 核心研究成果:规划与机器人场景生成 - **OmniNWM**:团队引入闭环的“规划-生成”串联机制,将规划的轨迹作为条件输入,预测执行该轨迹后未来场景的变化,可称为“万能的驾驶导航世界模型” [42][44] - **模型能力**:需同时预测全景RGB视频、语义分割、深度图、3D结构及未来规划轨迹,重点在于状态、动作及闭环奖励三个维度的扩展 [45][50] - **技术迁移**:将相同方法论迁移至机器人领域,应用于具身智能场景进行数据合成,能以Occupancy为桥梁生成机器人视频,处理软体、绳体等物体的数据合成,并与主流仿真器兼容实现批量并行生成 [45] 核心研究成果:机器人数据与训练模型 - **InterVLA数据集**:为补充机器人第一人称视角数据缺失,团队构建了包含约3.9千个序列的新基准数据集,包含第一人称视角视频、第三人称视角视频及动作捕捉数据 [46][49][57] - **DreamVLA模型**:针对“抓放”等任务,提出将大语言模型中的“思维链”思想引入视觉-语言-动作模型,让模型在输出最终动作前,先输出“世界嵌入”或“世界知识”等中间产物,形成多模态推理链条 [63][71][73] - **模型效果**:相比于Open-VLA等方案,DreamVLA泛化性更好,并能实现更快、更高效的收敛 [75] - **方位基础模型**:通过模块化方案赋予机器人“方位感知”能力,使其能像人一样从合适方位抓取物体(如抓瓶身而非瓶盖) [76][80] - **解耦世界模型**:将“解耦学习”嵌入世界模型,提取对任务至关重要的环境关键因子,排除非任务相关干扰,从而提升训练效率与模型鲁棒性 [81][83] 研究背景与团队发展 - 研究重点自2024年初开始聚焦世界模型与空间智能,标志着从处理2D视觉信号转向理解3D、4D等高维信号,旨在让AI获得对物理空间的认知能力 [85] - 团队在2025年NeurIPS会议上有两篇合作论文受到广泛关注 [85] - 团队学生培养取得初步成效,2024年有一位博士获得国家奖学金,2025年增加至两位 [91] - 招生最看重学生的自驱力与对科研的热情,并通过实习期进行双向考核 [91][92] 产业应用与场景选择 - 基于宁波强大的制造业背景(拥有104家国家级制造业单项冠军企业,数量全国第一),团队优先选择工业场景构建“工厂世界模型”,与奥克斯空调、均胜电子、吉利汽车等当地龙头企业紧密合作 [93] - 与专注于探索底层原理的知名团队(如LeCun团队、李飞飞团队)不同,该团队采取“两条腿走路”策略,既探索前沿技术,又聚焦有特色的应用场景 [94] 世界模型的构建方法与挑战 - **构建数据**:分为静态数据(物体级静态资产)和动态数据(RGB视频、激光点云、动作捕捉数据),两者均为必需 [95][96] - **构建步骤**:采用自上而下的技术路径,先定义物理规则,再叠加动态数据,最后以静态数据打底,涉及数据采集、处理、合成与模型训练 [97] - **兴起原因**:AIGC技术使得通过生成方式快速创建物理正确、视觉真实的场景成为可能,在效率与成本上相比传统手工建模有量级提升 [97] - **最大挑战**:成本最高的部分是前期静态资产和动态场景数据的创建与采集;技术难度最大的在于将软体、弹性体、流体等第一性原理和物理规则有效嵌入模型中 [98] 技术路径讨论与行业观点 - **关于Sora等视频生成模型**:认为其是否为世界模型取决于应用场景,在游戏、娱乐等内容生成领域有价值,但在需要精细空间感知与动作策略的机器人或自动驾驶领域存在局限性 [99] - **载体差异**:当前趋势是采用数据驱动的端到端模式(如VLA模型),倾向于为不同形态的智能体(汽车、机械臂)构建统一的世界模型服务,避免重复造轮子 [99][100] - **技术路径选择**:团队倾向于“混合”路径,结合端到端黑盒方法的能力与显性、可解释的组件 [101] - **学术界价值**:面对企业界强大的大模型路径,不必焦虑于快速商业变现,技术持续发展总需要新的突破,许多奠基性技术最初源于高校 [102] - **物理规律掌握**:关键在于构建高度物理真实的世界模型本身,若能真实还原材质物理属性,仿真环境中训练出的智能体行为结果会与真实世界一致 [102][103] - **实现方法**:采用知识库与数据库结合的混合路径,对明确规则(如碰撞检测、摩擦力)进行知识嵌入,对复杂现象(如流体运动)则采用数据驱动方法 [104][105]