空间智能
搜索文档
做空间智能的“卖水人”!“杭州六小龙”之群核科技,最新宣布→
证券时报· 2025-12-09 08:10
公司战略升级与定位 - 公司正从3D空间软件提供商向空间智能基础设施提供商升级 使命从帮助人在三维空间实现想象力拓展至帮助具身智能、AIGC等智能体更智能 [1] - 公司宣布系统性持续开放其底层空间智能相关能力 致力于成为行业底层技术的“卖水人” 提供“可落地”的空间智能能力 [1] - 公司发布战略全景图 系统展示整体布局 [1] 核心平台发布:Aholo空间智能开放平台 - 公司发布Aholo空间智能开放平台 整合了过去14年在空间重建、生成、编辑与理解方面的核心能力 以底层模型和工具形式逐步对外开放 [2] - Aholo平台已启动内测 开发者和企业可通过API或SDK调取能力 支持通过图片、视频或全景图等多模态输入快速构建高保真全息3D空间 [2] - 华策影视与公司达成战略合作 将借助Aholo平台围绕虚拟片场生成与影视场景重建等方向展开合作 以提升影视制作效率与艺术表现力 [2] 3D AI内容创作工具:LuxReal - 公司孵化的3D AI内容创作工具LuxReal亮相 以自研AI 3D生成模型Lux3D为底座 融合图像和视频生成模型 构建业内第一个3D Agent系统 [3] - LuxReal通过构建3D渲染与视频增强一体化的生成管线 让AI视频“理解空间” 旨在产出更稳定、更可信的内容 增强在电商、工业设计、游戏等领域的可落地性 [3] - LuxReal已开启全球内测邀请 将于12月中下旬正式启动内测 [3] 技术优势与数据积累 - 公司在空间智能领域的另一大优势在于海量可交互的空间数据 [4] - 今年公司将3D高斯技术引入AI空间训练领域 借助其重建能力全面拥抱真实数据 进一步缩小仿真到现实(Sim2Real)之间的差距 [4] 生态合作与商业化落地 - 谋先飞(Motphys)、地瓜机器人与公司的空间智能训练平台SpatialVerse达成深度合作 将整合各自在具身智能仿真训练平台、云算力、空间训练数据等优势 共建机器人仿真训练体系 [4] - XR平台PICO与公司达成生态合作 双方将基于PICO的XR硬件系统与公司的空间数据集 携手打造“世界最大的可交互XR资产库” [5] - SpatialVerse已与智元机器人、银河通用、穹彻智能、智平方、松应科技等一批具身智能企业达成合作 并拓展工业场景推出工业AI孪生平台SpatialTwin [5] 产品效率提升与财务进展 - 酷家乐上线AI智能设计平台 仅需5分钟就能完成一套全屋空间设计方案 效率提升100倍 [5] - 公司已于2025年8月22日更新港股招股书 继续推动上市进程 冲刺“全球空间智能第一股” [5] - 2025年上半年 公司实现扭亏为盈 经调整净利润为1783万元 [5] 行业背景与公司愿景 - 空间智能被认为是AI走向三维世界的关键钥匙 其加速落地急需更广泛、更开放的底层能力提供方 以推动从“实验室技术”走向规模化产业应用 [2] - 当AI加速迈向三维世界 行业最需要的是底层技术的“卖水人” 公司致力于在算力受限的现实条件下 通过生成、仿真等多元技术组合 更高效连接物理世界与数字世界 [1]
做空间智能的“卖水人”!“杭州六小龙”之群核科技,最新宣布→
证券时报· 2025-12-09 08:05
公司战略升级 - 公司宣布系统性开放其底层空间智能相关能力,致力于成为行业底层技术的“卖水人”,提供“可落地”的空间智能能力 [3] - 公司正从3D空间软件提供商逐步向空间智能基础设施提供商升级,公司使命拓展至帮助具身智能、AIGC等智能体更智能 [3] - 公司已更新招股书,继续推动在港交所上市进程,冲刺“全球空间智能第一股” [10] 核心平台与产品发布 - 发布Aholo空间智能开放平台,整合了过去14年在空间重建、生成、编辑与理解方面的核心能力,以底层模型和工具形式对外开放 [5] - Aholo平台已启动内测,开发者和企业可通过API或SDK调取能力,支持通过图片、视频或全景图等多模态输入快速构建高保真全息3D空间 [5] - 孵化的3D AI内容创作工具LuxReal亮相,以自研AI 3D生成模型Lux3D为底座,融合图像和视频生成模型,构建业内第一个3D Agent系统 [6] - LuxReal通过构建3D渲染与视频增强一体化的生成管线,旨在增强AI生成视频在电商、工业设计、游戏等领域的可落地性,已开启全球内测邀请 [7] 技术能力与数据优势 - 公司将3D高斯技术引入AI空间训练领域,借助其重建能力全面拥抱真实数据,以缩小仿真到现实(Sim2Real)之间的差距 [9] - 公司在空间智能领域拥有海量可交互的空间数据优势 [9] - 酷家乐AI智能设计平台仅需5分钟就能完成一套全屋空间设计方案,效率提升100倍 [10] 生态合作与行业应用 - 与华策影视达成战略合作,共同推进空间智能技术在影视内容创作与制作领域的前沿应用,围绕虚拟片场生成与影视场景重建等方向展开合作 [5] - 与谋先飞(Motphys)、地瓜机器人达成深度合作,共同推进机器人仿真训练解决方案的创新落地,共建机器人仿真训练体系 [9] - 与XR平台PICO达成生态合作,携手打造“世界最大的可交互XR资产库”,探索“空间智能+XR”创新生态 [9] - 空间智能训练平台SpatialVerse已与智元机器人、银河通用、穹彻智能、智平方、松应科技等一批具身智能企业达成合作 [10] - SpatialVerse拓展工业场景,推出工业AI孪生平台SpatialTwin,探索具身智能时代的人机协作新模式 [10] 财务与股东背景 - 2025年上半年,公司实现扭亏为盈,经调整净利润为1783万元 [10] - 公司已获得包括IDG资本、纪源资本、顺为资本、云启资本、经纬创投、线性资本、Hearst、Pavillion、高瓴创投、Coatue等多家知名机构的投资 [11]
“杭州六小龙”之一的群核科技发布空间智能开放平台
新浪财经· 2025-12-09 02:52
公司战略与产品发布 - 群核科技首次发布空间智能开放平台Aholo [1] - 公司CEO陈航将公司定位为AI迈向三维世界所需的“卖水人” [1] - Aholo平台将陆续开放群核底层的空间智能能力,包括空间重建、空间生成、空间编辑、空间理解 [1] 技术能力与应用领域 - Aholo平台最终可应用于3D空间创作、影视短剧、工业孪生、机器人仿真等多个领域 [1]
产业协同赋能创新,瀛通通讯与蒙通智能联手开拓AI眼镜空间智能新赛道
全景网· 2025-12-04 08:49
合作双方概况 - 瀛通通讯是一家国内智能终端领域的一体化综合性科技型企业 长期聚焦智能硬件产品创新与市场拓展 业务涵盖产品研发、制造销售、产业投资运营等多个板块 其成熟的供应链体系、严格的质控标准和广泛的市场渠道为技术成果规模化落地提供保障 [1] - 蒙通智能成立于2022年 专注于AI+AR眼镜全栈解决方案 核心技术包括FuseSpaceAI融合大模型、SpaceAIOS全栈操作系统、非DP协议适配等 核心团队成员来自金立、阿里、OPPO、日立、MTK等顶尖企业 [2] - 蒙通智能已成功服务多家全球头部品牌 成为AI眼镜赛道中成长速度最快的新锐企业之一 并已成为传音控股、软银集团、AOC等全球头部品牌的方案合作伙伴 [2] 合作核心内容 - 双方正式签署技术合作框架协议 合作以“战略协同、生态共建、未来可期”为核心原则 聚焦AI眼镜整机解决方案联合开发 共同角逐空间智能交互市场 [1] - 合作采用“框架协议+项目协议”的渐进式合作模式 明确了双方的战略伙伴关系 [2] - 合作内容围绕AI眼镜整机方案展开 蒙通智能将提供FuseSpaceAI SDK接口、SpaceAIOS系统框架、AI Agent开发指南、硬件参考设计文档及量产技术支持 [2] - 瀛通通讯将依托其在智能终端领域的供应链整合能力与精准市场洞察 推动技术方案快速走向规模化应用 [2] - 此次合作被视为基于具体项目的产品级共创 双方优势互补 有望在空间智能领域联合攻克行业技术难题 [2] 行业背景与合作意义 - 当前AI眼镜市场已进入“百镜大战”的竞争格局 但存在技术碎片化、体验同质化等行业痛点 产业发展亟待整合升级 [3] - 在产业发展早期 生态共建相较于技术独占更能加速行业进步 此次联手被视为行业“产业整合”的积极信号 [3] - 瀛通通讯的产业基础叠加蒙通智能的技术敏捷性 形成“大厂拉力+小厂推力”的组合 有望推动行业加速发展 [3] 合作后续推进 - 协议签署后 双方首个技术对接会已提上日程 [3] - 瀛通通讯将组建涵盖产品、供应链、法务的跨部门专业团队 与蒙通智能开展深度技术匹配工作 [3] - 双方将围绕具体产品定义、技术验证、成本核算等关键环节展开细致磋商 全力推动合作意向转化为实际产品成果 [3] - 双方致力于走好从协议到产品的“最后一公里” 力争为行业市场呈现亮眼成果 [3]
三闯IPO,五一视界还在吃老本
北京商报· 2025-12-03 14:15
公司上市进程与法律事项 - 公司五一视界(51World)第三次冲击资本市场,已向港交所更新招股书并获得中国证监会备案,此前曾尝试科创板与北交所[1] - 2024年发生的一起与服务提供商的仲裁案已于2025年8月22日达成和解,公司同意向对方支付700万元人民币[1][9] 财务表现与趋势 - 2025年上半年营收为5382万元人民币,同比增长62%[1][4] - 2022年至2024年全年营收逐年增长,分别为1.7亿元、2.56亿元、2.87亿元人民币[4] - 2025年上半年经调整净亏损为6717.7万元人民币,同比扩大11.4%,打破了此前亏损逐年收窄的趋势(2022年:1.32亿元,2023年:6808.1万元,2024年:4306.5万元)[1][3][4] - 毛利率呈现持续下滑趋势,从2022年的65%降至2023年的54.2%、2024年的51.1%,2025年上半年进一步降至41.1%,较2024年同期的50%下降8.9个百分点[1][4] - 销售成本大幅上涨,2025年上半年销售成本为3169.3万元人民币,同比增长90.7%,销售成本占营收的比例达到58.9%[1][4] - 2025年上半年销售成本中,用于购买软件的占比为60.5%,较2024年同期增加41.8个百分点,公司解释因提供了更多定制化解决方案,特别是硬件内容较高的产品导致成本增加[5] 成本结构与费用分析 - 2025年上半年,销售开支占营收比例为63.7%,一般及行政开支占比为85.6%,研发开支占比为56.0%[2] - 研发开支的构成发生变化,2025年上半年技术服务费(主要与外包研发工作相关)为646.9万元人民币,较2024年同期的104.3万元大幅增长520%,占研发开支的21.5%[6][7] - 研发团队规模持续缩水,从2024年1月的约130人减少至2024年底的118人,再到2025年上半年的114人[5] - 公司计划未来三年招聘约50至100名研发人员[5] 业务构成与客户分析 - 公司营收高度依赖老业务数字孪生平台51Aes,该平台在2025年上半年贡献了81.4%的营收,自公司2015年成立当年推出[1][10] - 合成数据与仿真平台51Sim于2017年推出,2025年上半年贡献营收14.8%;数字地球平台51Earth贡献营收3.9%[10] - 客户集中度呈上升趋势,来自五大客户的营收占比从2022年的23.6%增至2023年的38.3%、2024年的46.4%,2025年上半年达到51.5%[9] - 2025年上半年,数字孪生平台51Aes、合成数据与仿真平台51Sim及数字地球平台51Earth的客户数量分别为55个、17个和1个[9] 产品与战略方向 - 公司近期强调新推出的空间智能与具身智能产品方向[11] - 在空间智能方向推出了交互平台Clonova,旨在通过自然语言处理技术在沉浸式3D空间中进行互动[11] - 在具身智能方向,致力于通过仿真与合成数据技术为物理AI提供模拟训练与数据,但新产品Clonova未出现在最新招股书中,空间智能仅在未来计划部分被提及[11][12] - 行业观点认为,数字孪生业务需要底层技术进一步配合与集成才能成为可持续的商业模式[12]
技术、生态与品牌的全面换道,中国造车新势力正迈入“物理 AI”时代
观察者网· 2025-12-03 13:13
行业趋势:从技术配置到跨终端智能平台竞争 - 中国智能电动车产业竞争已从“技术配置竞争”进入“跨终端智能平台竞争”阶段,新势力正将战略重点转向“物理AI”[1] - “物理AI”旨在让AI理解、导航并与三维物理世界交互,是实现机器真正智能的关键,其发展需要超越大语言模型的“世界模型”[3] - 行业竞争正跨越边界,转向“物理世界的AI化”这一更高维度,未来的胜出者可能是能在人们生活中建立统一AI体验的系统型公司,而不仅是硬件优秀的车企[16][17] 市场基础与规模 - 2024年中国新能源汽车产销量分别达到约1288.8万辆和1286.6万辆,同比增长均超过30%,强势取代燃油车地位,为“物理AI”提供了庞大的用户规模与场景[4] - 2024年中国腕戴设备出货量超过6100万台,市场位居全球前列,可穿戴与AR/VR生态为智能眼镜等终端普及奠定基础[6] - 据测算,2025年中国低空经济市场规模预计达1.5万亿元人民币,同年机器人市场规模将突破1500亿元,两者都即将进入量产元年,为“物理AI”提供新载体[6] 主要参与者的战略与实践 - **理想汽车**:2024年交付接近50万辆,形成庞大车主样本与数据池[4];其“物理AI”战略以Livis为系统品牌与OS,贯穿车、眼镜、家庭等多物理端,以“时间线记忆+VLA(感知—理解—行动)”为技术范式[7];将全新AI眼镜定位为生态“本体”,串联车、眼镜、家庭形成“记忆与行为闭环”[9];公司研发体系新设聚焦穿戴机器人和空间机器人的部门,认为“空间交互+AI能力”是未来技术发展核心[11] - **小鹏汽车**:在2024年实现营收与交付显著增长,为AI赛道投入提供资金与规模保障[4];致力于“让车辆成为用户生活的一部分”,通过新一代VLA模型将自动驾驶的“决策闭环”扩展至更多物理形态,实现对物理世界的智能交互[9][11] - **其他参与者**:蔚来、华为虽未明确使用“物理AI”概念,但其创建的NWM、WA世界模型也展示了在辅助驾驶领域对AI控制物理世界的探索[11] 商业化与商业价值 - “物理AI”能将“购车”单次交易转化为持续的服务关系,通过加深现有车主使用场景和吸引科技敏感用户,拓展用户基数并提高长期留存[13] - 跨端技术的闭环能力使企业能够推出基于订阅、增值服务与场景化功能的商业化路径,在硬件销售外形成可持续营收来源[15] - “物理AI”的实践对外是企业技术实力的名片,对内是组织文化与执行力的佐证,有助于强化品牌与高管形象,传递明确的品牌主张[12] 技术挑战与工程难题 - 发展“物理AI”要求硬件优化续航与响应,而非简单堆算力[16] - 相较于传统大语言模型,机器人作为物理系统的全面展现,在控制端更接近甚至难于自动驾驶汽车,存在显著的工程难题[16] - “物理AI”的推广还面临法规与责任界定、用户采纳与体验教育、高投入长期博弈等多维度阻力[16]
从 LLM 到 World Model:为什么我们需要能理解并操作世界的空间智能?
海外独角兽· 2025-12-03 12:05
文章核心观点 - 大语言模型在语言理解和生成方面展现出强大能力,但仅依赖语言不足以支撑真正的智能,构建能够理解和操作世界的空间智能与世界模型成为下一代人工智能发展的关键方向[2][4] - 空间智能被定义为在三维空间中进行推理、理解、移动和交互的深层能力,与语言智能互补,是通往通用人工智能不可或缺的拼图[4] - 语言是对三维世界的“有损压缩”,而视觉和空间感知是更接近“无损”的表征方式,让AI理解像素和三维空间中的物理规律难度高于处理符号化语言[10][11] - World Labs公司推出的Marble模型是全球首个高保真度3D世界生成模型,旨在突破模型“只懂文本”的限制,具备在三维环境中定位、推理、模拟、生成和执行任务的能力[15][17] 空间智能的必要性与理论基础 - 从生物演化角度看,大自然花费5.4亿年优化动物的视觉感知与空间行动能力,而人类语言形成历史仅约50万年,忽视这5.4亿年的进化积淀仅通过语言构建通用人工智能是不合理的[7][8] - 空间智能是人类进行高级科学创造不可或缺的思维工具,DNA双螺旋结构的发现就依赖于高强度空间推理,通过在三维空间中对分子结构进行几何构建和逻辑验证而完成[12][13] - 根据多元智能理论,人类智能是多维度的,至少具备八种相互独立的智能,空间智能与语言智能并非对立而是互补关系[4][5] Marble模型的技术特点 - 模型采用多模态输入方式,用户可输入文本描述、单张图像或一组图像,并能基于照片在虚拟空间中重构3D模型[20] - 具备交互式编辑功能,用户可对生成场景下达具体修改指令,模型能根据新约束条件重新生成并调整整个3D世界,形成“生成-反馈-修改”的闭环[20][21] - 选择Gaussian Splats作为3D世界的基础原子单元,通过大量3D高斯体表示和渲染场景,实现了在移动设备上30fps甚至60fps的实时渲染能力[24][25] - 模型架构基于Transformer,其本质是集合模型而非序列模型,置换等变的特性使其天然适合处理3D空间数据[28][29] Marble模型的应用场景 - 在创意与影视领域提供精确的相机放置控制,能极大降低特效制作门槛和成本,成为电影工业强大的生产力工具[21][31] - 室内设计成为典型涌现用例,用户通过手机拍摄厨房照片即可在虚拟空间重构3D结构并随意尝试各种设计方案,无需掌握复杂CAD软件[31][32] - 在机器人领域可作为强大模拟器,生成高保真合成数据填补真实数据与互联网视频之间的鸿沟,为具身智能体提供零成本虚拟训练环境[34][35] 技术发展趋势与挑战 - 当前世界模型面临的最大挑战是视觉真实与物理真实的差距,生成看起来合理的3D场景不等于模型理解物理定律[27] - 公司正在探索将传统物理引擎与生成式模型结合的混合路径,包括通过物理引擎生成模拟数据训练模型,以及给Splats赋予物理属性等方式[27][28] - 在算力被巨头垄断的时代,学术界应专注于探索短期内看似不可行但具备长远颠覆性的研究方向,如打破硬件彩票现象,寻找替代矩阵乘法的计算原语[36][37][38]
全面战胜ReAct,斯坦福全新智能体推理框架,性能提升112.5%
36氪· 2025-12-03 02:33
核心观点 - 斯坦福与MIT研究团队推出新型AI智能体推理框架ReCAP,在长上下文任务中性能全面超越当前主流框架ReAct,解决了目标漂移、上下文断层和成本爆炸等关键问题,成为极具潜力的新一代通用推理架构 [1] 技术突破与性能表现 - ReCAP在多项基准测试中大幅领先:在Robotouille(同步)任务上取得70%成功率,较ReAct的38%提升84.2%;在Robotouille(异步)任务上取得53%成功率,较ReAct的24%提升112.5% [2][14] - 在ALFWorld任务上取得91%成功率,优于ReAct的84%;在SWE-bench Verified任务上取得44.8%成功率,优于ReAct的39.58% [8][14] - 团队严格遵循pass@1(一次通过)评测原则,不使用重试或投票,证明其在真实多步环境中能更好地保持目标一致性与执行连贯性 [10] 框架核心机制 - ReCAP通过三大机制解决长上下文任务痛点:计划前瞻分解、结构化父任务再注入、滑动窗口记忆 [13] - 核心是采用一个有记忆、有反馈的递归树结构作为模型的工作记忆区,统一了序列推理和层级推理 [1][8] - 通过单一共享上下文和滑动窗口保留最新关键历史,实现了内存占用可控的深度递归,从根本上杜绝了成本爆炸 [13] 解决的问题与行业背景 - 当前大语言模型在执行复杂长上下文任务时存在三大问题:目标漂移、上下文断层、成本爆炸 [3][6] - 自2022年ReAct框架提出后,其因示例简单、高通用性和即插即用优势,成为过去三年该领域事实上的主流与标杆 [1] - 许多复杂架构因在更换评测基准时需要大幅修改示例,表现不如ReAct稳定泛用 [1] 优势与成本权衡 - ReCAP继承了ReAct示例简单、高通用性和即插即用的优势 [1] - 其总计算成本约为ReAct的三倍,主要来自计划前瞻分解机制所需的额外LLM调用 [11] - 考虑到其在关键任务上带来的性能巨幅提升与目标一致性,这种成本增加在对准确性要求高的实际应用中是可以接受的 [11] 应用潜力与未来展望 - ReCAP是除ReAct外,又一个能在具身推理和代码编辑这两种截然不同任务上都取得稳健表现的通用推理架构 [10] - 其递归规划能力可与空间智能结合,为具身智能机器人规划复杂的长期任务序列,实现动态环境中的自主规划与可靠执行 [15] - 适用于任何依赖复杂决策回路与长期上下文记忆的大型任务,如深度研究中的文献遍历与报告生成,或复杂软件工程中的代码库管理 [12]
潮声丨人工智能有时比人还“蠢”,AI版图缺的这块拼图是什么
搜狐财经· 2025-12-03 00:35
文章核心观点 - 当前以大语言模型和图像分类器为主导的人工智能发展已达到极限,缺乏对物理世界的深度理解,导致生成内容常出现不合常理的问题[2][6][7][10] - 空间智能被视为人工智能突破当前瓶颈、实现下一个飞跃的关键前沿,其核心是让机器像人一样理解并交互于三维物理世界[2][11][12] - 实现空间智能的根本路径在于构建“世界模型”,该模型能赋予AI对物理规则进行推理和预测的能力,已成为学术界和产业界新的重点投入方向[19][20][23] 人工智能当前发展的局限性 - 现有大语言模型和多模态模型在生成可靠文本方面强大,但在处理与物理世界相关的任务时表现不佳,常被调侃为“人工智障”[6][7] - 具体案例显示AI缺乏物理常识:豆包模型在图像生成中将骆驼比例严重失调,并添加了不符合生物特征的动物[7];OpenAI的Sora模型生成的蚂蚁视频中蚂蚁只有四条腿,且升级版Sora2在视频细节衔接上仍存在不符合常识的瑕疵[10] - 根本原因在于语言是人造信号,处理过程有信息损耗,而AI缺乏对真实物理世界体系的经验和根基[10] 空间智能的定义与重要性 - 空间智能概念源于教育心理学,指对空间信息进行感知、理解与操作的综合智能,涉及三维思维和空间想象,是人类从婴儿期发展的本能[12] - 在人类文明进步中,空间智能是关键驱动力,例如用于计算地球周长、发明珍妮纺纱机(使单人工效提升八倍)以及发现DNA双螺旋结构[12] - 将空间智能迁移至科技领域,旨在让机器获得理解并交互于三维世界的能力,这是AI发展的终极愿景之一,例如响应“去买杯咖啡”这类需要自主任务拆解与规划的高层指令[11][12] 空间智能的技术发展与产业应用现状 - 空间智能研究历史悠久,早在1970年代,大卫·马尔在《视觉》一书中就系统提出了从图像恢复三维世界的框架[15] - 技术已在部分产业中应用,例如手机AR测量、VR眼镜、扫地机器人、服务型机器人和机器狗,但这些应用或需人为操控,或对环境适应能力不强,容易因识别不清等问题导致故障[16] - 自动驾驶被视为目前规模最大、最成熟的空间智能应用,但其系统仍难以在复杂城市街道上进行安全推理,例如无法从突然出现的小球推测出可能有儿童跑上马路的潜在危险[17] - 当前技术的瓶颈在于“感知-推理-行动”链条中的“推理”环节,即缺乏能够理解物理规则并进行因果预测的内部模型[17] 实现突破的关键:世界模型 - 在数据(高质量语言数据可能在2026年左右耗尽)和算力(训练GPT-4成本可能超过1亿美元)存在限制的背景下,模型成为推动AI发展的关键[19] - “世界模型”于2018年提出,灵感来自人脑构建并运用“内部世界”的机制,旨在让AI能够整合感官信息,对物理世界进行直觉式推理和预测,例如预判咖啡杯滑落轨迹并接住[19] - 世界模型被视为实现空间智能的根本路径,因此成为产业界竞相投入的新焦点[20][23] 产业界的最新动态与投入 - 2025年1月,英伟达在CES上宣布推出可预测和生成“物理感知”视频的Cosmos世界模型[22] - 2025年3月,拥有全球最大室内场景空间数据集的空间智能企业群核科技,开源了空间语言模型SpatialLM,该模型登上HuggingFace模型趋势榜第二位[22] - 2025年8月,谷歌DeepMind发布了支持“实时交互”的世界模型Genie 3,为智能体训练及游戏开发等领域带来新可能性[22] - 近期,李飞飞参与创建的公司World Lab发布了首款多模态世界模型产品Marble,支持通过多种输入生成可编辑的3D环境[22] 未来展望与挑战 - 大语言模型的成功验证了“基础模型”技术路线的潜力,促使业界瞄准下一个前沿——赋予AI对物理世界的理解与交互能力[23] - 世界模型的搭建仍面临诸多难点:真实世界的复杂性与不确定性难以用现有数学模型全面处理;某些领域(如地球内部构造)数据获取有限;物理学本身对暗物质等现象的认知局限也限制了模型的完整性[23] - 尽管挑战巨大,但发展空间智能和世界模型代表了AI技术演进的重要方向[24]
世界模型,是否正在逼近自己的「ChatGPT时刻」?
新浪财经· 2025-12-02 11:22
世界模型的定义与前景 - 世界模型本质是预测模型,给定当前状态及动作序列,预测下一个状态 [3] - 世界模型可理解为AI对环境状态的预测和判断,从简单游戏世界逐渐走向高质量状态模拟 [3] - 终极目标是对世界进行1:1建模,可能达到原子级别,但实际需根据不同任务目的进行建模 [3] - 三大应用前景包括:为自动驾驶、具身智能等多模态任务提供更多数据、建立模型与世界的结合替代传统模拟器、以及最终成为端到端系统的一部分 [3] 世界模型的构建与数据挑战 - 构建面临核心悖论:先有模型还是先有数据,自动驾驶公司积累上亿公里数据但99%为晴天道路数据,缺乏危险场景数据 [5] - 可行路径为先用常见数据训练垂类模型,再生成更多极端案例数据,通过迭代增强世界模型 [5] - 有公司构建世界模型时数据采集成本达千万级,研究团队难以承担,需通过特定高质量数据提升模型效果 [5] - 提出循环过程:先有0.1版本模型生成0.1版本数据,再进一步训练模型,采用生成数据与真实数据混合模式 [5] 技术实现路径与架构分歧 - 技术路径存在分歧,有研究团队偏向融入物理信息保持视觉模型与物理世界一致性如重力 [6] - 模型构建与需求相关,面向影视游戏方向视频生成更合适,面向通用任务可能不需严格保持物理规律 [6] - 随着生成能力增强,模型最终形态可能是纯生成式,无需重建 [6] - 架构存在扩散模型与自回归模型之争,扩散模型从随机噪声还原内容更接近物理世界生成方式 [7] - 观察到技术融合趋势,包括OpenAI正探索将不同架构在特定阶段统一,如使用token化扩散 [7] - 已有扩散和自回归结合工作,扩散擅长捕捉现实世界分布,自回归补足时序与逻辑连贯性 [7] 发展时间表与商业化前景 - 世界模型的ChatGPT时刻可能需要三年左右出现,目前最困难是缺乏高质量长视频数据 [8] - 视频生成时长大多在5到10秒,大厂演示仅达一分钟量级,因此ChatGPT时刻可能需更长时间 [8] - 世界模型可能是现在及未来十年新的爆发方向,随着语言模型发展成熟需开拓新研究方向 [8] - 存在ToB和ToC商业化挑战,如ToB端按token收费时如何定义视频生成数据价值,ToC端如何提升token [8] - 未来需训练强化学习Agent并将视觉-语言-动作技术进化为世界-语言-动作技术 [8]