Workflow
SpatialLM1.5
icon
搜索文档
空间智能卡脖子难题被杭州攻克!难倒GPT-5后,六小龙企业出手了
量子位· 2025-08-27 05:49
核心观点 - 群核科技发布空间大模型 专注于室内场景并解决空间一致性痛点 与主流视频生成和3D场景生成路径形成差异化 [2][7][50] - 空间大模型通过真实感全息漫游 可交互性和复杂空间处理能力 推动AI从二维向三维空间智能演进 [11][13][50] - 行业处于早期发展阶段 类似GPT-2阶段 面临数据稀缺 场景复杂和交互泛化三大挑战 群核通过三位一体技术战略构建闭环生态 [32][35][42] 技术路径对比 - 视频生成派以Genie 3为代表 生成动态交互内容但本质为二维序列仿真 难以保证三维空间一致性 [5] - 3D场景生成派以World Labs和混元为代表 支持360度漫游但受限于高质量3D数据 易出现场景崩坏和穿帮 [5] - 群核原生空间智能路线深耕三维室内场景 构建具精确几何 物理属性和语义关系的数字孪生空间 [50] 模型能力特点 - SpatialGen基于扩散模型架构 通过文字描述 参考图像和3D布局生成多视角图像 采用3D高斯重建技术还原场景 [15] - SpatialLM1.5定义空间语言概念 用坐标轴描述物体位置 形状 姿态和物理属性 支持精准空间生成与编辑 [19][21] - 模型具备复杂任务处理能力 如基于自然语言指令生成三维空间并摆放家具 或通过AI Agent框架完成路径规划 [30][31] 行业挑战 - 室内空间数据稀缺且获取成本高 受隐私合规和环境多样性约束 规模化数据积累困难 [36][37] - 室内场景结构复杂 物体分布与功能逻辑异构性强 需深层认知理解如承重特性和几何稳定性 [39] - 交互任务需动态环境感知 物理常识推理与多步任务分解 现有模型缺乏动作后果预测和意图理解能力 [40][41] 群核技术战略 - 三位一体闭环包含空间编辑工具 空间合成数据和空间大模型 工具沉淀数据 数据加速模型迭代 模型提升工具体验 [42][45] - 拥有全球最大室内空间数据集InteriorNet 包含4.41亿个3D模型和超5亿个结构化3D空间场景 [45] - 基于技术飞轮开发可控视频生成工具 融合SpatialGen 自研渲染引擎KooEngine与DIT架构 计划年内发布产品 [47][48][49] 开源与生态建设 - 开源SpatialLM1.5和SpatialGen子模型 降低技术门槛并吸引开发者共同应对行业挑战 [14][52] - 通过开源推动构建以空间语言为核心的标准和生态 加速数据沉淀与技术迭代 [52] - SpatialLM 1.0曾登Hugging Face趋势榜前三 已有初创企业基于其代码训练自有模型 [52]