Workflow
群核科技发布空间大模型,旨在解决AI视频空间一致性难题
群核科技群核科技(US:KOOL) 36氪·2025-08-29 04:00

空间大模型技术发布 - 公司正式发布新一代空间语言模型SpatialLM 1.5和空间生成模型SpatialGen 并宣布延续开源战略逐步向全球开发者开放模型 [1] - 空间大模型技术体系专注于3D室内场景认知与生成 围绕真实感全息漫游 结构化可交互及复杂室内场景处理三个方向构建优势 [1] - SpatialLM 1.5基于大语言模型训练 让模型学会"空间语言" 能以数字文本精确描述场景物体的空间结构 几何信息 相互关系及物理参数 [1] 模型功能与应用 - SpatialLM通过对话系统SpatialLM-Chat实现文本指令生成结构化3D场景脚本 智能匹配家具布局 支持自然语言场景问答与编辑 [1] - 模型具备机器人场景应用潜力 例如输入"去客厅餐桌拿药"指令后 模型理解物体对象并调用工具自动规划行动路径 [1] - SpatialGen是基于扩散模型架构的多视角图像生成模型 可根据文字 参考图和3D空间布局生成时空一致性的多视角图像 [2] 技术突破与行业价值 - SpatialLM 1.5能快速批量生成多样化场景 解决机器人训练数据不足难题 直接用于路径规划 避障和任务执行训练 [2] - SpatialGen通过生成空间属性和物理关系一致的多视角图像 进一步生成3D高斯场景 渲染可自由漫游视频 解决AIGC视频时空一致性难题 [3] - 公司正在研发深度融合3D能力的AI视频生成产品 计划于年内发布 [3] 战略布局与数据基础 - 空间智能战略核心是"空间编辑工具-空间合成数据-空间大模型"构成的飞轮 通过工具沉淀数据 利用数据训练模型 再以模型反哺工具 [3] - 截至2025年6月30日 公司拥有超过4.41亿个3D模型及超过5亿个结构化3D空间场景 [3] - 自2018年起逐步开放数据和算法能力 当前通过开源与全球开发者共同推动空间大模型技术发展 [3] 开源计划 - 两款模型将陆续在Hugging Face GitHub和魔搭社区等平台开源 [4] - SpatialGen在技术开放日当天已开放下载 SpatialLM 1.5未来将以"SpatialLM-Chat"形式完成开源 [4]