Workflow
空间语言
icon
搜索文档
视频生成告别“瞬移变形”,群核科技Hugging Face登顶背后:空间语言改写AI物理世界规则
钛媒体APP· 2025-09-01 03:18
空间智能技术突破 - AIGC技术从文本图像生成向3D空间与视频领域延伸 面临物理世界空间结构理解不足和视频时空一致性两大核心挑战 [2] - 空间智能是AI从数字世界走向物理世界的关键桥梁 核心是让AI理解物理世界的"空间语言" [2] - 群核科技开源新一代空间语言模型SpatialLM 1.5与空间生成模型SpatialGen 是中国企业首次面向全球开发者开放专注于3D室内场景认知与生成的大模型体系 [2] SpatialLM 1.5模型特性 - 通过"空间语言"实现3D场景的结构化生成与交互 生成富含物理正确结构化信息的场景 [3] - 基于通义千问3小模型训练 将空间关系编码为"语言" 输出可直接用于渲染仿真的"空间代码"而非自然语言描述 [4] - 支持用户通过对话交互系统SpatialLM-Chat进行可交互场景的端到端生成 例如输入"生成100平方米两居室"可输出包含墙线坐标家具尺寸的结构化脚本 [4] - 成为具身智能机器人训练的关键工具 演示显示机器人可基于生成场景自主规划"从卧室取药到客厅"路径并规避障碍物 [4][5] SpatialGen模型特性 - 依托3D高斯技术保障多视角图像的空间连贯性 专注于生成与呈现 [3] - 通过多视角扩散模型打破2D图像序列训练局限 以3D高斯场景为中间载体生成任意视角图像 [6] - 输入单张参考图和布局图即可生成物体形状位置在不同帧中一致的图像 演示显示12秒漫游视频首尾窗户摆件位置完全吻合 [6] - 采用"先造世界再拍视频"方式使视频生成效率成倍提升 支持非连续视角切换如"从厨房直接跳转到卧室" [7] 数据优势与行业应用 - 群核科技拥有超过4.41亿个3D模型及超过5亿个结构化3D空间场景 源自全球最大空间设计平台酷家乐 [5] - 3D数据稀缺性是空间智能发展核心瓶颈 互联网百亿级图像文本数据中高质量3D场景不足千万级且标注成本极高 [5] - 计划基于SpatialGen推出AI视频创作工具 可实现商品主体高保真还原下保持空间一致性 大幅降低广告和工业设计成本 [7] - 香水宣传视频案例显示在保持商品主体高保真前提下实现复杂运镜和动效 被评价为"比较重大的突破"且具备足够营销属性 [7][8] 开源战略与生态建设 - 开源策略包括开源全球最大空间认知数据集InteriorNet和3D高斯数据集InteriorGS 后者在Hugging Face数据集中排名第一 [9] - 开源目标是与全球创新者共同做大市场 从技术研发迈向生态共建 [9] - 技术路线聚焦"可交互的功能场景" 与World Labs的"3D场景生成"形成差异化 强调真实感全息漫游结构化可交互和复杂室内场景三大特点 [10] 工业软件领域影响 - 空间大模型为传统工业软件"卡脖子"问题提供新路径 通过自然语言生成场景可能绕过传统CAD复杂操作逻辑 [11] - 目标不是替代达索或Autodesk 而是创造"AI原生"设计工具实现弯道超车 [11] - 生成的场景不仅具备视觉真实感 还支持机器人开门取物等工业级交互应用 [10]
空间智能卡脖子难题被杭州攻克!难倒GPT-5后,六小龙企业出手了
量子位· 2025-08-27 05:49
核心观点 - 群核科技发布空间大模型 专注于室内场景并解决空间一致性痛点 与主流视频生成和3D场景生成路径形成差异化 [2][7][50] - 空间大模型通过真实感全息漫游 可交互性和复杂空间处理能力 推动AI从二维向三维空间智能演进 [11][13][50] - 行业处于早期发展阶段 类似GPT-2阶段 面临数据稀缺 场景复杂和交互泛化三大挑战 群核通过三位一体技术战略构建闭环生态 [32][35][42] 技术路径对比 - 视频生成派以Genie 3为代表 生成动态交互内容但本质为二维序列仿真 难以保证三维空间一致性 [5] - 3D场景生成派以World Labs和混元为代表 支持360度漫游但受限于高质量3D数据 易出现场景崩坏和穿帮 [5] - 群核原生空间智能路线深耕三维室内场景 构建具精确几何 物理属性和语义关系的数字孪生空间 [50] 模型能力特点 - SpatialGen基于扩散模型架构 通过文字描述 参考图像和3D布局生成多视角图像 采用3D高斯重建技术还原场景 [15] - SpatialLM1.5定义空间语言概念 用坐标轴描述物体位置 形状 姿态和物理属性 支持精准空间生成与编辑 [19][21] - 模型具备复杂任务处理能力 如基于自然语言指令生成三维空间并摆放家具 或通过AI Agent框架完成路径规划 [30][31] 行业挑战 - 室内空间数据稀缺且获取成本高 受隐私合规和环境多样性约束 规模化数据积累困难 [36][37] - 室内场景结构复杂 物体分布与功能逻辑异构性强 需深层认知理解如承重特性和几何稳定性 [39] - 交互任务需动态环境感知 物理常识推理与多步任务分解 现有模型缺乏动作后果预测和意图理解能力 [40][41] 群核技术战略 - 三位一体闭环包含空间编辑工具 空间合成数据和空间大模型 工具沉淀数据 数据加速模型迭代 模型提升工具体验 [42][45] - 拥有全球最大室内空间数据集InteriorNet 包含4.41亿个3D模型和超5亿个结构化3D空间场景 [45] - 基于技术飞轮开发可控视频生成工具 融合SpatialGen 自研渲染引擎KooEngine与DIT架构 计划年内发布产品 [47][48][49] 开源与生态建设 - 开源SpatialLM1.5和SpatialGen子模型 降低技术门槛并吸引开发者共同应对行业挑战 [14][52] - 通过开源推动构建以空间语言为核心的标准和生态 加速数据沉淀与技术迭代 [52] - SpatialLM 1.0曾登Hugging Face趋势榜前三 已有初创企业基于其代码训练自有模型 [52]