Manycore Tech-视频生成告别“瞬移变形”，群核科技Hugging Face登顶背后：空间语言改写AI物理世界规则

空间智能技术突破 - AIGC技术从文本图像生成向3D空间与视频领域延伸面临物理世界空间结构理解不足和视频时空一致性两大核心挑战 [2] - 空间智能是AI从数字世界走向物理世界的关键桥梁核心是让AI理解物理世界的"空间语言" [2] - 群核科技开源新一代空间语言模型SpatialLM 1.5与空间生成模型SpatialGen 是中国企业首次面向全球开发者开放专注于3D室内场景认知与生成的大模型体系 [2] SpatialLM 1.5模型特性 - 通过"空间语言"实现3D场景的结构化生成与交互生成富含物理正确结构化信息的场景 [3] - 基于通义千问3小模型训练将空间关系编码为"语言" 输出可直接用于渲染仿真的"空间代码"而非自然语言描述 [4] - 支持用户通过对话交互系统SpatialLM-Chat进行可交互场景的端到端生成例如输入"生成100平方米两居室"可输出包含墙线坐标家具尺寸的结构化脚本 [4] - 成为具身智能机器人训练的关键工具演示显示机器人可基于生成场景自主规划"从卧室取药到客厅"路径并规避障碍物 [4][5] SpatialGen模型特性 - 依托3D高斯技术保障多视角图像的空间连贯性专注于生成与呈现 [3] - 通过多视角扩散模型打破2D图像序列训练局限以3D高斯场景为中间载体生成任意视角图像 [6] - 输入单张参考图和布局图即可生成物体形状位置在不同帧中一致的图像演示显示12秒漫游视频首尾窗户摆件位置完全吻合 [6] - 采用"先造世界再拍视频"方式使视频生成效率成倍提升支持非连续视角切换如"从厨房直接跳转到卧室" [7] 数据优势与行业应用 - 群核科技拥有超过4.41亿个3D模型及超过5亿个结构化3D空间场景源自全球最大空间设计平台酷家乐 [5] - 3D数据稀缺性是空间智能发展核心瓶颈互联网百亿级图像文本数据中高质量3D场景不足千万级且标注成本极高 [5] - 计划基于SpatialGen推出AI视频创作工具可实现商品主体高保真还原下保持空间一致性大幅降低广告和工业设计成本 [7] - 香水宣传视频案例显示在保持商品主体高保真前提下实现复杂运镜和动效被评价为"比较重大的突破"且具备足够营销属性 [7][8] 开源战略与生态建设 - 开源策略包括开源全球最大空间认知数据集InteriorNet和3D高斯数据集InteriorGS 后者在Hugging Face数据集中排名第一 [9] - 开源目标是与全球创新者共同做大市场从技术研发迈向生态共建 [9] - 技术路线聚焦"可交互的功能场景" 与World Labs的"3D场景生成"形成差异化强调真实感全息漫游结构化可交互和复杂室内场景三大特点 [10] 工业软件领域影响 - 空间大模型为传统工业软件"卡脖子"问题提供新路径通过自然语言生成场景可能绕过传统CAD复杂操作逻辑 [11] - 目标不是替代达索或Autodesk 而是创造"AI原生"设计工具实现弯道超车 [11] - 生成的场景不仅具备视觉真实感还支持机器人开门取物等工业级交互应用 [10]