Workflow
SpatialLM 1.5
icon
搜索文档
视频生成告别“瞬移变形”,群核科技Hugging Face登顶背后:空间语言改写AI物理世界规则
钛媒体APP· 2025-09-01 03:18
空间智能技术突破 - AIGC技术从文本图像生成向3D空间与视频领域延伸 面临物理世界空间结构理解不足和视频时空一致性两大核心挑战 [2] - 空间智能是AI从数字世界走向物理世界的关键桥梁 核心是让AI理解物理世界的"空间语言" [2] - 群核科技开源新一代空间语言模型SpatialLM 1.5与空间生成模型SpatialGen 是中国企业首次面向全球开发者开放专注于3D室内场景认知与生成的大模型体系 [2] SpatialLM 1.5模型特性 - 通过"空间语言"实现3D场景的结构化生成与交互 生成富含物理正确结构化信息的场景 [3] - 基于通义千问3小模型训练 将空间关系编码为"语言" 输出可直接用于渲染仿真的"空间代码"而非自然语言描述 [4] - 支持用户通过对话交互系统SpatialLM-Chat进行可交互场景的端到端生成 例如输入"生成100平方米两居室"可输出包含墙线坐标家具尺寸的结构化脚本 [4] - 成为具身智能机器人训练的关键工具 演示显示机器人可基于生成场景自主规划"从卧室取药到客厅"路径并规避障碍物 [4][5] SpatialGen模型特性 - 依托3D高斯技术保障多视角图像的空间连贯性 专注于生成与呈现 [3] - 通过多视角扩散模型打破2D图像序列训练局限 以3D高斯场景为中间载体生成任意视角图像 [6] - 输入单张参考图和布局图即可生成物体形状位置在不同帧中一致的图像 演示显示12秒漫游视频首尾窗户摆件位置完全吻合 [6] - 采用"先造世界再拍视频"方式使视频生成效率成倍提升 支持非连续视角切换如"从厨房直接跳转到卧室" [7] 数据优势与行业应用 - 群核科技拥有超过4.41亿个3D模型及超过5亿个结构化3D空间场景 源自全球最大空间设计平台酷家乐 [5] - 3D数据稀缺性是空间智能发展核心瓶颈 互联网百亿级图像文本数据中高质量3D场景不足千万级且标注成本极高 [5] - 计划基于SpatialGen推出AI视频创作工具 可实现商品主体高保真还原下保持空间一致性 大幅降低广告和工业设计成本 [7] - 香水宣传视频案例显示在保持商品主体高保真前提下实现复杂运镜和动效 被评价为"比较重大的突破"且具备足够营销属性 [7][8] 开源战略与生态建设 - 开源策略包括开源全球最大空间认知数据集InteriorNet和3D高斯数据集InteriorGS 后者在Hugging Face数据集中排名第一 [9] - 开源目标是与全球创新者共同做大市场 从技术研发迈向生态共建 [9] - 技术路线聚焦"可交互的功能场景" 与World Labs的"3D场景生成"形成差异化 强调真实感全息漫游结构化可交互和复杂室内场景三大特点 [10] 工业软件领域影响 - 空间大模型为传统工业软件"卡脖子"问题提供新路径 通过自然语言生成场景可能绕过传统CAD复杂操作逻辑 [11] - 目标不是替代达索或Autodesk 而是创造"AI原生"设计工具实现弯道超车 [11] - 生成的场景不仅具备视觉真实感 还支持机器人开门取物等工业级交互应用 [10]
群核科技发布空间大模型,旨在解决AI视频空间一致性难题
36氪· 2025-08-29 04:00
空间大模型技术发布 - 公司正式发布新一代空间语言模型SpatialLM 1.5和空间生成模型SpatialGen 并宣布延续开源战略逐步向全球开发者开放模型 [1] - 空间大模型技术体系专注于3D室内场景认知与生成 围绕真实感全息漫游 结构化可交互及复杂室内场景处理三个方向构建优势 [1] - SpatialLM 1.5基于大语言模型训练 让模型学会"空间语言" 能以数字文本精确描述场景物体的空间结构 几何信息 相互关系及物理参数 [1] 模型功能与应用 - SpatialLM通过对话系统SpatialLM-Chat实现文本指令生成结构化3D场景脚本 智能匹配家具布局 支持自然语言场景问答与编辑 [1] - 模型具备机器人场景应用潜力 例如输入"去客厅餐桌拿药"指令后 模型理解物体对象并调用工具自动规划行动路径 [1] - SpatialGen是基于扩散模型架构的多视角图像生成模型 可根据文字 参考图和3D空间布局生成时空一致性的多视角图像 [2] 技术突破与行业价值 - SpatialLM 1.5能快速批量生成多样化场景 解决机器人训练数据不足难题 直接用于路径规划 避障和任务执行训练 [2] - SpatialGen通过生成空间属性和物理关系一致的多视角图像 进一步生成3D高斯场景 渲染可自由漫游视频 解决AIGC视频时空一致性难题 [3] - 公司正在研发深度融合3D能力的AI视频生成产品 计划于年内发布 [3] 战略布局与数据基础 - 空间智能战略核心是"空间编辑工具-空间合成数据-空间大模型"构成的飞轮 通过工具沉淀数据 利用数据训练模型 再以模型反哺工具 [3] - 截至2025年6月30日 公司拥有超过4.41亿个3D模型及超过5亿个结构化3D空间场景 [3] - 自2018年起逐步开放数据和算法能力 当前通过开源与全球开发者共同推动空间大模型技术发展 [3] 开源计划 - 两款模型将陆续在Hugging Face GitHub和魔搭社区等平台开源 [4] - SpatialGen在技术开放日当天已开放下载 SpatialLM 1.5未来将以"SpatialLM-Chat"形式完成开源 [4]
群核科技扭亏之后:既要扩张又要节流
北京商报· 2025-08-28 17:24
财务表现 - 2025年上半年营收3.99亿元 同比增长9% 但增速较2023年10.5%和2024年13.8%有所放缓 [3] - 经调整净利润1782.5万元 实现扭亏为盈 去年同期为净亏损7319.6万元 [6] - 2022-2024年持续亏损 经调整净亏损分别为3.38亿元、2.42亿元、7004.9万元 [6] 业务结构 - 订阅业务收入占比达97.7% 专业服务仅占2.3% 营收集中度较2022年90.6%进一步提升 [1][3] - 空间智能解决方案SpatialVerse于2024年推出 目前获10名客户 订单总值约300万元 [4] - 主要产品包括空间设计软件酷家乐(2013年推出)和面向国际的Coohom(2018年推出) [3] 成本控制 - 销售及营销开支同比减少20.7% 从1.71亿元降至1.36亿元 [8] - 研发开支同比缩减16.8% 从1.8亿元降至1.5亿元 [8] - 销售人员数量持续减少 从2023年底615名降至2024年底540名 再降至2025年6月底501名 [8] 新产品布局 - 发布两款空间开源模型SpatialLM 1.5(空间语言模型)和SpatialGen(空间生成模型) [6] - 计划2025年推出基于3D技术的AI视频生成产品 解决AIGC视频时空一致性问题 [6] - 拟扩大AIGC及几何建模研发团队 未来3-5年规模达30-35人 [8] 资本状况与规划 - 截至2025年6月底赎回负债达40亿元 [1] - 上市募集资金将用于国际扩张 重点布局韩国、东南亚、印度、美国及日本市场 [8] - 计划建立250人销售团队 未来3-5年年度市场推广预算约2000万元 [8] 行业竞争 - AI视频赛道存在可灵、即梦、Vidu、百度蒸汽机等竞争对手 [7] - 行业面临时空一致性、主体一致性和风格一致性等技术挑战 [7] - 客户在当前房地产及建筑行业压力下 AI置换需求不明确 [9]
“六小龙”之群核科技扭亏背后:既要扩张又要节流
北京商报· 2025-08-27 14:39
财务表现 - 2025年上半年营收3.99亿元人民币 同比增长9% 但增速较2023年的10.5%和2024年的13.8%有所放缓 [1][4] - 经调整净利润1782.5万元人民币 实现扭亏为盈 上年同期为经调整净亏损7319.6万元人民币 [7] - 2022-2024年持续亏损 经调整净亏损分别为3.38亿元 2.42亿元 7004.9万元人民币 [7] 业务结构 - 营收高度依赖订阅业务 2025年上半年软件订阅营收占比97.7% 专业服务营收仅占2.3% [1][4] - 订阅收入集中度持续提升 从2022年的90.6%上升至2025年上半年的97.7% [4] - 空间智能解决方案SpatialVerse于2024年推出 目前获得10名客户 订单总值约300万元人民币 [1][5] 成本控制 - 销售及营销开支从2024年上半年的1.71亿元减少至2025年上半年的1.36亿元 同比下降20.7% [1][10] - 研发开支从2024年上半年的1.8亿元减少至2025年上半年的1.5亿元 同比下降16.8% [1][10] - 销售人员数量持续减少 从2023年底的615名降至2024年底的540名 再降至2025年6月底的501名 [10] 战略规划 - 计划将上市募集资金用于国际扩张 重点市场包括韩国 东南亚 印度 美国及日本 [1][10] - 拟建立250人的销售团队 未来3-5年年度市场推广预算约2000万元人民币 [10] - 计划扩大AIGC及几何建模研发团队 未来3-5年规模将达到30-35人 [10] 产品创新 - 发布两款空间开源模型SpatialLM 1.5与SpatialGen 支持对话交互和3D场景生成 [7] - 计划2025年推出基于3D技术的AI视频生成产品 解决AIGC视频时空一致性问题 [7] - 行业专家认为AI视频是短期内较可行的功能场景 但客户痛点和盈利模式尚不明确 [9][11] 资本结构 - 截至2025年6月底存在赎回负债40亿元人民币 [1] - 公司提示自成立以来持续亏损 未来可能继续亏损 [10]
群核科技开源两款空间大模型,想解决 Genie3 没能彻底解决的问题
Founder Park· 2025-08-27 11:41
世界模型技术发展现状 - Google DeepMind发布Genie 3 世界模型 与OpenAI开源模型形成竞争[2] - 世界模型分为两类流派:Sora类视频模型基于2D图像序列模拟数字世界 Genie 3属于此类 另一类是李飞飞World Labs倡导的基于3D场景还原的大型世界模型[4][5] - 当前两类模型存在落地问题:视频模型因缺少3D维度导致空间一致性不足 3D模型因数据短缺导致视角切换时出现崩坏[6] 群核科技空间大模型技术突破 - 公司发布业界首个3D室内场景认知与生成空间大模型 开源SpatialLM 1.5空间语言模型和SpatialGen空间生成模型[6] - SpatialGen采用多视角扩散+3DGS重建技术 生成可自由漫游的真实3D空间 支持任意视角切换和路径漫游 实现100%光影一致性[8][14] - SpatialLM 1.5基于大语言模型训练 支持通过对话生成结构化场景脚本 智能匹配家具布局 10秒内可生成1000个不重复场景[10][11] - 模型依托自研CAD引擎和KooEngine光线追踪技术 支持参数调整并达到影视级材质质感[15] 数据与技术优势 - 公司通过酷家乐平台积累超4亿个3D模型及5亿个结构化3D空间场景[18] - 2018年发布全球最大室内深度学习数据集InteriorNet 含数万套标注物体坐标和空间关系的场景数据[18] - 2025年开源3D高斯语义数据集InteriorGS 首次将3D高斯技术引入AI训练 降低数据存储成本[18] - 形成工具-数据-模型三位一体飞轮:工具层生成结构化数据 数据层提供高质量标注 模型层实现跨越式进化[18][19] 应用场景与商业化前景 - 解决AI短剧行业痛点:传统工具存在场景不连贯和制作效率低问题 空间大模型可保证全场景物理一致性[20][21][22] - 支持机器人训练场景:自动生成带物理参数和空间关系的3D数据 为具身智能提供结构化信息[11][41] - 电商3D展厅应用:消除视角切换时物体尺寸不一致等穿帮问题 提升虚拟场景可用性[20] - 内部推进X项目:基于3D技术的AI视频生成产品 计划2025年内发布 通过3D渲染与视频增强一体化解决空间一致性问题[24] 技术实现路径 - SpatialLM 1.5基于Qwen3底模训练 采用空间语言描述3D信息 与CAD领域语言兼容[27][28][33] - SpatialGen基于扩散模型训练 使用自研渲染引擎生成的多视角图片数据[33] - 资产库与模型解耦设计 支持调用第三方资产库 确保开源兼容性[37] - 通过数据规模扩展提升空间一致性 遵循scaling law演进规律[39] 发展阶段与挑战 - 当前空间大模型处于类似GPT-2阶段 具备基础生成和交互能力 但未达到通用水平[20][42] - 主要挑战在于3D数据获取难度:无法通过互联网快捷获取 需依赖工具生成或实地扫描[31] - 未来演进方向:探索从文本直接到3D表征的技术路径 提升视觉效果与一致性的平衡[40]
将数据优势发挥到极致:「杭州六小龙」开源搭建空间智能的第一步
机器之心· 2025-08-26 09:38
三维空间数据与大模型发展 - 高质量三维空间数据是AI发展的关键支撑 直接决定领域发展上限 [1] - 视频生成模型如可灵即梦依托UGC平台海量数据实现技术进步 [3] - 数据-模型-工具形成飞轮循环 三维领域数据短缺长期制约空间理解能力 [4] 空间智能技术突破 - 空间语言模型SpatialLM 1.5基于Qwen3底模构建 具备3D空间描述语言能力 [13] - 模型支持端到端场景生成:输入文本生成结构化场景脚本 智能匹配家具模型并布局 [16] - 生成场景含物理正确结构化信息 支持批量输出多样化场景 适用于机器人路径规划与具身智能训练 [17] 空间生成模型SpatialGen - 基于扩散模型架构生成多视角图像 确保物体在不同镜头下空间属性一致 [19][21] - 数据集规模达12,328个合成场景 包含100万物体 使用全景视频训练 [22] - 通过AnySplat算法重建高斯点云 实现无伪影、无失真的时空一致性漫游视频 [18][25] 技术优势与挑战 - 三大技术优势:大规模高质量数据集、灵活视角选择、参数化布局可控生成 [28] - 多视角一致性依赖数据规模优势 通过Scaling Law持续优化但存在根本性限制 [26][29] - 文本直接生成3D存在视觉效果与空间一致性的权衡 当前以多视角图像为中间环节效果更优 [31] 开源生态与行业合作 - SpatialLM参数规模6亿至80亿 数据规模约10GB 保持无需微调的多任务处理能力 [34] - SpatialGen已面向全球开源 支持对接任意资产库 模型与资产库解耦设计 [33] - 开源平台包括Hugging Face、Github及魔搭社区 推动行业协同创新 [36]
Meta与Midjourney合作开发AI图像和视频模型;群核科技发布空间大模型丨AIGC日报
创业邦· 2025-08-26 00:04
AI技术合作与产品发布 - Meta与Midjourney合作开发图像和视频生成AI模型 研究团队将技术应用于未来AI产品和模型[2] - 钉钉发布8.0版本推出AI办公应用"钉钉ONE" 通过自然语言对话实现Agent驱动的工作信息流[2] - 百度推出AI搜索App"梯子AI" 依托多模型能力实现无广告智能搜索 提供自动模式与深度模式双路径搜索 整合影视资源聚合功能并保留少儿声纹识别[2] 空间AI模型技术突破 - 群核科技发布空间大模型SpatialLM 1.5 基于大语言模型训练 支持通过对话交互系统实现端到端场景生成[2] - 推出空间生成模型SpatialGen 基于扩散模型架构 可根据文字/图像/3D布局生成多视角图像 支持3D高斯场景渲染与漫游视频生成[2] 行业数据服务与智能平台 - 提供包含2万+LP数据与10万+基金数据的全生命周期服务 覆盖独角兽企业与1万+专精特新小巨人企业[7] - 平台包含产业图谱与行业标签体系 支持通过扫码体验"睿兽AI智能"功能[8]
群核科技黄晓煌:积极拥抱开源,推动属于空间大模型的「DeepSeek时刻」来临
IPO早知道· 2025-08-25 13:10
核心观点 - 群核科技在首届技术开放日上发布新一代空间语言模型SpatialLM 1.5和空间生成模型SpatialGen 旨在通过开源推动全球空间智能技术发展[3] - 公司基于酷家乐平台构建"空间编辑工具-空间合成数据-空间大模型"的飞轮模式 通过工具沉淀数据并加速模型训练[4] - 开源是公司核心战略之一 自2018年启动开源计划 希望成为全球空间智能服务提供商[4] 技术成果发布 - SpatialLM 1.5是基于大语言模型训练的空间语言模型 支持通过对话交互系统实现端到端可交互场景生成[4] - 模型能输出包含空间结构、物体关系、物理参数的"空间语言" 根据文本描述自动生成结构化场景脚本并智能匹配家具布局[4] - 生成场景富含物理正确的结构化信息 可批量输出多样化场景用于机器人路径规划、避障训练等应用 解决训练数据短缺问题[6] - SpatialGen是基于扩散模型的多视角图像生成模型 可根据文字描述、参考图像和3D布局生成时空一致的多视角图像[7] - 支持生成3D高斯场景并渲染漫游视频 用户可自由穿梭生成场景获得沉浸式体验[7][8] 数据资源与技术优势 - 截至2025年6月30日 公司拥有超过4.41亿个3D模型和超过5亿个结构化3D空间场景[4] - SpatialGen数据集包含12,328个场景和100万个物体 使用全景视频格式[9] - 相比传统大语言模型 空间大模型在真实感全息漫游、结构化可交互及复杂室内场景处理方面具有显著优势[3] 开源与行业影响 - SpatialLM 1.0于2025年3月开源后迅速登上Hugging Face趋势榜前三 已有初创企业基于其代码训练自有模型[6] - 两款模型将逐步在HuggingFace、GitHub、魔搭社区等平台面向全球开发者开源[10] - SpatialGen在技术开放日当天已可在开源网站下载使用 SpatialLM 1.5将以"SpatialLM-Chat"形式完成开源[10] AI视频生成解决方案 - 基于SpatialGen探索AI视频生成解决方案 通过新范式解决时空一致性难题[3] - 正在研发基于3D技术的AI视频生成产品 计划2025年内发布 可能是全球首款深度融合3D能力的AI视频生成Agent[9] - 通过构建3D渲染与视频增强一体化生成管线 弥补当前AIGC视频生成中时空一致性不足的问题[9]
群核科技发布两款空间开源模型 将坚持开源共建技术生态
证券日报网· 2025-08-25 11:18
核心产品发布 - 公司发布新一代空间语言模型SpatialLM 1.5和空间生成模型SpatialGen 专注于3D室内场景认知与生成 [1] - SpatialLM 1.5基于大语言模型训练 支持通过对话交互系统实现端到端可交互场景生成 [2] - SpatialGen基于扩散模型架构 可根据文字描述、参考图像和3D空间布局生成多视角图像 [3] 技术突破与应用 - SpatialLM 1.5能输出包含空间结构、物体关系和物理参数的"空间语言" 解决传统大模型对物理世界理解的局限 [2] - 模型生成场景富含物理正确的结构化信息 可快速批量输出多样化场景用于机器人路径规划和避障训练 [2] - SpatialGen生成的多视角图像确保物体在不同镜头下保持准确空间属性和物理关系 支持3D高斯场景渲染和全息漫游视频 [3] - 现场演示显示模型能理解"去客厅餐桌拿药"指令 自动规划机器人最优行动路径 [2] 商业化进展 - 基于SpatialGen的AI视频生成解决方案旨在解决时空一致性难题 计划年内发布全球首款深度融合3D能力的AI视频生成Agent [3] - 公司构建"空间编辑工具-空间合成数据-空间大模型"的智能飞轮 截至6月30日拥有超过4.41亿个3D模型和5亿个结构化3D空间场景 [4] 开源战略 - 两款模型将逐步在HuggingFace、GitHub和魔搭社区等平台面向全球开发者开源 [5] - 公司自2018年启动开源战略 通过开放数据和算法能力推动空间智能技术发展 [4]