空间智能
搜索文档
群核科技: 以空间智能为核心 成为AI时代“卖水人”
中国证券报· 2025-12-22 22:03
● 本报记者 郑萃颖 在群核科技12月举办的2025酷+大会上,公司创始团队集中介绍了公司产品的最新进展,除了 LuxReal,还有此前推出的空间智能训练平台SpatialVerse、工业AI孪生平台SpatialTwin,以及酷家乐上 线的AI智能设计平台。 据介绍,SpatialVerse为具身智能训练提供三维可交互合成数据,并且已与智元机器人、银河通用、穹彻 智能、智平方、松应科技等一批具身智能企业达成合作。工业AI孪生平台SpatialTwin则聚焦工厂智能化 过程中的应用场景。 酷家乐上线的AI智能设计平台则是一个AI设计智能体,可帮助设计师快速完成空间设计方案。该产品 于今年12月初正式发布了海外版,目前已经在韩国、泰国、欧洲等市场进行客户拓展。 随着AI技术的影响力不断增强,空间智能技术成为解锁千行百业智能化升级不可或缺的能力。群核科 技将累积的物理正确的三维数据与AI技术结合,形成空间智能核心能力,并陆续应用于空间设计、工 业数字孪生、机器人仿真训练、内容创作等领域。 近期,群核科技持续拓展技术应用边界,构建起覆盖多场景的产品矩阵。通过开放底层能力与生态合 作,群核科技正以"空间智能卖水人"的 ...
群核科技:以空间智能为核心 成为AI时代“卖水人”
中国证券报· 2025-12-22 20:19
● 本报记者 郑萃颖 随着AI技术的影响力不断增强,空间智能技术成为解锁千行百业智能化升级不可或缺的能力。群核科 技将累积的物理正确的三维数据与AI技术结合,形成空间智能核心能力,并陆续应用于空间设计、工 业数字孪生、机器人仿真训练、内容创作等领域。 近期,群核科技持续拓展技术应用边界,构建起覆盖多场景的产品矩阵。通过开放底层能力与生态合 作,群核科技正以"空间智能卖水人"的定位,赋能AI技术在三维场景的规模化落地。 构建产品矩阵 群核科技近期发布新产品的节奏加快。据悉,本周群核科技孵化的3D AI内容创作工具LuxReal将启动小 范围内测。该创作工具主要面向电商从业者、影视剧编导、广告导演等群体的专业创作需求,能在保持 时空一致性的前提下,高效生成视频内容,避免了AI生成视频中,因切换视角带来的空间逻辑混乱等 常见问题。 在群核科技12月举办的2025酷+大会上,公司创始团队集中介绍了公司产品的最新进展,除了 LuxReal,还有此前推出的空间智能训练平台SpatialVerse、工业AI孪生平台SpatialTwin,以及酷家乐上 线的AI智能设计平台。 据介绍,SpatialVerse为具身智能训练提 ...
李飞飞3D世界模型爆火后,国内首个免费版来了:我当了回「为所欲为」的造物主
36氪· 2025-12-22 09:21
腾讯混元世界模型1.5产品发布 - 腾讯混元团队上线了国内首个开放体验的实时世界模型TencentHY WorldPlay 1.5 [1] - 该模型能够根据用户输入的文字或单张图片,生成一个可供实时操控和探索的3D虚拟世界 [1] 核心功能与技术亮点 - 支持文字生成世界,用户通过文字描述可生成如过山车、千禧年跨年夜等多样化的3D场景 [2][4][11] - 支持单图生成场景功能,可将如《千里江山图》等图片转化为可游览的3D空间,并保留原艺术风格 [14][16] - 具备实时交互生成能力,通过原创的Context Forcing蒸馏方案及流式推理优化,模型能以24 FPS的速度生成720P高清视频 [7] - 通过重构记忆机制实现长范围的3D一致性,支持分钟级内容的几何一致性生成,用于构建高质量3D空间模拟器 [7] - 采用流式DiT架构,能够边接收用户实时控制信号边生成画面,保证了极低的操控延迟 [21] - 模型支持实时文本触发事件,用户可通过一句话指令在5秒内平滑改变世界状态,如让天色从亮变暗 [17][19] 产品体验与效果 - 文字生成场景的等待时间约为5-8秒 [4] - 生成的场景具有高写实度,例如过山车场景中皮肤纹理、金属划痕等细节清晰可见 [4] - 在千禧年场景等测试中,模型对三维空间有较好理解,物体能保持相对位置关系,无明显漂移 [11] - 在处理大跨度视角切换时,如海景房场景,窗框、立柱等直线条未发生扭曲,展现了良好的三维空间一致性 [13] - 目前模型在处理第一视角高速运动场景时存在挑战,可能生成静态的“定格瞬间”以供细节观察 [9] - 在复杂场景中,近处物体的细节可能缺乏锐利边缘,呈现“AI粘滞感”或类似油画的柔软效果 [11] - 实时物理模拟尚存瑕疵,例如爆炸后近处水面未能呈现波动效果 [21] 行业意义与未来展望 - 世界模型代表了从语言智能向空间智能的关键发展,旨在让AI理解并操作三维物理世界,是通往通用人工智能的关键一步 [23] - 该领域获得全球科技公司如Google、Meta、OpenAI及腾讯的重点关注与投入 [23] - 该技术使艺术从“被欣赏”变为可“自由游览”,为内容创造与交互提供了全新范式 [16] - 尽管当前在流畅度和交互深度上仍有提升空间,但世界模型赋予了用户创造世界的自由,具有广阔的未来想象空间 [25]
港大领衔DrivePI:统一自动驾驶理解、感知、预测和规划的空间智能4D MLLM
自动驾驶之心· 2025-12-22 09:20
编辑 | 自动驾驶之心 点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近30个 方向 学习 路线 >>自动驾驶前沿信息获取 → 自动驾驶之心知识星球 论文作者 | Zhe Liu等 尽管多模态大语言模型(MLLMs)在各种领域展示了强大的能力,但它们在自动驾驶中生成精细化3D感知和预测输出的应用仍有待探索。本文提出了DrivePI,一种新 型的空间感知4D MLLM,作为统一的视觉-语言-行为(VLA)框架,同时兼容视觉-行为(VA)模型。我们的方法通过端到端优化,并行执行空间理解、3D感知(如3D占用 体素)、预测(如占用流)和规划(如动作输出)任务。为了获取精确的几何信息和丰富的视觉外观,我们的方法在统一的MLLM架构中集成了点云、多视角图像和语言指 令。我们还开发了一个数据引擎,用于生成文本-占用和文本-流问答对,以实现4D空间理解。 值得注意的是,仅使用0.5B参数的Qwen2.5模型作为MLLM主干网络,DrivePI作为单一统一模型,性能已经匹配或超越了现有的VLA模型和专业的VA模型。具体而 言,与VLA模型相比,DrivePI在nuScenes-QA上的平均准确率比 ...
赵何娟独家对话李飞飞:“我信仰的是人类,不是AI”
新浪财经· 2025-12-22 05:27
炒股就看金麒麟分析师研报,权威,专业,及时,全面,助您挖掘潜力主题机会! 来源:Barrons巴伦 最新一期'赵何娟Talk'里,李飞飞教授认为,从"语言生成"到"世界生成",空间智能将在两年内迎来应 用级爆发——但AI永远只是工具,选择权应该始终在我们人类手里。 作者|赵何娟 一切进展都已经比一年前大家的预期要快了很多。李飞飞也在钛媒体这期'赵何娟Talk'里对话里透露, 从"语言生成"到"世界生成",空间智能将在两年内迎来应用级爆发。 随着2025年渐入尾声,有着"AI教母"之称的斯坦福大学教授李飞飞,带着她创立的World labs迎来了一 波又一波的新进展,包括首款商用"世界模型"Marble的发布,这开始让大家终于意识到,原来"世界模 型"并非只是概念,而已经是真实有用的。 回想我第一次见李飞飞教授,已经可以追溯到2017年,在斯坦福大学教学楼内。那一年,刚刚定居硅谷 的陈天桥先生向我和其他几位老朋友介绍了李飞飞教授,他当时特别提到:这是美国最杰出的华人科学 家之一。那时,李飞飞教授发起的ImageNet行动还在如火如荼的进行。我也第一次在与飞飞教授的见面 和交流中学到了一个新的概念:为什么是数据集 ...
复杂空间推理新SOTA,性能提升55%!中山大学新作SpatialDreamer
具身智能之心· 2025-12-22 01:22
文章核心观点 - 由MBZUAI与中山大学的研究团队提出的SpatialDreamer框架,通过模拟人类主动探索、心理想象和空间推理的闭环过程,显著提升了多模态大语言模型在复杂空间任务上的性能,为人工智能空间智能的发展开辟了新路径 [1][4][14] 技术框架与核心流程 - SpatialDreamer是一个基于强化学习的框架,旨在通过主动探索、视觉想象与证据融合的闭环过程,赋予MLLMs类人的空间心理模拟能力 [4] - 其闭环推理流程包含三个步骤:1) 探索:推理出最优的自我中心动作(如「前进0.75米」或「左转45度」);2) 想象:调用世界模型生成执行动作后的新视角图像;3) 推理:整合所有累积的视觉证据,生成最终答案 [6] - 该过程使模型从「被动观察」转向「主动目标导向的想象」,实现了在内部三维环境中自主决定行动与推理 [7] 关键技术创新 - 为解决长序列推理任务中奖励稀疏的问题,研究团队提出了GeoPO策略优化方法,该方法包含:1) 树状采样结构,支持回溯与多路径探索;2) 多级奖励设计,融合任务级与步级奖励;3) 几何惩罚机制,对冗余或冲突动作施加惩罚系数(如0.9),以鼓励高效轨迹生成 [8] - GeoPO在提升模型性能的同时,也显著加快了训练收敛速度 [9] - 为引导模型学习「思考-想象-回答」的模式,构建了SpatialDreamer-SFT数据集,包括单轮推理数据以及通过「错误注入 → 自我纠正 → 重建推理链」构建的反思式推理数据 [11] 实验结果与性能表现 - 在SAT基准测试中,SpatialDreamer在真实与合成图像中均达到SOTA,平均准确率分别达93.9%与92.5% [13] - 在MindCube-Tiny基准测试中,整体准确率达到84.9%,较基线模型Qwen2.5-VL-7B提升超过55% [13] - 在VSI-Bench基准测试中,在物体计数、相对方向、路径规划等任务中全面领先,平均准确率达62.2% [13]
「一脑多形」圆桌:世界模型、空间智能在具身智能出现了哪些具体进展?丨GAIR 2025
雷峰网· 2025-12-20 04:07
文章核心观点 - 具身智能领域仍处于技术路线发散探索阶段,尚未收敛,这为创新提供了机会,但最终目标是实现通用泛化智能,而非回归传统工业自动化 [3][4] - 世界模型在自动驾驶等特定场景已开始应用,主要用于生成海量合成数据以覆盖长尾场景和进行闭环测试,但其与具身智能的结合仍处于早期探索阶段,定义和技术范式尚未统一 [10][11][12][14] - 空间智能是机器人感知和理解环境的关键,其发展建立在SLAM等技术基础上,并引入AI以增强对语义和复杂空间关系的理解,但目前仍面临数据模态不足等挑战 [20][21][22][23] - 具身智能的落地应用面临技术、成本与商业化现实的巨大鸿沟,需在追求通用智能的“星辰大海”与解决工业自动化等迫切需求的“脚踏实地”之间找到平衡 [25][26][27][30] - 数据是驱动技术发展的关键,其获取方式(真机、仿真、生成)的有效性取决于具体任务,业界正在探索不同数据源的最优组合比例 [34][35][38] 具身智能技术发展现状 - 技术路线仍处于发散探索阶段,尚未收敛,高校与产业界需更好分工合作,高校应聚焦交互、人机协同、世界模型等核心问题突破 [3][4] - 单体机器人研究倾向于采用端到端技术路线以降低系统复合误差和延迟,决策层共识是放大视觉语言模型的能力 [5] - 群体机器人的基础是打造柔性、弹性、分布式、灵活的群体架构 [5] - 端到端是一种工程范式,强化学习是一种具体解法,黑箱是一种模式,三者概念不同,不应等同 [6][7] - 实际研究中采用多种解法,包括大量使用强化学习,并以解决问题为唯一目标 [8][9] 世界模型在自动驾驶领域的应用与挑战 - 世界模型在自动驾驶领域主要用于生成海量合成数据以覆盖数据飞轮积累的corner case和之前布局不到的场景 [11] - 与传统方案相比,世界模型能实现闭环测试,将决策链路放在模型内进行优化,这是最大的不同 [11] - 自动驾驶场景相对简单,且早有“闭环仿真器”概念,生成式AI能力的提升使生成的数据真假难辨,提供了大量有价值的训练样本 [12] - 世界模型的定义尚未统一,例如李飞飞侧重像素级重建,而LeCun认为潜在空间表达也算世界模型 [12] - 自动驾驶领域世界模型的状态表征主流仍是视频生成,同时结合雷达、点云等多模态数据以增强信息量和安全性 [13] - 将世界模型与视觉语言动作模型结合,旨在解决离线数据集无法通过模仿学习获得长程思维和未来预测能力的问题 [15][16] - 世界模型有助于解决长程任务的理解和预测难题,能赋能后续的策略学习 [17] 空间智能的定义与发展 - 空间智能定义尚不清晰,其发展部分源于SLAM技术的延续和演进,现在更多采用基于学习的方法 [20] - 空间智能不仅关注空间几何,还增加了对语义信息的关注,包括物体类别、用途、交互方式等 [21] - 机器人目前处理复杂空间关系(如“第一排左边数第四个瓶子”)的能力仍不成熟,这是空间智能需要解决的问题 [22] - 大模型因训练数据源于语言模态而存在空间关系上的“幻觉”,需构建专门数据集与传统SLAM的强空间能力对齐 [23] - 当前视觉语言模型中的视觉多为2D,3D模态较为欠缺,需补足3D信息以解决空间智能问题 [23] 具身智能的落地应用与商业化挑战 - 无人机应用生态中,航拍、农业植保等易落地应用占比可能不到1%,更多高空作业场景(如灭火、清洗、载人)尚未实现 [26] - 应用未普及的最大卡点之一是“不够智能”,依赖规则编写导致开发成本高,难以算过经济账,AI发展带来了解决希望 [27] - 通过AI与大模型结合改进决策能力,被视为实现通用泛化解决问题能力的关键希望 [29] - 产业界存在迫切需求,希望尽快将机器人用于工业自动化,这与技术创业者的通用智能愿景存在差距 [30] - 人形机器人硬件在负载能力、高负载平衡性、运动稳定性及灵巧手方案等方面仍有诸多挑战,离真正“干活”的应用落地尚有距离 [30] - 中美创业环境存在差异,例如Scale AI估值达140亿美元,而国内创业公司估值多在几亿人民币量级,需同时面对宏大愿景与短期商业化的矛盾 [31] - 创业者认为最终成功做成事情比估值高低更重要,并指出中国投资人对技术的耐心因DeepSeek等案例而有所增加 [31][32] 数据获取策略与有效性 - 机器人数据获取主要有真机采集、仿真和视频生成模型三种方式,其有效性需根据具体任务判断,并非真机数据一定最合理 [34][38] - 数据可视为金字塔结构:底层是大量、低成本的互联网或视频数据,用于预训练;中层是合成数据,用于提高任务泛化性;顶层是真机或遥操数据 [34] - 业界正在探索不同数据源的有效比例,例如一种说法是70%的网络视频数据、20%的合成数据和10%的真机数据 [35] - 合成数据是否有效,关键在于其是否针对特定任务有价值,且其表达形式不一定是视频,也可能是潜在的抽象表征 [35][36][37] - 对于足式机器人的基本运动控制任务,可能在纯仿真环境中无需真实数据即可完成,高度依赖任务形式本身 [38]
让人工智能“睁眼看世界” 走在国际科技变革最前沿 上海量子城市建设画卷正从复兴岛展开
解放日报· 2025-12-20 00:59
记者 肖彤 11月,斯坦福大学教授、World Labs联合创始人李飞飞发表长文称,"空间智能"是人工智能的下一 个前沿,定义着未来十年的发展方向。相隔一日,图灵奖得主、前Meta首席AI科学家杨立昆宣布离 职,将成立一家专注"世界模型"的新公司。 12月18日,上海复兴岛—全球创客岛启动暨2025上海量子城市年度大会举行。据介绍,复兴岛将建 设智能基础设施,按照每平方公里10万个的标准分步实施全岛智能感知设施布设;另外,提升时空智能 体能力,构建新质产业线上线下一体的实训场。 随着新一代人工智能技术快速演进,一幅承载无限想象力的城市画卷,即将从复兴岛向世界铺开。 为人工智能构建"世界模型" 人工智能技术加速迭代,唯有抢抓机遇,才能捕捉前沿的科技变革。 2024年12月,"上海量子城市时空创新基地"在复兴岛开启。清华大学建筑学院副教授、自然资源部 智慧人居环境与空间规划治理技术创新中心副主任杨滔认为,上海从时空智能开启量子城市建设,走在 国际科技变革最前沿。 过去几年,人工智能看起来越来越"聪明"了。然而科学家们发现,这些模型仍有较大局限性。语言 模型只读过书,却没接触过真实的物理世界。 为此,上海正在不断搭 ...
【金猿人物展】袋鼠云CEO宁海元:AI浪潮下,数据中台的生存与跃迁
搜狐财经· 2025-12-18 12:20
文章核心观点 - 数据中台的定位正被AI技术重塑,其未来只有两条路:成为AI基础设施的核心支撑,或在技术迭代中被边缘化[2] - 袋鼠云的战略从“大数据基础软件提供商”升级为“大数据基础软件与人工智能应用服务商”,并提出了“一体两翼”战略[3][4] - 大数据产业正从“安装期”、“泡沫期”进入“部署期”,核心逻辑从“数据飞轮”转向构建“价值回路”[6][7] - 未来十年大数据产业将呈现三大趋势:数据中台向多模态数据操作系统演进、数据智能体成为业务第一入口、以及从数据智能迈向空间智能[11][12][14][15][18] 行业趋势与演变 - **产业阶段划分**:中国大数据基础软件产业经历了三个阶段:2015年前后的“安装期”,以Hadoop生态普及和数据初步聚合为核心;随后几年进入“泡沫期”,项目遍地开花但价值不均;近两三年随着大模型等技术涌现,进入“部署期”,核心是支撑AI应用[6] - **核心逻辑转变**:行业核心从“数据飞轮”(更多数据→更好算法→更好产品→更多用户→更多数据)转向构建“价值回路”(数据→大模型→智能体→业务行为→新数据再生),以实现从技术红利到生产力红利的转化[7][9] - **分析范式跨越**:BI工具正从“报表逻辑”向“指标逻辑”跨越,企业需要先建立统一的指标体系,再围绕其构建数据资产和应用场景,由智能系统自动发现异常并给出建议[9] 公司战略与定位 - **战略升级**:公司从“大数据基础软件提供商”主动升级为“大数据基础软件与人工智能应用服务商”,系统性思考数据基础设施如何同时服务AI与业务[3] - **“一体两翼”战略**: - **一体**:以多模态数据智能中台为统一数据底座,管理多源多模态数据,作为企业AI基础设施的核心支柱[4] - **两翼之一**:数据智能,推动企业从“报表驱动”升级为“指标+智能体驱动”,形成可复盘的决策机制[4] - **两翼之二**:空间智能,将实时数据与数字孪生、仿真推演结合,应用于城市、工厂等物理空间[4] - **公司使命**:参与并推动了中国大数据基础软件从“跟随”到“自立”的蜕变,并提前实践了“如何为AI时代打地基”[6] 未来产业趋势判断 - **趋势一:数据中台向多模态数据操作系统演进**:未来有价值的数据中台必须是“多模态数据操作系统”,统一治理文本、图像、视频、传感器等数据,其生死线在于能否为AI提供高质量数据供给并支撑“数据-大模型-智能体-业务”的完整闭环,做不到的将被边缘化[12][14] - **趋势二:Data Agent成为业务第一入口**:大模型与智能体技术将重构人用数据的方式,Data Agent通过自然语言界面直接为业务人员提供分析结论和决策建议,预计从2026年开始,Data Agent将逐步接管前台人机交互入口,传统BI工具将退为底层能力[15][17] - **趋势三:从数据智能迈向空间智能**:下一阶段的核心是构建对城市、工厂等时空系统的“理解与推演能力”,即空间智能,数字孪生将升级为可预测、可推演的动态系统,“世界模型”将成为落地场景的基础设施,融合大数据、AI与空间智能[18][19]
Xiaomi MiMo 大模型落地应用,小米“人车家全生态”合作伙伴大会介绍IoT平台生态新进展
搜狐网· 2025-12-18 10:06
核心观点 - 小米于2025年12月17日举办“人车家全生态”合作伙伴大会,全面展示了其在IoT平台、AI技术、生态合作及未来智能家居战略方面的最新进展,核心目标是推动从设备连接到“空间智能”的全面跃迁 [1][3] 平台规模与生态数据 - 截至三季度,小米IoT平台连接设备数首次跨越10亿里程碑,达到10.4亿台 [3] - 米家App月活跃用户突破1.1亿 [3] - 小米IoT模组年出货量首次突破1亿片 [3] - 平台已与全球超过15000家企业合作,吸引了包括美诺、博世西门子、LG在内的国际知名品牌 [3] 技术战略与AI创新 - 提出从设备连接层面向“空间智能”全面跃迁的战略,核心是通过多模态感知、边缘大模型和分布式计算技术,实现从被动控制到主动理解的决策重构 [7] - 发布智能家居未来探索方案Xiaomi Miloco,基于端侧部署的MiMo-VL-Miloco-7B视觉语言大模型,首次将“视觉感知”融入智能家居,允许用户通过口语化表达自动创建智能规则 [3] - 小爱AI技术支持设备间一体化智能控制与联动,打破硬件交互壁垒 [6] - 阿里云通义模型家族全面拥抱Miloco平台框架,通过全模态交互架构为智能家居提供多模态感知能力,推动交互从被动指令升级为环境感知与主动服务 [7] - 在AIoT领域落地超级小爱Agent架构升级 [11] 生态合作与行业赋能 - 与行业领先的脑机接口公司展开早期合作,探索为行动不便患者带来新交互可能 [4] - 与全国350多所院校进行产教融合,计划未来5年为物联网行业培养超过50000名高质量人才 [3] - 博西中国展示“晶御×米家”生态智联进展,提供“一键设定、全程托管”的便捷体验 [6] - Realtek介绍其创新的R-Mesh技术可实现全屋无缝覆盖,并构建四层系统安全架构,与小米等伙伴打造安全可靠的AIoT解决方案 [6] - 脑虎科技介绍了中国首款、全球第二款全植入、全无线、全功能脑机接口产品,聚焦神经疾病导致的运动、语言障碍 [7] 产品、能力与体验升级 - 米家11.0带来新体验及接入能力升级,围绕“舒适、省心、安全、节能”用户诉求,对照明、安防、环境家电等重点品类进行能力升级 [9] - 升级内容包括:更高质量标准准入、IoT-BLE2.0与IoT-Mesh2.0模组矩阵、安防多形态能力与室外4G Cat.1模组、“懂人”的感知与节能服务体系 [9] - 进一步开放设备查找网络、运动健康能力与汽车及CarIoT接入,推动“人车家全生态”持续闭环 [9] - 升级场景能力与3D中控交互,以大模型驱动的小爱同学与米家智能助手为入口降低使用门槛、增强主动服务 [9] - 在底层连接方面,首发IoT-BLE 2.0模组矩阵以及Cat.1模组 [11] - 介绍了面向AI的设备与空间的智能底座,即新一代人车家联动基建,让感知、记忆、决策与执行形成闭环 [11] 论坛与展示重点 - IoT未来峰会2026指出AI正为产业注入全新动能,技术创新是全链路、全生态的聚合发力 [6] - IoT生态接入与体验创新论坛聚焦米家11.0新体验及新的接入能力 [9] - IoT平台技术论坛聚焦“空间智能化”,呈现从硬件、连接、系统软件到大模型能力的全栈升级,并系统讨论全球化下AIoT开发者在安全与隐私合规的策略 [11] - 大会现场设有IoT展区,包括Xiaomi Home 3D、各类场景解决方案、连接技术、开放平台及“人车家全生态”体验间,全方位展示平台能力与全屋智能体验 [13]