Workflow
空间智能
icon
搜索文档
深扒了学术界和工业界的「空间智能」,更多的还停留在表层......
自动驾驶之心· 2025-12-28 03:30
点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近30个 方向 学习 路线 >>自动驾驶前沿信息获取 → 自动驾驶之心知识星球 编辑 | 自动驾驶之心 "空间智能不仅是看清世界,更是理解世界是如何在三维空间中运作的。" —— 随着李飞飞(Fei-Fei Li)对 Spatial Intelligence 的定义深入人心,2025 年成为了自动驾 驶从"感知驱动"向"空间智能"全面转型的分水岭。 先回答第一个问题, 什么是空间智能? 广义上来说:空间智能是 对 空间信息 (位置、距离、方位、形状、运动、拓扑关系等)进行感知、表征、推理、决策与交互 的综合能力,是智能体(人类、机器人、自动驾驶系统)与物理世界交互的核心基础。其本质是将三维物理空间的复杂信息转化为可计算、可理解的模型,进而支撑 导航、避障、操作、场景理解等任务。 所以很多技术都可以和空间智能相结合,BEV感知、端到端、VLA、世界模型等等。 今天自动驾驶之心就和大家盘一下自驾领域内和空间智能相关的工作,主要分 为四大模块: 目前的空间智能还停留在表层,更多的是在做感知和表征层面的"智能" ,在深层次的推理决策和交互能力上仍 ...
群核科技: 以空间智能为核心 成为AI时代“卖水人”
中国证券报· 2025-12-22 22:03
公司战略定位 - 公司定位为空间智能的“卖水人”,旨在成为AI迈向三维世界不可或缺的基础设施提供商,赋能AI技术在三维场景的规模化落地 [1][3] - 公司将过去14年累积的物理正确的三维数据与AI技术结合,形成了空间智能核心能力,并构建了覆盖多场景的产品矩阵 [1] - 公司坚持开放生态,开放各类接口,欢迎外部合作伙伴,并将核心资源投入在建设具有长期复利效应的核心能力上 [3] 产品矩阵与进展 - 公司近期新产品发布节奏加快,本周其孵化的3D AI内容创作工具LuxReal将启动小范围内测,该工具面向电商、影视、广告等专业群体,能高效生成保持时空一致性的视频内容 [2] - 在2025酷+大会上,公司集中介绍了产品进展,包括空间智能训练平台SpatialVerse、工业AI孪生平台SpatialTwin,以及酷家乐上线的AI智能设计平台 [2] - 酷家乐AI智能设计平台是一个AI设计智能体,可帮助设计师快速完成空间设计方案,其海外版已于12月初发布,并正在韩国、泰国、欧洲等市场进行客户拓展 [2] 核心技术平台与开放 - 公司于12月发布Aholo空间智能开放平台,该平台整合了公司在空间重建、生成、编辑与理解方面过去14年沉淀的核心能力,并将以底层模型和工具的形式逐步对外开放 [3] - 公司形成了空间智能的“数据飞轮”,能产出更多数据并通过大模型生成更好的工具,以解决空间智能领域真实数据稀缺的问题 [3] 工业场景应用 - 公司在11月世界互联网大会上发布工业AI孪生平台SpatialTwin,聚焦工厂智能化应用场景,旨在为具身智能时代的人机协作提供工业空间基础 [4][5] - SpatialTwin平台能按需调用高密度仿真算力,支持多源异构数据接入以快速自动重建三维场景,并支持所有参与方无缝共享信息、实时协同工作,以提升效率、降低成本 [5] - 公司已就SpatialTwin与杭叉集团、斯坦德机器人达成合作,将共同推进智能物流解决方案、物流人形机器人智能化升级及工业具身智能的规模化应用 [5] 具身智能市场拓展 - 公司业务已从空间设计拓展至内容创作、具身智能等领域,其空间智能训练平台SpatialVerse已与智元机器人、银河通用、谋先飞(Motphys)、地瓜机器人等一批具身智能企业达成深度合作 [2][6] - 行业普遍认为具身智能机器人智能程度提升的瓶颈在于训练数据不足,公司提供的仿真训练平台能提升训练效率,与线下实体训练形成互补 [6] - 公司CEO黄晓煌透露,目前有客户企业以9:1的比例采用仿真数据与真实数据,并预测随着技术演进,在数字世界进行训练的占比还会提升 [7] - 公司认为空间智能是未来机器人产业发展的关键基础设施(“水电煤”),是实现机器人理解并在物理世界工作的核心要素 [7]
群核科技:以空间智能为核心 成为AI时代“卖水人”
中国证券报· 2025-12-22 20:19
公司核心战略与定位 - 公司将自身定位为空间智能的“卖水人”,致力于成为AI迈向三维世界不可或缺的基础设施提供商 [2][5] - 公司通过开放底层能力与生态合作,赋能AI技术在三维场景的规模化落地 [1] - 公司将核心资源投入于建设空间智能核心能力,并认为这是具有长期复利效应的事情 [2] 核心技术能力与数据优势 - 公司结合累积的物理正确的三维数据与AI技术,形成了空间智能核心能力 [1] - 公司过去14年逐步形成了空间智能的数据飞轮,在数据稀缺的领域具备优势,并能通过大模型生成更好的工具 [2] - 公司发布Aholo空间智能开放平台,整合了其在空间重建、生成、编辑与理解方面沉淀的核心能力,并以底层模型和工具形式对外开放 [3] 产品矩阵与近期发布 - 公司产品矩阵覆盖空间设计、工业数字孪生、机器人仿真训练、内容创作等多个场景 [1] - 公司孵化的3D AI内容创作工具LuxReal即将启动小范围内测,面向电商、影视、广告等专业群体,能高效生成保持时空一致性的视频内容 [1] - 公司近期发布的产品还包括空间智能训练平台SpatialVerse、工业AI孪生平台SpatialTwin,以及酷家乐AI智能设计平台 [1] - 酷家乐AI智能设计平台于12月初正式发布海外版,并已在韩国、泰国、欧洲等市场进行客户拓展 [2] 工业AI孪生平台 (SpatialTwin) - SpatialTwin聚焦工厂智能化应用场景,旨在为具身智能时代的人机协作提供工业空间基础 [3] - 该平台能按需调用高密度仿真算力,支持多源异构数据接入,可快速自动重建三维场景,以提升运营效率并降低成本 [3] - 平台已与杭叉集团围绕一体化智能物流解决方案及物流人形机器人智能化升级展开合作 [4] - 平台与斯坦德机器人RoboVerse系统深度集成,以推动工业具身智能的规模化应用 [4] 空间智能训练平台 (SpatialVerse) 与具身智能市场拓展 - SpatialVerse为具身智能训练提供三维可交互合成数据,已与智元机器人、银河通用等一批具身智能企业达成合作 [2] - 公司与谋先飞(Motphys)、地瓜机器人达成深度合作,共同推进机器人仿真训练解决方案的创新落地 [4] - 行业面临训练数据不足的瓶颈,企业通过线下实体训练和仿真平台两种方式积累数据 [5] - 公司有客户企业以9:1的比例采用仿真数据与真实数据,预计未来在数字世界进行训练的占比还会提升 [5] - 公司认为空间智能是未来机器人理解并工作在物理世界的关键要素,将成为机器人产业发展的“水电煤” [5]
李飞飞3D世界模型爆火后,国内首个免费版来了:我当了回「为所欲为」的造物主
36氪· 2025-12-22 09:21
腾讯混元世界模型1.5产品发布 - 腾讯混元团队上线了国内首个开放体验的实时世界模型TencentHY WorldPlay 1.5 [1] - 该模型能够根据用户输入的文字或单张图片,生成一个可供实时操控和探索的3D虚拟世界 [1] 核心功能与技术亮点 - 支持文字生成世界,用户通过文字描述可生成如过山车、千禧年跨年夜等多样化的3D场景 [2][4][11] - 支持单图生成场景功能,可将如《千里江山图》等图片转化为可游览的3D空间,并保留原艺术风格 [14][16] - 具备实时交互生成能力,通过原创的Context Forcing蒸馏方案及流式推理优化,模型能以24 FPS的速度生成720P高清视频 [7] - 通过重构记忆机制实现长范围的3D一致性,支持分钟级内容的几何一致性生成,用于构建高质量3D空间模拟器 [7] - 采用流式DiT架构,能够边接收用户实时控制信号边生成画面,保证了极低的操控延迟 [21] - 模型支持实时文本触发事件,用户可通过一句话指令在5秒内平滑改变世界状态,如让天色从亮变暗 [17][19] 产品体验与效果 - 文字生成场景的等待时间约为5-8秒 [4] - 生成的场景具有高写实度,例如过山车场景中皮肤纹理、金属划痕等细节清晰可见 [4] - 在千禧年场景等测试中,模型对三维空间有较好理解,物体能保持相对位置关系,无明显漂移 [11] - 在处理大跨度视角切换时,如海景房场景,窗框、立柱等直线条未发生扭曲,展现了良好的三维空间一致性 [13] - 目前模型在处理第一视角高速运动场景时存在挑战,可能生成静态的“定格瞬间”以供细节观察 [9] - 在复杂场景中,近处物体的细节可能缺乏锐利边缘,呈现“AI粘滞感”或类似油画的柔软效果 [11] - 实时物理模拟尚存瑕疵,例如爆炸后近处水面未能呈现波动效果 [21] 行业意义与未来展望 - 世界模型代表了从语言智能向空间智能的关键发展,旨在让AI理解并操作三维物理世界,是通往通用人工智能的关键一步 [23] - 该领域获得全球科技公司如Google、Meta、OpenAI及腾讯的重点关注与投入 [23] - 该技术使艺术从“被欣赏”变为可“自由游览”,为内容创造与交互提供了全新范式 [16] - 尽管当前在流畅度和交互深度上仍有提升空间,但世界模型赋予了用户创造世界的自由,具有广阔的未来想象空间 [25]
港大领衔DrivePI:统一自动驾驶理解、感知、预测和规划的空间智能4D MLLM
自动驾驶之心· 2025-12-22 09:20
文章核心观点 - DrivePI是一种新型的空间感知4D多模态大语言模型,它作为一个统一的视觉-语言-行为框架,旨在通过端到端优化,同时执行空间理解、3D感知、预测和规划任务,从而弥合当前自动驾驶系统中基于视觉的方法与基于VLA的方法之间的差距 [4][6][7] 研究背景与挑战 - 当前自动驾驶系统主要有两种范式:基于视觉的方法(如UniAD、VAD)在空间感知方面表现出色但缺乏自然语言交互能力;基于VLA的方法(如OpenDriveVLA、ORION)具有更好的交互能力但缺乏精细的中间3D感知和预测输出,影响可靠性和安全性 [7][8] - 核心挑战在于开发一个统一框架,结合基于视觉模型的精确空间感知能力和VLA方法的自然语言交互能力 [7] 技术架构与创新点 - **多模态感知**:引入激光雷达作为相机图像的补充传感模态,提供精确的3D几何信息,以激发MLLM的空间理解能力 [11] - **精细化空间表示**:生成中间的精细3D感知(如3D占用体素)和预测(如占用流)表示,确保输出特征保持可靠的空间感知能力,增强系统的可解释性和安全保障 [11] - **丰富的数据引擎**:开发了将3D占用和占用流表示无缝集成到自然语言场景描述中的数据引擎,使模型能够通过文本理解复杂的时空动态 [11] - **统一模型设计**:采用端到端联合优化,覆盖3D感知、预测、规划和场景理解等所有任务,用一个MLLM统一了现有的VLA和VA框架 [11] - 架构关键组件包括:多模态视觉编码器(UniLION)、空间投影器、MLLM主干(基于Qwen2.5-0.5B模型构建)、以及四个专用头部(文本头、3D占用头、占用流头、行为扩散头) [11][17] 数据引擎 - 数据引擎分为三个阶段:场景理解注释(使用InternVL3-78B生成前/后视图描述)、4D空间理解注释(利用地面真实占用和流数据生成问答对)、规划推理注释(基于自车未来轨迹生成规划问答对) [18] 实验结果与分析 - **文本理解能力**:在nuScenes-QA基准测试中达到60.7%的平均准确率,超过OpenDriveVLA-7B模型2.5个百分点;在存在、对象和状态子类别上分别达到85.3%、57.5%和59.1%的准确率 [19][20] - **3D占用体素感知性能**:在Occ3D基准测试上达到46.0%的RayIoU,比之前最先进的OPUS方法提高4.8个百分点;在1m、2m和4m距离上分别达到42.2%、46.7%和49.2%的RayIoU [21][22] - **3D占用和占用流预测性能**:在OpenOcc基准测试上实现49.3%的OccScore和49.3%的RayIoU,将占用流mAVE降至0.509;超越FB-OCC的3D占用RayIoU达10.3个百分点,并将流mAVE从0.591降至0.509;比ALOcc-Flow-3D在OccScore上高出6.3%,在RayIoU上高出7.4% [15] - **轨迹规划性能**:在nuScenes基准测试中,使用自车状态信息时实现0.40m的L2误差和0.11%的碰撞率,碰撞率比ORION降低70%(从0.37%降至0.11%);不使用自车状态信息时,L2误差比VAD低32%(从0.72m降至0.49m) [16] 消融研究与分析 - **文本头部与视觉头部的消融研究**:当文本头和视觉头结合时,与仅视觉设置相比,统一模型的3D占用RayIoU提高1.8%,占用流mAVE降低0.18,规划L2误差降低0.52m,同时保持60.7%的文本理解准确率,证明了统一框架的有效性 [23][24] - **文本数据规模的影响**:使用Qwen-2.5 3B模型并扩大训练数据规模后,模型在占用状态预测的准确率从73%提升到87%,占用类别预测的准确率从14.3%显著提升到59.2% [26] - **多任务学习平衡权重研究**:实验表明,较高的3D占用和流损失权重(1.0)在该任务上性能更好,但在规划准确性和文本理解任务上略有降低,最终实现采用了默认权重1.0 [27][28] - **MLLM隐藏状态重要性权重分析**:分析显示,更深层的Transformer层获得更大的可学习权重,表明高级特征对模型有效性更为关键 [29][30] 可视化结果与能力展示 - DrivePI能够同时生成场景描述、3D占用、占用流、动作和轨迹预测的可视化结果,在粗粒度和细粒度预测之间表现出很强的一致性,验证了其统一语言理解与3D感知能力的有效性 [31] - 在静止等待、直行驾驶和夜间转弯等多种复杂驾驶场景中,DrivePI展示了卓越的性能和适应能力,例如在低光照条件下仍能准确描述环境并生成合理轨迹 [36][39] 主要贡献与未来展望 - 提出了首个统一的空间感知4D MLLM框架DrivePI,无缝集成粗粒度语言空间理解与精细3D感知能力 [39] - 将激光雷达作为补充传感模态,并支持精确的3D感知和预测,增强了系统的可解释性和安全保障 [39] - 尽管仅使用0.5B参数的紧凑MLLM主干网络,其在3D占用和占用流预测方面优于现有基于视觉的模型,同时保持了与现有VLA框架相当的交互能力 [39] - 该框架有望通过语言推理和精细的3D输出,启发未来研究,增强自动驾驶系统的可解释性和可解释决策能力 [38]
赵何娟独家对话李飞飞:“我信仰的是人类,不是AI”
新浪财经· 2025-12-22 05:27
行业趋势与展望 - 空间智能(世界模型)预计将在未来两年内迎来应用级爆发 [1][5][21] - AI发展正从“语言生成”迈向“世界生成”,让机器在连续三维世界中实现“看见-生成-互动” [4][5] - 世界模型正成为产业竞逐的新高地,Google DeepMind等巨头已组建专门团队并发布相关路线 [5] - 生成式AI通过降低复杂任务的门槛,将开启许多意想不到的新市场和应用 [23][24] 公司进展与产品 - World Labs发布了首款商用“世界模型”Marble,可从图片或文字提示生成可持续存在、可自由导航且几何一致的3D世界 [2][4] - Marble模型可导出为Gaussian Splat等格式,支持在网页与VR设备中体验与二次创作,突出了“更大、更清晰、更一致”的特点 [4] - World Labs自2024年获巨额融资以来,始终以开发大型世界模型(LWM)为愿景 [6] - 公司认为3D世界生成技术可应用于数字创意、游戏开发、影视、设计、建筑、VR/AR及机器人仿真等多个领域 [23] 技术路径与瓶颈 - 实现通用人工智能(AGI)需要多把“钥匙”,空间智能是其中关键一环,没有它则不算真正的AGI [25] - 当前发展面临数据瓶颈,这是螺旋形上升过程中的新关键点,与算法同等重要 [31][32][33] - 业界存在一种偏见,即更看重算法而非数据,但所有真正做AI的人都明白数据至少与算法平等重要 [34][35] - 机器人领域的数据尤其难以采集,因为缺乏大规模商业化应用场景,这限制了其发展 [43][47] 竞争格局与市场机会 - AI是一项横向技术,为应用层提供了大量机会,大公司无法完全覆盖,小公司有机会在垂直应用领域做到极致 [54][55] - 显性资源(如数据、算力、人才)的整合优势并非绝对,创造力、时机和执行同样关键,历史上从未有过只有大公司能赢的时代 [53][54] - 有能力开发基础模型的公司(通常需要顶尖人才和特定结构)与专注于应用开发的公司将有不同的市场路径 [55][57] 应用场景分析 - 自动驾驶可被视为一个简化版的世界模型,但其场景相对简单(二维移动、避免碰撞),远复杂于未来需要在三维世界中执行多种操作(如家务)的机器人 [40][41] - 工业机器人因场景单一、数据相对丰富而已有应用,其智能化进程可能更快;日常用机器人的商业化则还有较长的路要走 [44][45][47] - 围绕机器人数据(如模拟数据)的创业公司存在商业机会,但成功取决于市场大小和满足客户需求的能力 [47] 发展理念与价值观 - AI的本质是工具,人类必须掌握选择权和主动权,不能自我放弃 [1][4][70] - 发展的同时必须关注安全与向善,在只追求发展和只强调伦理两个极端之间需要理性平衡 [57][58] - 在AI时代,教育体系急需革命,应利用AI赋能教育者和学生,将节约出的时间和精力用于培养AI无法替代的认知与能力 [65][66][67] - 面对AI可能带来的虚假信息等负面影响,公众教育、制度政策以及人的创造性应对至关重要 [77][78][79]
复杂空间推理新SOTA,性能提升55%!中山大学新作SpatialDreamer
具身智能之心· 2025-12-22 01:22
文章核心观点 - 由MBZUAI与中山大学的研究团队提出的SpatialDreamer框架,通过模拟人类主动探索、心理想象和空间推理的闭环过程,显著提升了多模态大语言模型在复杂空间任务上的性能,为人工智能空间智能的发展开辟了新路径 [1][4][14] 技术框架与核心流程 - SpatialDreamer是一个基于强化学习的框架,旨在通过主动探索、视觉想象与证据融合的闭环过程,赋予MLLMs类人的空间心理模拟能力 [4] - 其闭环推理流程包含三个步骤:1) 探索:推理出最优的自我中心动作(如「前进0.75米」或「左转45度」);2) 想象:调用世界模型生成执行动作后的新视角图像;3) 推理:整合所有累积的视觉证据,生成最终答案 [6] - 该过程使模型从「被动观察」转向「主动目标导向的想象」,实现了在内部三维环境中自主决定行动与推理 [7] 关键技术创新 - 为解决长序列推理任务中奖励稀疏的问题,研究团队提出了GeoPO策略优化方法,该方法包含:1) 树状采样结构,支持回溯与多路径探索;2) 多级奖励设计,融合任务级与步级奖励;3) 几何惩罚机制,对冗余或冲突动作施加惩罚系数(如0.9),以鼓励高效轨迹生成 [8] - GeoPO在提升模型性能的同时,也显著加快了训练收敛速度 [9] - 为引导模型学习「思考-想象-回答」的模式,构建了SpatialDreamer-SFT数据集,包括单轮推理数据以及通过「错误注入 → 自我纠正 → 重建推理链」构建的反思式推理数据 [11] 实验结果与性能表现 - 在SAT基准测试中,SpatialDreamer在真实与合成图像中均达到SOTA,平均准确率分别达93.9%与92.5% [13] - 在MindCube-Tiny基准测试中,整体准确率达到84.9%,较基线模型Qwen2.5-VL-7B提升超过55% [13] - 在VSI-Bench基准测试中,在物体计数、相对方向、路径规划等任务中全面领先,平均准确率达62.2% [13]
「一脑多形」圆桌:世界模型、空间智能在具身智能出现了哪些具体进展?丨GAIR 2025
雷峰网· 2025-12-20 04:07
文章核心观点 - 具身智能领域仍处于技术路线发散探索阶段,尚未收敛,这为创新提供了机会,但最终目标是实现通用泛化智能,而非回归传统工业自动化 [3][4] - 世界模型在自动驾驶等特定场景已开始应用,主要用于生成海量合成数据以覆盖长尾场景和进行闭环测试,但其与具身智能的结合仍处于早期探索阶段,定义和技术范式尚未统一 [10][11][12][14] - 空间智能是机器人感知和理解环境的关键,其发展建立在SLAM等技术基础上,并引入AI以增强对语义和复杂空间关系的理解,但目前仍面临数据模态不足等挑战 [20][21][22][23] - 具身智能的落地应用面临技术、成本与商业化现实的巨大鸿沟,需在追求通用智能的“星辰大海”与解决工业自动化等迫切需求的“脚踏实地”之间找到平衡 [25][26][27][30] - 数据是驱动技术发展的关键,其获取方式(真机、仿真、生成)的有效性取决于具体任务,业界正在探索不同数据源的最优组合比例 [34][35][38] 具身智能技术发展现状 - 技术路线仍处于发散探索阶段,尚未收敛,高校与产业界需更好分工合作,高校应聚焦交互、人机协同、世界模型等核心问题突破 [3][4] - 单体机器人研究倾向于采用端到端技术路线以降低系统复合误差和延迟,决策层共识是放大视觉语言模型的能力 [5] - 群体机器人的基础是打造柔性、弹性、分布式、灵活的群体架构 [5] - 端到端是一种工程范式,强化学习是一种具体解法,黑箱是一种模式,三者概念不同,不应等同 [6][7] - 实际研究中采用多种解法,包括大量使用强化学习,并以解决问题为唯一目标 [8][9] 世界模型在自动驾驶领域的应用与挑战 - 世界模型在自动驾驶领域主要用于生成海量合成数据以覆盖数据飞轮积累的corner case和之前布局不到的场景 [11] - 与传统方案相比,世界模型能实现闭环测试,将决策链路放在模型内进行优化,这是最大的不同 [11] - 自动驾驶场景相对简单,且早有“闭环仿真器”概念,生成式AI能力的提升使生成的数据真假难辨,提供了大量有价值的训练样本 [12] - 世界模型的定义尚未统一,例如李飞飞侧重像素级重建,而LeCun认为潜在空间表达也算世界模型 [12] - 自动驾驶领域世界模型的状态表征主流仍是视频生成,同时结合雷达、点云等多模态数据以增强信息量和安全性 [13] - 将世界模型与视觉语言动作模型结合,旨在解决离线数据集无法通过模仿学习获得长程思维和未来预测能力的问题 [15][16] - 世界模型有助于解决长程任务的理解和预测难题,能赋能后续的策略学习 [17] 空间智能的定义与发展 - 空间智能定义尚不清晰,其发展部分源于SLAM技术的延续和演进,现在更多采用基于学习的方法 [20] - 空间智能不仅关注空间几何,还增加了对语义信息的关注,包括物体类别、用途、交互方式等 [21] - 机器人目前处理复杂空间关系(如“第一排左边数第四个瓶子”)的能力仍不成熟,这是空间智能需要解决的问题 [22] - 大模型因训练数据源于语言模态而存在空间关系上的“幻觉”,需构建专门数据集与传统SLAM的强空间能力对齐 [23] - 当前视觉语言模型中的视觉多为2D,3D模态较为欠缺,需补足3D信息以解决空间智能问题 [23] 具身智能的落地应用与商业化挑战 - 无人机应用生态中,航拍、农业植保等易落地应用占比可能不到1%,更多高空作业场景(如灭火、清洗、载人)尚未实现 [26] - 应用未普及的最大卡点之一是“不够智能”,依赖规则编写导致开发成本高,难以算过经济账,AI发展带来了解决希望 [27] - 通过AI与大模型结合改进决策能力,被视为实现通用泛化解决问题能力的关键希望 [29] - 产业界存在迫切需求,希望尽快将机器人用于工业自动化,这与技术创业者的通用智能愿景存在差距 [30] - 人形机器人硬件在负载能力、高负载平衡性、运动稳定性及灵巧手方案等方面仍有诸多挑战,离真正“干活”的应用落地尚有距离 [30] - 中美创业环境存在差异,例如Scale AI估值达140亿美元,而国内创业公司估值多在几亿人民币量级,需同时面对宏大愿景与短期商业化的矛盾 [31] - 创业者认为最终成功做成事情比估值高低更重要,并指出中国投资人对技术的耐心因DeepSeek等案例而有所增加 [31][32] 数据获取策略与有效性 - 机器人数据获取主要有真机采集、仿真和视频生成模型三种方式,其有效性需根据具体任务判断,并非真机数据一定最合理 [34][38] - 数据可视为金字塔结构:底层是大量、低成本的互联网或视频数据,用于预训练;中层是合成数据,用于提高任务泛化性;顶层是真机或遥操数据 [34] - 业界正在探索不同数据源的有效比例,例如一种说法是70%的网络视频数据、20%的合成数据和10%的真机数据 [35] - 合成数据是否有效,关键在于其是否针对特定任务有价值,且其表达形式不一定是视频,也可能是潜在的抽象表征 [35][36][37] - 对于足式机器人的基本运动控制任务,可能在纯仿真环境中无需真实数据即可完成,高度依赖任务形式本身 [38]
让人工智能“睁眼看世界” 走在国际科技变革最前沿 上海量子城市建设画卷正从复兴岛展开
解放日报· 2025-12-20 00:59
上海量子城市与复兴岛全球创客岛启动 - 上海复兴岛于12月18日启动全球创客岛暨2025上海量子城市年度大会 [1] - 复兴岛将建设智能基础设施,计划按每平方公里10万个的标准分步实施全岛智能感知设施布设 [1] - 复兴岛旨在提升时空智能体能力,构建新质产业线上线下一体的实训场 [1] 人工智能“世界模型”与城市训练场 - 人工智能技术加速迭代,上海正通过构建“世界模型”和提供训练场来捕捉前沿科技变革 [3] - 上海于2024年12月在复兴岛开启“上海量子城市时空创新基地”,被认为走在国际科技变革前沿 [3] - 为弥补AI模型缺乏真实物理世界接触的局限,上海已搭建多个训练场,包括今年2月启用的全国首个异构人形机器人训练场,以及7月发放的首批智能网联汽车示范运营牌照 [3] - 顶尖科学家如斯坦福大学教授李飞飞将“空间智能”视为AI下一个前沿,图灵奖得主杨立昆也宣布将成立专注“世界模型”的新公司 [5] 量子城市时空创新基地的成果与应用 - 基地开启一年来,已发布1个时空数智底板、1个专业语料库、10个应用场景等多项成果 [6] - 量子城市时空数据共享平台1.0版实现了基础地图、三维模型等8类数据的汇集共享 [6] - 建成了全国首个规划和自然资源领域专业语料库,形成“1+4+X”语料体系 [6] - 应用场景包括沪派江南、耕地巡查执法、苏河安全、数字气象等 [6] - 在杨浦区大学路800米范围建立了“悟空”城市空间智能监测评估垂类模型的“米料”级试点区,用于人流动态研判与疏导 [6] - 通过构建四维“时光盒子”数据集,模型可清晰呈现人流实时密度、活动轨迹、进店转化率等指标 [7] - 在曹杨新村构建了三维数字孪生社区“美好生活掌中宝” [7] - 上海市气象信息与技术支持中心将百米分钟级大气实况分析产品与10米太格网耦合,使天气变量成为可计算的城市基础设施 [7] 复兴岛创客生态与人才战略 - 复兴岛向全球创客发出邀请,旨在通过加大人才投资形成“人才红利”以赢得科技革命战略主动 [8][9] - 杨浦区通过“三箭齐发”策略打造全链条创新策源地、强链接创业加速厂、高效率科技转化港、有温度科创朋友圈 [9] - 创造“低成本”创业环境:盘活30万平方米存量工业厂房、2500间创客公寓,并发放新质秀带创新券、算力券、模型券、语料券 [9] - 厚植“快创新”丰沃土壤:联合企业组建科创载体开发平台,招募顶尖孵化器伙伴,支持技术攻关与转化,提供全生命周期科技金融及项目申报服务 [9] - 构建“开放式”创客生态:建设复兴岛创客学院和高校创新联盟,支持共性技术平台,提供落户、导师、实训等服务,探索打造OPC(一人创业公司)社群,支持举办国际峰会、大赛等活动 [9] - 目前已有12家国内外知名孵化器、首批14家创新创业企业正式入驻复兴岛 [10]
【金猿人物展】袋鼠云CEO宁海元:AI浪潮下,数据中台的生存与跃迁
搜狐财经· 2025-12-18 12:20
文章核心观点 - 数据中台的定位正被AI技术重塑,其未来只有两条路:成为AI基础设施的核心支撑,或在技术迭代中被边缘化[2] - 袋鼠云的战略从“大数据基础软件提供商”升级为“大数据基础软件与人工智能应用服务商”,并提出了“一体两翼”战略[3][4] - 大数据产业正从“安装期”、“泡沫期”进入“部署期”,核心逻辑从“数据飞轮”转向构建“价值回路”[6][7] - 未来十年大数据产业将呈现三大趋势:数据中台向多模态数据操作系统演进、数据智能体成为业务第一入口、以及从数据智能迈向空间智能[11][12][14][15][18] 行业趋势与演变 - **产业阶段划分**:中国大数据基础软件产业经历了三个阶段:2015年前后的“安装期”,以Hadoop生态普及和数据初步聚合为核心;随后几年进入“泡沫期”,项目遍地开花但价值不均;近两三年随着大模型等技术涌现,进入“部署期”,核心是支撑AI应用[6] - **核心逻辑转变**:行业核心从“数据飞轮”(更多数据→更好算法→更好产品→更多用户→更多数据)转向构建“价值回路”(数据→大模型→智能体→业务行为→新数据再生),以实现从技术红利到生产力红利的转化[7][9] - **分析范式跨越**:BI工具正从“报表逻辑”向“指标逻辑”跨越,企业需要先建立统一的指标体系,再围绕其构建数据资产和应用场景,由智能系统自动发现异常并给出建议[9] 公司战略与定位 - **战略升级**:公司从“大数据基础软件提供商”主动升级为“大数据基础软件与人工智能应用服务商”,系统性思考数据基础设施如何同时服务AI与业务[3] - **“一体两翼”战略**: - **一体**:以多模态数据智能中台为统一数据底座,管理多源多模态数据,作为企业AI基础设施的核心支柱[4] - **两翼之一**:数据智能,推动企业从“报表驱动”升级为“指标+智能体驱动”,形成可复盘的决策机制[4] - **两翼之二**:空间智能,将实时数据与数字孪生、仿真推演结合,应用于城市、工厂等物理空间[4] - **公司使命**:参与并推动了中国大数据基础软件从“跟随”到“自立”的蜕变,并提前实践了“如何为AI时代打地基”[6] 未来产业趋势判断 - **趋势一:数据中台向多模态数据操作系统演进**:未来有价值的数据中台必须是“多模态数据操作系统”,统一治理文本、图像、视频、传感器等数据,其生死线在于能否为AI提供高质量数据供给并支撑“数据-大模型-智能体-业务”的完整闭环,做不到的将被边缘化[12][14] - **趋势二:Data Agent成为业务第一入口**:大模型与智能体技术将重构人用数据的方式,Data Agent通过自然语言界面直接为业务人员提供分析结论和决策建议,预计从2026年开始,Data Agent将逐步接管前台人机交互入口,传统BI工具将退为底层能力[15][17] - **趋势三:从数据智能迈向空间智能**:下一阶段的核心是构建对城市、工厂等时空系统的“理解与推演能力”,即空间智能,数字孪生将升级为可预测、可推演的动态系统,“世界模型”将成为落地场景的基础设施,融合大数据、AI与空间智能[18][19]