Marble平台
搜索文档
李飞飞发文:空间智能将成AI攀登的下一座高峰
科技日报· 2025-11-18 05:17
文章核心观点 - 人工智能(AI)的发展正从“理解语言”迈向“理解世界”的新阶段,空间智能被认为是AI的下一个前沿,其目标是让AI具备在现实世界中感知、推理和行动的能力 [1][4][9] 当前AI的局限与空间智能的定义 - 当前以大型语言模型和多模态大模型为代表的AI系统,虽然在文本和图像生成上表现出色,但在物理世界的表征与交互上存在根本局限,例如在估算距离、方向、大小时的表现往往不及随机水平,且生成的视频在几秒内会失去连贯性 [4] - 这些局限使得AI难以真正赋能需要理解物理空间和因果关系的创造性工作,如教育、建筑设计、影视游戏创作等 [4] - 空间智能是人类认知的核心能力,它融合了想象、感知与行动,驱动着创造与推理,其核心在于实现从“知道”到“理解”的跨越 [4] - 具备空间智能的AI将能理解事物之间的关联与意义,从而真正拓展人类的创造力与理解力,带来从医疗健康到艺术创作等各领域的变革 [4] 实现空间智能的路径:构建世界模型 - 实现真正的空间智能需要突破现有大型语言模型的范式,转向构建一种能理解语义、几何、物理和动态规则的“世界模型” [6] - 这种世界模型应能感知多模态输入,预测场景变化,并与环境进行交互 [6] - 当前相关研究方向包括生成三维物体与场景的3D生成模型、模拟动态过程的物理引擎,以及通过交互学习的具身智能系统,但能整合全部能力的通用世界模型仍处于起步阶段 [6] - World Labs团队正在研发的世界模型可在语义与几何层面理解复杂3D场景,推理物理属性与交互关系,并生成连贯、可探索且遵守物理规律的虚拟空间 [6] - 其开发的Marble平台已应用此能力,使创作者无需传统3D建模工具即可快速创建和编辑完整的虚拟世界,标志着AI从生成图像迈向生成世界 [6] 空间智能的应用前景与影响 - 在创意与叙事领域,空间智能将重新定义创造方式,使导演、游戏设计师、建筑师及个人创作者能在三维空间中自由构建和可视化虚拟世界 [8] - 在机器人领域,空间智能是实现具身智能的关键,能让机器人在虚拟环境中高效训练、理解空间关系与人类意图,从而在从实验室到家庭的各类场景中安全协作 [8] - 在科学、医疗与教育领域,空间智能将成为人类探索的倍增器,AI可模拟实验、加速药物研发与影像诊断,并让学生“走进”分子或历史现场,使抽象知识具象化 [8] - 空间智能将重新定义AI的功能和行为方式,使机器从被动分析转向主动规划和适应,例如仓库机器人可动态规划路径,自动驾驶汽车可预测行人移动 [8] - 空间智能的目标是增强人类的专业判断力、创造力与共情力,让技术更深地服务于人性,帮助人类理解疾病、重塑叙事、陪伴脆弱群体并加速科学发现 [9] - 空间智能不仅将改变AI的能力,更将重塑人类“如何与世界共处”,标志着AI正迈向一个真正能理解现实的新时代 [9]
炸场,李飞飞发了个「永久世界」,谷歌Genie 3瞬间不香了?
36氪· 2025-09-17 03:58
公司动态 - 斯坦福大学教授李飞飞创立的World Labs公布空间智能模型最新研究成果并发布测试预览版Marble平台[1] - 用户可加入等待名单获取Marble平台使用资格[5] - 公司官方X账号评论区获得积极反馈 网友认为技术适合视频游戏和虚拟现实应用[6] 技术特性 - 模型支持通过图像或文本提示生成持久 可导航 可控的3D世界 且不会出现变形或内容不一致问题[3] - 生成的世界具备更丰富几何复杂度 能呈现完整3D场景包括视野外部分[8] - 支持多种风格输入转化 包括平面卡通和写实图像[8] - 生成内容可导出为高斯splats并通过开源渲染库Spark集成至Three.js 实现多设备兼容渲染[6] 产品优势 - 用户可在浏览器内零成本自由切换视角进行漫游[8] - 与谷歌Genie项目相比 生成世界永久存续且无需付费[3] - 早期用户体验反馈显示可将工作时间从数月缩短至分钟级 特别适用于电影制作等创意场景[14] 行业影响 - 技术突破使构建大型3D世界成为可能 保证场景间连贯性[15] - 工具普及预计使动漫创作者 游戏开发者等创意人士受益[15] - 当前仍处于3D模型发展早期阶段 但应用潜力显著[15]
李飞飞发布世界模型新成果:一个提示,生成无限3D世界
量子位· 2025-09-17 01:42
核心观点 - 李飞飞创业公司World Labs推出新一代世界模型 能够基于单一图像或提示构建可无限探索的3D虚拟世界 具备更大规模、更多样风格和更清晰几何结构 [1][3][5] 技术特性 - 支持持久存在、可导航且可自定义操控的3D世界生成 允许用户自由视点漫游 [3][13] - 生成场景具备丰富几何复杂性 可探索输入视角之外的隐藏空间 [14] - 模型保持高度一致性和风格连贯性 支持多场景无缝拼接形成更大虚拟世界 [3][24][25] - 支持多样化视觉风格生成 从扁平化卡通到写实风格均可转化 [15][17] 应用与兼容性 - 生成世界可导出为高斯点云 通过开源Spark渲染库集成至Three.js 兼容台式机、笔记本、移动设备和VR头显 [8] - 模型生成内容永久持续 无时间限制且完全免费访问 [28][29] 产品进展 - 已推出beta预览版本 通过Marble平台开放体验和构建功能 [9][30]