Workflow
空间智能
icon
搜索文档
破解空间智能数据稀缺难题,影石开源DiT架构全景生成模型,在线可玩
量子位· 2025-10-18 02:07
技术突破与核心创新 - 影石研究院推出基于DiT架构的全景图像生成模型DiT360,旨在解决空间智能领域真实全景数据稀缺的问题[1][2] - 模型采用多层级混合训练框架,结合有限全景数据与大规模高质量透视图像,在保持真实感的同时提升几何一致性[4][11][12] - DiT360支持文本引导图像生成、inpainting和outpainting等多项任务,并在边界一致性、图像保真度和感知质量上优于现有方法[5][17][46] 技术框架与实现路径 - 图像层级通过全景图像精修与透视图像引导两种机制,提升全景数据的结构质量并实现跨域知识迁移[14][16] - 特征层级引入循环填充、旋转一致性损失与畸变感知立方体损失三个关键模块,确保潜空间中的几何一致性和全局连续性[19][20][22][25][27] - 该框架使模型能生成高分辨率(2048×1024)的全景图像,在室内外多种场景下均展现出出色细节和真实感[11] 性能表现与评估结果 - 在定量评估中,DiT360在FID(42.88)、FAED(24.77)、IS(1.60)等多项关键指标上均优于MVDiffusion、PanFusion等主流方法[6][32][34] - 用户测评显示,DiT360在真实感和整体质量上获得最高偏好比例,分别达到63.8%和80.9%,显著领先于其他方法[38][39] - 消融实验证实,循环填充、畸变感知立方体损失、旋转一致性损失和透视图像引导四个核心模块共同作用,使模型达到最佳性能[41][43][44] 行业应用与未来前景 - 高质量全景图像生成对AR/VR、自动驾驶、机器人导航等应用至关重要,是通向“空间智能”的关键一步[7][8] - 该技术为未来多模态、跨域的三维场景生成提供思路,可拓展至全景视频生成、VR/AR内容创作及动态场景模拟等任务[50][51] - 该方法展示了利用平面图像弥补稀缺全景数据以提升场景细节真实感与空间一致性的潜力,为虚拟世界构建开辟新方向[52]
“AI教母”李飞飞发布实时生成式世界模型!一张H100就能运行
第一财经· 2025-10-17 06:32
公司技术进展 - 斯坦福大学教授李飞飞创立的World Labs公司发布全新实时生成式世界模型RTFM (Real-Time Frame Model) [3] - RTFM模型具备实时 持续运行且保持3D一致性的特点 亮点是可在单个H100 GPU上运行 [3] - 模型设计围绕效率 可扩展性和持久性三个关键原则 可在很小的GPU上运行并随计算量增加而扩展 [5] - RTFM是基于大规模视频数据端到端训练的自回归扩散Transformer模型 学会了建模3D几何 反射 阴影等特征 [6] - 上个月公司上线了空间智能研究成果Marble 只需一张图片就能生成持久存在的3D世界 [7] 技术优势与行业意义 - 生成式世界模型的算力需求将极其庞大 远超当今的大语言模型 [6] - 采用能够随计算能力提升而平滑扩展的简单方法 可受益于计算成本的指数级下降 [6] - 该技术可赋能创造 设计 学习 AR/VR 机器人等领域 具有广泛应用场景 [8] - 行业认为世界模型可能直接面向内容生产行业 瞄准游戏公司或电影制片厂 [7] - 技术对艺术家 设计师 开发者和工程师等职业群体都有重要意义 [8] 公司背景与融资情况 - 李飞飞于2024年创办World Labs 目标是开发具备空间智能的下一代AI系统 [7] - 公司在短短几月内完成约2.3亿美元(约合人民币16亿元)融资 [7] - 公司估值迅速突破10亿美元(约合70亿元) 成为AI领域最新独角兽企业 [7] - 投资方包括a16z Radical Ventures 英伟达NVentures AMD Ventures和Intel Capital等重量级玩家 [7] 未来发展规划 - 公司旨在开发能够利用图像和其他数据对三维世界进行决策的软件 致力于构建大型世界模型 [8] - 第一阶段将专注于构建对三维性 物理性以及空间和时间概念有深入理解的模型 [9] - 随后将支持增强现实(AR)技术和机器人技术等领域 [9] - 公司计划生成虚拟三维空间 用户可以控制其中的物理等变量 并允许人们创建自己的三维世界 [8]
“AI教母”李飞飞发布实时生成式世界模型!一张H100就能运行
第一财经· 2025-10-17 04:40
公司技术产品RTFM - 斯坦福大学教授李飞飞的创业公司World Labs发布了实时生成式世界模型RTFM,该模型具有实时、持久运行和保持3D一致性的特点[1][3] - RTFM的设计围绕三个关键原则:效率、可扩展性和持久性,使其能在很小的GPU上运行并随计算资源增加而扩展,且构建的世界是永久的[4] - 该模型是一款基于大规模视频数据端到端训练的自回归扩散Transformer,通过观察训练样本学会了建模3D几何、反射和阴影等特征[4] - 团队设定简单目标,最终开发出可高效部署在单个H100 GPU上的模型,无论交互时长均能保持帧率和世界持久性[5] 技术挑战与行业前景 - 生成式世界模型的算力需求将极其庞大,远超当今大语言模型,若用现有架构生成60帧4K交互视频流每秒需超10万个token,持续一小时交互需处理上下文token超1亿[4] - 以当前计算基础设施看,高算力需求既不可行也不经济,团队相信能平滑扩展的简单方法将主导AI领域,因其能受益于计算成本指数级下降[4] - 行业认为世界模型将带来巨大变革,应用远超游戏领域,可能直接面向内容生产行业如游戏公司或电影制片厂[8] - 空间智能技术被李飞飞视为AI领域真正难题,该技术可赋能创造、设计、学习、AR/VR及机器人等广泛领域[9] 公司融资与发展规划 - 李飞飞于2024年创办World Labs,旨在开发具备空间智能的下一代AI系统,公司在短短几月内完成约2.3亿美元(约合人民币16亿元)融资,估值迅速突破10亿美元(约合70亿元)[8] - 公司投资方阵容强大,包括a16z、Radical Ventures、英伟达NVentures、AMD Ventures和Intel Capital等科技与风投界重要玩家[8] - World Labs致力于构建大型世界模型,计划生成虚拟三维空间供用户控制物理等变量,并允许人们创建自己的三维世界,该技术对艺术家、设计师、开发者和工程师等职业群体具有重要意义[9] - 公司未来规划第一阶段专注于构建对三维性、物理性及空间和时间概念有深入理解的模型,随后将支持增强现实技术和机器人技术等领域[10]
“AI教母”李飞飞的全新世界模型问世!一张英伟达AI芯片就能生成无限3D世界
钛媒体APP· 2025-10-17 02:53
公司产品与技术 - World Labs发布全新实时生成式世界模型RTFM 该模型基于大规模视频数据进行端到端训练 是一款效率极高的自回归扩散Transformer模型 [2][3] - RTFM模型的核心突破在于不依赖显式3D表征 仅通过输入1张或多张2D图像就能直接生成不同视点的全新2D图像 可精准建模3D几何 反射 阴影等复杂物理现象 [3] - 模型具备高效性 可扩展性 持久性三大核心优势 仅需一块英伟达H100 GPU芯片即可实现实时渲染和交互式体验 [4][8] - 模型通过"带位姿帧空间记忆"与"上下文调度"技术实现世界场景的持久性 确保用户长时间交互也能保持场景一致性 [8] - 公司未来规划将构建空间智能大模型LWM 该模型将支持AR并最终作用于机器人技术 改进自动驾驶汽车 自动化工厂 人形机器人等领域 [10] 行业影响与发展路径 - 该模型技术被业内称为"学会渲染的 AI" 真正解决了长期困扰世界模型可扩展性的问题 [3][6] - "空间智能+世界模型"成为AGI重要发展路径之一 强大的世界模型能实时重建 生成并模拟物理精确的世界 将彻底改变软件 机器人等很多领域和产业 [7] - 生成式世界模型正处在绝佳位置 将从持续降低的算力成本中获益 [4] - 公司联合创始人李飞飞认为 语言 空间 视觉 具身智能等多种AI技术正在融合 并开始真正改变人类社会 [12] 公司融资与估值 - World Labs于今年9月获得2.3亿美元(约合人民币16亿元)融资 由a16z NEA恩颐投资和Radical Ventures领投 AMD Adobe Databricks的风投部门和Shinrai Investments LLC以及英伟达创投部门参与投资 [10] - 公司成立仅3个月估值便达到10亿美元(约合70亿元) 团队约24人 其中华人面孔约占据三分之一 [10] 相关研究项目 - 李飞飞团队还打造了Behavior视觉挑战比赛 并于今年10月正式发布Behavior 1K 这是一个包含1000个任务的综合仿真基准与训练环境 主要聚焦日常家庭环境中的"长时序任务" [11][12] - Behavior项目旨在解决机器人学习中的三大痛点 任务缺乏标准化 缺乏统一的任务体系以及缺乏训练数据 为全球研究者提供开放源码的训练与评测平台 [11]
欧几里得的礼物:通过几何代理任务增强视觉-语言模型中的空间感知和推理能力
机器之心· 2025-10-17 02:11
多模态大语言模型(MLLMs)的空间智能挑战 - 当前最先进的MLLMs在广泛视觉-语言任务中取得显著成功,但仍缺乏真正的空间智能,甚至在儿童能轻易完成的任务上出错,例如数方块或识别物体左侧最近邻近物体[2] - 在李飞飞提出的VSIBench评估基准中,超过70%的记录错误源于模型对空间现象的推理错误,而非视觉识别或语言解析能力不足[5] - 近期研究尝试通过提供专门构建的空间数据集来提升模型性能,但这些数据集通常仅涵盖现实世界空间任务的子集,可能导致模型过度特化,难以培养更基础且可泛化的空间智能[5] 几何问题作为空间智能代理任务的原理 - 几何将数个世纪的数学研究浓缩为对空间现象的形式化描述,学习求解几何问题能迫使模型内化欧几里得几何公理等先验知识,并提供更强的跨领域泛化能力[8] - 解决几何问题所需的能力,包括识别形状与构型、推断空间关系、计算几何元素以及执行多步逻辑推理,同样是空间感知任务所必需[10] - 教育心理学领域有大量证据表明几何问题求解与空间智力密切相关,可作为空间能力的指标,并且本文通过实验发现这种关系可推广至多模态大模型[10] Euclid30K几何数据集的构建 - 为解决缺乏多样化几何问题大规模高质量训练数据集的问题,研究团队从现有开源数据集与K12教程中标注了一个包含29,695个几何问题的Euclid30K数据集[12] - Euclid30K数据集中包含18,577个平面几何问题和11,118个立体几何问题,其中新收集的立体几何问题有3,996个,新收集的图像有3,792张[13] - 所有题目与答案都通过GPT-4o与DeepSeek-V3.1 API混合清洗,确保答案被重规范化为可被MathVerify正确识别的格式[12] 几何训练对模型性能的提升效果 - 仅使用常规GRPO对模型进行训练后,经过几何问题训练的模型在VSI Bench、Super CLEVR、Omni3D Bench和MindCube四个基准上的性能都出现了一定程度增长[15] - 因果消融研究表明,在Euclid30K上训练的模型相比在同等大小Clevr-CoGenT数据集上微调的模型整体准确率显著更高,验证了性能提升明确归因于几何任务[17] - 具体而言,Qwen2.5VL-72B模型在Euclid30K上训练后整体准确率达到37.5%,高于在Clevr-CoGenT上训练的33.2%和基础版的32.3%[19]
凯文·凯利:五年内,中国或做出世界上最好的人工智能芯片
新浪财经· 2025-10-16 23:39
文章核心观点 - 人工智能是赋能技术,可加速其他技术实现,对可持续发展至关重要 [4] - AI将像电力一样成为可买卖的商品,真正财富来源于懂得使用AI的人 [10] - AI是对人类的提升而非取代,人类在工作中不断学习的能力使其保持价值 [10] - 中国在AI竞赛中具备独特优势,绿色技术和可持续发展技术是其愿景实现基石 [10][11] AI前沿发展趋势 空间智能 - 当前AI在现实物理世界中效果不佳,缺乏三维空间智能 [6] - 需通过智能眼镜等增强现实技术培训AI理解物理世界 [6] - 智能眼镜能促进AI发展,使其能够在世界中移动定位并完成复杂任务 [6] 情绪智能 - 情绪感知是AI下一个发展方向,可将情感编程到AI中 [7] - AI读懂人类情绪后能产生强大情感连接,如机器人回应儿童情绪 [7] - 情绪智能将创造超越陪伴价值的深度互动关系 [7] AI智能体 - 未来将出现万亿个AI智能体相互工作和合作 [9] - 99%的AI智能体完全不可见,在后台执行伐木、电工等任务 [9] - 将形成AI智能体经济,智能体可自主交易并使用稳定币解决问题 [9] - AI智能体的所有权和控制权是亟待解决的关键问题 [9] 中国AI发展前景 - 中国AI发展应聚焦于提升城市生活品质的软实力 [10] - 通过文化产品、绿色技术输出增强全球影响力 [10][11] - 中国可能比美国更早重返月球,并在五年内造出世界最好AI芯片 [11] - 2050年后中国可向全球输出自我运行的智能工厂 [11]
天猫精灵联合方太推出全屋智能3.0,智能厨房迎来“空间觉醒”时代
搜狐财经· 2025-10-16 07:55
行业战略转型 - 天猫精灵全屋智能3.0的发布标志着行业从“设备联网”向“空间觉醒”的历史性跨越 [1][3] - 行业理念从“被动响应的工具”转变为“主动服务的伙伴” [3] - 智能厨房正成为全屋智能的核心入口 [1] 核心技术能力 - 系统依托三大核心能力:空间感知力、空间理解力和生态服务力 [3] - 空间感知力由分布式空间网络主机作为神经中枢,AI空间传感器单设备覆盖64㎡超大空间并可同时追踪5人动态 [3][4] - 空间理解力基于阿里巴巴通义大模型,生态服务力通过联合方太等顶尖伙伴实现 [3] 具体技术突破 - 全新昆仑T20S分布式空间网络主机构建WiFi7全屋网络,支持本地化运算及存储以实现极速响应 [4] - 系统基于空间理解及决策的HomeAgent,可实现场景自进化,如扫码接入新净化器仅需10秒 [4] - 系统能记忆用户习惯并预判需求,例如阴雨关窗、晨起自动灯光唤醒 [4] 智能厨房生态合作 - 方太作为首家厨电合作伙伴深度融入全屋智能生态,展示了全链路厨房解决方案 [1][6] - 解决方案包括575mm超薄零嵌设计的全嵌冰箱、采用高能气泡洗技术的水槽洗碗机X20 Max以及智能增压油烟机 [6] - 通过加入“空间智能联盟”,方太厨电能够根据全屋环境、用户习惯和实时需求主动服务 [6] 生态扩张与市场前景 - 成立“Genie未来家空间智能设计师联盟”,汇聚百名顶尖设计师提供全链路解决方案 [8] - 2024年智能家居市场规模已达6200亿元,预计2025年将突破7000亿元 [8] - 合作覆盖从设计、装修到使用的全生命周期,推动产业升级与体验革新 [8]
扫街榜用户破4亿背后:高德与通义实验室共筑技术底座,让AI读懂人间烟火
搜狐财经· 2025-10-06 07:40
产品表现与市场影响 - 高德扫街榜上线23天后累计用户突破4亿大关 [1] - 产品覆盖全国超过300个城市 [1] - “十一”当天烟火小店流量增长300%为线下服务业带去数千万客流 [1] 核心技术:空间智能 - 产品基于与通义实验室共建的大模型簇以通义千问Qwen为底座包含多模态空间感知行为认知等多个专业模型 [3] - 空间智能通过融合视觉声音定位等多模态信息构建物理世界的三维几何结构使AI从二维迈向三维 [3] - 该技术能深度理解规模化的人车路店等动态信息将导航到店远距离前往等真实行为科学量化纳入评分体系 [3] - 技术应用能够快速降权或剔除非真实评论从源头大幅削弱低成本刷好评现象 [3] 技术路线验证与模型能力 - 扫街榜的高速增长验证了“模型+场景”融合技术路线的可行性 [4] - 通义千问Qwen系列大模型已成为全球主流基座模型之一其下载量达6亿次衍生模型数量超过17万个 [4] - 新发布的Qwen3-Max模型在代码和智能体能力上进一步提升各项基准测试成绩稳居顶尖模型行列 [4]
2025云栖大会:高德地图透露AI文博布局 时空大模型重构文化体验
环球网资讯· 2025-09-30 01:22
公司战略定位 - 公司以“空间智能”为核心战略布局文博数字化领域 [1] - 公司正从二维地图工具向三维立体数字空间升级实现“三维跃迁” [2] - 公司定位为技术输出平台不做内容生产以平台中立性获得博物馆信任 [6] 核心技术能力 - 公司推出三大空间智能技术支撑三维升级:云境(图生三维)、云睿(预测分析)、云迹(轨迹安全) [4] - “云境”三维重建技术可快速实现文物单体乃至大型场景的三维重建成为切入文博赛道技术基石 [4] - “云境”模型将单体文物数字化采集时间压缩至1~2天极大降低数字化门槛 [5] - 通过“云睿”时空大模型预测客流疏导人流帮助博物馆平衡文物保护与游客体验 [5] 行业痛点与解决方案 - 公司技术方案针对文博行业三大痛点:物理空间限制、数字化成本高、运营压力大 [5] - 公司通过“单体化”技术实现展品快速替换与内容更新降低运营压力 [5] - 公司将头部项目能力产品化推出轻量级管理平台服务中小型博物馆数字化需求 [5] 未来发展规划 - 公司计划打破时空界限实现文化主题“跨馆串联”如追溯苏东坡足迹联动多家博物馆藏品 [6] - 公司计划推动成果标准化让中小博物馆低成本接入数字化管理平台 [7] - 公司已同步筹备申请“十五五”课题计划将文博数字化能力进一步普惠化 [7]
空间智能将像云计算一样,成为人类与物理世界交互的标配
观察者网· 2025-09-29 01:37
公司战略与愿景 - 高德董事长提出空间智能未来将像云计算一样,成为各行各业与物理世界交互的标配[1] - 公司致力于通过“技术底座+产业平台”模式,帮助合作伙伴打造“千行千面”的AI融合发展模式[1] - 公司的核心策略是广交朋友并坚持开放生态,尤其在低空领域,公司明确只做基础设施、不做应用,所有应用均来自合作伙伴[5] 空间智能技术定义与价值 - 空间智能的核心价值在于推动AI从二维信息处理迈向三维时空交互,使其能够理解和预测真实世界的复杂性[1] - 该技术通过融合视觉、声音、定位等多模态信息,构建物理世界的三维几何结构,实现从“被动感知”到“主动预判”的跨越[1] - 空间智能被定位为人工智能重要的基石性领域,其作用是帮助人们理解世界并更好地交互[3] - 公司认为所有数字世界的智能,最终都要在物理世界里找到存在的意义[2] 产品与应用案例 - 公司展示了出行导航场景虚拟数字人“小高老师”,可通过调用子智能体和工具为用户制定个性化最优出行方案[2] - “高德扫街榜”是全球首个基于用户真实行为与信用数据生成的榜单,其背后有空间智能技术支持[2] - “小高老师”产品基于语音对话规划用户行程,通过空间智能和智能体实现统筹应用[3] - 红绿灯倒计时功能是时序大模型应用的例子,需要对路口流量进行学习和推演[4] 技术架构与能力组合 - 空间智能被阐述为一系列能力的组合,包括用二维和三维能力刻画与理解空间,以及大数据和时序模型部分[3] - 时序大模型在技术架构中扮演幕后角色,用于处理用户行为轨迹等低维时序特征[3] - 技术基础涵盖三维立体空间(XYZ轴)以及时间维度,形成四维存在,以支持历史回顾和未来研判[4] 生态合作与产业化 - 公司已与智能眼镜、汽车、机器人、低空飞行等领域的多家伙伴展开合作,将技术延伸至更广泛的物理世界交互场景[4] - 生态开放是公司的底层选择,旨在帮助更多企业和开发者打造出更好的产品[4] - 公司后续计划对一些合作伙伴进行孵化培养,以推动整个市场生态的繁荣发展[5]