技术突破与核心创新 - 影石研究院推出基于DiT架构的全景图像生成模型DiT360,旨在解决空间智能领域真实全景数据稀缺的问题[1][2] - 模型采用多层级混合训练框架,结合有限全景数据与大规模高质量透视图像,在保持真实感的同时提升几何一致性[4][11][12] - DiT360支持文本引导图像生成、inpainting和outpainting等多项任务,并在边界一致性、图像保真度和感知质量上优于现有方法[5][17][46] 技术框架与实现路径 - 图像层级通过全景图像精修与透视图像引导两种机制,提升全景数据的结构质量并实现跨域知识迁移[14][16] - 特征层级引入循环填充、旋转一致性损失与畸变感知立方体损失三个关键模块,确保潜空间中的几何一致性和全局连续性[19][20][22][25][27] - 该框架使模型能生成高分辨率(2048×1024)的全景图像,在室内外多种场景下均展现出出色细节和真实感[11] 性能表现与评估结果 - 在定量评估中,DiT360在FID(42.88)、FAED(24.77)、IS(1.60)等多项关键指标上均优于MVDiffusion、PanFusion等主流方法[6][32][34] - 用户测评显示,DiT360在真实感和整体质量上获得最高偏好比例,分别达到63.8%和80.9%,显著领先于其他方法[38][39] - 消融实验证实,循环填充、畸变感知立方体损失、旋转一致性损失和透视图像引导四个核心模块共同作用,使模型达到最佳性能[41][43][44] 行业应用与未来前景 - 高质量全景图像生成对AR/VR、自动驾驶、机器人导航等应用至关重要,是通向“空间智能”的关键一步[7][8] - 该技术为未来多模态、跨域的三维场景生成提供思路,可拓展至全景视频生成、VR/AR内容创作及动态场景模拟等任务[50][51] - 该方法展示了利用平面图像弥补稀缺全景数据以提升场景细节真实感与空间一致性的潜力,为虚拟世界构建开辟新方向[52]
破解空间智能数据稀缺难题,影石开源DiT架构全景生成模型,在线可玩
量子位·2025-10-18 02:07