背景与挑战 - 3D原生生成模型在游戏、影视和设计领域展现出强大潜力,但多数方法依赖图像输入,缺乏细粒度、多模态控制能力,限制了实际生产应用[2] - 仅依赖图像输入存在局限:单视角图像易受遮挡、光照或视角干扰,生成结果缺乏几何准确性;难以精细控制生成对象的比例、姿态和结构细节;无法适应多模态输入(如深度图、LiDAR点云、骨架动作等)[6] 核心创新 - 推出业界首个统一多模态可控3D生成框架混元3D-Omni,支持图像、点云、体素、边界框与骨骼姿态等多种控制信号,实现对生成物体几何结构、拓扑与姿态的精细控制[2][7] - 采用轻量化统一控制编码器,将不同控制信号统一表示为点云形式,通过共享编码器提取特征并区分模态,避免控制目标混淆[9][14] - 引入渐进式难度感知训练策略,随机选择控制条件并偏向采样高难度信号(如骨骼姿态),降低简单信号(如点云)权重,提升多模态融合鲁棒性[10][15] 关键实现方法 - 骨骼姿态控制采用3D骨骼起点坐标表示,通过随机采样不同动作帧构建训练对,实现生成模型姿态灵活控制[14] - 边界框控制将长宽比例转化为标准空间中的八个顶点坐标,通过对渲染图像或点云施加随机扰动提升比例控制泛化能力[14] - 点云支持多种输入来源(深度相机、LiDAR或重建模型),并引入随机丢弃与噪声扰动模拟真实场景[14] - 体素通过将点云量化到[0,16]³网格并映射至[-1,1]³空间,形成稀疏几何提示[14] 实验结果 - 骨骼控制条件下,模型能生成高质量且与目标姿态精确对应的角色几何形体,包括A姿态、单手抬起及双手上举等多种姿态,生成结果与输入骨架严格对齐无畸变[18][19] - 边界框控制可自由调节生成物体长宽比例,触发智能几何重构能力:当沙发长度增加时自动生成额外支撑腿结构,凯旋门比例调整后保持合理建筑形态;还能解决单图生成"纸片物体"问题,注入边界框信号后成功生成正确3D资产[21][23] - 点云控制有效解决单视图几何歧义问题:完整点云成功还原被遮挡内部结构;深度图生成的表面点云确保生成几何在尺度上与真实物体精确对齐;即使输入噪声表面点云,生成几何与原始物体对齐效果仍明显优于仅使用图像的基线方法[25] - 体素控制通过稀疏几何线索解决单张图像歧义性问题:确保生成物体在尺度上与真实几何结构精确对齐;成功重建盾牌平整表面、精准捕捉鸟类翅膀形态特征、高度还原杯子低多边形风格几何结构[27][28] 框架价值 - 作为轻量级、多模态、可控3D生成框架,在不破坏基础模型能力前提下,通过统一控制编码器整合多种几何与控制信号,显著提升生成准确性、支持几何感知变换,并增强生产流程稳定性与鲁棒性[31]
腾讯混元3D-Omni:3D版ControlNet突破多模态控制,实现高精度3D资产生成