Workflow
腾讯用AI把美术管线重新做了一遍,混元3D Studio架构曝光

核心观点 - 腾讯混元3D Studio是一个专为3D设计师、游戏开发者和建模师打造的专业级AI工作台 通过集成七大核心技术模块实现从概念设计到动画生成的全流程自动化 将3D资产生产周期从几天缩短至分钟级 [3][4][6] 核心技术模块 组件拆分 - 利用连通性分析和语义分割算法自动拆解复杂模型为功能独立组件(如步枪的弹匣、枪管和枪托) 支持独立编辑和动画制作 [9] - 采用原生3D分割模型P³-SAM进行部件检测 包含特征提取器、三个分割头和IoU预测头 通过FPS生成点提示和NMS合并冗余掩码 [14][15][18] - 提出可控扩散框架X-Part 基于部件级提示和语义特征扰动实现有意义的部件分解 在多个基准测试中达到最优表现(CD1指标0.11 Fscore-0.1达0.80 Fscore-0.5达0.71) [21][25][26] 可控图像生成 - 支持文本或图像输入生成多视图设计图 专用A-Pose标准化模块确保角色骨架姿势一致性 风格迁移模块匹配目标游戏美术风格 [9][32] - 图像风格化模块通过三元组训练数据(输入参考图像 风格类型 风格化3D设计图)实现写实图像与风格化作品的精确映射 [33][34] - 姿态标准化模块采用分辨率递进训练(512×512至768×768) 结合SFT和DPO微调提升生成图像在面部、复杂服饰等细节的保真度 [40][41] 高保真几何生成 - 基于Hunyuan3D框架 包含ShapeVAE变分编码解码结构和DiT扩散模型 通过21层Transformer堆叠(含MoE子层)提升模型容量 [43][45][46] - 支持单视图/多视图图像条件生成 引入包围盒条件控制(编码高宽长为条件向量)和多视图图像条件约束(通过LoRA适配层合成多视角视图) [47][49][51] - 采用流匹配目标训练 将高斯噪声映射到形状潜变量 实现高效高质量采样 [47] 低模拓扑生成 - 采用自回归模型PolyGen从高模点云预测低模拓扑顶点和面 通过Blocked and Patchified Tokenization(BPT)方法提升训练推理效率 [57][59][60] - 网络结构包含点云编码器(Perceiver架构)和Hourglass Transformer解码器 采用截断训练策略(4k面序列片段)和滚动缓存推理 [60] - 基于拓扑感知掩码的DPO后训练 通过边界边比(BER)、拓扑分数(TS)和豪斯多夫距离(HD)指标优化网格质量 [61][62][63] 语义UV展开 - 提出SeamGPT框架 通过自回归方式生成艺术家风格裁切缝 将曲面裁切问题建模为序列预测任务 [71][72] - 采用交叉熵损失和KL散度损失训练 结合随机缩放(0.95-1.05区间)、顶点抖动和旋转等数据增强技术 [73] - 在Bowl(0.49)、Ball(0.31)等多个模型上达到最优平均分数(1.95)优于Xatalas(1.98)、FAM(8.52)等方法 [74][75] 纹理生成与编辑 - 将2D扩散模型扩展为几何条件多视角生成模型 支持文本和图像引导的PBR材质编辑(包括基础色、金属度、粗糙度和法线贴图) [77][80][81] - 基于8万份高质量PBR材质数据集训练 采用MoE架构自适应处理图像输入(通过CLIP相似度判断几何匹配度) [81][83][84] - 创新性适配3D VAE框架压缩多域材质数据 实现4K分辨率纹理合成 [95] 绑骨蒙皮与动画特效 - 分人形角色动画(基于22关节模板骨骼)和通用角色动画(自回归骨骼生成+几何拓扑感知蒙皮)两条处理路径 [97][98][99] - 显式融合骨骼特征、顶点特征和拓扑关系 提升蒙皮精度和稳定性 [99] - 支持姿势标准化(转换任意姿势为T型姿势)和动作重定向 输出可直接用于Unity或Unreal Engine的可驱动动画资产 [99][105] 系统集成与输出 - 通过统一资产图协同管理各模块输出元数据 实现参数化控制和增量式更新 无需全量重算 [103][104] - 最终输出可根据目标游戏引擎规范配置导出 支持专业流水线应用 [105]