首个文本到3D生成RL范式诞生，攻克几何与物理合理性

文章核心观点 - 一项由多所高校及实验室合作的研究，系统性地探讨了强化学习在文本到3D生成领域的应用可行性，并提出了层次化强化学习范式Hi-GRPO，构建了首个针对3D推理场景的评测基准MME-3DR，研究显示强化学习能有效提升3D自回归模型的生成质量与隐式推理能力[2][3][14] 奖励设计层 - 研究团队系统对比了人类偏好、文本对齐、多视图一致性、3D美学等多种奖励组合，发现对齐人类偏好信号是提升整体3D质量的关键，其他奖励维度单独使用提升有限，但叠加到偏好奖励上能持续带来增益[7] - 对于同一奖励维度，专门化的奖励模型通常比大型多模态模型表现出更强的鲁棒性，但通用多模态模型在3D相关属性上出乎意料地鲁棒，为低成本奖励提供了可能[7] 算法适配层 - 在3D自回归生成中，强化学习更偏好token级策略而非序列级操作，在相同奖励模型配置下，token级平均策略带来的提升显著大于序列级的重要性采样与剪切方法[8] - 简单的技巧即可稳定训练，尤其是动态采样，只要策略更新受控，完全移除KL惩罚会导致性能下降，而鼓励对低概率token探索的方法仍能带来性能增益[9] - 扩大量级的训练数据能有效缓解偏好奖励带来的偏差并提升整体表现，适度增加强化学习迭代能进一步优化模型，但过度训练可能损害泛化能力[9] 评测基准层 - 研究构建了首个针对3D推理场景的系统评测基准MME-3DR，该基准由空间与结构几何、机械可供性与物理合理性、生物或有机形态、长尾稀有实体和风格化或抽象形态五类组成[10] - 近期的文本到3D模型在机械结构和非刚性生物体上表现尚可，但在其余三个类别上仍存在明显不足，而强化学习训练在所有五类任务上都带来了显著提升[11] - MME-3DR能同时评估隐式推理与通用3D生成能力，在随机采样的Toys4K测试集上，Trellis模型明显优于ShapeLLM-Omni，这一性能差距在MME-3DR中依然保持，验证了其多样化物体覆盖带来的评测有效性[11] 层次化强化学习范式 - 研究将3D生成视为从粗到细的自然过程：第一步由高层语义决定整体几何骨架，第二步在几何稳定的前提下细化纹理与局部结构，并针对两个步骤单独设计专有奖励模型进行监督[14] - 基于此，研究提出了层次化强化学习范式Hi-GRPO，并实现了首个强化学习加持的文本到3D自回归模型AR3D-R1[14] 关键发现与模型能力 - 强化学习正在帮助3D生成模型学会思考，不仅仅是调整美观度，在MME-3DR基准上，经过强化学习训练的模型在空间几何、一致性和物理可行性等维度都有显著提升，表现出隐式3D推理能力的增强[15] - 范式对齐结构先验很重要，尊重先几何、后纹理的层次结构设计，比简单在最终图像上打分更有效，也更可解释[16] - 性能与稳定性存在二元博弈，奖励过于稀疏或强化学习迭代数过大会导致训练不稳定和模式坍缩，而高质量人类偏好或强多模态奖励可以在同等训练预算下取得更高回报[17] - 结果也清晰显示了当前模型的能力边界，对于极复杂几何、长尾概念和强风格化场景，模型仍会出现逻辑崩坏，真正可扩展的3D强化学习仍受限于算力与奖励获取成本[18]