文章核心观点 - 一项由多所高校及研究机构合作的研究表明,强化学习能够有效提升文本到3D生成模型的质量与推理能力,研究通过系统性探索,提出了新的奖励设计方法、算法范式和评测基准,并实现了首个RL加持的自回归3D生成模型AR3D-R1 [4][5][18] 奖励设计 - 研究发现,对齐人类偏好信号是提升整体3D质量的关键,其他奖励维度单独使用提升有限,但叠加到偏好奖励上能持续带来增益 [10] - 对于同一奖励维度,专门化的奖励模型通常比大型多模态模型表现出更强的鲁棒性,但通用多模态模型在3D相关属性上出乎意料地鲁棒,为低成本奖励提供了可能 [10] 算法适配与训练 - 在3D自回归生成中,强化学习更偏好token级策略而非序列级操作,在相同奖励模型配置下,token级平均策略带来的提升显著大于序列级的重要性采样与剪切方法 [11] - 简单的技巧即可稳定训练,尤其是动态采样,只要策略更新受控,完全移除KL惩罚会导致性能下降,而鼓励对低概率token探索的方法仍能带来性能增益 [12] - 扩大量级的训练数据能够有效缓解偏好奖励带来的偏差并提升整体表现,适度增加RL迭代能进一步优化模型,但过度训练可能损害泛化能力 [13] 评测基准 - 研究构建了首个针对3D推理场景的系统评测基准MME-3DR,该基准由空间与结构几何、机械可供性与物理合理性、生物或有机形态、长尾稀有实体和风格化或抽象形态五类组成 [15] - MME-3DR更关注在困难约束下是否还能保持一致、合理、可解释,而非只展示多样性 [16] - 近期Text-to-3D模型在机械结构和非刚性生物体上表现尚可,但在其余三个类别上仍存在明显不足,而RL训练在所有五类任务上都带来了显著提升 [16] - MME-3DR能同时评估隐式推理与通用3D生成能力,在随机采样的Toys4K测试集上,Trellis模型明显优于ShapeLLM-Omni,这一性能差距在MME-3DR中依然保持 [16] 强化学习范式与模型 - 研究将3D生成视为从粗到细的过程:第一步由高层语义决定整体几何骨架,第二步在几何稳定的前提下细化纹理与局部结构 [18] - 基于此,研究提出了层次化RL范式Hi-GRPO,并对两个步骤单独设计专有奖励模型进行监督 [18] - 研究实现了首个RL加持的Text-to-3D自回归模型AR3D-R1 [18] 关键发现与影响 - RL训练不仅提升美观度,更增强了模型的隐式3D推理能力,在MME-3DR基准上,模型在空间几何、一致性和物理可行性等维度均有显著提升 [19] - 尊重“先几何、后纹理”的层次结构设计比简单在最终图像上打分更有效,也更可解释 [20] - 奖励过于稀疏或RL迭代数过大会导致训练不稳定和模式坍缩,而高质量人类偏好或强多模态奖励能在同等训练预算下取得更高回报 [21] - 当前模型对极复杂几何、长尾概念和强风格化场景的处理能力仍有边界,真正可扩展的3D RL仍受限于算力与奖励获取成本 [22]
首个文本到3D生成RL范式诞生,攻克几何与物理合理性
具身智能之心·2025-12-20 16:03