Workflow
摊销推理
icon
搜索文档
理想PhysGM:前馈式从单张图片30秒生成4D内容
理想TOP2· 2025-09-02 06:35
技术框架与核心创新 - PhysGM是一个4D生成框架 通过一次前馈计算在30秒内直接从单张图片生成完整物理4D模拟 完全绕过传统逐级场景优化流程[1] - 最大创新是将4D生成从优化问题重构为推理问题 并运用黑盒优化思想通过DPO方法解决物理模拟器不可微难题[2] - 采用摊销推理(Amortized Inference)架构 将计算成本分摊到大规模训练中 实现快速低成本推理[2] 性能优势对比 - 推理速度显著领先竞品 仅需30秒 而DreamPhysics需超0.5小时 PhysDreamer超1小时 OmniPhysGS超12小时[3][9] - 流程简化优势明显 无需预处理和逐场景优化 参数计算完全自动化[3][9] - 在五个关键维度全面超越主流方法 包括无需预处理 自动参数计算 可泛化性 不依赖大语言模型和超快推理速度[9] 技术实现路径 - 框架内核为深度神经网络 输入单张图片输出物理3D形态和物理属性[6] - 采用两阶段训练策略:第一阶段有监督预训练建立物理先验 使用双头U-Net架构和PhysAssets数据集(含24000+3D资产)[7] - 第二阶段DPO微调实现对齐 通过自动化评估流程构建赢家-输家偏好对 利用不可微模拟器实现端到端优化[8] 应用潜力与局限 - 具备显著规模化优势 具有更快 更省钱 更易规模化的商业化特征[3] - 泛化能力存在部分局限 对刚性物体外材料适用性待验证 且目前仅预测单一集总物理属性向量[4] - 受基础模型性能制约 3D重建效果依赖LGM和MVDream等模型 可能导致几何细节丢失或纹理不一致[4] 研究背景与团队 - 由北京理工大学Changshend Li担任通讯作者 理想汽车Zequn Chen为项目负责人[5] - 研究成果于2025年8月19日以论文形式发布 标题为PhysGM: Large Physical Gaussian Model for Feed-Forward 4D Synthesis[4]