3D AIGC
搜索文档
无需训练的3D生成加速新思路:西湖大学提出Fast3Dcache
量子位· 2025-12-04 05:57
3D AIGC行业技术瓶颈与解决方案 - 在AIGC浪潮中,3D生成模型(如TRELLIS)进化迅速,但“慢”与“计算量大”是制约其大规模应用的最大痛点,生成高质量3D资产往往需要漫长等待 [1] - 为加速3D生成,业界曾尝试引入2D视频生成中的“缓存”技术,但在3D领域直接应用会失败,因为3D结构对误差极为敏感,微小误差可导致模型破洞、面片错位甚至结构崩塌 [1] Fast3Dcache技术核心与原理 - 西湖大学AGI实验室提出的Fast3Dcache是一种无需训练、即插即用的几何感知加速框架,能在大幅提升速度的同时,完美保持甚至提升模型的几何质量 [2] - 其核心洞察源于对3D几何生成过程的解剖,发现体素在扩散模型去噪过程中呈现“三阶段稳定模式”:剧烈震荡期、对数线性衰减期和精细调整期 [4] - 基于此观察,Fast3Dcache设计了两大核心模块:PCSC模块通过早期校准预测“衰减曲线”,动态分配每一步的计算预算;SSC模块通过分析潜空间中特征的速度和加速度,智能决定复用或重新计算哪些特征 [6][7][9] - 这种基于时空动力学的筛选机制,比传统仅看数值相似度的方法更可靠,彻底解决了3D结构断裂的问题 [8] Fast3Dcache性能表现与数据 - 在TRELLIS和DSO框架上的测试显示,Fast3Dcache在保证几何质量的前提下,显著提升了推理吞吐量并减少了计算量 [10] - 具体数据:在TRELLIS框架下,当参数τ=8时,模型提速27.12%,计算量(FLOPs)降低54.83% [10][11] - 该技术具有正交性,可与现有视频/图像加速算法无缝叠加,实现更显著的加速效果:Fast3Dcache + TeaCache推理速度达原来的3.41倍;Fast3Dcache + EasyCache推理速度提升至原来的10.33倍 [11][13] 技术影响与行业意义 - Fast3Dcache的提出打破了“3D加速必损画质”的传统认知,它无需重新训练模型和繁琐调参,以一种优雅的方式释放了3D扩散模型的推理潜能 [19] - 对于急需降低算力成本、提高生成效率的3D内容创作者和开发者而言,该技术是在3D几何生成减少计算冗余方面的一个重要开拓者,为后续工作提供了更多可能性 [19]
首个3D生成解构模型PartCrafter问世,GitHub狂揽2k星标
机器之心· 2025-11-27 04:09
技术突破与核心创新 - 提出PartCrafter模型,开创结构化3D生成新理念,能够从单张2D图像直接生成由多个可独立操作部件构成的复杂3D网格模型 [2] - 模型核心采用组合式潜在空间设计,为每个部件分配独立潜在变量并引入可学习的部件身份嵌入,以强化对部件语义属性和独立身份的感知能力 [15] - 设计局部-全局联合去噪Transformer架构,通过局部分支确保单个部件的几何细节完整合理,通过全局分支协调所有部件的空间关系和整体布局一致性 [16][20] 性能优势与实验结果 - 在物体部件级生成任务上,PartCrafter仅需约34秒即可生成高保真、部件可拆分的3D网格,而对比模型HoloPart需18分钟且依赖耗时的后处理步骤 [23] - 在Objaverse数据集上,PartCrafter的倒角距离为0.1726,F-Score为0.7472,优于HoloPart的0.1916和0.6916 [24] - 在场景级生成任务中,PartCrafter在存在严重遮挡的场景下表现稳定,在3D-Front数据集上的倒角距离为0.1491,F-Score为0.8148,优于MIDI模型的0.1602和0.7931 [26] 数据集构建与行业应用 - 为解决数据瓶颈,团队自主构建了大规模高质量部件级3D数据集,包含约13万个三维对象,其中约10万个拥有精确的多部件标注,并精选出约5万个高质量标签对象,共计超过30万个独立三维部件 [19] - 该技术可直接生成可编辑部件,为游戏、虚拟现实、工业设计等领域快速生成可定制的3D资产提供了全新思路,极大提升了3D内容创作流程的实用性和工作效率 [32][34]
NeurIPS 2025 Spotlight | PhysX-3D:面向真实物理世界的3D资产生成范式
机器之心· 2025-10-11 08:06
研究背景与动机 - 3D资产在游戏、机器人和具身模拟等领域应用广泛,但现有生成方法主要关注几何结构与纹理,忽略了物理属性建模[8] - 现实世界物体具有丰富的物理和语义特性,包括物理尺度、材料、可供性、运动学信息和文本描述,这些属性与经典物理原理结合可推导出动态指标[8] - 物理属性难以测量且标注耗时,导致现有相关数据集数据量难以扩展,存在关键空白[11] PhysXNet数据集 - 提出首个系统性标注的物理基础3D数据集PhysXNet,包含超过26,000个带有丰富注释的3D物体,涵盖五个核心维度:物理尺度、材料、可供性、运动学信息和文本描述[6] - 除了物体层级注释,还对每个零部件进行物理属性标注,包括可供性排名和运动学约束的详细参数[9] - 引入扩展版本PhysXNet-XL,包含超过600万个通过程序化生成并带有物理注释的3D对象[9] - 采用人在回路的标注流程,利用GPT-4o获取基础信息并由人工审核员检查,确保数据质量[13] PhysXGen生成框架 - 提出面向真实物理世界的3D生成框架PhysXGen,实现从图像到真实3D资产的生成[6] - 基于预训练的3D表示空间,将物理属性与几何结构和外观相结合,通过联合优化实现物理上的自洽性[18] - 利用物理属性与预定义3D结构空间之间的相关性,在物理属性生成和外观质量方面均取得显著提升[20] 性能评估与对比 - 在四个评估维度上,PhysXGen相比基于GPT的基线方法取得显著优势:物理尺度提升24%、材料提升64%、运动学提升28%、可供性提升72%[23] - 定量结果显示,PhysXGen在PSNR指标上达到24.53,CD指标为12.7,F-Score为77.3,均优于对比方法[21][24] - 在物理属性评估方面,PhysXGen在绝对尺度误差为6.63,材料误差0.141,可供性误差0.372,运动学参数误差0.479,描述误差0.71,全面优于基线方法[21][24] 行业意义与应用前景 - 该研究填补了现有3D资产与真实世界之间的差距,提出端到端的物理基础3D资产生成范式[27] - 数据集和生成框架将吸引来自嵌入式人工智能、机器人学以及3D视觉等多个研究领域的广泛关注[27] - 为3D空间中对物理建模、理解与推理的需求提供了完整的解决方案,从上游数据标注到下游生成建模构建了完整体系[8][27]
干货超标!腾讯混元3D负责人郭春超:真正的3D AIGC革命,还没开始!
AI科技大本营· 2025-05-16 01:33
腾讯混元大模型家族演进 - 腾讯混元大模型自2023年2月启动研发,从大语言模型向多模态模型全面演进,早期聚焦大语言模型方向并于2023年9月发布基于万亿参数级NLP稀疏大模型的生成式能力 [8] - 2024年5月开源业界首个中文DIT架构图像生成模型实现中文图像生成领域开源突破,同年11月推出3D生成1.0模型成为业内首个同时支持文生3D和图生3D的开源大模型 [8] - 2024年12月混元文生视频模型加入开源行列,经过两年多发展已成长为覆盖文本、语音、图像、3D、视频等多模态能力的全面生成式AI基座 [8] 3D生成技术现状 - 3D生成仍处发展早期阶段,工业界大规模投入仅一年出头,当前可用度约50%相比大语言模型90%的成熟度仍有显著差距 [22] - 技术路线呈现自回归模型与扩散模型结合趋势,前者可提升可控性和记忆能力,后者在推理速度上保持优势 [36][39] - 主要挑战包括数据稀缺(千万量级3D数据vs百亿级图片数据)、工业级CG管线融合度不足、3D表达方式未达最优 [32][43] 行业应用与效率提升 - 传统人工建模成本高昂:游戏角色建模达1.2万元/个需7天,广告建模最低200元/秒需0.5天,而文生3D成本仅0.5元/次耗时约1分钟 [13] - 腾讯混元构建"3D创动引擎"架构,通过草图生3D、纹理换肤生成、动作融合建模和低多边形优化四类技术矩阵实现关键环节30%-40%效率提升 [13][14] - 应用分层明显:轻量小游戏资产已"踮脚可及",腰部游戏可辅助道具生成,3A大作需多轮原型迭代中提效 [31] 开源战略与技术生态 - GitHub Star数超1.2万,Hugging Face下载量超100万,最小开源模型参数仅0.6B支持本地运行 [19][28] - 开源与商业协同发展:开源模型反馈问题促进研发,社区插件可被复用,形成"持续迭代速度"的核心护城河 [28][34] - ComfyUI官方支持实现从草图到完整3D模型的一键生成,年内计划开放更多模型与数据集降低行业门槛 [17][19] 未来发展方向 - 2025年目标实现物体级生成接近人工建模水平,场景类生成具备初步雏形,向原生多模态统一架构演进 [20] - 世界模型构建分阶段推进:先实现局部空间合理性,再扩展至具备物理规律的三维世界,当前已在腾讯地图导航车标等场景落地 [19][42] - 专业工具定位明确:AI不会替代3D设计师而是成为生产力工具,帮助将创意实现效率提升10倍 [46][47]
AI无限生成《我的世界》,玩家动动键盘鼠标自主控制!国产交互式世界模型来了
量子位· 2025-05-13 03:01
核心观点 - 昆仑万维推出的Matrix-Game通过AI技术实现交互式虚拟世界生成,用户可通过简单键鼠指令自由探索和创作高保真虚拟内容[10] - 该技术突破传统手写代码和渲染方式,大幅降低创作门槛并提升效率[11] - Matrix-Game在视觉质量、时间一致性、交互可控性和物理规则理解四大维度全面领先现有开源模型[36] - 空间智能成为AI发展新方向,3D AIGC技术正在重塑虚拟内容创作和交互方式[43][48] 技术实现 数据集构建 - Matrix-Game-MC数据集包含无标签Minecraft视频和带控制信号的可控视频数据[14] - 采用三阶段过滤机制从6000小时数据中筛选出近千小时高质量内容[16][17] - 通过探索代理和程序化模拟生成数千小时可控监督数据[17] 主模型架构 - 基于扩散模型框架,包含图像到世界建模、自回归视频生成和可控交互设计[18][20] - 图像到世界建模以单张图像为起点,结合用户动作输入生成视频内容[20] - 自回归生成以前5帧为上下文确保时间连贯性,采用扰动和分类引导策略缓解误差[23][24][25] - 动作控制模块采用离散/连续token表达,结合多模态Diffusion Transformer架构[27] 性能表现 评测体系 - GameWorld Score首次实现感知质量+控制能力+物理合理性的综合评估[29][30] - 四大核心维度:视觉质量、时间一致性、交互可控性、物理规则理解[31][32][33][34] 对比结果 - 在8大Minecraft场景中全面超越Decart的Oasis和微软的MineWorld[36] - 用户偏好率达96.3%,视觉质量偏好率98.23%[37] - 键盘动作准确率90%+,鼠标视角控制精度达0.97-0.98[39][40] 行业应用 - 可应用于游戏世界搭建、影视/元宇宙内容生产、具身智能训练等领域[41] - 实现低成本高效率生成高保真可交互虚拟环境[42] - 3D AIGC技术成为大模型发展新方向,谷歌DeepMind、腾讯等巨头均已布局[45][46] - 空间智能将重塑人机交互方式,是下一代AI技术的重要赛道[48][49]
腾讯控股(00700)混元3D生成模型全新升级 建模精细度大幅提升
智通财经网· 2025-04-23 06:27
文章核心观点 4月23日腾讯控股发布混元3D生成模型2.5版本新模型,在建模精细度、模型架构等多方面实现升级,还支持新特性并优化功能,且混元积极拥抱开源生态 [1][2] 模型发布信息 - 4月23日腾讯控股混元3D生成模型正式发布2.5版本新模型 [1] 模型升级情况 - 建模精细度大幅提升,实现超高清几何细节建模,表面更平整、边缘更锐利、细节更丰富,有效几何分辨率达到1024,从标清升级到高清画质 [1] - 模型架构全面升级,总参数量从1B提升至10B,有效面片数增加超10倍 [1] 相关功能更新 - 混元3D AI创作引擎全面更新至v2.5模型底座,免费生成额度翻倍至每天20次 [1] - 混元3D生成API正式上线腾讯云,面向企业和开发者开放 [1] - 新版本支持4K高清纹理和细粒度bump凹凸贴图,能模拟物体表面高低起伏视觉效果 [1] - 率先实现多视图输入生成PBR模型,显著提升生成质感和真实感 [1] - 优化骨骼蒙皮系统,支持非标准姿态下的自动骨骼绑定和自动蒙皮权重赋值,大幅提升3D动画生成效率 [1] - 3D生成工作流功能进一步升级,提供文生/图生3D智能减面模型、多视图生3D模型等专业管线模板 [1] 开源生态情况 - 混元3D 1.0、2.0基础模型及基于2.0模型的加速、多视图和轻量级模型均已开源,Github总star数超1.2万,不断丰富3D AIGC社区 [2]
单图直出CAD工程文件!CVPR 2025新研究解决AI生成3D模型“不可编辑”痛点|魔芯科技NTU等出品
量子位· 2025-04-14 09:09
核心观点 - 魔芯科技与多所高校联合提出CADCrafter框架,实现从单张图像直接生成可编辑的CAD工程文件,突破传统图生3D技术的局限性 [1][2][16] - 该技术通过参数化CAD指令生成和编译,显著提升模型的可编辑性、表面质量及工业落地实用性 [4][5][29] - 研究已被CVPR 2025接收,团队包括魔芯科技创始人及多国学术机构研究人员 [7][8][9] 技术突破 范式创新 - 首次实现Image-to-CAD范式转变,直接生成参数化CAD指令(包括几何特征指令及参数),而非传统网格模型(Mesh)或3D高斯泼溅(3DGS) [2][13][16] - 支持零件渲染图、3D打印零件照片及日常物体图像输入,输出可编译为STP等工业标准格式的工程文件 [2][3][28] 核心架构 1. **两阶段生成框架** - 结合VAE与Diffusion Transformer:VAE将CAD指令映射至隐空间,DiT模型实现图像引导的隐空间采样 [19][20] 2. **蒸馏策略** - 先训练多视图DiT模型稳定学习映射关系,再通过L_distill损失迁移至单视图模型,提升单图输入效果 [21] 3. **可编译性优化** - 引入DPO损失和代码合理性判别模块,确保生成指令可通过CAD内核编译,成功率显著提高 [22][24][25] 应用优势 工业实用性 - 生成模型表面平面度、棱角细节符合生产要求,支持直接参数化编辑(如调整部件尺寸) [4][15][28] - 实验显示细节还原度优于现有方法,适用于制造维修领域的快速原型设计及零件重建 [26][29][30] 性能对比 - 传统AI生成网格模型存在表面粗糙、边缘不锐利问题,尤其Marching Cubes算法转换时几何质量下降 [14] - CADCrafter参数化模型提供更高可控性,用户可通过指令直接调整几何形状,提升设计效率 [15][16] 研究背景 - 合作机构包括魔芯科技、南洋理工大学、A*STAR、西湖大学等,通讯作者为魔芯科技创始人Tianrun Chen [7][8] - 技术细节详见论文(arXiv:2504.04753),实验采用KOKONI SOTA 3D打印机实物验证 [26][31]
速递|全球首个多模态交互3D大模型来了,GPT-4o都没做到的,它做到了
Z Potentials· 2025-04-14 02:30
多模态AI技术进展 - GPT-4o上线多模态生图功能 支持文本 图像 语音和视频联合训练 实现高度可控的图像生成 在特征保持和上下文理解方面达到新高度[1] - DreamTech推出全球首个多模态交互3D大模型Neural4D 2o 支持文本及图像输入 实现自然语言交互编辑[1] - Neural4D 2o通过多模态transformer encoder和3D DiT decoder联合训练 实现3D生成的上下文一致性 高精准局部编辑 角色ID保持 换装和风格迁移等功能[1] 3D AIGC技术突破 - Neural4D 2o提供MCP协议支持 部署Neural4D Agent(alpha) 帮助用户便捷完成高质量3D内容创作[1] - 实测显示模型在稳定性 上下文一致性 局部编辑和角色ID保持方面表现完善 但交互等待时间仍需2-5分钟 存在服务器排队问题[8] - 该技术将大幅提升3D设计师效率 传统AI生成的3D模型需要导入专业工具长时间修改 而Neural4D 2o通过对话即可实现专业建模能力[8] 公司及产品信息 - DreamTech专注于3D及4D AI技术 致力于提升AIGC创作者和消费者体验 愿景是通过AI技术打造与真实世界无缝对接的4D时空体验 实现AGI[9] - Neural4D 2o产品链接为https://www.neural4d.com/n4d-2o[9]