混元3D
搜索文档
港中深韩晓光:3DGen,人类安全感之战丨GAIR 2025
雷峰网· 2025-12-13 09:13
文章核心观点 文章通过港中深助理教授韩晓光的视角,探讨了在视频生成模型(如Sora)兴起的背景下,三维生成与世界模型构建的必要性及其不可替代的价值 核心观点认为,尽管端到端的“炼丹”式AI在性能上取得突破,但为了满足人类对可解释性、安全感和精细可控的需求,尤其是在构建可交互的虚拟世界、发展具身智能以及实现数字到实体制造等领域,三维生成与显式的、结构化的建模方法是不可或缺的 [2][3][4][58][61][63] 三维生成发展历程与现状 - 三维生成在深度学习兴起前就已存在,早期主要聚焦于“类别限定”的生成,即为椅子、车辆等特定类别分别训练模型 [9] - “开放世界”的三维生成大约从2023年的Dreamfusion工作开始兴起,实现了从文本直接生成3D模型,但基于优化方法,生成速度较慢,通常需要半小时到一小时 [11][12][14] - 当前进入大模型时代,例如Adobe的Large Reconstruction Model和上海科大的Clay工作提出了“原生模型”概念,商业应用如腾讯混元3D的3.0版本已能实现从单张图像生成高质量三维模型 [16] 三维生成的发展趋势 - 趋势一:更精细,追求几何层面的极致细节表现,例如数美万物的Spark 3D [19] - 趋势二:更结构化,生成的三维模型需要能被拆解成独立部件以便编辑,例如混元3D的“X-Part”工作 [19] - 趋势三:更对齐,解决生成模型与输入图像在细节上不对应的问题,例如输入图像栅栏有5条横杠而生成模型变成6条的问题 [20] 视频生成兴起对三维生成的冲击与反思 - 视频生成技术(如Sora)的出现对三维内容创作领域造成冲击,因为它能用文本指令直接输出视频,跳过了传统三维建模、绑定、渲染等复杂流程 [24][28] - 视频生成当前存在核心局限:物理模拟不够真实、3D空间不一致、内容可控性不足(如难以精细修改视频中物体的特定属性) [29][30] - 尽管Sora2和谷歌Veo3已展示出初步的可控能力(如控制视角变化),但真正的危机感促使行业思考视频生成模型是否真的不需要3D [34][37] 视频模型与三维结合的潜在路径 - 路径一:完全不用3D,采用纯2D的端到端范式,依赖海量视频数据训练 [38] - 路径二:利用3D仿真作为“世界模拟器”,先根据条件生成可控但不真实的CG视频,再用神经网络将其转化为真实视频 [39] - 路径三:将3D信息作为控制信号输入,例如基于三维重建的场景模型来生成空间一致的长视频,以解决“长程记忆”问题 [38][39] - 路径四:用3D合成数据辅助训练,利用3D仿真批量生成可控的、带标注的视频数据,以增强端到端视频模型的训练 [39] 世界模型的分类与三维的必要性 - 世界模型的核心是对真实世界进行数字化,以计算方式理解和表达规律,并用于预测 [41] - 第一类:服务于“人类共同体”的宏观世界模型,如气候模拟、社会系统推演 [43] - 第二类:服务于“个人”的体验与探索模型,核心是可交互性,需要数字化物理与交互规律以构建沉浸式虚拟世界 [43] - 第三类:给机器用的世界模型,如用于自动驾驶或具身智能机器人,需要能根据动作预测环境变化 [44] - 为实现可交互的世界模型(如VR体验需要触觉反馈),3D是必要的 [45] 具身智能与三维生成的关系 - 发展具身智能的主流方法是“向人类学习”,这需要首先对人类与物体的交互过程进行精确的、动态的数字化捕捉与还原,3D乃至4D的还原是必要基础 [48] - 为了让机器人安全高效地探索和学习,需要创造可交互的三维仿真环境,因此具身智能同样离不开3D [48] 从数字到实体的制造需求 - 在三维打印、智能制造、CAD模型生成等领域,实现从虚拟设计到实体制造的个性化定制,3D是绝对的基础,例如牙齿生成项目就是为了制造精确的牙齿模型 [50][52] 技术路线之争:显式与隐式 - 隐式(数据驱动)路径:构建端到端神经网络,依赖“潜变量”编码所有信息,是典型的“黑箱”逻辑 [56] - 显式(模型驱动)路径:显式地重建三维模型,并基于明确的几何与物理公式进行计算和判断,依赖对世界的明确建模 [57] - 可解释性与安全感:显式的、可视化的3D/4D信息是人类能够直观理解和信任的维度,能带来安全感,而高维的“潜变量”则让人难以理解其运作原理 [57][58][59] - 当前AI时代过分追求性能而可解释性不足,实现可解释性需要3D作为人类能够直观理解的基石 [61][63]
深圳每两分钟组装一台3D打印机
深圳商报· 2025-11-30 17:05
行业动态与竞争格局 - 消费级3D打印行业呈现加速态势,头部玩家在60余天内集体重押线下,拓竹科技首家线下旗舰店于9月30日落地深圳万象城,创想三维全球旗舰店将于12月6日在深圳湾区之眼开业[2] - 行业格局在2024年发生显著变化,拓竹科技爆发式增长推动全球消费级3D打印及服务市场规模达到41亿美元,年增长额约10亿美元中约一半来自拓竹科技[3] - 深圳成为全球消费级3D打印产业最具竞争力的集群,汇聚创想三维、拓竹科技、纵维立方、智能派等企业,占据全球入门级3D打印机九成市场份额[3] 公司表现与市场份额 - 拓竹科技2024年消费级3D打印机出货量达到120万台,占全球消费级市场近三成,出货量首次超过创想三维[3] - 拓竹科技营收从2023年27亿元增长至2024年60亿元,年增长额约33亿元[4] - 智能派2024年3D打印机出货量为50万台,但国内市场上每卖出10台消费级3D打印机至少有8台来自拓竹科技[5] 产业链与生态建设 - 深圳形成覆盖建模软件、核心材料、整机制造到下游应用的全链条生态,产业链规模与密度达到每两分钟组装一台3D打印机的水平[3] - 行业竞争从简单价格战转向性能突破、供应链优化、用户生态构建等多维度分层竞争,推动3D打印行业向消费电子化发展[4] - 3D打印行业正从硬件制造升级为"内容·硬件·AI"复合生态,腾讯混元3D模型已接入拓竹开源社区MakerWorld用于生成模型[2][6] 资本与大厂布局 - 大疆投资智能派被视为行业强风向标,大疆表示此次投资基于对消费级3D打印技术与行业增长潜力的看好[5] - 腾讯作为创想三维股东早已在3D打印供应链深耕,高瓴、美团、五源、IDG资本等机构过去一年密集押注深圳3D打印公司[6] - 资本涌入导致投资门槛提高,有投资人表示拓竹科技发展迅速,两年前处于观望态度,现在已很难投进[6]
从游戏工厂到空间智能仿真:混元 3D 为何是腾讯 AI 的“侧翼突围”
AI前线· 2025-11-27 04:02
公司AI战略与产品发布 - 混元3D创作引擎发布国际版,API上线腾讯云国际站,同时开源版全球下载量突破300万次[2] - 公司AI战略路线基于业务需求端、技术端和生态端的复合能力,形成"业务—技术—生态"三位一体的独特优势[3][4] - 公司AI投入重点不是堆规模而是提效率,AI被定义为贯穿内部业务的基础能力,第三季度营收同比增长15%[33] 3D生成技术在游戏行业的应用 - 传统3D制作成本高昂,美术成本占游戏研发50%–80%,一个3D角色模型成本在几万元到近百万元,顶尖3D游戏投入高达数亿美元[6] - 混元3D通过两条技术主线提升效率:面向3D资产提升批量产出效率,面向世界模型解决场景级搭建问题[8] - 在《元梦之星》案例中,玩家输入描述后几秒钟即可生成可编辑3D资产,道具制作时间从2天缩短至0.2天,效率提升10倍[9][12] - 在《轻游梦工坊》中,新手可在一周左右完成游戏开发,约四成参赛者无游戏开发经验却完成了优秀作品[10] 3D生成技术面临的挑战与突破方向 - 技术上面临质量、可控性和速度三座大山,目前真正达到要求的内容比例不足10%[30][35] - 核心挑战包括组件化生成、低多边形拓扑平衡等问题,影响游戏工业化管线对AI产出的接纳[14] - 数据成为行业瓶颈,全球可用3D数据仅千万量级,远不及文本百亿级规模,限制模型泛化能力[38] - 公司正从数据层面、模型架构层面和交互面三个层面进行突破,包括扩充高质量数据和支持多模态输入等[42] 跨行业应用与商业化进展 - 超过150家企业通过腾讯云接入混元3D模型,应用横跨游戏制作、电商展示、影视特效等行业[25] - 3D打印领域率先跑通商业闭环,拓竹MakerWorld平台月调用量预计突破10万次,创想三维可实现5分钟生成Q版手办[26] - 电商场景中家居商家实现约35%的点击率提升,教育文博领域制作成本降至传统流程十分之一[29] - 在自动驾驶和具身智能领域,混元3D承担补齐仿真场景短缺的角色,被多家厂商用于补充真实道路采集[30] 技术竞争与生态建设 - 世界模型竞争白热化,Google DeepMind、Meta、OpenAI、NVIDIA、特斯拉等巨头都在推进相关技术[17][18] - 公司通过开源策略构建生态,开源版下载量超过300万次,社区反馈推动技术改进[20][22] - 混元图像3.0在LMArena全球26个模型盲测中登顶,获得最佳综合文生图模型与最佳开源模型两项第一[31] - 公司定位Model as a Service为核心竞争力,不急于求成,注重技术领先性巩固后的自然商业化平衡点[39]
暴走东京电玩展,Game Show也AI上了
量子位· 2025-09-27 07:00
中国厂商在东京电玩展的展示 - 中国游戏厂商如网易、腾讯、叠纸、鹰角等在东京电玩展设立大型展台吸引大量玩家关注 [8] - AI厂商也在展会上展示技术实力 包括大模型和3D生成等应用 [8][10] - 中国游戏厂商在海外市场的影响力日益显著 游戏工业链条从3D建模到云计算展现出全面实力 [36] 阿里巴巴的大模型展示 - 阿里巴巴展台以通义千问和通义万相两个开源模型为核心展示 [11][12] - 本地化团队面向日本市场提供从IaaS到SaaS的大模型商用化方案 包括Model Studio和AI开发平台PAI [12][13] - 开展2天内已有不少B端客户到展台交流 显示开源影响力超出线上下载量 [15][16] MiniMax的创意展示 - MiniMax在展会现场推出日式算命活动 展示语言模型和音频模型能力 [17] - 通过互动形式展示大模型与游戏结合的潜力 [18] 腾讯云的3D生成技术 - 腾讯云展台强调云计算能力支持游戏安全和运营 但重点提及混元3D技术 [21] - 混元3D已被国内多家游戏厂商应用 不仅用于物品如桌椅板凳 还用于人物3D建模并展现良好效果 [22][24] VAST的3D生成项目 - VAST的Tripo作为开源3D生成项目在日本等海外市场吸引游戏厂商关注 [26] - 参展重要目的是与海外客户增强线下交流 [27] - Meshy AI也参与线上展 展示3D生成技术 [29] AI陪玩应用展示 - 逗逗AI游戏伙伴海外版HakkoAI基于实时VLM技术 能理解游戏画面并提供深度陪伴 支持多款游戏如黑猴、老头环和星露谷物语 [32][33] - 其视觉语言模型LynkSoul VLM v1在游戏场景中表现超越GPT-4o、Claude-4-Sonnet和Gemini-2.5-Flash等顶尖通用模型 [34] 游戏与AI融合趋势 - AI技术在游戏展中展现出越来越多潜力 与游戏融合趋势不断升温 [36] - 中国技术力量在海外输出过程中 为游戏玩家创造更多可能性并带来未来惊喜 [36][37]
腾讯披露元宝已是TOP3应用
量子位· 2025-09-17 11:06
文章核心观点 - 腾讯通过C端AI产品成功验证并逐步向B端落地 形成"好用AI"战略 同时加速全球化布局 通过基建投资和生态输出扩大国际市场份额 [4][17][19][27] C端产品进展 - 腾讯元宝上线一年多成为国内日活排名前三AI应用 用户日提问量达年初月总量水平 [5] - 腾讯元宝与微信 腾讯会议等10余款核心应用深度集成 成为AI生态连接器 [6] - 腾讯会议AI纪要功能用户量年增长超150% [8] - 混元实验室年推出30多个模型 混元翻译获30项国际第一 混元3D下载量超260万 [10] - 混元3D 3.0模型首创3D-DiT分级雕刻技术 建模精度提升3倍 几何分辨率达1536³ [12] B端应用落地 - 腾讯云CodeBuddy实现全流程AI一体化开发 内部新增代码50%由其生成 [18] - 美的通过腾讯会议日均举办2000场跨国会议 效率提升55% [18] - 华住集团采用AI酒店管家实现7×24小时客房服务 [18] - 阿斯利康利用医疗大模型构建一体化服务平台 [18] - 腾讯云智能开发3.0平台3个月完成近600项需求开发 提升RAG能力与插件生态 [15] 全球化战略 - 腾讯云投资1.5亿美元在沙特新建数据中心 布局11个区域办公室与9大技术支持中心 [24] - EdgeOne Pages适配多地区网络环境 兼容海外开发工具 上线3个月用户破10万 [25] - 输出经国内亿级用户验证的音视频技术 小程序平台及AI数字人解决方案 [21] 技术理念 - 强调"以人为本"的AI发展路径 注重提升工作效率 优化交互体验及提供情绪价值 [14] - 通过智能化提升产业效率 通过全球化扩大收入规模 形成双引擎驱动 [27]
免费!鹅厂最新3D生成模型火爆外网,CG导演都已经用上了
量子位· 2025-05-07 07:11
鹅厂3D生成模型技术亮点 - 支持通过单张人物照片将人物融入游戏世界[2] - 具备文生3D和图生3D双模式 其中文生3D可按物体+特征+风格的结构化描述生成模型[3][10] - 生成模型可直接转化为3D动画 并支持骨骼绑定和动作添加[3][47][49] 文生3D功能实测表现 - 能准确还原复杂描述细节 如复古汽车圆润线条、五根垂直木条的餐椅[13][16] - 支持人物建模 可生成穿皮质护甲的肌肉男性角色 并适配中国风等五种纹理风格[19][25][27] - 可自由创作科幻物体 如金属材质外星通讯器 展现想象力拓展能力[22][23] 图生3D技术突破 - 仅需单张平面图即可建模 房屋模型能合理补全缺失面信息[30][32] - 多视图输入可提升精度 运输机仅用前左两面即完成对称建模[34][35] - 非对称物体还原度高 如小猫肥皂盒能保留盘面使用痕迹[38][41] 高级应用场景 - 人物生成模块支持头像转3D模型 动画生成模块可自动识别骨骼添加舞蹈动作[45][51] - 提供智能减面、纹理生成等编辑工具 并开放小游戏创作实验功能[53] - 支持预设模板工作流设计 未来将推出全自定义和JSON导入功能[55][57] 市场反响与用户生态 - 获国际CG导演和3D艺术家认可 被评价为当前AI生成3D领域的领先工具[5][6] - 海外社交平台(X)用户积极创作 官方转载用户制作的使用指南[4][58] - 目前完全免费 每日限20次生成 降低用户尝试门槛[59]
腾讯研究院AI每周关键词Top50
腾讯研究院· 2025-04-25 07:54
芯片 - 华为发布昇腾910C芯片 [3] 模型 - OpenAI的o3模型创下智商测试纪录 [3] - 谷歌推出高尔顿板测试模型 [3] - 谷歌发布Gemma 3 QAT版模型 [3] - Goodfire开发稀疏自编码器模型 [3] - OpenAI的o3模型存在高幻觉率问题 [3] - 微软推出BitNet三进制模型 [3] - 上海AI Lab开源AETHER模型 [3] - 昆仑万维开源Skywork-R1V 2.0模型 [3] - Anthropic的Claude模型展现人格特征 [3] 应用 - OpenAI发布gpt-image-1 API [4] - OpenAI将使用限额翻倍 [4] - OpenAI推出Agent SDK开发指南 [4] - 张吕敏开发FramePack视频生成技术 [4] - 生数科技推出Vidu Q1视频生成技术 [4] - Sand.ai发布Magi-1视频生成技术 [4] - 昆仑万维实现无限时长视频生成 [4] - 微软推出AI同事功能 [4] - 腾讯云开发Craft智能体 [4] - Kortix AI开源智能体Suna [4] - 腾讯升级混元3D技术 [4] - 腾讯上线企鹅读伴应用 [4] - 字节升级Trae编程助手 [4] - 字节推出扣子空间应用 [4] - Character.AI发布AvatarFX [4] - Nari Labs推出Dia语音生成技术 [4] - MiniMax发布MiniMax Audio [4] - Kimi推出AI社区 [4] - Fellou推出行动浏览器 [4] - Ostris发布Flex.2-preview [4] - VAST推出Tripo Doodle 3D模型 [4] - 华为实现高速L3自动驾驶 [4] - 面壁智能实现车端侧AI量产 [4] - 北大等机构开发游戏操作迁移技术 [4] - Letta等开发睡眠时间计算技术 [4] - 谷歌展示AI眼镜助手 [4] 科技 - 谷歌开发混合量子模拟技术 [4] - MPL推出引力波探测工具 [5] - 小鹏展示IRON技术 [5] - 宇树科技举办机器人格斗大赛 [5] - 北京亦庄举办机器人马拉松 [5] - 特斯拉推出新机器人 [5] - BIGAI实现灵巧手动作迁移技术 [5] 观点 - Anthropic提出AI意识萌芽观点 [5] - DeepSeek R1进行思维链学研究 [5] - 微软探讨AI系统性工程 [5] - LangChain引发Agent框架争议 [5] - MetaGPT等发布基础智能体综述 [5] - Mercor AI探讨未来人类价值 [5]
谁会是AI时代的下一个任天堂?
新财富· 2025-04-03 06:04
核心观点 - AI对游戏行业的颠覆正在持续进行,但尚未出现真正的"GPT时刻"级别的颠覆式体验 [1] - 当前AI游戏发展呈现多元化探索态势,包括更拟人的NPC、文字类AI Native游戏、生产力工具迭代等方向 [1][5][32] - 游戏行业尚未出现垂类大模型,主要受限于数据质量、系统复杂性和体验抽象性等因素 [24][30][31] - 未来机会可能来自AI Native玩家群体的文化习惯塑造 [42] 更拟人的NPC - 游戏行业AI化的第一步是对NPC进行重构,利用大模型使NPC行为更自由生动 [3][4] - 早期探索集中在海外UGC社区,如《我的世界》集成GPT-3、《上古卷轴5》接入ChatGPT等 [5] - 国内大厂快速跟进,网易《逆水寒》集结国产大模型打造"AI友人",腾讯《暗区突围》推出语音指令AI队友系统 [7] - 技术迭代迅猛但玩家反馈普遍"鸡肋",因NPC创新未触及核心玩法体验 [11] 文字类AI Native游戏异军突起 - Character.ai月活从2024年初3000万跃升至10月6300万,18-24岁用户占比66% [16] - 国内类似产品如字节猫箱、Minimax星野等收获约700万DAU,跻身大模型APP前十 [17] - 文字冒险成为最佳AI介入切口,因其核心玩法与AI技术高度契合 [17][21] - 米哈游新作《Whispers from the Star》可能成为彻底AI Native游戏,需解决动画交互等技术挑战 [21][22] 游戏行业为何难以出现垂类大模型 - 缺乏高质量、稳定、可量化的游戏数据集,静态代码资源封闭 [26][29][30] - 游戏动态性导致量化算法复杂度远高于图像和视频 [29] - 游戏体验评价标准抽象,难以从数据层面拆解 [31] - 现有"AI游戏引擎"如Google GameNGen仅基于有限训练数据,实用性不足 [31] 生产力工具的局部快速迭代 - GDC 2025报告显示52%公司已使用生成式AI工具,3D资产AIGC成为焦点 [33] - Roblox将开源自研AI基座模型Cube 3D,加速UGC社区模型资产生产 [33] - Meshy.AI聚集200万+创作者,累计生成2000万个3D模型,获a16z工具调查认可 [34] - 腾讯混元3D模型技术迭代迅速,2025年开源5款三维生成模型丰富社区 [34] 机会来自未来AI Native的玩家 - 移动游戏黄金时代受益于设备普及和新生代用户习惯 [39][42] - 当前AI正渗透少儿日常生活,塑造未来AI Native玩家的文化习惯 [42] - 新生代AI原住民可能成为未来AI游戏的首批玩家、开发者和投资人 [42]