Workflow
计算机图形学
icon
搜索文档
SIGGRAPH Asia 2025 | 只用一部手机创建和渲染高质量3D数字人
机器之心· 2025-12-18 10:15
行业技术地位与团队里程碑 - 公司团队的研究成果首次登录国际顶级计算机图形学会议SIGGRAPH Asia,这代表了学术与工业界的最高研究水平与最前沿技术趋势 [2][5] - 团队在3D、XR、3D真人数字人和三维重建等方向拥有深厚技术积累,此前已在CVPR 2025会议上作为Highlight Paper发表了TaoAvatar,并在淘宝未来旗舰店实现了业内首个3D真人导购体验 [4] 核心技术方案:HRM²Avatar - 系统目标是通过手机单目视频生成高保真且可实时驱动的3D数字人,旨在解决普通人使用门槛高的问题 [6][10] - 核心采用两阶段采集方式、显式衣物网格表示与基于高斯的动态细节建模,并结合面向移动端的高效渲染优化策略 [12] - 系统采用显式服装网格与高斯表示相结合的建模方式:网格提供稳定结构与可控性,高斯用于呈现褶皱、材质和光照变化等细节 [6] - 基于轻量化推理设计与移动端渲染优化策略,生成的数字人可在手机、头显等移动设备上流畅运行 [6] 系统流程与关键技术模块 - **采集与预处理**:采用双序列拍摄方式,包括静态扫描(用于获取全身结构和局部纹理)和动态扫描(用于捕捉衣物褶皱和光照响应),无需额外硬件 [18] - **服饰网格提取**:流程包括几何重建、服装区域提取、重拓扑与蒙皮绑定、绑定对齐,最终生成可绑定动画的穿衣人体网格作为几何基底 [31][32][33][34][35] - **实时可驱动的数字人重建**:着重从混合表示、几何生成、动态光照建模、训练流程、轻量网络蒸馏五个方面进行设计 [37] - **混合表示**:在穿衣人体网格的每个三角形上附着高斯点,构建混合数字人表征,为姿态相关的形变与光照建模提供可控参数空间 [40][43] - **几何生成**:最终几何基于带服饰的模板网格,并通过静态偏移、姿态相关偏移和逐帧残差三类偏移量组合得到 [46][47][51] - **动态光照建模**:引入轻量化的单通道姿态相关光照项,对高斯的外观属性进行调制,使数字人在不同姿态下保持自然的光照一致性 [53][54] - **训练流程**:同时使用近景与全身图像监督,优化策略包括颜色一致性监督、语义掩码约束、身体与服饰碰撞约束等 [57][67] - **轻量网络蒸馏**:训练一个轻量级预测网络,学习从姿态到几何形变与光照变化的映射,以支持移动端实时驱动,无需逐帧重建数据 [60] 移动端高性能实时渲染优化 - 对渲染阶段进行了系统性优化,包括层级裁剪、高效投影、量化排序和基于显卡硬件的加速渲染 [62] - **层级裁剪**:采用网格级视锥裁剪、三角片级背面裁剪、高斯级视锥裁剪三级策略,显著减少需渲染的高斯数量 [64][68] - **投影**:采用按需解码存储块的精简投影流程,有效降低解码带宽开销 [65][69] - **排序**:采用量化排序,将连续深度映射至紧凑区间,使用16Bit或12Bit深度存储,结合GPU并行Radix Sort加速,大幅减少排序负担和显存带宽使用 [70][73] - **渲染**:使用GPU硬件栅格化,并采用自适应面元缩放、基于透明度修剪、反向透明度估计等策略提升性能与视觉质量 [70][73] - 优化使系统采用紧凑、高度可并行、缓存友好的绘制方式,达成移动端实时表现 [71] 实验结果与性能表现 - **与现有方法对比**:在自构数据集上,HRM²Avatar在PSNR(26.70)、SSIM(0.963)、LPIPS(0.040)所有指标上均优于对比方法GaussianAvatar和ExAvatar [77] - 在Neuman数据集上评估泛化表现,模型在快速动作或大姿态变化下能保持稳定的外观呈现和服饰细节 [80][81] - **消融实验**:验证了显式服装网格、姿态相关的外表建模、两阶段扫描协议均为系统的必要设计模块,移除后会导致质量下降 [82][84] - **移动端性能**:在iPhone 15 Pro Max上,单个数字人(约53万高斯点)能以2K分辨率、120 FPS稳定运行;同时渲染三个数字人时可达到2K @30 FPS;在Apple Vision Pro上可实现2K@90 FPS实时渲染 [87] - 各渲染优化策略带来显著性能提升:分级裁剪提速1.83倍,按需解压缩提速1.93倍,深度量化排序提速1.99倍(基于iPhone 15 Pro Max测试数据) [88] 总结与展望 - HRM²Avatar是一项让普通人也能通过手机创建高质量数字人的前沿探索,为移动端数字人应用提供了可行技术路径 [91] - 当前技术对结构复杂或非固定拓扑的服饰重建精度,以及在极端光照或动态遮挡场景下的效果,仍有进一步优化空间 [91] - 该成果被视为推动数字人从专业设备走向普通用户、从实验室走向真实应用场景的一个重要里程碑 [91]
刚刚,2026年英伟达奖学金名单公布,华人博士生霸榜占比80%
机器之心· 2025-12-05 03:02
英伟达研究生奖学金计划2026年度获奖者概况 - 英伟达研究生奖学金计划已持续二十五年,旨在支持与公司技术相关的研究工作[1][2] - 2026年度评选出10位博士生获奖者,每人将获得最高6万美元资助[4] - 获奖者研究领域覆盖加速计算前沿,包括自主系统、计算机体系结构、计算机图形学、深度学习、编程系统、机器人技术和安全[4] 获奖者研究重点与背景 - 10位获奖者中有8位华人,去年有7位华人博士生入选[4] - Jiageng Mao(南加州大学)专注于利用互联网规模数据解决物理人工智能问题,研究方向包括机器人、计算机视觉和自然语言处理[5] - Liwen Wu(加州大学圣地亚哥分校)研究计算机图形学和三维视觉,重点在神经渲染、逆渲染和三维重建[7][8] - 陈思哲(加州大学伯克利分校)致力于AI安全性研究,开发防御提示词注入攻击的机制[10] - Yunfan Jiang(斯坦福大学)开发通过混合数据源构建通用机器人的可扩展方法,研究方向是机器学习和机器人技术交叉领域[12] - 邵奕佳(斯坦福大学)研究人机协作,开发能与人类沟通协调的AI Agent,并设计新的人机交互界面[14][15] - Shangbin Feng(华盛顿大学)推进模型协作,实现多个机器学习模型的协作、组合和互补[17] - Irene Wang(佐治亚理工学院)开发整合加速器架构、网络拓扑和运行时调度的协同设计框架,以优化分布式深度学习基础设施[19][20][21] - 耿晨(斯坦福大学)利用数据驱动算法和物理原理对4D物理世界建模,推进物理基础的3D和4D世界模型在机器人技术和科学应用中的发展[23][24] - Shvetank Prakash(哈佛大学)利用新算法和基础设施构建AI智能体,并推进硬件架构与系统设计,研究兴趣包括超低功耗机器学习系统[26] - Manya Bansal(MIT)设计面向现代加速器的编程语言,使开发人员能在编写模块化代码时不牺牲底层控制能力[28][29] 其他入围者 - 2026年度奖学金还有5位终选入围者,分别来自北京大学、MIT、马克斯普朗克计算机科学研究所、斯坦福大学和达姆施塔特工业大学[31]
做了一份3DGS的学习路线图,面向初学者
自动驾驶之心· 2025-11-22 02:01
文章核心观点 - 3D高斯泼溅(3DGS)技术,特别是前馈式3DGS(Feed-Forward GS),正成为自动驾驶、医疗、虚拟现实和游戏等领域的新兴重要技术栈 [2] - 场景重建或世界模型是行业急需攻克的关键场景,其中自动驾驶的业内闭环是核心痛点 [4] - 为满足行业需求,推出了《3DGS理论与算法实战教程》,旨在系统性地讲解从原理到实战的知识,帮助学习者全面掌握3DGS技术栈 [6] 技术应用与行业需求 - 3DGS技术已在多个领域获得广泛应用,主流技术方向包括2DGS、3DGS、4DGS和前馈GS [2] - 自动驾驶行业对场景重建和世界模型有迫切需求,业内闭环是真正的技术痛点 [4] - 传统三维重建领域也存在技术升级的刚需 [4] 课程内容与结构 - 课程核心算法涵盖静态重建3DGS、动态重建4DGS、表面重建2DGS、前馈式3DGS以及量产问题讨论 [6] - 课程设计思路是从计算机图形学基础讲起,逐步深入到3DGS原理、自动驾驶应用及前沿研究方向 [10][11][12][13][14] - 课程包含六个章节:3DGS背景知识、原理算法、自动驾驶应用、研究方向、前馈式3DGS及答疑讨论 [10][11][12][13][14][15] - 课程采用离线视频教学,配合VIP群内答疑和三次线上答疑,学习周期预计两个半月 [17] 课程具体章节重点 - 第一章重点讲解计算机图形学基础,包括三维空间表达、渲染管线及3DGS开发工具如SuperSplat、COLMAP和Gsplat [10] - 第二章深入讲解3DGS原理、核心伪代码及动态重建、表面重建等算法,实战部分使用英伟达开源3DGRUT框架 [11] - 第三章聚焦自动驾驶仿真重建,重点分析Street Gaussian、OmniRe和Hierarchy UGP三篇工作,实战使用DriveStudio [12] - 第四章探讨3DGS重要研究方向,包括COLMAP扩展、深度估计及Relighting,并分析其工业界应用与学术前景 [13] - 第五章梳理前馈式3DGS的发展历程与原理,讲解AnySplat和WorldSplat等最新算法 [14] 目标人群与学习收获 - 课程面向具备一定计算机图形学基础、了解视觉重建技术、并拥有Python和PyTorch基础的学习者 [19] - 学习者需自备GPU,推荐算力在RTX 4090及以上 [19] - 学后收获包括掌握3DGS理论知识和技术栈、熟悉算法开发框架、并能与学术界及工业界同行持续交流 [19]
可实时预警岩体微小变化!深大团队研发地质灾害防治系统
南方都市报· 2025-10-21 07:57
技术突破与核心优势 - 新一代地质灾害智能监测系统融合计算机视觉、深度学习与云边端协同技术,实现对边坡落石、危岩移动等地质灾害的全天候、全覆盖、智能化监测[1] - 系统创新性地提出核心图形信息“云-边-端”协同处理技术,构建高效优化算子,实现从“点式监测”到“体式防控”的跨越[3] - 在运动检测、目标识别、精准测量三个关键技术层面实现突破,其中对落石事件的识别准确率超过85%[3] 应用场景与市场前景 - 系统应用场景广泛,包括山区公路隧道口和高边坡路段24小时监测、铁路沿线落石灾害预警、矿山开采区边坡稳定性监测以及水利工程边坡安全[5] - 该系统已在深圳市尖岗山公园投入应用,实现对危岩及落石的24小时不间断监控和报警[5] - 监测设备内置大容量太阳能供电系统,具备强大环境适应性与能源自给能力,可实现24小时不间断运行[5] 系统运行机制与行业影响 - 设备通过高分辨率摄像头捕捉岩体微小变化,利用内置智能算法实时分析研判,一旦监测到异常立即触发多级预警并通过4G/5G网络将数据实时上传至云端管理平台[5] - 系统实现了从“被动等待”到“主动预判”的转变,推动地质灾害监测预警进入“全域感知、智能推演、精准预警”的新阶段[5]
妙笔生维:线稿驱动的三维场景视频自由编辑
机器之心· 2025-08-19 02:43
三维场景视频编辑技术发展 - 移动摄影设备普及推动三维场景视频编辑需求增长 用户可通过手机或相机快速获取多视角视频 但高效自由编辑这些内容仍是关键挑战 包括添加新物体、去除元素或替换已有部分等能力 在VR、AR和短视频创作中应用前景广泛[2] - 现有经典方法局限在于仅支持预定义三维模型库 限制用户个性化创意表达 且难以处理光影融合和阴影生成等照片级真实感需求 移除物体后的空缺区域填补也缺乏最优解决方案[3] Sketch3DVE技术创新 - 提出基于线稿的三维场景视频编辑方法 用户通过简单线稿即可重塑视频内容 支持个性化添加、移除或替换对象 技术论文发表于SIGGRAPH 2025并入选Video Trailer[3][6] - 支持单张静态图片编辑 用户可先指定虚拟相机路径生成动态视频 再进行任意编辑 突破传统静态图像处理限制[5] - 采用DUSt3R三维重建算法分析场景 输出点云和相机参数 通过深度图对齐和反投影技术实现三维几何一致性 构建基于点云引导的视频生成模型 融合编辑帧、多视角视频和原始视频信息[13][14] 行业技术对比 - 现有视频生成模型分为两类:直接输入相机参数控制视角 或从单图像构建显式三维表示(如NeRF) 但均无法处理含大幅度相机运动的真实视频编辑[8] - 早期视频编辑方法基于Stable Diffusion逐帧处理 新方法利用视频模型提取运动特征 但主要擅长外观编辑 几何结构层面效果较差 难以处理大视角变化场景[9] - 线稿交互方式已广泛应用于内容生成 VIRES和SketchVideo等现有方法面向通用场景 无法保持三维几何一致性 Sketch3DVE填补该技术空白[9][12] 应用效果展示 - 支持首帧线稿标记编辑区域 生成添加/删除/替换物体的高质量结果 新物体具有三维一致性[16] - 可处理含阴影和反射的复杂场景 通过真实视频数据集训练生成合理编辑效果[17] - 支持颜色笔画指定外观 生成自然真实的三维场景编辑 也兼容图像补全方法直接编辑首帧[18][19] - 相比传统模型插入方法 解决了个性化定制不足、渲染失真和物体去除难题 降低专业软件使用门槛[20][22]
奥克兰大学计算机科学本科申请:人工智能与编程的前沿突破
搜狐财经· 2025-05-27 04:42
专业优势 - 奥克兰大学计算机科学本科专业拥有卓越学术资源与雄厚师资力量 在国际上享有盛誉 科研成果丰硕 在人工智能 数据科学 网络安全等领域处于行业前沿 [3] - 教授团队来自世界各地 学术研究成果斐然 发表众多高影响力论文 并与谷歌 微软等国际科技巨头保持密切合作 将行业最新动态带入课堂 [3] - 配备先进计算机实验室 包括高性能计算集群 虚拟现实设备等 满足复杂编程实验和人工智能项目开发需求 [3] - 与众多科技企业合作 提供实习和就业机会 使学生接触实际商业项目 积累实践经验 [3] 申请要求 - 国际学生需完成高中教育且三年平均成绩达80%以上 数学和物理等相关学科成绩需突出 [4] - 中国学生高考成绩需达所在省份一本线以上 或凭借A-Level IB等国际课程成绩申请 [4] - 语言要求雅思总分6.5且单项不低于6.0 托福总分90以上且写作不低于21 未达标者可先参加语言课程 [4] 学习内容 - 大一课程包括计算机科学导论 编程基础(Python和Java) 离散数学等 建立整体认知和基本技能 [6] - 大二 大三核心课程涵盖数据结构与算法 计算机系统原理 数据库系统等 深入理解底层逻辑 [6] - 选修课程包括人工智能 机器学习 计算机图形学 网络安全等 探索前沿领域 [6] - 设置项目实践课程 学生分组完成实际编程项目 如开发智能应用程序或设计网络安全系统 锻炼团队协作和解决问题能力 [6]