TaoAvatar - 财报，业绩电话会，研报，新闻

TaoAvatar

搜索文档

SIGGRAPH Asia 2025 | 只用一部手机创建和渲染高质量3D数字人

机器之心· 2025-12-18 10:15

行业技术地位与团队里程碑 - 公司团队的研究成果首次登录国际顶级计算机图形学会议SIGGRAPH Asia，这代表了学术与工业界的最高研究水平与最前沿技术趋势 [2][5] - 团队在3D、XR、3D真人数字人和三维重建等方向拥有深厚技术积累，此前已在CVPR 2025会议上作为Highlight Paper发表了TaoAvatar，并在淘宝未来旗舰店实现了业内首个3D真人导购体验 [4] 核心技术方案：HRM²Avatar - 系统目标是通过手机单目视频生成高保真且可实时驱动的3D数字人，旨在解决普通人使用门槛高的问题 [6][10] - 核心采用两阶段采集方式、显式衣物网格表示与基于高斯的动态细节建模，并结合面向移动端的高效渲染优化策略 [12] - 系统采用显式服装网格与高斯表示相结合的建模方式：网格提供稳定结构与可控性，高斯用于呈现褶皱、材质和光照变化等细节 [6] - 基于轻量化推理设计与移动端渲染优化策略，生成的数字人可在手机、头显等移动设备上流畅运行 [6] 系统流程与关键技术模块 - **采集与预处理**：采用双序列拍摄方式，包括静态扫描（用于获取全身结构和局部纹理）和动态扫描（用于捕捉衣物褶皱和光照响应），无需额外硬件 [18] - **服饰网格提取**：流程包括几何重建、服装区域提取、重拓扑与蒙皮绑定、绑定对齐，最终生成可绑定动画的穿衣人体网格作为几何基底 [31][32][33][34][35] - **实时可驱动的数字人重建**：着重从混合表示、几何生成、动态光照建模、训练流程、轻量网络蒸馏五个方面进行设计 [37] - **混合表示**：在穿衣人体网格的每个三角形上附着高斯点，构建混合数字人表征，为姿态相关的形变与光照建模提供可控参数空间 [40][43] - **几何生成**：最终几何基于带服饰的模板网格，并通过静态偏移、姿态相关偏移和逐帧残差三类偏移量组合得到 [46][47][51] - **动态光照建模**：引入轻量化的单通道姿态相关光照项，对高斯的外观属性进行调制，使数字人在不同姿态下保持自然的光照一致性 [53][54] - **训练流程**：同时使用近景与全身图像监督，优化策略包括颜色一致性监督、语义掩码约束、身体与服饰碰撞约束等 [57][67] - **轻量网络蒸馏**：训练一个轻量级预测网络，学习从姿态到几何形变与光照变化的映射，以支持移动端实时驱动，无需逐帧重建数据 [60] 移动端高性能实时渲染优化 - 对渲染阶段进行了系统性优化，包括层级裁剪、高效投影、量化排序和基于显卡硬件的加速渲染 [62] - **层级裁剪**：采用网格级视锥裁剪、三角片级背面裁剪、高斯级视锥裁剪三级策略，显著减少需渲染的高斯数量 [64][68] - **投影**：采用按需解码存储块的精简投影流程，有效降低解码带宽开销 [65][69] - **排序**：采用量化排序，将连续深度映射至紧凑区间，使用16Bit或12Bit深度存储，结合GPU并行Radix Sort加速，大幅减少排序负担和显存带宽使用 [70][73] - **渲染**：使用GPU硬件栅格化，并采用自适应面元缩放、基于透明度修剪、反向透明度估计等策略提升性能与视觉质量 [70][73] - 优化使系统采用紧凑、高度可并行、缓存友好的绘制方式，达成移动端实时表现 [71] 实验结果与性能表现 - **与现有方法对比**：在自构数据集上，HRM²Avatar在PSNR（26.70）、SSIM（0.963）、LPIPS（0.040）所有指标上均优于对比方法GaussianAvatar和ExAvatar [77] - 在Neuman数据集上评估泛化表现，模型在快速动作或大姿态变化下能保持稳定的外观呈现和服饰细节 [80][81] - **消融实验**：验证了显式服装网格、姿态相关的外表建模、两阶段扫描协议均为系统的必要设计模块，移除后会导致质量下降 [82][84] - **移动端性能**：在iPhone 15 Pro Max上，单个数字人（约53万高斯点）能以2K分辨率、120 FPS稳定运行；同时渲染三个数字人时可达到2K @30 FPS；在Apple Vision Pro上可实现2K@90 FPS实时渲染 [87] - 各渲染优化策略带来显著性能提升：分级裁剪提速1.83倍，按需解压缩提速1.93倍，深度量化排序提速1.99倍（基于iPhone 15 Pro Max测试数据） [88] 总结与展望 - HRM²Avatar是一项让普通人也能通过手机创建高质量数字人的前沿探索，为移动端数字人应用提供了可行技术路径 [91] - 当前技术对结构复杂或非固定拓扑的服饰重建精度，以及在极端光照或动态遮挡场景下的效果，仍有进一步优化空间 [91] - 该成果被视为推动数字人从专业设备走向普通用户、从实验室走向真实应用场景的一个重要里程碑 [91]

中国经济网· 2025-09-12 00:20

机器人应用展示 - 机器人成为电信、计算机和信息服务专题展区每个展台的必备展示项目涵盖陪伴教育、医疗微操、运动竞技等领域[1] - 京东展台机器狗展示"买智能机器人上京东"文字具备互动营销功能[1] - 人形机器人集中亮相包括世界人形机器人运动会冠军机型及太极拳演示机型[1] 通信基础设施数字化 - 中国铁塔将通信塔转型为数字塔集成摄像机、雷达、传感器、气象监测等感知终端[2] - 算法仓拥有460种算法其中自研算法216种 80种达到行业领先水平应用于应急、林草、国土、水利等重点行业[2] - 超级基站在断电断光缆情况下仍可提供通信保障于北京特大暴雨期间发挥关键作用[2] AI技术生活化应用 - AI+智能陪练可实现八段锦等健身动作实时对照修正[3] - 5G智能住宿体验区展示AI+酒店楼宇的便捷智能[3] - 数智文博项目包括国家自然博物馆AR导览数字人、国家博物馆文物活化及大运河博物馆智慧场馆建设[3] 零售科技革新 - 淘宝数字人导购产品TaoAvatar集成3D高斯重建、语音口唇驱动和端侧多模态大模型技术[4] - 淘宝成为Apple Vision Pro下载量最大的电商APP 实现空间体验式购物[4] - 闲鱼AI托管服务每日超40万用户使用 AI生成文本采纳率达85% 累计成交额超14亿元[4] 城市智能化治理 - 地铁刷脸闸门、语音控制智能家电生态圈、5G明厨亮灶等项目展示数字技术赋能城市发展[3] - 中国铁塔建设气象塔站、测雨雷达塔、水库瞭望塔及山区储能塔构成防汛救灾智慧前哨系统[2]

如何做到在手机上实时跑3D真人数字人？MNN-TaoAvatar开源了！

机器之心· 2025-06-25 00:46

技术概述 - TaoAvatar是阿里巴巴淘宝Meta技术团队研发的3D真人数字人技术，支持手机和XR设备上的实时渲染与AI对话[1] - 该技术基于3D高斯泼溅技术，能通过多视角视频输入快速生成高逼真度数字人形象，精准捕捉面部表情、手势动作及衣物细节[8] - 已在中国三维视觉大会上入选"最佳演示Demo候选"，并宣布开源3D数字人应用MNN-TaoAvatar[2][9] 核心技术 - 采用3D高斯泼溅技术实现全身互动式数字人解决方案，显著降低建模成本并提高效率[8][9] - 集成语音识别(ASR)、大语言模型(LLM)、语音合成(TTS)和数字人渲染(NNR)等核心模块[11] - 支持端侧实时对话与渲染，ASR模型RTF优化至0.18，TTS模型RTF优化至0.58，A2BS模型RTF优化至0.34[16][17][18] - 自主研发NNR渲染器实现25万点云模型60FPS流畅渲染[18] 性能优势 - 在骁龙8 Elite芯片手机上实现端侧运行，ASR模型281.65M，LLM模型838.74M，TTS模型1.34GB[16] - MNN-LLM在骁龙8 Gen3芯片上预填充速度达165 tokens/s，解码速度41.16 tokens/s[16] - 相比云端方案，可在手机端完成所有算法处理，无需高端显卡支持[13][14] 架构优化 - 采用StyleUnet+MLP混合建模降低计算成本，动态高斯点云技术提升渲染稳定性[50] - 数据同步优化实现GPU内存直接读取，免去数据拷贝时间[40] - 调度优化引入"Dirty机制"，仅处理变化数据，将部分模型运行频率降至20fps[41] - 模型量化技术将Qwen2.5-1.5B模型从5.58GB压缩至1.2GB[31] 应用部署 - 推荐配置为骁龙8 Gen3或同级CPU，8GB内存，5GB存储空间[51] - 单个数字人ID存储空间控制在100-200MB，25万高斯点云为最佳平衡点[46] - 支持Android和iOS平台，已开源在GitHub供开发者体验[2][52]