陈天桥旗下盛大AI东京研究院于SIGGRAPH Asia正式亮相，揭晓数字人和世界模型成果

文章核心观点 - 盛大集团旗下盛大AI东京研究院在SIGGRAPH Asia 2025首次公开亮相，并系统性地推出了名为Mio的端到端框架，旨在解决当前数字人技术缺乏“灵魂”的核心问题，标志着行业焦点从视觉逼真度转向交互智能 [1][16][23] - 当前数字人交互体验存在“灵魂缺失”的根本原因在于三大系统性挑战：长期记忆与人格一致性不足、多模态情感表达缺失、缺乏自主进化能力，这导致数十亿美元投资未能带来真正的用户粘性 [3][6] - Mio框架通过整合认知核心、语音引擎、面部动画师、身体动画师和渲染引擎五大核心模块，实现了从认知推理到实时多模态体现的完整闭环，在关键性能指标上超越了现有最优技术，代表了数字人技术从“形似”到“神似”的范式转移 [20][21][23] 盛大AI东京研究院的亮相与战略愿景 - 公司在SIGGRAPH Asia 2025期间通过展台、学术讨论和闭门交流等形式首次公开亮相，正式登上国际顶级学术与产业舞台 [1] - 公司的研究方向聚焦于数字人的“交互智能”与世界模型的“时空智能”两大方向 [1] - 这一战略是创始人陈天桥长期愿景的体现，其强调脑科学与AI融合，并系统阐述了“发现式智能”理念，认为智能体的认知基底至关重要 [1][4] - 公司内部技术协同生态强大，“交互智能”的实现得益于旗下EverMind团队产品EverMemOS的能力互补 [1] 当前数字人技术的核心挑战与行业共识 - 尽管视觉形象逼真，但用户互动时普遍感到“空洞感”或“断裂感”，这是导致投资未能转化为用户粘性的根本原因 [3] - 挑战一：长期记忆与人格一致性。标准大语言模型存在“人格漂移”，难以维持稳定的个性、习惯和世界观连贯性 [3] - 挑战二：多模态情感表达的缺失。数字人普遍存在“僵尸脸”现象，缺乏自然的微表情、眼神和肢体动作协同，导致情感表达不完整 [6] - 挑战三：缺乏自主进化能力。多数数字人仍是被动的“播放系统”，无法从交互中学习、适应用户偏好或发展新行为模式 [6] - 在SIGGRAPH Asia 2025的闭门研讨会上，来自港大、港中大、港科大及东京科学大学等机构的顶尖学者达成共识，认为数字人发展瓶颈已从视觉表现力转向认知和交互逻辑 [13] - 专家一致认为未来数字人的核心竞争力将体现在其“交互智能”上，必须具备长期记忆、多模态情感表达和自主演进三大关键能力 [13] Mio框架的系统性解决方案 - Mio是一个旨在实现“交互智能”的端到端系统性框架，其设计理念是将数字人从被动“木偶”转变为能自主思考、感知与互动的智能伙伴 [16] - 认知核心：采用“介于叙事时间的知识图谱”架构，为信息标记“故事时间”以防止“剧透”，在CharacterBox基准测试中人格保真度超越GPT-4o，在防剧透测试中取得超过90%的成绩，并具备“无数据自训练”的自我进化能力 [20] - 语音引擎：利用高效的离散化语音表征技术，生成与情境、情绪和人格匹配的自然语音 [20] - 面部动画师：采用统一的“听-说”框架，在说话和倾听时都能生成生动的微表情、眼神和头部姿态，超过90%的用户研究参与者认为其倾听反应优于业界领先竞品 [20] - 身体动画师：采用新颖的流式扩散模型，实时将认知意图转化为流畅连贯的全身动作，在保持实时性的同时，其运动质量达到顶尖离线模型水平 [21] - 渲染引擎：确保在任何动态和视角变化下，都能生成高保真且身份一致的视觉形象 [21] 技术突破与未来展望 - Mio的整体交互智能分数达到76.0，较之前的最优技术水平提升了8.4分，为行业树立了新的性能标杆 [23] - 在认知共鸣、面部同步、肢体流畅度等各项指标上全面超越现有最优技术 [25] - “交互智能”预计将为虚拟陪伴、互动叙事、沉浸式游戏等领域带来革命性变革，未来的数字人将成为能够建立深层情感连接、共同成长的智能伙伴 [25] - 公司已将Mio项目的完整技术报告、预训练模型和评估基准公开发布，以推动领域共同进步 [28]