Workflow
KlingAvatar2.0
icon
搜索文档
从「会表演」到「更会演」:KlingAvatar2.0让数字人拥有生动灵魂
机器之心· 2025-12-24 03:41
产品发布与技术升级 - 快手可灵团队正式发布KlingAvatar2.0技术报告,该模型已在可灵平台全量上线,支持用户体验 [1] - 新一代数字人拥有更丰富的情感层次、更精准的多角色互动、对复杂文本指令的深度理解能力,并支持长达5分钟的视频生成 [1] 核心技术突破 - **时空级联框架**:创新性提出时空级联框架以解决长视频生成质量衰减问题,通过“智能蓝图生成”和“渐进式增强”技术,支持生成分钟级长视频并保持身份一致性与故事连续性 [4][5][7] - **共推理导演系统**:该系统由音频专家、视觉专家和文本专家组成,通过多轮对话协作解决模态冲突,将模糊指令转化为详细的镜头级故事线 [8][11] - **多角色精准控制**:通过身份特定多角色控制技术,利用深度DiT特征实现角色掩码预测,确保每个角色能被独立的音频流精准驱动,避免了多角色视频中的“张冠李戴”问题 [9][11][12] 性能表现与实验结果 - 在涵盖300个高质量测试案例的评测中,KlingAvatar2.0在情感表达细腻度、动作协调自然度及细节处理精致度上均有显著提升 [15] - 与竞品相比,KlingAvatar2.0整体效果相比HeyGen提升26%,相比KlingAvatar1.0提升73%,相比OmniHuman-1.5提升94% [16] - 在文本响应和运动表现力方面,其指令理解能力和生动性也大幅超越竞品 [16] 行业影响与意义 - 数字人技术的持续迭代正在降低行业创作门槛并提升制作标准 [18] - 该技术在电商直播、娱乐内容制作、在线教育、企业服务等领域的规模化应用已成为趋势 [18] - 技术的进步使AI从执行指令的工具,进化为能够理解人类表达艺术、传递情感并创造触动人心的视听体验的载体 [18]