StoryDiffusion

搜索文档
首个故事可视化综合评估框架来了!80个故事单元53种类别,20种技术方案全面对比
量子位· 2025-08-22 05:51
故事可视化技术发展现状 - AIGC技术进步推动连环画与故事绘本生成成为电影生成叙事性的基础[1] - 故事可视化技术旨在用文字或照片生成连续图片序列[2] - 技术核心挑战在于确保角色形象一致性和构建复杂叙事场景[4] ViStoryBench评估框架设计 - 框架由阶跃星辰携手上科大、西湖大学联合提出[3] - 解决现有评估体系指标单一、维度局限的问题[4] - 特别关注题材多样性和视觉风格谱系等缺失维度[5] - 重视艺术表达与叙事逻辑的有机统一[8] 数据集构建特征 - 包含80个故事单元和53种故事类别[14] - 涵盖344个独立角色和509张参考图像[14][19] - 同时包含中文和英文内容[13] - 每个故事涉及2至10个角色[14] - 采用人工筛选与AI辅助相结合的内容采集方式[16] 评估指标体系 - 包含角色相似性、风格相似性、提示对齐度等多维度指标[22] - 角色相似性从跨相似性和自相似性两个维度评估[25] - 风格相似性基于CSD风格特征解耦能力[29] - 采用登场角色数量匹配度(OCCM)统计角色数量准确性[31] - 使用Aesthetic Predictor V2.5和Inception V3双模型评估美学质量[33] 实验设计与方法覆盖 - 评测超过20种技术方案包含18种主要方法及其变体[33] - 覆盖开源方法、商业产品和多模态大语言模型三大类别[33] - 测试GPT-4o和Gemini-2.0等先进多模态模型[38] - 评估白日梦、豆包、讯飞绘影等商业软件平台[42] - 所有商业产品测试在2025年5月1日至7日期间完成[44] 自动化测试结果分析 - Copy-Paste Baseline在IS分数和美学评分上表现优异但提示一致性显著偏低[55] - 商业模型展现差异化特征:Doubao和GPT-4o在提示一致性和角色数量匹配指标突出[59] - 豆包在角色一致性上获得3.63分(满分4分)的高分[59] - GPT-4o在主观美学上以3.28分夺冠[59] - 自动化指标与人工评价呈现高度相关性相关系数最高达0.7956[60] 技术局限性与发展方向 - 当前专注于多图像的帧间一致性而非同步音视频电影生成[62] - 现有开源方法不支持背景参考图像[62] - 部分方法使用非标准次生参考图像可能影响评估准确性[62] - 评估策略需要权衡专家模型和视觉语言模型的各自局限[62] - 数据集存在版权风险和数据偏好问题[62]