Workflow
Text-to-Image Generation
icon
搜索文档
Nano Banana不及格,开源模型一分难求!上海AI Lab新基准直击文生图模型痛点
量子位· 2025-09-24 03:32
多学科文生图基准GenExam的发布 - 上海人工智能实验室、上海交大、清华大学、香港中文大学联合发布首个多学科文生图考试基准GenExam 旨在用"考试思维"重新定义文生图模型的能力边界 [2][4][8] - 基准覆盖10个一级学科 包括数学、物理、化学、生物、计算机、地理、经济、音乐、历史、工程 共1000道严选题目 平均题目长度达74.8个单词 [4][8][11] - 与传统文生图基准不同 GenExam更注重"对不对"而非"美不美" 要求模型融合理解、推理和生成三大能力 [8][11][13] 评测体系设计 - 采用双维度评测体系:语义正确性(是否符合题意)和视觉合理性(卷面质量) 其中视觉合理性包含拼写、逻辑一致性、可读性三个子项 [14][15] - 设置严格和宽松双评分标准:严格标准要求语义全对且视觉三项满分才算正确 宽松标准采用加权平均(语义70% 拼写10% 逻辑10% 可读性10%) [15] - 使用GPT-5作为自动阅卷老师 通过视觉问答方式逐项检查评分点 平均每道题设有6.9个评分点 [11][14][15] 模型性能表现 - 顶级闭源模型表现不佳:GPT-4o严格评分下正确率仅12.1% 其他闭源模型如Seedream 4.0、Imagen-4-Ultra、Gemini-2.5-Flash-Image严格得分均不足10% [5][16][19] - 开源模型全军覆没:所有开源模型严格得分接近0% 表现最好的Qwen-Image严格得分仅0.3% 统一多模态模型(如BAGEL、Show-o2)表现不如专用文生图模型 [16][19] - 宽松评分下差距明显:闭源模型得分在50-60分区间 开源模型得分在10-30分区间 在语义正确性、拼写、逻辑一致性、可读性四个方面均存在显著差异 [16][17] 典型错误类型 - 知识缺失:如音乐题中画错半音圈的调号顺序 [24] - 推理不足:如几何题中算错函数交点坐标 [24] - 视觉疏漏:如拼写错误、标签错位(如将"-1,0"标在y轴上) [24] 行业意义与未来方向 - GenExam将图像生成转化为考试任务 为文生图模型设立新目标:从"画得好看"走向"画得正确" [23] - 当前模型在专业场景存在核心短板 未来需在知识整合、逻辑推理、精准生成上持续突破 才能从通用图像生成工具升级为专业领域助手 [22][23] - 当模型能通过GenExam考试时 才真正迈入"专家级AGI"水平 目前这场考试才刚刚开始 [23][24]