文生图安全防线形同虚设?AAAI2026:现有防御策略存在普遍盲区
量子位·2025-12-27 09:00
T2I-RiskyPrompt团队 投稿 量子位 | 公众号 QbitAI 在图像生成技术不断融入创意、媒体与商业生产的今天, 文本生成图像(Text-to-Image,T2I)模型 正快 速成为通用内容生产工具。 然而,随着理解能力和生成能力的提升,这类模型在面对高风险提示时反而愈发脆弱,可能产生违规或潜在 有害的图像。 在这一背景下,天津大学团队在AAAI2026提出了 T2I-RiskyPrompt ——一个覆盖 6大类、14个子类 、包 含 6432条高风险提示 的多模态安全基准。 该工作从风险体系构建、数据集基准构建、到多种设定下T2I模型的实验评估,系统揭示了当前T2I模型 在"真实风险环境"下的整体脆弱性。 基准构建 从平台政策到风险体系:高风险提示到底从何而来? T2I-RiskyPrompt的核心起点来自现实平台的安全规范。团队系统梳理了OpenAI、Midjourney、Google、 Meta、Microsoft、Stable Diffusion与FLUX七家平台的内容安全政策,从中提炼出覆盖更全面、粒度更细 的风险体系。 该体系包括图1所示的 6大风险类别、14个细粒度子类 : 色情: ...