核心观点 - 南京大学等机构联合研发了首个解耦布局推理与多轮可控编辑的图形设计大模型PosterCopilot,旨在解决现有AI设计工具在专业工作流中的核心痛点,构建智能设计助手 [2] - 该模型通过创新的三阶段训练策略和生成式智能体架构,实现了专业级的版式生成、多轮精细化编辑及从灵感到素材的自动化落地,并在多项评测中全面超越现有商业与学术竞品 [14][34][35] 行业痛点与现有方案短板 - 当前以文生图模型为代表的AI工具无法处理分层结构,导致用户素材失真且缺乏精细化控制,难以融入专业工业设计流程 [6] - 现有的多模态布局模型存在四大根本性缺陷:1) 将连续坐标量化为离散Token,破坏了几何连续性,导致对齐错误与比例失调;2) 训练缺乏视觉反馈,模型处于“盲推”状态;3) 强迫模型向单一真值回归,扼杀了布局多样性与创造力;4) 不支持图层级迭代编辑,修改时“牵一发而动全身” [8][10][12] 解决方案:PosterCopilot框架与训练 - 提出渐进式三阶段训练策略,将布局生成从回归问题转化为分布学习与强化学习结合的范式 [14][15] - 阶段一(PSFT):通过引入高斯噪声扰动,让模型学习坐标分布,修复因Token化导致的几何空间扭曲 [15] - 阶段二(RL-VRA):引入基于DIoU和元素保真的奖励信号,修正元素重叠和比例失调等“幻觉”问题 [15] - 阶段三(RLAF):利用美学奖励模型进行偏好对齐,鼓励模型探索比训练数据真值更具视觉冲击力的布局方案 [15] - 构建了包含16万张专业海报、总计260万个图层的高质量分层数据集,通过OCR辅助技术解决了图层过度碎片化问题 [32] 核心功能与智能工作流 - 生成式智能体架构:模型包含“接待模型”和“T2I模型”,可将用户抽象构思自动拆解为详细规划,并生成精准提示词以驱动素材生成,实现从灵感到物料的无缝转化 [16][17] - 全素材海报生成:当用户提供完整素材时,模型专注于布局推理,进行符合美学规律的精准排列,并保障用户素材零失真 [21] - 缺素材智能补全:在素材缺失的冷启动场景下,能理解设计意图,自动生成风格统一的背景或前景装饰层 [23] - 多轮精细化编辑:支持精准单层编辑(如仅更换模特发色),同时完美“冻结”其他非编辑区域,打破了传统模型无法局部修改的限制 [31] - 全局主题迁移:可将海报主体(如从“棒棒糖”切换为“冰淇淋”)及相关元素进行替换,同时保留原有排版骨架 [28] - 智能尺寸重构:只需更改画布尺寸参数,模型即可根据新长宽比智能重新推理布局,一键适配不同媒体版面 [29] 性能表现与评测结果 - 模型以Qwen-2.5-VL-7B-Instruct为骨干,在涵盖布局合理性、文本可读性、素材保真度等六大维度的评测中表现卓越 [34] - 人工评测综合胜率:对比微软Microsoft Designer、Nano-Banana及学术界SOTA模型(如CreatiPoster、LaDeCo),平均胜率超过74% [35] - 详细指标胜率:在与其他主流模型的对比中,PosterCopilot在各项关键指标上均取得高胜率,例如在布局合理性上对Qwen-2.5-VL-72B胜率为96.8%,对Creatiposter胜率为92.8% [37] - GPT-5评测:在GPT-5的打分中,PosterCopilot在布局合理性和风格一致性上均大幅领先Qwen-VL-2.5-72B和Gemini 2.5 Pro [37] 技术落地与产业意义 - 该研究已获得华为-南京大学鲲鹏昇腾科教创新孵化中心支持,并完成了对国产昇腾算力平台的适配与部署,推动了国产AI设计技术的落地 [3] - 该框架为智能设计工具树立了新基准,通过让大模型掌握专业设计师的“图层思维”,为未来AI辅助创意工作流提供了新范式 [40]
南大联合LibLib.ai、中科院自动化所,共同提出布局推理与精准编辑「海报设计大模型」PosterCopilot
机器之心·2025-12-10 08:13