Workflow
NextStep-1:一次在图像生成上自回归范式的探索
机器之心·2025-08-18 05:15

核心观点 - 阶跃星辰团队发布NextStep-1模型 探索在连续视觉空间中直接以自回归方式生成图像的新路径 通过轻量级流匹配头实现端到端训练 避免离散化信息损失并减少对外部扩散模型的依赖 [2][3][4] - 模型在多项权威基准测试中达到自回归模型的新SOTA水平 部分指标与顶尖扩散模型竞争 同时具备高保真文生图和强大图像编辑能力 [14][21][22] - 团队开源模型并坦诚当前局限性 包括生成稳定性、推理延迟和高分辨率扩展挑战 为未来研究提供明确方向 [25][26][33] 技术架构 - 核心采用14B参数Transformer骨干网络配合157M参数流匹配头 直接在连续空间生成图像Patch 实现高度统一的端到端架构 [7][8][10] - 通过通道归一化技术稳定Token统计特性 训练时增加噪声正则化反而提升输出质量 表明噪声有助于塑造更鲁棒的潜在空间 [16] - 流匹配头尺寸变化(157M→528M)对图像质量影响极小 证明Transformer承担核心生成逻辑 流匹配头仅作为轻量采样器 [12] 性能表现 - 在GenEval基准获得0.63/0.737分 在GenAI-Bench基础项和高级项分别达到0.88/0.907和0.67/0.741分 在DPG-Bench获得85.28分 [21] - OneIG基准总体得分0.417 其中对齐度0.826 文本理解0.507 在WISE基准多个子项达到0.51-0.73分 总体0.79/0.83分 [23] - 图像编辑能力在GEdit-Bench英文集获得6.58分 中文集6.40分 在ImgEdit-Bench获得3.71分 与主流编辑模型相当 [24] 发展挑战 - 高维潜在空间(如16通道)下出现生成不稳定现象 包括局部块状伪影、全局噪声和网格状伪影 可能与数值稳定性及二维空间编码局限性相关 [27][29] - 顺序解码导致显著推理延迟:生成4096长度序列时累计延迟达45.77秒 其中LLM解码占31.86秒 流匹配头多步采样构成额外开销 [28][29] - 高分辨率生成面临收敛效率低和技术迁移难问题 监督微调在小数据集表现脆弱 易陷入过拟合或训练崩溃 [30][32][35] 未来方向 - 通过流匹配头参量化减、模型蒸馏技术实现少步生成 并借鉴多Token预测等LLM技术加速自回归主干推理 [34] - 需探索小数据集微调的稳定方案 平衡目标风格对齐与通用生成能力 同时开发适配自回归框架的高分辨率生成技术 [32][34]