视觉生成

搜索文档
NextStep-1:一次在图像生成上自回归范式的探索
机器之心· 2025-08-18 05:15
核心观点 - 阶跃星辰团队发布NextStep-1模型 探索在连续视觉空间中直接以自回归方式生成图像的新路径 通过轻量级流匹配头实现端到端训练 避免离散化信息损失并减少对外部扩散模型的依赖 [2][3][4] - 模型在多项权威基准测试中达到自回归模型的新SOTA水平 部分指标与顶尖扩散模型竞争 同时具备高保真文生图和强大图像编辑能力 [14][21][22] - 团队开源模型并坦诚当前局限性 包括生成稳定性、推理延迟和高分辨率扩展挑战 为未来研究提供明确方向 [25][26][33] 技术架构 - 核心采用14B参数Transformer骨干网络配合157M参数流匹配头 直接在连续空间生成图像Patch 实现高度统一的端到端架构 [7][8][10] - 通过通道归一化技术稳定Token统计特性 训练时增加噪声正则化反而提升输出质量 表明噪声有助于塑造更鲁棒的潜在空间 [16] - 流匹配头尺寸变化(157M→528M)对图像质量影响极小 证明Transformer承担核心生成逻辑 流匹配头仅作为轻量采样器 [12] 性能表现 - 在GenEval基准获得0.63/0.737分 在GenAI-Bench基础项和高级项分别达到0.88/0.907和0.67/0.741分 在DPG-Bench获得85.28分 [21] - OneIG基准总体得分0.417 其中对齐度0.826 文本理解0.507 在WISE基准多个子项达到0.51-0.73分 总体0.79/0.83分 [23] - 图像编辑能力在GEdit-Bench英文集获得6.58分 中文集6.40分 在ImgEdit-Bench获得3.71分 与主流编辑模型相当 [24] 发展挑战 - 高维潜在空间(如16通道)下出现生成不稳定现象 包括局部块状伪影、全局噪声和网格状伪影 可能与数值稳定性及二维空间编码局限性相关 [27][29] - 顺序解码导致显著推理延迟:生成4096长度序列时累计延迟达45.77秒 其中LLM解码占31.86秒 流匹配头多步采样构成额外开销 [28][29] - 高分辨率生成面临收敛效率低和技术迁移难问题 监督微调在小数据集表现脆弱 易陷入过拟合或训练崩溃 [30][32][35] 未来方向 - 通过流匹配头参量化减、模型蒸馏技术实现少步生成 并借鉴多Token预测等LLM技术加速自回归主干推理 [34] - 需探索小数据集微调的稳定方案 平衡目标风格对齐与通用生成能力 同时开发适配自回归框架的高分辨率生成技术 [32][34]
视觉强化学习最新综述:全领域梳理(新加坡国立&浙大&港中文)
自动驾驶之心· 2025-08-16 00:03
研究背景与综述定位 - 视觉强化学习(Visual RL)的爆发源于强化学习在大语言模型(LLM)中的成功迁移,特别是RLHF(人类反馈强化学习)显著提升了LLM的人类偏好对齐与复杂推理能力[7] - 当前领域面临三大核心挑战:复杂奖励信号下的策略优化稳定性、高维视觉输入的高效处理、长周期决策场景的可扩展奖励函数设计[7] - 综述核心目标包括形式化视觉RL问题、分类200+研究为四大支柱(多模态LLM/视觉生成/统一模型/VLA模型)、分析算法设计与评估体系[8] 视觉强化学习的理论基础 - 问题建模采用马尔可夫决策过程(MDP),将文本/图像/视频生成统一为episodic MDP框架,状态包含用户prompt和已生成动作序列[15] - 三大对齐范式:RLHF(三阶段流程:SFT→奖励模型→PPO优化)、DPO(直接优化偏好数据)、RLVR(可验证奖励替代主观偏好)[18][19][20] - 策略优化算法PPO(带价值网络与KL惩罚)和GRPO(组相对优势+移除价值网络)分别适用于通用场景和内存密集型任务[26][27] 四大核心应用领域 多模态大语言模型(MLLM) - 常规RL驱动型MLLM使用可验证奖励(如精确匹配/IoU)优化VLM骨干,代表模型包括RePIC、GoalLadder、GRPO-CARE[32] - 空间感知方向分为2D(Omni-R1双系统GRPO优化情感识别)和3D(MetaSpatial用渲染深度奖励优化AR场景生成)[34] - 图像推理分为"基于图像思考"(SVQA-R1用视图一致性奖励)和"用图像思考"(GRIT优化答案正确性+框精度)[35] 视觉生成 - 图像生成三大奖励范式:人类中心偏好优化(ImageReward)、多模态推理对齐(UnifiedReward)、Metric驱动优化(DDPO最小化FID)[37][40] - 视频生成通过偏好模型优化(InstructVideo)、组相对优化(DanceGRPO)、领域特定奖励(Phys-AR惩罚物理定律违反)提升时序一致性[41] - 3D生成采用RL优化文本-网格生成(DreamCS融合轮廓IoU与CLIP对齐)、交互式编辑(Nabla-R2D3用实时渲染验证奖励)[41] 视觉-语言-动作模型(VLA) - GUI自动化分桌面(GUI-R1映射点击成功为稠密奖励)和移动场景(AgentCPM-GUI压缩动作空间适配设备)[42] - 视觉导航采用端到端RL(VLN-R1时间衰减奖励处理轨迹)和仿真微调(Flare实现家居场景泛化)[45] - 机器人操纵通过任务接地奖励(TGRPO)、课程式RL(RLVLA提升重排成功率)优化长周期规划[45] 评估指标与未来方向 - 分层评估框架包含集合级(FID/FVD)、样本级(人类偏好分数)、状态级(KL散度监控策略漂移)[46][48][49] - 开放挑战包括有效推理平衡(自适应周期策略)、VLA长周期RL(分层子目标发现)、视觉思考RL(混合动作空间设计)[50][51][52] - 奖励模型设计需融合低阶信号(几何一致性)与高阶偏好,并实现跨模态泛化与动态更新[53][56]
DanceGRPO:首个统一视觉生成的强化学习框架
机器之心· 2025-05-14 08:09
研究背景与动机 - 视觉生成领域RLHF方案成熟度显著低于LLM领域,现有主流方案存在效果微弱或显存压力大的问题[4][5] - 当前强化学习优化生成模型的探索存在数据集小(<100 prompts)、仅支持文生图等局限性[5] - GRPO算法因R1工作成为2025年热门技术方向,促使团队在图像生成领域进行创新探索[2] 技术方案创新 - 首创DanceGRPO框架,实现单一强化学习算法覆盖两大生成范式(diffusion/rectified flow)、三项任务(文生图/文生视频/图生视频)[2][8] - 支持四种基础模型(SD/HunyuanVideo/FLUX/SkyReels-I2V)和五类奖励模型(美学/对齐/动态质量等)[2][10] - 采用GRPO策略优化但去除KL散度正则项,通过相同prompt噪声初始化防止reward hacking[9] 核心实验发现 - 训练策略:采样子集timesteps加速训练,多reward模型叠加时采用多advantage叠加方式[9] - 性能影响:强化学习会削弱生成多样性,训练时应避免开启cfg或限制单prompt梯度更新次数[9] - 视频任务:i2v任务需专注motion quality奖励,使用视觉美感奖励易导致模型发散[14] 实验结果数据 - HunyuanVideo训练后VQ指标提升45%(4.51→6.52),MQ指标激增181%(1.37→3.85)[12] - FLUX模型在HPS-v2.1&CLIP Score组合下GenEval得分达0.705,较基线提升7%[12] - Stable Diffusion结合双奖励模型时CLIP Score提升8.8%(0.363→0.395)[12] 技术实现细节 - 通过建模diffusion/rectified flow为stochastic interpolant实现SDE采样方程统一[9] - 创新提出二元奖励模型(阈值化处理美感&图文匹配结果)作为第五类评估维度[10] - 可视化验证显示FLUX训练过程中ODE solver能保持稳定输出[15]
13.8倍吞吐提升!浙大上海AI Lab等提出视觉生成新范式,从“下一个token”到“下一个邻域”
量子位· 2025-03-30 02:37
视觉生成效率瓶颈 - 传统"下一个token预测"方法在图像/视频生成任务中面临严重效率瓶颈 需数千至数万次前向计算导致速度缓慢 [12] - 现有加速方法如并行生成多个token易因邻近token强相关性导致生成质量下降 [13] 邻近自回归建模(NAR)创新 - 采用"下一个邻域预测"机制 将生成过程重构为逐步扩展的"外绘"过程 按曼哈顿距离从初始token依次生成 [2][3] - 引入维度导向解码头 每个头负责空间/时间正交维度预测 实现多token并行生成 [4][16] - 支持高维扩展 视频生成可增加时间维度解码头 三步并行生成(时间/行/列) [17][18] 效率提升量化表现 - 视频生成步骤从传统tn步降至2n+t−2步 如t×n×n token视频效率显著提升 [19][20] - ImageNet 256×256任务中 372M参数NAR-L模型比1.4B参数LlamaGen-XXL FID更低(3.06 vs 3.09) 吞吐提升13.8倍(195.4 vs 14.1 images/s) [21] - UCF-101视频数据集生成步骤减少97.3% 相比PAR方法吞吐提升8.6倍且FVD更低 [23][24] 生成质量对比 - 文本到图像任务中 仅用0.4%训练数据(6M)即达到Stable Diffusion v1.5水平 综合得分0.43优于1.4B数据量的Chameleon-7B(0.39) [26][27] - 在保持质量同时 NAR-M模型比VAR-d16实现92%吞吐提升(248.5 vs 129.3 images/s)且FID更低(3.27 vs 3.30) [21] 技术应用前景 - 为高分辨率图像/长视频生成提供高效解决方案 显著突破现有自回归模型效率天花板 [28][29] - 维度导向设计展现强扩展性 可适配更高维视觉内容生成需求 [17][18]