Workflow
Flux
icon
搜索文档
让扩散模型「可解释」不再降质,开启图片编辑新思路
机器之心· 2025-12-16 02:31
文章核心观点 - 香港中文大学MMLab与上海人工智能实验室的研究团队提出了一种名为TIDE(Temporal-Aware Sparse Autoencoders)的新框架,这是首个真正意义上面向扩散Transformer(DiT)的时序稀疏自编码器框架,旨在解决扩散模型内部机制不透明的问题[3][6] - TIDE的核心创新在于将“时序”作为扩散模型可解释性的关键,通过捕捉不同时间步中保持一致的语义因子,首次清晰呈现了扩散模型内部的渐进式生成过程,且几乎不损害模型的原始生成质量[6][7][10] - 该框架在多个主流扩散模型(如Stable Diffusion XL, PixArt-α, Flux)上得到验证,不仅实现了高质量、可解释的语义因子分解,还催生了全新的“因子级”图像编辑方式,并提升了模型的结构理解与安全性,标志着扩散模型可解释性研究的重要突破[8][12][14][17] 技术原理与创新 - **以时序为核心**:TIDE突破了以往忽视扩散过程时间线的方法,它并非“硬拆”静态特征,而是让模型在时间维度上对齐语义,形成可读、可控的“时间语义剖面”[6] - **无损可解释性**:TIDE的稀疏自编码器在特征空间进行无损重构,扩散轨迹保持稳定,对生成质量影响极小,FID、sFID变化小于0.1%,实现了“可解释而不降质”[7][10] - **因子分解**:TIDE将扩散特征分解为具有明确可控语义的因子,例如负责轮廓、物体姿态、材质纹理的因子,甚至可以捕捉跨时间的概念演化[8] 性能表现与效果 - **生成质量保持**:在多种设置下,TIDE对FID指标的影响很小。例如,在默认配置(5% sparsity, 16d)下,FID仅从基线7.30增加到7.45(增加0.15)[15] - **语义理解提升**:TIDE显著提升了AlignScore中的语义绑定(颜色、形状、纹理)和关系理解(空间与非空间关系)指标,在多项指标上取得最优表现(表中绿色标记)[12][15] - **泛化能力强**:TIDE在SDXL和FLUX-dev等不同主流扩散架构上均表现出稳定的优势。例如,在SDXL上,TIDE的FID增加(+0.14)小于传统SAE(+0.20)[15] - **安全性增强**:在安全性评测中,TIDE将攻击成功率(ASR)降至0.64%,显著低于基线SDv1.4的17.80%,显示出更稳健的特征理解能力[14][15] 应用与影响 - **因子级图像编辑**:基于TIDE分解出的语义因子,研究团队构建了全新的图像编辑方式,无需依赖繁琐提示语或反复调参,即可直接操控扩散过程,实现如调整物体姿态但保持背景一致等操作[8][13] - **推动研究范式**:TIDE不仅是一个技术方法,更是一种新的研究范式,它证明了扩散模型并非不可解释,只是缺少合适的视角(时序),为未来的可解释性研究开辟了道路[17][19] - **未来发展方向**:TIDE为更可控、稳健的扩散编辑系统、统一理解-生成模型的因子级桥接、扩散模型的因果与语义理论研究以及新一代透明可信的视觉生成系统奠定了基础[21]
NUS LV Lab新作|FeRA:基于「频域能量」动态路由,打破扩散模型微调的静态瓶颈
机器之心· 2025-12-12 03:41
研究背景与现有方法局限 - 在大模型时代,参数高效微调已成为将Stable Diffusion、Flux等大规模扩散模型迁移至下游任务的标准范式[3] - 现有主流微调方法如LoRA、AdaLoRA采用静态策略,适配器参数在去噪过程的所有时间步上固定不变,忽略了扩散生成过程内在的时序物理规律[3][8] - 这种静态的“一刀切”方式导致模型在处理复杂结构与精细纹理时顾此失彼,造成了目标错配与计算资源的浪费[3][8] 核心创新:FeRA框架 - 新加坡国立大学LV Lab联合电子科技大学、浙江大学等机构提出FeRA框架,首次从频域能量的第一性原理出发,揭示了扩散去噪过程具有显著的“低频到高频”演变规律[3] - 框架包含三个核心组件:频域能量指示器、软频域路由器、频域能量一致性正则化,形成了一个感知-决策-优化的闭环[11][12][13] - FeRA摒弃传统静态微调思路,通过实时感知潜空间的频域能量分布,动态调度不同的专家模块,实现了参数的解耦[4][16] 技术原理与机制 - 扩散去噪过程具有阶段性特征:生成初期主要恢复图像的低频能量,生成后期重心转移至高频能量[7][15] - 频域能量指示器利用高斯差分算子在潜空间直接提取特征的频域能量分布,形成一个连续的、物理可解释的能量向量[11][16] - 软频域路由器基于能量信号,通过轻量级网络动态计算不同LoRA专家的权重,实现低频主导时激活擅长结构生成的专家,高频主导时过渡至擅长纹理细节的专家[12][16] - 频域能量一致性正则化损失函数强制要求LoRA产生的参数更新量在频域上的能量分布与模型原本的残差误差保持一致,极大提升了训练稳定性[13] 实验验证与性能表现 - 研究团队在Stable Diffusion 1.5、2.0、3.0、SDXL以及最新的FLUX.1等多个主流底座上进行了广泛测试[19] - 在风格迁移任务中,FeRA在Cyberpunk、Watercolor等多种风格数据集上,于FID、CLIP Score和Style评分上均取得了最优或次优的成绩[20] - 在主体定制任务中,FeRA展示了惊人的文本可控性,在CLIP-T指标上显著优于DoRA和AdaLoRA,不仅能记住主体,还能响应新的背景提示词[21][26] 研究总结与行业意义 - FeRA框架通过引入频域第一性原理,将微调从“参数层面的分解”推进到了“机制层面的对齐”[23] - 该工作证明了顺应生成过程的物理规律,利用频域能量进行动态路由,是实现高效、高质量微调的关键路径[23] - 这一工作不仅刷新了各项SOTA指标,更为未来扩散模型在视频生成、3D生成等更复杂任务中的微调提供了极具价值的新思路[27]
ICML 2025|多模态理解与生成最新进展:港科联合SnapResearch发布ThinkDiff,为扩散模型装上大脑
机器之心· 2025-07-16 04:21
多模态理解与生成技术进展 - 当前文本到图像生成技术如Stable Diffusion和Flux缺乏真正的多模态推理能力,难以理解图像与文本的复杂逻辑关系[1] - OpenAI的GPT-4o和Google的Gemini Pro展示了强大能力,但依赖超大规模参数和算力资源[2] - 香港科技大学与Snap Research提出的ThinkDiff方法,仅需少量数据和数小时训练即可实现多模态推理式生成[3] ThinkDiff核心技术 - 核心创新在于将视觉语言模型(VLM)的推理能力迁移至扩散模型,结合两者优势实现高质量生成[7] - 利用LLM与Diffusion共享特征空间的特性,通过代理任务将VLM与LLM解码器对齐[9][11] - 采用掩码训练策略强制对齐网络深度理解多模态信息,避免特征对齐走捷径[15] 模型架构与变体 - ThinkDiff-LVLM版本继承大型视觉语言模型的多模态理解能力[16] - ThinkDiff-CLIP版本强化文本图像组合能力,可扩展至视频生成领域[16][34] - 网络设计关键:对齐VLM自回归生成的tokens特征而非输入tokens,实现真正的推理能力传递[15] 性能表现 - 在CoBSAT基准测试中全面领先:Color-I准确率0.638(较SEED-LLaMA提升32.4%),Action-II准确率0.664(提升220.8%)[19] - 训练效率显著:仅用4块A100训练5小时即达0.463平均准确率,远优于需64块A100训练216小时的SEED-LLaMA[21] - 定性测试显示其生成质量与商业模型Gemini相当,且具备视频生成扩展能力[25][34] 行业影响 - 突破性解决低资源环境下的多模态推理难题,为学术研究和工业应用提供新路径[3][36] - 开创扩散模型理解复杂图文组合的新范式,显著提升生成式AI的语义理解深度[7][15] - 技术方案具备高度可扩展性,可适配不同VLM架构并延伸至视频生成领域[16][34]
【七彩虹教育】最好用的AI是什么?语音助手?大语言模型?文生图?
搜狐财经· 2025-07-15 13:37
人工智能发展现状 - 人工智能领域近期出现小爆发期,语音识别、会议总结工具、交互式文字模型以及图像生成技术如Midjourney、StableDiffusion、HunyuanDiT、Flux等纷纷涌现 [1] 信息处理效率分析 声音 - 人类可理解的语速约为每分钟150-200字,每个字约1字节,信息量约为200 bytes/minute或1600 bits/minute [4] - 语音相关人工智能技术如语音识别和合成已接近或超过人类水平,例如阿里开源的CosyVoice和SenseVoice [11] 图像 - 假设每秒处理一幅1024x1024像素RGB图像,每幅约3.15 MB,每分钟信息量可达189 MB [6] - 图像生成和识别技术尚未达到人类水平,主要因图像信息量远高于语音和文字 [11] 文字 - 平均阅读速度每分钟250-300个英文单词,每个单词约5字节,信息量约为1250 bytes/minute或10,000 bits/minute [8][9] - 大语言模型如ChatGPT和阿里QWen2逐步接近人类水平,QWen2已成为全球开源模型领先者 [11] 信息含量与技术难度关系 - 信息含量排序为语音<文字<图像,技术难度与之正相关,语音最易处理,图像最难 [11]
清华SageAttention3,FP4量化5倍加速!且首次支持8比特训练
机器之心· 2025-06-18 09:34
核心观点 - 清华大学陈键飞团队提出的SageAttention3实现了5倍于FlashAttention的推理加速,并在多种视频和图像生成大模型中保持端到端精度表现 [2][5] - SageAttention3是首个针对BlackWell架构的全FP4量化即插即用注意力算子,在RTX 5090上达到1040 TOPS速度,比H100上的FlashAttention3快1.65倍 [2] - 该团队还首次提出可训练的8比特注意力(SageBwd)用于大模型训练加速,在微调任务中保持与全精度注意力相同结果 [2] 技术突破 推理加速 - SageAttention系列迭代加速效果:V1(2.1倍)、V2(3倍)、V2++(3.9倍)、V3(5倍) [2] - 在RTX5090上实现HunyuanVideo端到端3倍加速(164s vs 489s),视频质量几乎无损 [5][33] - 算子速度相比FlashAttention2和xformers分别提升5倍和10倍 [22] FP4量化创新 - 采用BlackWell硬件支持的Microscaling FP4量化,选择NVFP4格式(准确率99.52% vs MXFP4的98.37%) [15] - 提出两阶段量化解决P矩阵缩放因子范围狭窄问题,显著提升精度 [15][16] - 算法流程优化实现高效Attention算子,两行代码即可加速任意模型推理 [5] 8比特训练 - 对Q/K/V采用Per-block INT8量化,对P采用无量化Overhead的Per-token量化 [17] - 反向传播中保留dOVT为FP16精度,量化其他四个矩阵乘法 [18] - 在Base Model微调任务中与BF16注意力表现完全一致 [33] 应用效果 - 已应用于多个知名大模型:Vidu、CogvideoX、Mochi、Wan、HunyuanVideo、Flux、Llama3、Qwen等 [1] - 在CogvideoX(2B)上端到端速度从64s提升至27s [33] - 训练加速方面,8比特注意力在微调任务中完全无损,但预训练任务与全精度仍有差距 [34] 硬件适配 - 充分利用BlackWell架构的FP4 Tensor Core,RTX5090速度达FP16 Tensor Core的8倍 [9] - 实现GPU底层CUDA Kernel优化,在算子速度和模型精度上均有显著提升 [21]
一手实测深夜发布的世界首个设计Agent - Lovart。
数字生命卡兹克· 2025-05-12 19:08
产品介绍 - Lovart是一款AI设计类垂直Agent工具,专注于设计领域的任务处理 [1][2][3] - 产品目前处于内测阶段,采用邀请码机制获取使用资格 [2][6] - 界面设计简洁,类似AI Chat界面,但强调行业Know How的重要性 [7][8] 核心功能 - 支持复杂设计任务的分解和执行,例如生成系列插画时能自动匹配风格、创建详细执行计划 [9][11][14][19] - 采用多模型协作机制:优先匹配LoRA模型,其次调用GPT4o、Flux、Gemini等大模型 [17][33] - 提供二次编辑功能,包括放大、扩图、抠图、消除、修复等主流图像处理能力 [35][38] - 支持设计尺寸延展,可将原始设计快速适配不同比例(1:1、3:2、16:9等) [50][52] - 实现图文分离功能,可将AI生成海报转换为可编辑版本 [56][57] - 集成视频生成能力,结合可灵、11labs、suno等工具实现图片转视频并配乐 [58][60][61] 技术特点 - 强调风格匹配的优先级,将设计风格作为最高决策因素 [14][15] - 任务分解能力突出,能将用户Prompt转化为超详细设计规范 [19][23] - 模型调用逻辑合理,根据任务需求智能选择最优解决方案 [17][33] - 支持多模态输出,包括插画、海报、UI设计、视频等 [9][41][43][60] 行业影响 - 重新定义设计工作流,实现从需求到成品的全链条自动化 [64] - 将AI设计输出从"作品"升级为"产品",包含交付资源和资产属性 [64] - 预示垂直Agent的发展趋势,各专业领域可能出现专属Agent解决方案 [64] - 可能改变设计师的职业定义和工作方式 [64] 使用体验 - 生成效果良好,能准确理解并执行复杂设计需求 [9][32][43] - 存在部分细节问题,如语义理解偏差、尺寸生成错误等 [54] - 视频生成能力达到demo水平,但影视级制作仍有提升空间 [64][66] - 整体框架成熟,虽为内测版本但已展现完整产品形态 [3][64]