Stable Diffusion 3
搜索文档
直观理解Flow Matching生成式算法
自动驾驶之心· 2025-12-17 00:03
作者 | 张云聪 编辑 | 自动驾驶之心 原文链接: https://zhuanlan.zhihu.com/p/28731517852 点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近30个 方向 学习 路线 >>自动驾驶前沿信息获取 → 自动驾驶之心知识星球 本文只做学术分享,如有侵权,联系删文 目前不少讲Flow Matching的文章都上来一大堆概念,一大堆公式,搞得人头皮发麻,但实际上这个算法没 那么复杂,代码也很容易理解。 本文不推导公式、无高深数学概念即可理解flow matching算法,并完成一个简单的代码实战。 算法原理 Related Works Flow Matching是一种 生成式模型 。 最简单的生成式模型,目标就是没输入的情况下,就能生成与给定目标集中的样本相近的样本。 举个例子,可以直接无提示的用diffusion模型来生成图片。 带提示的生成式任务是可以基于无提示的生成式任务简单实现的,这里我们先只考虑无提示的生成式任 务。 由于我们一般学的是一个映射,拿一个空输入映射成不同的样本不太符合映射的定义,因此,我们一般实 际上会生成一堆随机值作为输入, ...
直观理解Flow Matching生成式算法
自动驾驶之心· 2025-11-28 00:49
算法核心原理 - Flow Matching是一种生成式模型,旨在从随机输入生成与目标数据集相似的样本[3][4] - 与直接学习随机数据到目标数据的映射不同,该算法通过学习一个“行驶方向”或速度场,引导随机点逐步移动到目标分布区域[12][14] - 训练时在源点到目标点的连线上采样中间点,并学习其朝向目标点的移动方向,推理时从随机点出发,沿学习到的方向场移动,最终收敛到目标分布[16][17] 技术优势与比较 - 相比自回归模型逐像素生成效率低的问题,Flow Matching通过一次生成关联较小的区域来平衡效果与效率[9][10] - 相较于扩散模型的多步迭代降噪,Flow Matching提供了一种更直接高效的生成方案,已被Stable Diffusion 3、Meta MovieGen等应用[12] - 该算法能有效避免模型输出因可能性过多而退化为多种可能状态平均值的问题,生成质量更高[7][11] 代码实现与实战 - 基础实现包含生成随机源点、与目标点线性插值得到中间点、训练网络预测速度场并与真实方向计算损失等关键步骤[18][19] - 带提示词的生成模型可通过在预测网络中增加提示词输入实现,将生成过程约束到特定条件或区间[24][26] - 在MNIST手写数字生成任务中,采用UNet作为骨干网络以融合多尺度特征,并改用自适应步长ODE求解器以提升生成精度[32][34][36] 行业应用与前景 - 端到端自动驾驶算法工程师等岗位薪资范围达50-80K,显示市场对相关技术人才需求旺盛[50] - 行业课程涵盖从算法框架、强化学习应用到轨迹优化、模型部署等量产经验,旨在培养面向就业的实战能力[48][49] - 量产专家分享的导航信息编码、时空联合规划兜底等经验,直接关联算法在真实场景中的落地优化[47][49]
慕尼黑工业大学等基于SD3开发卫星图像生成方法,构建当前最大规模遥感数据集
36氪· 2025-06-30 07:47
卫星图像生成技术突破 - 德国慕尼黑工业大学和瑞士苏黎世大学团队提出结合地理气候提示与Stable Diffusion 3(SD3)生成卫星图像的新方法,并创建了最大遥感数据集EcoMapper [1][2] - EcoMapper数据集包含来自全球104,424个地点的290万张RGB卫星图像,覆盖15种土地覆盖类型及气候记录,空间覆盖面积达270万平方公里(占陆地面积2.05%)[5][7] - 该方法通过合成图像填补云层覆盖导致的观测空白,为全球气候适应和地理空间分析提供新工具 [2] 数据集与模型架构 - EcoMapper数据集按时间分批次采集,训练集含98,930个点位各24个月观测数据,测试集含5,494个点位96个月数据 [5][6] - 采用两种生成模型:微调后的SD3(支持1024x1024高分辨率)和专为遥感设计的DiffusionSat,后者通过元数据嵌入层增强时空属性编码 [8][9] - 多条件生成框架结合ControlNet技术,以历史卫星图像维持空间结构,气候提示反映环境变化,支持时间序列景观演变模拟 [10][12] 性能验证与行业应用 - SD3-FT-HR模型在文本到图像任务中FID最低(49.48),生成图像细节优于基线模型(SD3基线FID 157.36)[14][15] - 多条件生成模型FID进一步降至48.20,保持地理特征同时精准融合气候变化 [19][20] - 技术可应用于作物预测、土地利用监测及多云地区图像填补,推动气候变化可视化与情景探索 [22] 行业技术发展动态 - DiffusionSat为首个卫星图像专用扩散模型,支持多光谱输入和时间序列生成,由斯坦福团队开发并发表于ICLR 2024 [23] - MetaEarth模型通过自级联框架实现全球尺度无边界图像生成,北京航空航天大学团队成果 [24] - Earth Intelligence Engine结合物理模型生成洪水卫星图像,MIT等机构验证其物理一致性与泛化能力 [25][26]