Workflow
Flow Matching
icon
搜索文档
Diffusion Model扩散模型一文尽览!
自动驾驶之心· 2025-09-13 16:04
扩散模型数学原理 朗之万采样与扩散模型基础 - 扩散模型本质是通过神经网络学习解常微分方程/随机微分方程的过程,核心是从随机噪声逐步生成目标数据分布[3] - 图像生成任务可视为从高维概率分布采样,朗之万采样通过分数函数(概率密度梯度)将随机噪声推向高概率区域[11] - 噪声项在朗之万采样中必不可少:无噪声会导致收敛到局部极大值(模式搜索),有噪声才能确保采样多样性并探索多模态分布[11][14][26] - 网络负责生成宏观结构和方向,噪声提供高频细节和纹理,两者结合产生真实感图像[11][26] 分数匹配与训练目标 - 通过高斯核密度估计(KDE)将离散分布连续化,获得可求梯度的分数函数:∇ₓlog pσ(x) = (μ_w(x) - x)/σ² [41][46][53] - 训练目标分为分数匹配和噪声预测两种等价形式:分数匹配直接预测梯度,噪声预测则估计添加的噪声,关系为 sθ(x_t, t) ≈ -(1/σ_t) · εθ(x_t, t) [64][65][66] - 方差爆炸(VE)和方差保持(VP)是两种主流噪声调度策略:VE让方差随时间递增最终变为高斯噪声,VP保持总方差不变[69][70] Flow Matching 框架 - Flow Matching 直接学习速度场而非分数函数,通过构造确定性流将先验分布传输到数据分布[144][145] - MeanFlow 学习平均速度场而非瞬时速度场,可实现一步生成(1-NFE),推理公式为 z₀ = z₁ - uθ(z₁, 0, 1) [105][107][111] - Rectified Flow 通过重流(reflow)技术拉直轨迹,使ODE可用单步欧拉求解,提升推理效率[94][97][98] - 与扩散模型对比:Flow Matching 不依赖高斯先验和边界分数,支持任意可采样分布[144][145] 分类器自由引导(CFG) - CFG 通过线性组合有条件和无条件预测增强控制效果:ū_t(x|y) = (1-w)u_t(x|∅) + wu_t(x|y),其中 w > 1 为引导尺度[179][183][184] - 训练时以概率 η 替换条件 y 为空集 ∅,统一学习有条件和无条件速度场[184][189] - 推导基于贝叶斯规则:∇log p(x|y) = ∇log p(x) + ∇log p(y|x),引导项放大分类器梯度[177][181][193] 概率流ODE统一框架 - 概率流ODE构建确定性生成路径:dX_t = [f(X_t,t) - ½g(t)²∇log p_t(X_t)] dt,其分布演化与SDE一致[148][158][164] - 分数匹配(SDE/ODE)和Flow Matching属同一家族,前者学分数再转速度,后者直接学速度场[148][151] - 扩散模型依赖高斯先验的原因:线性高斯SDE有闭式解,梯度易计算,且边界分数已知(∇log p₀(x) = -x)[133][134][143] 技术实现与优化 - 实现涉及雅可比向量积(JVP)计算,框架如Jax和Torch提供原生支持[115][122] - 损失函数设计避免EMA和stop_gradient,理论保证收敛性且训练稳定[120][121][125] - 采样效率通过平均速度场和直线轨迹优化,减少推理步数[98][105][111] 注:本文仅涉及扩散模型数学原理及算法框架,未包含风险提示、免责声明、评级规则等无关内容[3]
从方法范式和应用场景上看强化与VLA/Flow Matching/机器人控制算法
具身智能之心· 2025-08-19 01:54
方法范式 - 传统强化学习(RL)和模仿学习结合Sim2Real技术,方法包括DQN/PPO/SAC/D4PG/GRPO等,主流仿真环境有Mujoco、Gazebo、Bullet、IssacSim/IssacGym [5] - Diffusion Policy和VLA模型与传统RL的根本区别在于用训练数据分布描述任务目标,而非依赖reward function,适合复杂任务如叠衣服、收拾桌面等 [4] - OpenVLA模型整合多模态输入,基于7B参数的Llama 2语言模型,结合DINOv2和SigLIP视觉编码器 [7] - RDT(Robotic Decision Transformer)采用Goal-Conditioned设计,在AGIBot百万真机数据集上训练 [9] - pi-0引入动作抽象层,将不同机器人关节空间映射到统一潜空间,缓解本体差异问题 [13] - 流匹配(Flow Matching)建模从标准正态分布到复杂目标数据分布的映射,用于生成机器人动作序列 [15][17][18] 技术实现 - 基础运动控制(如人形/四足机器人)以RL+sim2real为主,模型较小,算力消耗低,但全场景丝滑动作仍有差距 [22] - 复杂/长程操作任务采用预训练ViT编码器+LLM,使用diffusion/流匹配/transformer decoder输出动作,通过预训练+微调实现跨机器人泛化 [23] - 宇树官方demo基于IssacGym和PPO算法 [24] - 北京亦庄人形机器人中心开源强化学习运动控制,基于IssacLab融合人体运动数据与AMP奖励,实现天工Ultra机器人21公里奔跑 [24] - pi0预训练阶段利用10,000小时多机器人数据,微调阶段需1-5小时到上百小时任务数据,模型规格为33亿参数 [25] - Google Gemini Robotics采用云端VLA骨干(160毫秒延迟)和本地动作解码器的快慢架构 [25][26] 数据集 - Open X-Embodiment数据集包含1M+ trajectories、500+ skills、22种机器人类型,统一为RLDS格式 [21] - AGIBot数据集为智元机器人开源的百万真机数据集 [9][24] - EgoDex数据集包含829小时人类操作视频,338K轨迹/194任务 [24] 应用场景 - 基础运动控制依赖仿真器、机器人模型和domain randomization设计,reward shaping和sim2real技术 [35] - 复杂长程任务依赖VLA和Diffusion/FM,用训练数据分布描述任务目标,语言索引任务分布 [35] - 任务过程和目标定义方面,强化学习通过reward函数,VLA用数据分布描述,未来可能通过多模态输入预测任务目标 [35] - 底层控制任务适合RL+sim2real,上层复杂任务适合VLA+数据,如叠衣服、收拾桌面等需要理解人类意图的任务 [40]
AI生图大洗牌!流匹配架构颠覆传统,一个模型同时接受文本和图像输入
量子位· 2025-05-30 05:01
AI生图技术突破 - FLUX1 Kontext采用流匹配架构(Flow Matching)实现文本和图像输入的同步处理,突破传统文本编码器与扩散模型分离的技术路线[2] - 该模型由Black Forest Labs开发,具备真正的上下文生成和编辑能力,在奥特曼照片编辑和猩猩打羽毛球生成案例中展现细节丰富度[3][4][5] - 提供专业版(pro)和最高配版(max)两种型号,后者在提示遵循、文字排版和一致性方面有提升[7] 核心功能特性 - 角色一致性:支持跨场景保留人物特征,需通过详细描述保持面部、服饰等元素[11][28][29] - 局部编辑:可精准修改特定区域而不影响其他部分,复杂编辑需分步骤描述[11][15][18] - 风格迁移:需具体到艺术流派或艺术家特征,模糊描述会导致效果偏差[19][20] - 文本编辑:支持增删改文本,但需注意字体易读性和文本长度匹配[22][24][25] 技术性能比较 - 第三方测试显示FLUX1 Kontext在图像质量上优于OpenAI的GPT-4o,且成本更低、无偏色问题[12] - 当前文生图领域排名前三为GPT-4o、Seedream 30和Recraft V3,FLUX1前代产品已落后[34][35] 使用优化建议 - 编辑场景时需明确摄像机角度等构图要素,动词选择需具体化(如"换衣服"优于"改造")[32][37] - 复杂修改应分解为小步骤,通过"保持原始构图"等短语保护关键元素[37] - 颜色和视觉元素需精准命名,避免模糊表述,文本编辑需使用引号标注[37]
Z Tech|对话CV泰斗何恺明新作研究团队,三位05后MIT本科生,Diffusion真的需要噪声条件吗?
Z Potentials· 2025-02-27 04:09
AI生图技术研究突破 - 传统扩散模型和流匹配技术是AI生图主流方法,持续展现创造力 [1] - 最新研究发现噪声条件在去噪模型中可能非必需,颠覆传统认知 [1][3] - 研究由CV专家何恺明领衔,MIT三位大一新生共同一作完成 [1][2] 研究成果核心发现 - 移除噪声条件后模型性能仅温和衰减,流匹配模型表现更优 [2][4] - 新型无噪声条件模型uEDM在CIFAR-10测试中FID达2.23,接近顶尖噪声模型EDM的1.97 [2][6] - 研究提出误差理论解释模型行为差异,无噪声架构性能仅相差13% [3] 研究方法与验证 - 在主流去噪模型上实验证明噪声条件移除影响有限 [4] - 理论分析与实验结果匹配,给出误差界解释 [5] - uEDM模型在图像生成任务中达到接近SOTA水平 [6] 学术活动与资源 - 论文作者团队将于3月3日通过Z Potentials平台进行专题直播讲座 [1] - 讲座含Q&A环节,探讨生成模型及DeepSeek等开源模型发展方向 [2] - 论文链接已公开于arXiv平台,提供学术交流入口 [7]