扩散模型

搜索文档
冲破 AGI 迷雾,蚂蚁看到了一个新路标
雷峰网· 2025-09-16 10:20
大模型发展瓶颈 - 数据压榨已到尽头 AGI实现面临突破难题 [2][4] - 自回归范式存在单向建模缺陷 导致模型无法逆向推理和修正错误 [16][17][18] - 出现人名截断 语义颠倒 医疗诊断左右混淆等基础错误 [13][15] 当前技术迭代方向 - 马斯克提出提纯数据方案 尝试打开AGI大门 [5] - 多模态成为重点研究方向 Open AI发布GPT-4o实现多模态感知 [7][8] - 斯坦福李飞飞提出视觉是智能基石的观点 [8] 扩散模型新范式突破 - 蓝振忠与李崇轩合作推出LLaDA-MoE模型 基于扩散理论架构 [12][50] - 扩散模型具备并行解码 双向建模和迭代修正三大优势 [32][33][34][35] - 模型在20T高质量数据上训练 总参数量7B 激活参数量1.4B [63][66] 技术性能表现 - LLaDA-MoE在MMLU测试中获得67.18分 超越LLaDA1.0的65.50分 [71] - 在数学任务GSM8K测试中获得82.41分 接近Qwen2.5-3B的86.28分 [71] - 代码任务MultiPL-E测试中获得52.53分 显著优于LLaDA1.0的29.08分 [71] 行业发展意义 - 首次验证MoE架构在扩散语言模型上的放大效应 [71] - 为行业提供全新技术路径 打破自回归范式垄断 [54][72] - 蚂蚁集团开源模型权重和推理引擎 推动社区共同发展 [74][77] 未来挑战 - 生成速度需提升 当前扩散模型每秒仅50token 远低于自回归300token [72] - 更大规模扩展仍需突破 包括block diffusion等技术难题 [72] - 需要更多研究人员参与 加速扩散语言模型生态建设 [73][78]
论文解读之港科PLUTO:首次超越Rule-Based的规划器!
自动驾驶之心· 2025-09-15 23:33
在端到端自动驾驶领域,这篇文章是一个典型的"两段式网络架构"中的Planner模型,而且它不是基于BEV feature map进行下游控制任务的,而是直接对于感知输出 的结构化的信息(bbox,lanes等等)进行编码,并作为sequence token输入到decoder中,今天就为大家分享一下。二段式端到端非常适合新人练手: 为了帮助大家理解,网络架构图上我们做了详细的模块注释: 我们先整体上看一下PLUTO有哪些关键点: PLUTO主要有三个损失,主任务的损失包含回归损失和分类损失,共同组成模仿学习的损失。而Agent轨迹预测的损失如下图所示: 同时,PLUTO也添加了几个辅助的损失帮助模型收敛: 1)直击痛点,快速入门 本课程基于Just-in-Time Learning理念,通过通俗易懂的语言和案例,帮助学员短时间内掌握核心技术栈。理解关键概念后,拓展特定领域知识将变得更加轻松。 2)构建领域框架,提升研究能力 本文均出自平台最新推出的 『端到端与VLA自动驾驶小班课』 ,我们联合国内TOP主机厂算法专家共同打造! 技术专家带你深入端到端与VLA算法原理与技术开 发,目前已经正式开课! 技术栈多? ...
腾讯混元升级AI绘画微调范式,在整个扩散轨迹上优化,人工评估分数提升300%
量子位· 2025-09-15 03:59
技术突破 - 腾讯混元团队提出Direct-Align和SRPO两项创新方法 显著提升AI图像生成质量 人工评估真实感评分从8.2%提升至38.9% 美学评分从9.8%提升至40.5% [2][5][17] - Direct-Align通过预定义噪声先验实现任意时间步图像恢复 在仅5%去噪进度阶段即可恢复图像粗略结构 解决传统方法梯度爆炸问题 [9][10][11] - SRPO将奖励定义为文本条件信号 通过正负面提示词计算相对奖励差值 实现无需额外数据的在线偏好调整 [5][14][16] 性能表现 - SRPO在HPDv2基准测试中全面领先 自动评估指标Aesthetic Score达6.194 PickScore达23.040 显著优于ReFL DRaFT等方法 [17][18] - 仅需10分钟训练即在32块H20上收敛 训练效率远超DanceGRPO(480 GPU小时)和ReFL(16 GPU小时) [1][18][19] - 通过添加"Realistic photo"控制词 模型生成图像真实感提升3.7倍 美学质量提升3.1倍 [16] 技术优势 - 全扩散轨迹优化突破现有方法局限 避免仅在后25%时间步训练导致的奖励黑客问题(如HPSv2偏好红色调 PickScore偏好紫色图像) [8][13] - 控制词效果与训练集频率相关 高频词如"painting"效果最佳 低频词需组合使用 [16] - 相比DanceGRPO方法 SRPO在保持高美学质量的同时避免产生过度光泽感和边缘高光等不良伪影 [18] 行业影响 - 开发者评价SRPO为下一代RLHF(人类反馈强化学习)技术 展现其在对齐人类偏好方面的突破性潜力 [6] - 该方法在FLUX1.dev模型上实现突破 表现超越最新开源版本FLUX.1.Krea [19]
端到端再进化!用扩散模型和MoE打造会思考的自动驾驶Policy(同济大学)
自动驾驶之心· 2025-09-14 23:33
自动驾驶技术范式演进 - 端到端技术直接映射传感器输入到驾驶操作,跳过人为感知标注和层级信息损失,但现有方法面临多模态分布处理不足、生成平均化动作导致不安全行为的问题[2] - 强化学习方法能在不确定性下优化策略,但对数据需求极高、训练不稳定且难以扩展到高安全性真实道路场景[2] - 大模型如视觉-语言模型和视觉-语言-动作模型在场景理解和泛化能力表现不错,但实际连续控制中受推理速度慢、动作不连贯和安全性保障难度大的限制[2] 扩散模型在自动驾驶中的应用 - 扩散策略将动作生成视为逐步去噪过程,能更好表达多种驾驶选择并保持轨迹时序一致性和训练稳定性[3] - 扩散模型通过直接建模输出动作空间,为生成平滑可靠驾驶轨迹提供更强大灵活的思路,适合解决驾驶决策多样性和长期稳定性问题[3] - 在机器人控制领域,扩散策略已证明比传统模仿学习和强化学习方法更鲁棒稳定,将轨迹生成问题转变为生成式建模问题[12] 专家混合技术集成 - 专家混合技术通过按需激活少量专家,使模型在保持计算效率同时具备更强扩展性和模块化能力[3] - 在自动驾驶中,MoE被尝试用于多任务策略和模块化预测,但多数设计面向具体任务,限制专家复用性和灵活组合能力[3] - 将MoE融入扩散策略可构建抽象驾驶知识模块,实现真正面向端到端自动驾驶的知识驱动策略框架[15] 知识驱动扩散策略框架 - KDP框架结合扩散模型和MoE优点:扩散模型保证生成轨迹多样性和稳定性,MoE将专家组织成结构化知识单元如纵向控制、交互处理和横向规划[4] - 框架注重知识灵活复用和组合而非任务中心设计,实验证明在多样性、稳定性和泛化性上具有优势[4][6] - 采用端到端思路直接将驾驶环境观测生成控制动作,输入包括自车状态、LiDAR点云和高层导航指令,提供完整环境理解[18] 模型架构与性能 - 模型规模研究表明参数量与驾驶性能正相关:Giant模型1.559亿参数推理延迟81.61毫秒,成功率最高但仍满足实时要求[44][46][48] - 在匝道场景成功率100%零碰撞,交叉口场景成功率94%,环岛场景成功率90%,全面优于PPO-Lag、RPID和IBC基线模型[51][57] - 消融实验显示去除MoE路由器导致成功率下降约6%,移除知识正则化使80%计算集中在两个专家,减少扩散步数从100步到20步使成功率下降3%[54][55][56] 专家激活模式分析 - 时间维度激活呈现稀疏阶段性特点,激活峰值与驾驶任务关键阶段吻合:匝道场景中Expert 3负责纵向控制,交叉口场景Expert 1和5负责交互决策[62] - 场景层级专精与复用显示非均匀但非排他分布:Expert 3专精匝道、Expert 5专精交叉口、Expert 6和8专精环岛,Expert 1和4在多场景复用[64] - 稀疏专家路由机制具备较强环境适应性和知识组合能力,在未调优情况下能在多种复杂路况中平稳运行[70] 典型案例表现 - 匝道合流场景在卡车加塞前成功预判并平稳减速保持安全间距,展现稳定纵向控制能力[69] - 无保护左转场景在交叉口平稳减速等待安全间隙后完成左转,轨迹平滑自然[69] - 直行交互场景面对多车高速抢行动态调整策略确保安全通行[69] - 环岛三出口场景精准控制横向位置和角度,在高复杂度环岛中选择正确出口[69]
兼得快与好!训练新范式TiM,原生支持FSDP+Flash Attention
量子位· 2025-09-14 05:05
文章核心观点 - 生成式AI领域长期面临生成速度与生成质量难以兼得的技术矛盾 现有扩散模型和Few-step模型分别受限于局部动力学监督和全局端点映射 存在固有缺陷[1][2] - Transition Model (TiM) 提出全新训练范式 通过建模任意两时间点间的完整状态转移 实现任意步长采样和多段细化轨迹 从根本上解决速度-质量矛盾[3][4][5] - TiM在数学本质上统一了扩散模型和Meanflow模型 作为更通用的框架可退化为两者的特例 在保持少步生成速度的同时达到更高保真度[16][17] - 实验验证TiM-865M参数模型在多项指标上超越FLUX.1系列12B参数模型 尤其在多分辨率、多横纵比生成场景展现显著优势[20][34] 技术方法创新 - 放弃传统瞬时速度场或端点映射学习 直接建模任意时刻t与r间的状态转移 通过"通用状态转移恒等式"描述任意时间间隔内的具体转移[4][11][12] - 设计多段细化轨迹生成路径 将生成过程转化为任意状态与前状态间的转移动态 实现采样步长的灵活调整[13][14] - 提出差分推导方程(DDE)替代雅可比-向量乘积(JVP) 计算效率提升约2倍(24.14G FLOPs vs 48.29G FLOPs) 且原生兼容FSDP和FlashAttention等分布式训练框架[22][24][25] - 引入正切空间变换的时间重参化加权策略 优先短间隔转移训练 有效控制梯度方差并提升稳定性(加权函数w(t,r)=(σ_data+tan(t)-tan(r))^{-1/2})[29][31] 性能表现 - 在Geneval数据集测试中 TiM-865M在NFE=1时FID达49.91 明显优于基线SiT-B/4的309.5 在NFE=50时FID进一步降至17.99[22][32] - 少步生成能力突出:NFE=8时FID为26.09 超越FLUX.1-Schnell(12B参数) 多步生成上限超过FLUX.1-Dev(12B参数)[20][32] - 架构优化贡献显著:解耦时间嵌入(De-TE)和间隔感知注意力(IA-Attn)使NFE=1的FID从56.22降至48.30 结合时间加权后进一步优化至47.46[32] 行业影响 - 提供可扩展的十亿参数级基础模型训练方案 突破传统JVP方法的内存瓶颈(内存占用从14.89GiB优化至15.23GiB)[22][24] - 原生支持多分辨率与多横纵比生成 适应实际应用场景的多样化输出需求[20][34] - 为生成式AI建立统一框架 将局部解拓展到全局生成路径的解流形 推动生成模型向更通用、稳定方向发展[16][33][35]
扩散模如何重塑自动驾驶轨迹规划?
自动驾驶之心· 2025-09-11 23:33
扩散模型技术原理 - 扩散模型是一种生成式模型 本质是通过去噪过程学习数据分布 噪声符合特定分布 [1] - 原理基于正向扩散和反向生成两个过程 模拟墨水在清水中扩散和恢复的物理过程 [2] - 通过神经网络学习分布规律 从纯噪声中恢复原始数据 [2] - 自2020年提出后已获得超过2万次学术引用 [2] 自动驾驶领域应用 - 应用于数据生成 场景预测 感知增强和路径规划等多个自动驾驶关键环节 [11] - 可处理连续分布噪声和离散分布噪声 适用于决策规划等离散问题 [11] - 在端到端和VLA(Vision-Language-Action)架构中发挥重要作用 [11] - 扩散模型在多模轨迹预测中应用广泛 能更好适应自动驾驶环境的不确定性 [28] 端到端自动驾驶课程体系 - 课程涵盖端到端自动驾驶发展历史 技术范式演变及业界动态 [22] - 重点技术栈包括多模态大模型 BEV感知 强化学习 视觉Transformer和扩散模型 [15][29] - 第二章聚焦背景知识 包含视觉Transformer BEV感知 扩散模型理论和VLM强化学习等核心内容 [29] - 课程设置四大核心章节:端到端算法介绍 背景知识 二段式端到端 一段式端到端与VLA [22][23][24] 技术模块深度解析 - 一段式端到端包含基于感知(UniAD/VAD/PARA-Drive) 世界模型(Drive-OccWorld/OccLLaMA) 扩散模型(DiffusionDrive/Diffusion Planner/DiffE2E)和VLA四大方向 [24][26][28] - 世界模型技术可应用于场景生成 端到端控制和闭环仿真 是近年热门研究方向 [26] - VLA架构融合视觉大语言模型 BEV 扩散模型和强化学习 代表端到端自动驾驶最高技术形态 [31] - 课程配备Diffusion Planner和ORION(小米VLA系统)两大实战项目 [28][31] 课程特色与收益 - 采用Just-in-Time Learning理念 通过案例教学快速掌握核心技术栈 [17] - 帮助构建领域知识框架 提升论文分类和创新点提取能力 [18] - 通过RLHF微调大作业实现理论到实践的完整闭环 [33] - 学员需具备4090及以上GPU算力 及Python/PyTorch 概率论 线性代数基础 [38] - 完成课程可达到1年左右端到端算法工程师水平 掌握主流算法框架并具备项目应用能力 [38][39]
谈谈Diffusion扩散模型 -- 从图像生成到端到端轨迹规划~
自动驾驶之心· 2025-09-06 11:59
扩散模型技术原理 - 扩散模型是一种生成式模型 本质是通过去噪过程学习数据分布 噪音符合特定分布 [1] - 模型原理基于对数据分布的学习和模拟 包含正向扩散过程和反向生成过程 [2] - 开山之作自2020年提出 目前引用量已超过20000次 [2] 扩散模型在自动驾驶领域的应用 - 应用主要集中在数据生成 场景预测 感知增强和路径规划等方面 [11] - 可对连续分布噪音和离散分布噪音进行去噪 适用于决策规划等离散问题 [11] - 在端到端和VLA架构中都发挥重要作用 [11] 端到端自动驾驶课程技术体系 - 课程涵盖多模态大模型 BEV感知 强化学习 视觉Transformer 扩散模型等核心技术 [21] - 第二章包含大语言模型 BEV感知 扩散模型理论 强化学习与RLHF等关键技术栈 [18][27] - 扩散模型多模轨迹预测成为学术界和工业界追捧的热点 多家公司尝试落地 [33][34] 课程章节内容设计 - 第一章介绍端到端自动驾驶发展历史 技术范式演变及业界动态 [27] - 第二章重点讲解端到端涉及的背景知识 为后续章节奠定基础 [27] - 第三章聚焦二段式端到端 分析PLUTO CarPlanner和Plan-R1等经典与前沿工作 [28] - 第四章深入一段式端到端子领域 包括基于感知 世界模型 扩散模型和VLA的方法 [29] - 第五章设置RLHF微调大作业 提供预训练和强化学习模块的实战指导 [38] 实战项目安排 - 包含Diffusion Planner实战项目 适用于求职应用场景 [33] - 基于小米ORION的VLA实战 揭开自动驾驶VLA神秘面纱 [36] - RLHF微调作业具有良好延展性 可迁移到VLA相关算法中 [38] 技术人才市场需求 - VLA/VLM大模型算法专家薪资达40-70K-15薪 [19] - 多模态VLA大模型方向顶尖技术人才薪资达90-120K-16薪 [19] - VLM/VLA大模型算法工程师薪资35-65K [19] - VLM实习生日薪220-400元 [19] 课程特色与目标 - 基于Just-in-Time Learning理念 帮助学员快速掌握核心技术栈 [22] - 构建端到端自动驾驶研究框架 提升论文分类和创新点提取能力 [23] - 学完可达1年左右端到端自动驾驶算法工程师水平 [43] - 可复现扩散模型 VLA等主流算法框架 应用于实际项目 [46]
业务合伙人招募来啦!模型部署/VLA/端到端方向~
自动驾驶之心· 2025-09-02 03:14
业务拓展计划 - 公司计划在国内外招募10名业务合伙人[2] - 合伙人将负责自动驾驶课程研发、论文辅导业务开发及硬件研发[2] 技术研究方向 - 重点招募方向包括大模型/多模态大模型、扩散模型、VLA、端到端自动驾驶[3] - 涵盖具身交互、联合预测、SLAM、3D目标检测等前沿技术领域[3] - 世界模型、闭环仿真3DGS、大模型部署与量化感知推理等方向也在招募范围内[3] 人才资质要求 - 要求应聘者来自QS200以内高校且具有硕士及以上学历[4] - 拥有顶级会议论文发表经历者将获得优先考虑[4] 合伙人待遇 - 提供自动驾驶行业资源共享包括求职、读博及出国留学推荐[5] - 设置丰厚的现金激励方案[5] - 提供创业项目合作与推荐机会[5]
上岸自动驾驶感知!轨迹预测1v6小班课仅剩最后一个名额~
自动驾驶之心· 2025-08-30 16:03
行业技术趋势 - 轨迹预测在自动驾驶领域仍是主流算法 许多公司依然沿用二段式端到端或模块化方法而非一段式端到端[1] - 扩散模型在多智能体轨迹预测领域取得重大突破 通过逐步去噪实现复杂分布生成[2] - Leapfrog Diffusion Model采用可训练跳跃初始化器 在多个数据集上实现19-30倍加速并显著提升精度[2] - Mixed Gaussian Flow通过构建混合高斯先验匹配多峰分布 在UCY/ETH和SDD数据集达到最先进性能[2] - Pattern Memory-based Diffusion Model通过聚类人类运动模式构建记忆库 引导生成多样而合理的轨迹[2] 研究应用方向 - 多智能体轨迹预测根据多个交互主体历史轨迹预测未来运动 应用于自动驾驶、智能监控和机器人导航[1] - 研究融合社会交互建模与条件控制机制 实现对目标点和环境因素的灵活引导[3] - 在ETH、UCY、SDD等公开数据集进行实证验证 与LED、MGF、SingularTrajectory等主流方法系统比较[3] 技术发展痛点 - 人类行为具有不确定性和多模态性 使预测任务十分困难[1] - 传统方法依赖循环神经网络、卷积网络或图神经网络建模社会交互[1] - 生成模型如GAN和CVAE虽可模拟多模态分布但效率不高[1] 课程内容体系 - 课程提供ETH、UCY、SDD等公开行人或车辆轨迹数据集及预处理脚本[20] - 提供多个开源框架包括LED、SingularTrajectory、MGF、MPMNet等baseline代码[21][22] - 涵盖CVPR 2023/2024和NeurIPS 2024等顶级会议的最新论文[23] - 课程周期包含12周在线小组科研、2周论文指导和10周论文维护期[9][31] 教学方法特色 - 采用"2+1"式授课师资 配备名校教授、研究院和行业导师领衔授课[16][17] - 提供科研论文idea 每位学员均可获得导师准备的研究课题[9] - 包含全学习周期服务 从基础知识测试到学术通识准备再到后期报告指导[18] - 课程产出包括论文初稿、项目结业证书和推荐信[19]
自动驾驶之心业务合伙人招募来啦!模型部署/VLA/端到端方向~
自动驾驶之心· 2025-08-28 08:17
业务拓展计划 - 公司计划在国内外招募10名业务合伙人[2] - 合伙人将负责自动驾驶相关课程研发、论文辅导业务开发及硬件研发[2] 技术研究方向 - 重点招募方向包括大模型/多模态大模型、扩散模型、VLA、端到端自动驾驶[3] - 涵盖具身交互、联合预测、SLAM及3D目标检测领域专家[3] - 需要世界模型、闭环仿真3DGS、大模型部署与量化感知推理等专业人才[3] 人才资质要求 - 要求应聘者来自QS200以内高校且具有硕士及以上学历[4] - 优先考虑拥有顶会论文发表记录的候选人[4] 合作激励机制 - 提供自动驾驶行业资源共享包括求职、读博及出国留学推荐[5] - 设立丰厚的现金激励方案[5] - 开放创业项目合作与推荐机会[5]