扩散模型
搜索文档
RAE+VAE? 预训练表征助力扩散模型Tokenizer,加速像素压缩到语义提取
机器之心· 2025-11-13 10:03
技术突破核心观点 - 近期研究提出利用冻结的预训练视觉模型特征直接构建潜空间,以提升扩散模型性能,代表技术为RAE和VFM-VAE [2] - VFM-VAE结合了VAE的概率建模机制,将高维预训练特征压缩为低维潜空间表示,系统性地研究了压缩条件下预训练视觉表征对LDM系统的影响 [2] - 该方法通过直接集成冻结的基础视觉模型作为Tokenizer,显著加速模型收敛并提升生成质量,展示了LDM Tokenizer从像素压缩迈向语义表征的演化方向 [2][5] 行业背景与技术挑战 - 扩散模型和多模态生成系统的性能上限日益受限于视觉分词器的表达能力 [6] - 传统蒸馏式方法(如VA-VAE)在有限数据集上训练,在语义保持扰动下容易失稳,导致潜空间表示偏移和系统稳健性下降 [6] - 研究团队提出SE-CKNNA指标,用于量化潜空间与基础视觉模型特征之间的一致性,并评估其对生成性能的影响 [7] VFM-VAE技术方案与架构 - 为解决基础视觉模型高层特征缺乏精确空间结构信息的问题,设计了两阶段解码框架,兼顾语义压缩与像素还原 [13] - 编码侧通过冻结基础视觉模型提取多层语义特征,并利用轻量投影模块映射到潜空间z [14] - 解码器采用多尺度潜特征融合结构,将z分为语义分支和空间分支,分别提供全局风格控制和布局确定 [14] - 使用调制式卷积块与层级式ToRGB输出,在8×8至256×256的金字塔结构中逐级恢复细节 [14] 性能表现与效率优势 - 在ImageNet 256×256上,VFM-VAE在相同训练阶段实现gFID 3.80(without CFG),优于蒸馏路线的5.14 [23] - 与显式对齐机制结合后,仅用80 epochs即可达到gFID 2.22(without CFG),训练效率较蒸馏式Tokenizer系统提升约10倍 [23] - 在文生图任务中,VFM-VAE + BLIP3-o在DPG-Bench上得分59.1,较VA-VAE提升明显;在MJHQ-30K上gFID降至16.98(蒸馏路线为23.00) [23] 行业比较与竞争定位 - 实验数据显示,VFM-VAE在仅使用44M图像训练时,其CKNNA指标相对变化为+1.6%,而VA-VAE(使用160M图像)为-33.2%,表明VFM-VAE在扰动下具有更好的稳健性 [11] - 在生成性能对比中,VFM-VAE结合不同生成模型(如REG、LightningDiT)在多个训练周期下均展现出竞争力的gFID和IST分数 [24] - VFM-VAE将VAE从传统的压缩与还原工具,转化为理解与生成的统一桥梁,使语义在潜空间中得到显式建模与传递 [28]
速递|斯坦福教授创业,Inception获5000万美元种子轮融资,用扩散模型解锁实时AI应用
Z Potentials· 2025-11-07 02:12
公司融资与背景 - AI初创公司Inception获得5000万美元种子轮融资 [2] - 本轮融资由Menlo Ventures领投,Mayfield、Innovation Endeavors、微软M12基金、Snowflake Ventures、Databricks Investment及英伟达NVentures参与,吴恩达和Andrej Karpathy提供天使投资 [2] - 公司项目领导者为斯坦福大学教授Stefano Ermon,其长期专注于扩散模型研究 [3] 核心技术优势 - Inception开发基于扩散的AI模型,该方法通过迭代优化产生输出,不同于主流的自回归模型 [3] - 扩散模型具备并行处理能力,基准测试显示每秒可处理超过1000个token,显著降低复杂任务中的延迟 [5] - 该技术路径在操作大型代码库或应对数据限制时可能更具优势,设计目标为追求极致速度和计算效率 [3][5] 产品进展与应用 - 公司发布专为软件开发设计的新版Mercury模型,并已集成到ProxyAI、Buildglare和Kilo Code等多款开发工具中 [3] - 扩散方法有助于模型优化两个关键指标:延迟(响应时间)和计算成本 [3] - 公司认为基于扩散的大语言模型比现有模型更快、更高效,且该领域仍有大量创新空间 [3]
上海AI Lab发布混合扩散语言模型SDAR:首个突破6600 tgs的开源扩散语言模型
机器之心· 2025-11-01 04:22
核心技术突破:SDAR范式 - 上海人工智能实验室提出全新范式SDAR,旨在解决大模型推理速度慢、成本高的核心瓶颈[2][3] - SDAR通过“训练-推理解耦”设计,无缝融合自回归模型的高性能与扩散模型的并行推理优势,能以极低成本将任意AR模型改造为并行解码模型[4] - 该方法可理解为先培养强大的AR模型,再用极短时间教会其块状并行生成技巧,在保留原有性能的同时实现推理效率的质的飞跃[12] 性能验证结果 - 在多个基准测试中,SDAR模型与原版AR模型性能持平甚至超越,例如在30B规模下,SDAR-Chat在18个基准中的11个上持平或超越了其AR版本[18] - 在科学推理任务上表现突出:SDAR-30B-A3B-Sci模型在ChemBench和GPQA-diamond基准上得分分别从60.5提升至72.8和从61.2提升至66.7,取得12.3和5.5个百分点的显著优势[6][27] - 通过简单的多轮采样+多数投票,SDAR性能可进一步飞跃,在AIME-2025上提升+19.3%,在LMB-hard上提升+15.7%[28] 效率与成本优势 - SDAR仅需50B token的开源数据进行继续预训练即可达到与AR基线相当的性能,远低于需要580B token从头训练的Dream等工作,实现了高效的“即插即用”式适配[19] - 在工业级推理引擎LMDeploy上的实测显示,SDAR-8B-chat在单张H200上实现了相较于AR版本2.3倍的实际加速,峰值吞吐量高达6599 token/s[23] - 模型越大,并行效率越高:更强的模型预测更自信,能一次性并行生成更多token,实现更高的“有效每步生成Token数”,形成“能力与速度”的良性循环[17][22] 行业影响与潜力 - SDAR不仅是一个“加速器”,更是一个“增强器”,为解决复杂推理任务提供了性能与效率俱佳的新范式[27][29] - 该范式的局部双向注意力机制对于精准理解化学式等结构化知识至关重要,在科学领域展现出巨大潜力[6][28] - 研究全面开源了从1.7B到30B的SDAR模型、推理引擎及迄今最强的开源扩散类推理模型,为行业提供了强大而灵活的新工具[31]
视觉生成的另一条路:Infinity 自回归架构的原理与实践
AI前线· 2025-10-31 05:42
视觉自回归模型的技术原理与优势 - 视觉自回归模型采用“由粗到细”的多尺度生成思路,从低分辨率开始逐级放大补全细节,更贴近图像物理属性和人类感知直觉 [12] - 模型通过金字塔式层级结构的改进版VQ-VAE将图像编码为一系列逐级放大的特征残差,残差设计使每级只需补全上级未刻画信息 [15] - 专用Transformer架构支持并行预测整片token,将迭代次数压缩至传统逐点方式的十分之一,显著提升效率 [15] Infinity框架的核心技术创新 - 放弃传统VQ码本改用符号量化技术,对特征激活按正负号压成±1形成1-bit表示,词表大小随通道数指数增长至2^32 [31] - 采用逐位预测机制将token拆分为逐通道二元分类,参数量从100B降至可接受范围,并对微小扰动具有天然鲁棒性 [33] - 引入位级自校正技术,在训练和推理阶段量化回传预测结果,使网络学会纠正前一步错误,显著抑制误差累积 [35] 性能表现与缩放定律验证 - 在ImageNet基准测试中VAR模型首次在生成质量上超越DiT,FID指标达到1.73(VAR-d30-re模型)[18][20] - 模型展现出清晰稳健的缩放曲线,性能随参数增加按幂律提升,2B参数Infinity在1024×1024分辨率下仅需0.8秒生成速度 [18][46] - 大模型在大词表配置下表现更优,当参数规模扩大时2^32词表性能反超2^16词表,验证缩放定律可靠性 [41] 与扩散模型的技术对比 - 扩散模型在单一分辨率上逐步去噪,训练推理步数开销大但误差可被后续步骤修正 [21][27] - 视觉自回归训练并行度高,所有尺度可一次输入网络,不像DiT需按时间步拆分多次前向计算 [27] - Infinity方案在1024×1024分辨率实现与DiT可比的FID指标,支持任意长宽比且推理速度比同量级DiT快3.7倍 [37][46] 行业应用前景 - 视觉自回归路线已从类别生成扩展至通用文本到图像生成,在高分辨率任务中具备与扩散模型正面竞争的能力 [49] - 后训练阶段采用DPO对齐技术可进一步提升画质和细节,表明对齐工作同样适用于VAR框架 [44] - 该技术路线在视频生成领域同样保持明显优势,为多模态AI应用提供新路径 [46]
近500页史上最全扩散模型修炼宝典,宋飏等人一书覆盖三大主流视角
机器之心· 2025-10-29 07:23
书籍核心价值与定位 - 书籍《The Principles of Diffusion Models》系统梳理了扩散模型的发展脉络与核心思想,深入解析了模型的工作原理、有效性及未来方向[5] - 该书以460多页的篇幅,通过严密的数学推导与公式展开,为具有深度学习基础的研究人员、研究生及从业者提供可靠的理论指南[1][8] - 书籍将变分、得分与流等多种视角在统一的数学框架下进行串联,既是研究者的系统参考资料,也是初学者的友好入门读物[5][6] 扩散模型基础原理 - 扩散模型将生成过程视为随时间逐步演化的变换,通过多阶段推理将粗略结构细化为精致细节,与传统生成模型直接学习噪声到数据的映射不同[11] - 领域研究者从三种主要视角发展扩散模型:变分方法、基于得分的方法和基于流的方法,这些视角提供了互补的框架[11][14] - 三种视角在数学上等价,共同构成了扩散建模的统一理论图景,并与变分自编码器、能量模型和归一化流等方法相联系[16][23] 扩散模型核心视角详解 - **变分视角**:源自变分自编码器,将扩散过程理解为通过变分目标学习去噪过程,形成去噪扩散概率模型[23] - **得分视角**:起源于能量模型,通过学习对数数据密度的梯度来指导逐步去噪,在连续时间设定下与随机微分方程和常微分方程理论紧密相连[23] - **流视角**:基于归一化流,将生成建模表述为连续的流动变换,通过ODE描述样本从简单先验分布逐步运输至数据分布的过程[23] - 第6章展示了三种视角之间的深层统一性,第7章进一步探讨其与最优传输理论及薛定谔桥之间的联系[24][25] 扩散采样控制与加速 - 扩散模型的生成过程呈现出由粗到细逐步精化的特征,但采样过程计算代价较高,需要改进采样方法和学习型加速技术[26][27] - **引导式生成**:通过分类器引导和无分类器引导等方法,使生成过程能够根据用户定义的目标或属性进行条件控制,实现偏好对齐[29] - **基于数值求解器的快速生成**:采用先进数值求解器,在更少的反向积分步骤中近似模拟扩散反过程,显著降低计算成本的同时保持生成质量[29] 快速生成模型的学习方法 - **基于蒸馏的方法**:训练学生模型模仿已训练好的教师扩散模型的行为,以显著更少的积分步数重现教师模型的采样轨迹或输出分布[30] - **从零开始的学习**:直接从零开始学习ODE的解映射(流映射),无需依赖教师模型,实现端到端的快速生成,消除多步采样的时间瓶颈[30][31][32] - 这些方法旨在通过模型学习获得对扩散动态的直接近似,从根本上提升生成速度与可扩展性[30] 书籍涵盖范围与理论体系 - 全书围绕统一核心原理展开:构建连续时间动力系统,将简单先验分布逐渐传输至数据分布,并确保任意时刻的边缘分布与预设正向过程诱导的边缘分布一致[33] - 书籍系统推导了扩散模型的基本机制,包括构建支持采样的随机流与确定性流、通过引导机制控制生成轨迹、利用数值求解器加速采样过程[34][36] - 本书旨在建立具有持久价值的理论体系,帮助读者在统一框架下定位新研究、理解方法原理、并具备设计与改进新一代生成模型的能力[36]
正式结课!工业界大佬带队三个月搞定端到端自动驾驶
自动驾驶之心· 2025-10-27 00:03
端到端自动驾驶技术发展现状 - 2023年是端到端量产的元年,2025年将是端到端量产的大年,目前头部新势力和主机厂端到端技术均已实现量产[1] - 工业界存在一段式和两段式两种主要技术范式,一段式代表UniAD直接从传感器输入建模自车轨迹输出,二段式基于感知结果进一步输出自车和他车轨迹[1] - 2024年以来一段式端到端快速发展,衍生出基于感知、世界模型、扩散模型和VLA等多种一段式方法[3] 端到端自动驾驶技术体系 - 端到端与VLA技术涉及BEV感知、视觉语言模型VLM、扩散模型、强化学习等核心内容[5] - 主流自动驾驶企业包括智驾方案供应商和车企都在发力端到端自动驾驶的自研量产[3] - 技术栈涵盖学术界和工业界最前沿的方法,二段式端到端与一段式端到端前沿算法都是工业界和学术界的Baseline[5] 端到端自动驾驶课程内容 - 课程第一章介绍端到端发展历史、技术范式演变及优缺点,分析学术界和工业界研究方向[9] - 第二章重点讲解端到端背景知识,包括VLA涉及的大语言模型、扩散模型、强化学习,以及一段式端到端涉及的BEV感知[9] - 第三章聚焦二段式端到端,讲解经典算法PLUTO、CVPR'25的CarPlanner和最新工作Plan-R1[10] - 第四章涵盖一段式端到端子领域:基于感知的UniAD、基于世界模型、基于扩散模型和基于VLA的方法[12] - 课程大作业选择RLHF微调实战,涵盖预训练模块搭建、强化学习模块搭建和实验实施[13] 端到端自动驾驶技术细节 - 基于感知的方法讲解UniAD和地平线VAD,以及CVPR'24的PARA-Drive[14] - 基于世界模型的方法介绍AAAI'25的Drive-OccWorld和复旦团队的OccLLaMA,探讨世界模型在场景生成、端到端和闭环仿真中的应用[14] - 基于扩散模型的方法讲解DiffusionDrive、Diffusion Planner和吉大DiffE2E,配套Diffusion Planner实战[14] - 基于VLA的方法选取小米ORION、慕尼黑工大OpenDriveVLA和最新ReCogDrive,以ORION作为实战案例[14] 端到端自动驾驶学习目标 - 课程是首个面向端到端自动驾驶的进阶实战教程,旨在推动端到端在工业界落地[15] - 学员学完后能达到1年左右端到端自动驾驶算法工程师水平,掌握端到端技术框架和关键技术[19] - 学习成果包括可复现扩散模型、VLA等主流算法框架,并能将所学应用到实际项目中[19]
智源&悉尼大学等出品!RoboGhost:文本到动作控制,幽灵般无形驱动人形机器人
具身智能之心· 2025-10-27 00:02
文章核心观点 - 研究团队提出名为RoboGhost的创新方案 旨在解决基于语言引导的人形机器人运动流程中存在的多阶段处理问题 通过将文本驱动的人形机器人运动视为生成任务而非简单映射 该方案无需显式的运动解码与重定向流程 能够直接从噪声中解算出可执行动作 在保持语义完整性的同时支持快速响应控制 [6][7][8] 技术方法与架构 - 团队设计了两阶段训练过程 第一阶段采用连续自回归架构训练动作生成器 第二阶段训练基于扩散模型的学生策略 该策略以第一阶段的运动潜变量为条件引导运动降噪过程 [11] - 教师策略采用Mixture-of-experts架构提高泛化性 并引入因果自适应采样方法动态调整动作序列采样概率 以掌握更具挑战性的长运动序列 [11][13] - 推理阶段完全由潜变量驱动 文本描述输入运动生成器获得潜运动表征后 直接通过扩散模型生成可执行动作 无需解码为显式运动序列 消除了运动重定向需求 [13] 实验结果与性能 - 在HumanML3D数据集上 Ours-DDPM模型的R Precision Top 1达到0.639 Top 2达到0.808 Top 3达到0.867 FID为11.706 MM-Dist为15.978 Diversity为27.230 Ours-SiT模型的R Precision Top 1为0.641 Top 2为0.812 Top 3为0.870 FID为11.743 MM-Dist为15.972 Diversity为27.307 [16] - 在HumanML数据集上 Baseline方法的IsaacGym平台成功率为0.92 Empjpe为0.23 Empkpe为0.19 MuJoCo平台成功率为0.64 Empjpe为0.34 Empkpe为0.31 而Ours-DDPM方法在IsaacGym平台成功率提升至0.97 Empjpe降至0.12 Empkpe降至0.09 在MuJoCo平台成功率提升至0.74 Empjpe降至0.24 Empkpe降至0.20 [16] - 在Kungfu数据集上 Baseline方法的IsaacGym平台成功率为0.66 Empjpe为0.43 Empkpe为0.37 Ours-DDPM方法成功率提升至0.72 Empjpe降至0.34 Empkpe降至0.31 [16] - 与Baseline方法相比 RoboGhost将部署时间成本从17.850秒大幅降低至5.840秒 同时成功率从92.0%提升至97.0% [17] - 在未见过的MotionUnion子集测试中 基于扩散的策略相比多层感知机策略成功率从0.54提升至0.68 Empjpe从0.48降至0.42 Empkpe从0.45降至0.39 显示出更优的跟踪效果和鲁棒性 [18][19]
自动驾驶之心合伙人招募!
自动驾驶之心· 2025-10-24 16:03
业务拓展计划 - 公司计划在2024年向国内外招募10名业务合伙人 [2] - 合伙人将负责自动驾驶相关课程研发、论文辅导业务开发及硬件研发 [2] 重点技术方向 - 公司关注的前沿技术方向包括大模型/多模态大模型、扩散模型、VLA、端到端自动驾驶 [3] - 其他重点方向涵盖具身交互、联合预测、SLAM、3D目标检测、世界模型 [3] - 同时关注闭环仿真3DGS、大模型部署与量化感知推理等关键技术 [3] 人才招聘要求 - 合伙人岗位要求应聘者毕业于QS200以内高校并拥有硕士及以上学历 [4] - 优先考虑在顶级学术会议上有研究成果的候选人 [4] 合伙人待遇与激励 - 提供自动驾驶领域的资源共享,包括求职、读博及出国留学推荐 [5] - 合伙人将获得丰厚的现金激励 [5] - 提供创业项目合作与推荐机会 [5]
一个指令误导智能模型!北航等首创3D语义攻击框架,成功率暴涨119%
量子位· 2025-10-23 03:52
核心观点 - 北京航空航天大学与中关村实验室团队提出全新框架InSUR,旨在解决人工智能模型安全对齐中的语义约束对抗样本生成问题 [2] - InSUR框架基于指令不确定性约简思想,实现独立于具体任务与模型的对立样本生成,其工作已入选NeurIPS 2025 [2] - 该框架首次实现了3D语义约束对抗样本生成,为自动驾驶、具身智能等安全关键系统生成高逼真度对抗测试场景提供了新思路 [6][45] 技术框架与创新点 - InSUR框架从“采样方法”、“任务建模”、“生成器评估”三个维度突破,实现“可迁移、可适应、高效能验证”的SemanticAE生成 [9] - 针对人类指令中固有的不确定性导致的三大痛点(指称多样性、描述不完整性、边界模糊性),框架提供了相应解决方案 [8][14] - 框架整体采用扩散模型实现,并在对抗采样器、上下文编码和生成器评估上引入新机制 [11] 采样方法创新 - 设计了残差引导的对抗DDIM采样器(ResAdv-DDIM),解决扩散模型对抗采样问题 [12] - 通过“粗预测语言引导的采样过程”,提前锁定对抗优化方向,避免不同采样步骤中对抗特征优化方向反复跳跃 [12][15] - 加入L2范数约束,确保生成样本不偏离指令语义,显著提升对抗迁移能力与鲁棒性 [16][20] 任务建模突破 - 引入任务目标嵌入策略,实现更好的2D语义约束对抗样本生成,并首次实现3D语义约束对抗样本生成 [22] - 在2D生成中,通过差异化引导掩码控制扩散模型生成内容的语义引导空间分布 [23][26] - 在3D生成中,整合可微分渲染管线,包含3D高斯泼溅渲染器、可微渲染器和ResAdv-DDIM嵌入 [27][29][31] 评估体系构建 - 提供自动评估的任务构建方法,利用WordNet分类体系提升抽象层次来重新构建评估标签 [28][32] - 提出非对抗性样本生成子任务,要求生成对抗样本同时生成可被正确分类的“范例”样本 [33] - 定义相对攻击成功率和语义差异度指标,若在两个指标上都获得高分可充分证明生成器性能 [34] 实验结果 - 在2D SemanticAE上,InSUR在4种代理模型和2种任务设置中,所有目标模型至少实现1.19倍平均ASR提升和1.08倍最小ASR提升 [40] - 在3D SemanticAE生成中,InSUR方法攻击成功率达到92.2%,而非对抗性基线仅为45.1% [42] - 可视化结果表明InSUR生成的对抗样本在迁移攻击性、真实性方面展现出显著优越性 [43][44] 应用前景 - InSUR设计与具体模型和任务解耦,展现出良好可扩展性,为测试时的红队评估框架提供新思路 [45] - 可作为高质量对抗训练数据生成器,利用扩散模型生成的“困难样本”反向提升模型鲁棒性 [45] - 未来可与现有3D场景生成管线集成,应用于自动驾驶、具身智能体等安全关键系统 [45][46]
我们正在寻找自动驾驶领域的合伙人...
自动驾驶之心· 2025-10-22 00:03
业务拓展计划 - 公司计划在2024年向国内外招募10名业务合伙人 [2] - 合伙人将负责自动驾驶相关课程研发、论文辅导业务开发及硬件研发 [2] 重点技术方向 - 公司重点关注大模型/多模态大模型、扩散模型、VLA、端到端自动驾驶、具身交互、联合预测等技术 [3] - 其他关键方向包括SLAM、3D目标检测、世界模型、闭环仿真3DGS、大模型部署与量化感知推理 [3] 合伙人资质要求 - 候选人需来自QS200以内高校并拥有硕士及以上学历 [4] - 拥有顶级会议论文成果的候选人将获得优先考虑 [4] 合伙人待遇与支持 - 提供自动驾驶领域的资源共享,包括求职、读博及出国留学推荐 [5] - 合伙人将获得丰厚的现金激励 [5] - 提供创业项目合作与推荐机会 [5]