扩散模型 - 财报，业绩电话会，研报，新闻 - Reportify

扩散模型

搜索文档

ICCV 2025 | 扩散模型生成手写体文本行的首次实战，效果惊艳还开源

机器之心· 2025-10-20 09:15

技术突破与核心创新 - 提出名为DiffBrush的全新扩散模型，首次将扩散模型应用于文本行级别的手写体生成任务[2][7] - 模型能够生成风格逼真、内容准确、排版自然的手写体文本行，支持英文、中文等多语言场景[2][7] - 通过内容解耦的风格模块，将风格学习和内容学习分离，避免两者相互干扰[11][12] - 采用“列掩码+行掩码”的内容解耦策略，分别从垂直和水平方向对字符内容进行掩蔽，有效保留书写风格[16][17] - 构建多尺度内容判别模块，包含行级和词级判别器，兼顾全局字符顺序与局部字符结构的准确性[19] 技术方案细节 - 整体框架包括内容解耦的风格模块、风格-内容融合模块、条件扩散生成器和多尺度内容判别模块[13] - 风格编码器采用CNN-Transformer结构，通过列向与行向掩码增强垂直和水平方向的风格学习[13][17] - 多尺度内容判别模块中，行级判别器使用3D-CNN确保字符顺序与词间空白准确，词级判别器通过预训练CNN-LSTM模块确保单词内容准确性[19] - 风格-内容融合模块使用6层Transformer Decoder组成的Blender，先进行垂直风格融合，再进行水平风格融合[20] 性能评估结果 - 在IAM英文数据集上，DiffBrush的HWD指标为1.41，DCER为8.59，DWER为28.60，FID为8.69，IS为1.85，均优于对比方法[23] - 在CVL数据集上，DiffBrush的HWD指标为1.06，DCER为20.92，DWER为36.38，FID为7.57，IS为1.70，表现最佳[23] - 与One-DM方法相比，在中文数据集上字符错误率显著降低，DCER从81.99降至0.73，DWER从82.80降至96.65[23] - 消融实验表明，完整模型（Base+§style+Dline+Dword）的HWD为1.41，DCER为8.59，DWER为28.60，性能最优[29] 应用前景 - 技术可用于个性化字体定制，轻松创造属于用户个人的字体库[4] - 在字体设计、笔迹验证等领域具有广阔应用前景[4] - 未来在历史笔迹复原、鲁棒文本行识别器训练等方面具有应用潜力[35]

AI手写体文本行生成

AI手写体文本行生成

Self-Forcing++：让自回归视频生成模型突破 4 分钟时长极限

机器之心· 2025-10-18 08:30

文章核心观点 - Self-Forcing++技术突破视频生成长度限制，首次实现4分钟15秒高质量长视频生成，无需长视频数据再训练[2][10] - 该技术通过“教师模型即世界模型”的核心思想，利用教师模型纠错能力，使学生模型在长时间尺度下学会自我修复和稳态生成[8][9][10] - 在50秒、75秒和100秒视频生成评测中全面超越基线模型，尤其在动态程度和视觉稳定性指标上表现突出[23][25] 技术原理与创新 - 采用反向噪声初始化技术，在长视频生成后将噪声重新注入已生成序列，保持时间连续性，避免时间割裂[13][14][15] - 提出扩展分布匹配蒸馏方法，将教师-学生分布对齐从5秒窗口扩展为滑动窗口蒸馏，实现长期一致性学习[16][18] - 在训练阶段同步采用滚动KV缓存，实现真正的训练-推理对齐，彻底消除曝光漂移和帧重复问题[19][20] - 引入强化学习的光流平滑奖励机制，惩罚光流突变，使视频运动过渡更自然，光流方差显著下降[22] 性能表现与实验结果 - 模型参数量为1.3B，在100秒视频生成中文本对齐得分26.04，时序质量90.87，动态程度54.12，视觉稳定性84.22[25][26] - 在50秒视频生成评测中，动态程度指标达到55.36，远超基线模型的31.96-39.15，视觉稳定性达到90.94，显著优于基线模型的40.12-60.41[25] - 随着训练算力增加，视频质量显著提升，训练预算达到25倍时可实现几乎无损的长视频生成[31] - 在0-100秒生成过程中能保持很好稳定性，基线模型大多会出现严重质量下降如过曝光和错误累积[25][30] 行业现状与挑战 - 当前主流视频生成模型如Sora、Wan、Hunyuan-Video等普遍受限于数秒短片段生成，存在训练-推理不匹配和误差累积等架构缺陷[6][7][17] - 极长场景下仍存在长时记忆缺失问题，可能丢失被遮挡物体状态，且自回归训练成本较高，效率有待提升[33]

自回归视频生成

自回归视频生成

我们正在寻找自动驾驶领域的合伙人...

自动驾驶之心· 2025-10-17 16:04

业务拓展计划 - 公司计划在2024年向国内外招募10名业务合伙人 [2] - 合伙人将负责自动驾驶相关课程研发、论文辅导业务开发及硬件研发 [2] 重点技术方向 - 公司重点关注大模型/多模态大模型、扩散模型、VLA、端到端自动驾驶等前沿技术方向 [3] - 其他关键领域包括具身交互、联合预测、SLAM、3D目标检测、世界模型等 [3] - 技术布局覆盖闭环仿真3DGS以及大模型部署与量化感知推理 [3] 人才招聘标准 - 合伙人岗位要求应聘者毕业于QS200以内高校并拥有硕士及以上学历 [4] - 优先考虑在顶级学术会议上有发表成果的候选人 [4] 合伙人待遇与激励 - 为合伙人提供自动驾驶领域的资源共享，包括求职、读博及出国留学推荐 [5] - 合伙人将获得丰厚的现金激励 [5] - 公司提供创业项目合作与推荐机会 [5]

多模态大模型

多模态大模型

执行力是当下自动驾驶的第一生命力

自动驾驶之心· 2025-10-17 16:04

行业竞争格局演变 - 智能驾驶行业经历近两年洗牌后，牌桌已更换一批新玩家，但工业界对自动驾驶的投入持续加大，自动驾驶被视为AI核心技术及未来重点布局方向[1] - 行业在2022年之前处于蓬勃发展期，公司只要具备单一长板（如双目技术、硬件能力或AI能力）即可获得发展机会，但此后进入收缩期或平稳期，生存和发展的关键转变为补足短板[1] - 当前在赛道中活跃且表现良好的公司或主机厂，均在系统性地提升硬件、软件、AI能力及工程落地等综合实力，行业实践表明，只有成为“六边形战士”才能在未来竞争中存活并发展得更好[1] 2025年行业展望与人才需求 - 2025年行业将进入冷静期而非收敛期，L3、L4及Robotaxi等新赛道仍存在未解决的技术问题，这为所有参与者保留了机会[2] - 行业变革对个人而言是挑战更是机遇，能够留在行业内担当主力的均为技术栈丰富的综合型人才，抱有“捞一波”心态者将被淘汰，持续积累和构建壁垒是长期受用的策略[2] 自动驾驶之心知识星球社区概况 - 社区旨在解决初学者试错成本高、缺乏完整学习体系的问题，是一个集视频、图文、学习路线、问答、求职交流于一体的综合类自驾社区，目前成员已超过4000人，目标在未来2年内达到近万人规模[4] - 社区联合了众多学术界与工业界专家，内部梳理了超过40种技术路线，并邀请数十位活跃在一线的领域嘉宾答疑解惑，内容涵盖端到端入门、VLA学习路线、数据闭环工程实践等实用主题[4][6] - 社区成员背景多元，来自上海交大、北京大学、CMU、清华大学等国内外知名高校，以及蔚小理、地平线、华为、大疆等头部公司，形成了前沿技术聚集地[17] 社区资源与技术覆盖范围 - 社区汇总了近40个开源项目、近60个自动驾驶相关数据集及主流仿真平台，技术学习路线全面覆盖感知、规划控制、仿真、端到端、VLA等核心方向[18][35][37] - 针对热点技术领域如3DGS与NeRF、世界模型、视觉语言模型（VLM）、自动驾驶VLA、扩散模型、BEV感知等，社区均进行了详细的技术梳理和内容汇总[42][44][47][49][53][55] - 社区提供原创直播课程与系列视频教程，内容涵盖感知融合、多传感器标定、SLAM、决策规划、数据工程、端到端与大模型技术等，并建立了与多家自动驾驶公司的岗位内推机制[12][13] 社区互动与专业交流 - 社区内部定期与学术界、工业界专家畅聊技术趋势与量产痛点，并举办超过一百场专业直播分享，内容涉及VLA模型、V2X、3D检测、轨迹生成等前沿话题[7][92] - 成员可自由提问并获得解答，问题范围包括研究方向选择、就业前景分析、技术路线图求取以及企业内部推荐机会，形成了良好的学习交流与求职对接环境[6][21][94]

端到端自动驾驶

自动驾驶世界模型

视觉语言模型（VLM）

自动驾驶VLA

端到端自动驾驶

自动驾驶世界模型

视觉语言模型（VLM）

自动驾驶VLA

工业界和学术界都在怎么搞端到端和VLA？

自动驾驶之心· 2025-10-17 00:03

端到端自动驾驶技术趋势 - 端到端算法是当前自动驾驶量产的核心算法，技术栈丰富，业内主要存在一段式和两段式两大类范式 [1] - 一段式范式以UniAD为代表，直接从传感器输入建模自车轨迹输出，而二段式则基于感知结果进一步输出自车和他车轨迹 [1] - 一段式端到端算法可进一步延伸出基于感知、扩散模型、世界模型以及视觉语言模型（VLA）等多种子领域，尤其是基于VLA的算法相关论文正爆发式发表，工业界也在争先量产 [1] 自动驾驶VLA与大模型技术 - 核心算法涉及BEV感知、视觉语言模型（VLM）、扩散模型、强化学习、世界模型等，代表了学术界和工业界最前沿的技术方向 [3] - 自动驾驶VLA与大模型实战课程聚焦VLA领域，内容涵盖从VLM作为自动驾驶解释器，到模块化VLA、一体化VLA，以及当前主流的推理增强VLA [3] - 课程配套理论基础梳理，包括Vision/Language/Action三大模块、强化学习、扩散模型等，并设有大作业章节指导从零搭建VLA模型及数据集 [3] 课程师资与团队 - 课程教师团队包括来自清华大学等顶尖院校的研究人员，在ICCV、IROS、EMNLP等国际顶级会议发表多篇论文，研究方向涵盖多模态感知、自动驾驶VLA、大模型Agent等前沿领域 [8][11] - 教师团队具备丰富的自动驾驶、大模型研发和实战经验，例如有教师主持完成多项自动驾驶感知和大模型框架工具，其维护的开源项目总Star数超过2k [8] - 工业界教师团队包括来自国内顶级主机厂的算法专家，拥有CCF-A/B论文发表记录，并主持完成多项自动驾驶感知和端到端算法的产品量产交付，具备丰富的端到端算法研发经验 [12][14] 端到端自动驾驶课程内容 - 端到端与VLA自动驾驶课程由工业界专家带队，聚焦端到端自动驾驶宏观领域，梳理一段式/两段式方向的重点算法和理论基础 [12] - 课程详细讲解BEV感知、大语言模型、扩散模型和强化学习等关键技术 [12] - 课程设计两大实战项目：基于扩散模型的Diffusion Planner和基于VLA的ORION算法 [12] 课程参与要求 - 参与者需要自备GPU，推荐算力在RTX 4090及以上 [15] - 参与者需具备一定的自动驾驶领域基础，熟悉自动驾驶基本模块，并了解transformer大模型、强化学习、BEV感知等技术的基本概念 [17] - 参与者需具备一定的概率论和线性代数基础，熟悉常用数学运算，并具备一定的Python和PyTorch语言基础 [17]

视觉语言模型VLM

视觉语言模型VLM

VAE时代终结？谢赛宁团队「RAE」登场，表征自编码器或成DiT训练新基石

机器之心· 2025-10-14 08:24

技术突破核心观点 - 纽约大学谢赛宁团队提出表征自编码器（RAE），旨在替代存在10多年的变分自编码器（VAE），作为扩散模型（如DiT）的潜空间基础[1][2] - RAE结合预训练表征编码器（如DINO、SigLIP、MAE）与训练好的解码器，实现高质量重建和语义丰富的潜空间，同时具备可扩展的Transformer架构特性[2] - 该方案展现出明显优势，应成为DiT训练的全新默认方案[6] VAE的局限性 - SD-VAE计算量约为450 GFLOPs，而简单的ViT-B编码器仅需约22 GFLOPs，过时的骨干网络使架构比实际需要的更复杂[4] - VAE的潜空间过度压缩（仅4个通道），限制了可存储的信息量，其压缩作用有限，几乎和原始三通道像素一样受限[4] - VAE仅使用重建任务训练，学到的特征很弱（线性探针精度约8%），导致模型收敛更慢、生成质量下降[4] RAE的重建性能与优势 - 使用冻结预训练表征编码器的RAE在重建质量（rFID）上一致优于SD-VAE，例如使用MAE-B/16的RAE达到0.16的rFID，明显胜过SD-VAE的0.62[18] - 即使小型表征编码器模型也保留足够底层细节供解码，重建质量在DINOv2-S、B、L三种尺寸下保持稳定[19] - 增加解码器容量能持续提升rFID，从ViT-B的0.58提升到ViT-XL的0.49，且ViT-B性能已超过SD-VAE，其GFLOPs效率高出14倍[19] - RAE直接继承底层表征编码器的表征能力，线性探测精度远高于SD-VAE的8%，例如DINOv2-B达84.5%，SigLIP2-B达79.1%[18][20] DiT^DH架构创新 - 针对高维RAE潜空间，研究者提出新的DiT变体DiT^DH，引入浅层但宽度较大的头部结构，使扩散模型在不显著增加二次计算成本的前提下扩展网络宽度[3][32] - DiT^DH的收敛速度比标准DiT快，在计算效率（FLOPs）方面显著优于DiT[34] - DiT^DH在不同规模RAE上保持性能优势，例如在使用DINOv2-L时，将FID从6.09降低至2.73[36] 图像生成性能表现 - DiT^DH-XL在ImageNet数据集上取得优异图像生成效果：在256×256分辨率下，无引导条件FID为1.51；在256×256和512×512分辨率下，有引导条件FID均为1.13[5][41] - 该性能大大优于所有先前扩散模型，在256×256下创下新的最先进FID分数[41] - 当训练计算量达约5×10¹⁰ GFLOPs时，DiT^DH-XL表现已超越REPA-XL、MDTv2-XL和SiT-XL等模型；在5×10¹¹ GFLOPs时实现全场最佳FID，所需计算量仅为基线模型的1/40[43] 技术实现关键点 - 研究证明只要解码器训练得当，冻结表征编码器可作为扩散潜在空间的强大编码器，挑战了其不适合重建任务的假设[11][12] - 为使DiT在RAE潜空间中成功生成，模型宽度必须匹配或超过RAE的Token维度，否则训练失败或性能远逊[24][26] - 采用维度相关的噪声调度偏移，通过缩放因子调整噪声时间步长，在高维潜空间训练时带来显著性能提升[28] - 提出噪声增强解码方案，向干净潜变量注入高斯噪声，增强解码器对扩散模型输出空间的泛化能力，改善生成指标（gFID）[29]

RAE（表征自编码器）

DiT（Diffusion Transformer）

VAE（变分自编码器）

RAE（表征自编码器）

DiT（Diffusion Transformer）

VAE（变分自编码器）

Bug变奖励：AI的小失误，揭开创造力真相

36氪· 2025-10-13 00:31

文章核心观点 - AI的创造力并非主动设计的能力，而是其模型架构（局部性和平移等变性）在运行中产生的副作用[6][12][18] - 这种由“不完美”架构导致的“即兴重组”能力，使得AI能生成前所未见的图像，而非简单的复制品[2][12][23] - 研究通过构建纯数学系统“ELS方程机”验证了该观点，其与真实扩散模型输出平均重合度高达90%[16] - AI的创造力机制与生物胚胎发育中的自组织过程具有相似性，表明人类创造力可能也源于类似的“不完美”拼接过程[19][21] 扩散模型的悖论与现象 - 扩散模型的核心任务是去噪，即将数字噪声还原成训练过的图像，理论上应只生成复制品[2] - 但实际应用中，如DALL·E 2、Imagen、Stable Diffusion等模型能生成全新组合的图像，例如“金鱼在海滩上啜饮可口可乐”[4] - 模型会产出如“多手指人像”等怪异但结构完整的图像，这种现象被称为“扩散模型的悖论”[4][6] 创造力的产生机制 - 机制一为局部性：模型生成图像时并非通盘考虑，而是每次只关注一个小的像素“拼块”[8] - 机制二为平移等变性：输入图像移动时，模型生成的画面必须同步移动以保持结构连贯[9] - 这两条机制本是模型限制条件，却使其无法完全依赖记忆，必须在局部进行即兴重组，从而意外产生新意[10][12] 数学验证与类比延伸 - 研究者构建了不依赖训练数据的纯数学系统“ELS方程机”，仅基于局部性和等变性规则进行图像预测[13][16] - ELS方程机与真实扩散模型的输出平均重合度达到90%，证明了创造力的产生可归因于这两条数学规则[16][18] - 该机制与胚胎发育中的形态发生过程类似，细胞根据局部信号自组织，偶尔出错（如多长手指）与AI图像生成错误高度相似[19] - 研究提出人类创造力可能同样源于对经验和记忆的不完整拼接与补全，创新往往生长于偏差之中[21][23]

Artificial Intelligence

Stable Diffusion

Artificial Intelligence

Stable Diffusion

北航团队提出新的离线分层扩散框架：基于结构信息原理，实现稳定离线策略学习｜NeurIPS 2025

AI前线· 2025-10-09 04:48

研究背景与动机 - 离线强化学习的核心挑战在于如何仅利用固定的历史数据集训练有效策略，而扩散模型通过将策略学习重构为条件轨迹生成任务，能有效缓解分布外状态和动作导致的“外推误差”问题[3] - 为提升长时序任务效率，分层策略被引入扩散模型，但现有方法存在固定两层扩散层次结构和单一预定义时间尺度的局限，限制了其对不同任务复杂性的适应性和决策灵活性[2][3] - 这提出了一个核心开放性挑战：如何系统地分析历史轨迹，以构建一个既可泛化又具有任务感知能力的扩散层级结构[3] SIHD框架核心设计 - SIHD框架从层级构建、条件扩散和正则化探索三个方面进行创新设计，以应对现有方法的局限性[5] - 框架通过分析离线轨迹中内嵌的“结构信息”，自适应地构建一个多尺度的扩散层级，从而在具有稀疏奖励的长时序环境中实现高效、稳定的离线策略学习[2] - 其核心设计旨在克服固定层级结构和单一时间尺度的刚性限制，提升决策性能和灵活性[6] 基于结构信息的多尺度扩散层级构建 - SIHD首先从离线数据集中提取所有状态元素，并基于特征相似度构建一个k-近邻状态图[8] - 接着应用结构信息原理，通过HCSE优化算法最小化K-维结构熵，从而获得一个最优的树状编码结构，该树的每一层都代表了在不同粒度上对状态空间的划分[8] - 基于定义的社群结构，SIHD能够为每一条历史轨迹进行自适应的层级分割，确保每个片段内的状态都属于同一个社群，并将每个片段的末端状态定义为该层的子目标[8] - 这一过程使得SIHD能够从数据中自动推断出不同任务的动态时间尺度，构建出一个灵活的多尺度扩散层级[9] 基于结构信息增益的条件扩散模型 - 在SIHD中，每一层的扩散模型都由其上一层的子目标序列进行引导，但创造性地使用结构信息增益作为引导信号，而非传统方法依赖的局部奖励信号[10] - 对于层级中的子序列，其条件输入被定义为对应状态社群的结构信息增益，该增益项量化了从高层级社群过渡到更具体子社群所获得的“信息量”[10] - 这种引导方式不直接依赖于可能稀疏或有噪声的奖励函数，从而使生成过程更加稳定和鲁棒[10] 结构熵正则化器 - SIHD引入了一个结构熵正则化器，旨在缓解对有限离线数据集的过分依赖并鼓励有效探索[11] - 该正则化项通过最大化状态分布的香农熵来鼓励策略探索数据集中覆盖不足的状态区域，同时通过最小化在每个层级的社群划分上的结构熵来约束策略不会过度偏离由编码的行为模式，从而减轻分布偏移带来的风险[12] - 最终的训练目标函数将扩散模型的标准损失与这个正则化项结合起来，尤其是在底层的动作生成模型中，以实现探索与利用的平衡[12] 实验结果与分析 - 在D4RL Gym-MuJoCo基准测试中，SIHD在HalfCheetah、Hopper和Walker2D任务上均取得了最优的平均回报，相较于HDMI和HD等先进分层基线表现出更强的泛化能力[16][17] - 在中低质量的"Medium"和"Medium-Replay"数据集上，SIHD的性能优势尤为突出，平均提升分别达到3.8%和3.9%，验证了结构熵正则化器在缓解数据质量依赖方面的有效性[17] - 在奖励稀疏且对长时序规划要求更高的Maze2D和AntMaze任务中，SIHD的优势更加显著，在所有导航任务的数据集上均实现了最佳性能，平均奖励在单任务Maze2D、多任务Maze2D和AntMaze上分别领先8.3%、7.4%和4.4%[19][22] - 在AntMaze-Large数据集上，SIHD的得分为89.4，显著高于次优方法HD的83.6，并展现了卓越的鲁棒性，在数据质量下降时，其性能降幅被控制在17.1%以内，而基线方法最大降幅可达27.4%[22] 消融研究 - 消融研究证实了SIHD各个组件的必要性，尤其是自适应多尺度层级（SIHD-DH），它的缺失会导致最严重的性能下降，特别是在长时序任务中[21] - 研究结果表明，基于结构信息的自适应层级构建、结构信息增益的条件引导以及结构熵正则化探索共同贡献了SIHD框架的卓越性能[21][23]

离线强化学习

分层离线强化学习

离线强化学习

分层离线强化学习

自动驾驶之心招募合伙人啦！4D标注/世界模型/模型部署等方向

自动驾驶之心· 2025-10-04 04:04

业务拓展计划 - 公司计划在2024年向国内外招募10名业务合伙人 [2] - 合伙人将负责自动驾驶相关课程研发、论文辅导业务开发以及硬件研发 [2] 重点技术方向 - 招募方向聚焦于大模型/多模态大模型、扩散模型、VLA、端到端自动驾驶 [3] - 其他关键技术领域包括具身交互、联合预测、SLAM、3D目标检测 [3] - 世界模型、闭环仿真3DGS、大模型部署与量化感知推理也是重点方向 [3] 合伙人资质要求 - 候选人需毕业于QS200以内高校并拥有硕士及以上学历 [4] - 拥有顶级学术会议成果的候选人将获得优先考虑 [4] 合伙人待遇与资源 - 提供自动驾驶领域的资源共享，包括求职、读博、出国留学推荐等 [5] - 合伙人将获得丰厚的现金激励 [5] - 提供创业项目合作与推荐机会 [5]

闭环仿真3DGS

大模型部署与量化感知推理

多模态大模型

闭环仿真3DGS

大模型部署与量化感知推理

多模态大模型

业务合伙人招募！4D标注/世界模型/VLA/模型部署等方向

自动驾驶之心· 2025-10-02 03:04

业务合伙人招募计划 - 公司计划在2024年向国内外招募10名业务合伙人 [2] - 合伙人将负责自动驾驶相关课程研发、论文辅导业务开发以及硬件研发 [2] 主要技术方向 - 招募方向聚焦于大模型/多模态大模型、扩散模型、VLA、端到端自动驾驶 [3] - 其他重点方向包括具身交互、联合预测、SLAM、3D目标检测、世界模型 [3] - 同时关注闭环仿真3DGS、大模型部署与量化感知推理等前沿领域 [3] 岗位要求 - 候选人需毕业于QS200以内高校，并拥有硕士及以上学历 [4] - 拥有顶级学术会议发表成果的候选人将获得优先考虑 [4] 合伙人待遇 - 提供自动驾驶领域的资源共享，包括求职、读博及出国留学推荐 [5] - 合伙人将获得丰厚的现金激励 [5] - 提供创业项目合作与推荐机会 [5]

多模态大模型

自动驾驶相关课程研发

多模态大模型

自动驾驶相关课程研发