Workflow
扩散模型
icon
搜索文档
EgoTwin :世界模型首次实现具身「视频+动作」同框生成,时间与空间上精确对齐
具身智能之心· 2025-08-28 01:20
技术框架创新 - 提出EgoTwin框架,首次实现第一视角视频与人体动作的联合生成,两者在时间与空间上精确对齐 [2][5] - 采用三通道网络架构,各通道配备独立tokenizer与Transformer模块,跨通道共享权重以减少冗余计算 [11][13] - 基于Head-centric的动作表示将头部设为根节点,直接输出头部6D位姿,使头-相机轨迹一一对应,无需正向运动学推导 [12] 性能突破 - 轨迹对齐误差(TransErr)从1.28米降至0.67米,降幅达48% [7][18][19] - 手部可见性F-score从0.36提升至0.81,增幅达125% [7][18][19] - 在9项评测指标中全面领先基线,包括I-FID从157.86降至98.17,FVD从1547.28降至1033.52 [18][19] 多模态交互机制 - 建立文本-视频-动作双向因果注意力交互机制,实现动作token与视频token的因果循环闭环 [12][14] - 采用异步扩散机制,视频与动作在各自时间轴独立加噪去噪后再交叉通信,保证同步性 [12][16] - 支持T2VM(文本生成视频+动作)、TM2V(文本+动作生成视频)、TV2M(文本+视频生成动作)三种生成模式 [8][16][24] 数据与训练 - 基于Nymeria数据集使用17万段5秒剪辑视频训练,涵盖百余种日常动作 [8][17] - 训练分三阶段:先训练动作VAE,再冻结文本/视频分支训练动作对齐,最后三模态联合微调 [21] - 使用T5-XXL编码文本(226 token)、3D因果VAE处理视频(41帧480×480压缩至9900 token)、自研1D因果VAE处理动作(81帧23关节骨骼压缩至21 token) [20] 应用场景 - 适用于AR/VR、具身智能与可穿戴设备领域,实现视角一致且因果连贯的生成效果 [2][5] - 消融实验证实移除Head-centric标注、双向注意力或异步扩散任一组件均导致一致性指标急剧恶化 [22][23]
中信证券:短期建议关注具身模型行业的资本布局者及数据采集卖铲人
第一财经· 2025-08-25 00:58
模型架构发展 - 大语言模型、大型视觉模型与动作模型融合是当前架构主旋律 [1] - 基于扩散模型的流匹配算法在短期逐渐占据主导地位 [1] 数据战略竞争 - 强资本开支企业以真实数据采集为突破口构建竞争壁垒 [1] - 合成数据及互联网数据因规模化与泛化属性成为重要价值底色 [1] - 数据样方理念持续兴起 预训练及后训练需与数据属性有机结合 [1] 技术赋能方向 - 世界模型对合成数据和策略评判具备规模化赋能潜力 [1] 投资关注重点 - 短期建议关注具身模型行业资本布局者及数据采集卖铲人 [1] - 长期维度建议关注云计算及算力提供者 [1]
从零开始!自动驾驶端到端与VLA学习路线图~
自动驾驶之心· 2025-08-24 23:32
端到端与VLA自动驾驶技术发展 - 端到端自动驾驶技术涉及多模态大模型、BEV感知、强化学习、视觉Transformer、扩散模型等多个领域技术栈 [32] - 技术发展从模块化方法演进至端到端范式 包括一段式、二段式和VLA范式 [36] - VLA(视觉语言动作)成为当前端到端自动驾驶的皇冠技术 上限高且业内招聘需求旺盛 [46] Transformer与大语言模型基础 - Transformer架构核心是注意力机制和多头注意力 通过基础模块堆叠形成Encoder和Decoder [11][13] - Token化采用BPE、Word-Piece等方法 通过合并高频字符实现压缩 [9][13] - 位置编码使用正弦和余弦函数 使模型记住词序且位置偏移量与当前位置呈线性关系 [9][13] 视觉与语言模型对齐技术 - CLIP是视觉与大模型对齐的广为认知的技术 为多模态大模型奠定基础 [18] - 视觉Transformer扩展了Transformer的基本概念 成为多模态模型重要组成部分 [43] - LLAVA等模型进一步推进了视觉语言模型的发展 [43] 课程内容体系设计 - 第一章介绍端到端算法发展历史、范式优缺点及学术界工业界动态 [36] - 第二章重点讲解大语言模型、BEV感知、扩散模型、强化学习等背景知识 [37][43] - 第三章分析二段式端到端 涵盖经典算法PLUTO、CVPR'25的CarPlanner和最新Plan-R1 [38] - 第四章深入一段式端到端子领域:基于感知的UniAD、基于世界模型的Drive-OccWorld、基于扩散模型的DiffusionDrive及基于VLA的ORION [39][41][44][46] - 第五章设置RLHF微调大作业 实现从理论到实践的完整闭环 [48] 技术人才市场需求 - VLA/VLM大模型算法专家岗位薪资达40-70K-15薪 要求3-5年经验硕士学历 [29] - VLA/VLM/LLM算法工程师薪资40-70K-15薪 不限经验但要求深度学习机器学习背景 [29] - VIA模型量化部署工程师薪资40-60K-15薪 要求1-3年经验及模型加速技能 [29] 课程特色与优势 - 采用Just-in-Time Learning理念 通过通俗语言和案例快速掌握核心技术栈 [33] - 帮助学员梳理研究发展脉络 形成自己的研究体系和工作经验 [34] - 配备实战环节包括Diffusion Planner和ORION开源推理评测模块 [44][46] - 学员结课后可达1年左右端到端自动驾驶算法工程师水平 [53] 讲师资质与课程安排 - 讲师Jason为C9本科+QS50 PHD 发表CCF-A论文2篇 现任TOP主机厂算法专家 [24][49] - 课程8月15日开课 预计三个月结课 采用离线视频教学+vip群答疑模式 [52] - 章节解锁时间安排:第一章8月01日、第二章8月15日、第三章8月30日、第四章9月15日、第五章10月30日 [53]
DiT突遭怒喷,谢赛宁淡定回应
量子位· 2025-08-20 07:48
文章核心观点 - DiT(Diffusion Transformers)作为扩散模型领域的核心架构受到质疑,但原作者谢赛宁强调科学验证的重要性并回应质疑,同时指出DiT的技术优势及改进方向 [4][5][6][9][27][29][32] DiT的技术地位与影响 - DiT将Transformer与扩散模型融合,在计算效率和生成效果上超越基于U-Net的经典模型ADM和LDM,并将Transformer扩展到图像视频领域 [9] - 若DiT存在根本性错误,大量依赖DiT的生成模型可能需重新评估,对整个领域产生重大影响 [10] 质疑者的核心论点 - 质疑依据来源于论文《TREAD:Token Routing for Efficient Architecture-agnostic Diffusion Training》,提出Tread策略可将早期层token传递至更深层,无需修改架构或引入额外参数 [12][13][14] - DiT架构可能隐含特性导致FID迅速降低,Tread模型比DiT在40万次训练迭代快14倍,在700万次迭代时快37倍 [15][16] - 质疑者认为大幅性能提升可能否定原有方法,并批评训练中禁用部分网络的做法 [17][19] - 指出DiT后置层归一化可能导致动态范围输出问题,需使用对数尺度处理信噪比差异 [23] - 质疑DiT的条件处理仅通过普通MLP流程,未体现Transformer特性 [25][26] 谢赛宁的回应与技术说明 - 强调Tread策略与"DiT是错的"无直接关联,认为Tread类似随机深度,通过正则化提升特征稳健性 [27][28] - 推荐使用经过验证的Lightning DiT版本(含swiglu、rmsnorm、rope等技术),并指出后置层归一化目前无证据表明存在问题 [29][30] - 提出DiT的核心改进集中于内部表征学习,包括REPA方法、tokenizer修正、语义token拼接、解耦架构及正则化方法 [32] - 训练中采用随机插值/流分配提升效果,SiT作为基准评估方法,时间嵌入需使用adaln-zero并共享参数以避免浪费30%参数 [33] - 指出sd-vae是DiT当前症结,处理256×256分辨率图像需445.87 GFlops且非端到端架构,va-vae和repa-e仅能部分解决问题 [34]
DiT在数学和形式上是错的?谢赛宁回应:不要在脑子里做科学
机器之心· 2025-08-20 04:26
文章核心观点 - 一篇X平台帖子质疑DiT架构存在根本性缺陷 认为其训练效率低且存在隐性设计问题 而TREAD训练策略的提出暴露了这些问题 [1][4][8] - DiT作者谢赛宁回应质疑 承认架构存在改进空间但强调需通过科学实验验证 而非纯理论推测 同时指出DiT当前真正问题是sd-vae模块的低效性 [29][33][36] - TREAD方法通过令牌路由机制显著提升训练效率 在DiT骨干网络上实现14/37倍训练加速 并达到更低FID分数(生成质量更高) [2][6] DiT架构争议点 - 帖子指出DiT使用后层归一化(Post-LayerNorm)处理数值剧烈变化的扩散任务 可能导致不稳定 [11][13] - 批评adaLN-zero机制用简单MLP替代Transformer处理条件数据 限制注意力操作表达力 [12][16] - 引用早期研究认为LayerNorm的偏置参数可能虚假改善性能而非真正优化梯度 [17] TREAD技术优势 - 采用令牌路由机制 训练时使用部分令牌集减少计算成本 推理时恢复完整设置 [6] - 在A100 GPU训练100-10000小时范围内 FID分数显著降低(质量提升)[2][3] - 方法架构无关 可与MaskDiT等技术兼容但更高效 [6] 谢赛宁的技术回应 - 强调TREAD实际更接近随机深度(Stochastic Depth)的正则化效应 而非架构缺陷证明 [36] - 推荐Lightning DiT作为升级版(含swiglu/rmsnorm/rope等技术)[36] - 指出sd-vae模块是真正硬伤:处理256×256图像需445.87 GFlops 低效且非端到端 [36] DiT行业地位 - DiT为扩散模型与Transformer结合的首个工作 替代U-Net成为图像/视频生成主流架构 [20][22][23] - 已成为Sora和Stable Diffusion 3的基础架构 具备学术与工业应用双重价值 [25]
公司通知团队缩减,懂端到端的留下来了。。。
自动驾驶之心· 2025-08-19 23:32
行业技术趋势 - 自动驾驶行业正从模块化方法转向端到端系统 实现传感器输入到车辆规划的直接建模 减少误差累积[2] - BEV感知技术打破模块化壁垒 在统一视角下实现技术跃迁[2] - 端到端自动驾驶需融合多模态大模型、BEV感知、强化学习、视觉Transformer及扩散模型等多领域技术[5] 技术发展现状 - UniAD统一感知和规划任务 首次实现多模块单模型运行 标志端到端时代来临[2] - 端到端技术发展出多方向:二段式(如PLUTO)、基于感知的一段式(如UniAD)、基于世界模型(如OccWorld)、基于扩散模型(如DiffusionDrive)及VLA范式[9] - 扩散模型应用于多模轨迹预测 提升对不确定环境的适应性 代表工作包括DiffusionDrive、Diffusion Planner及DiffE2E[17] 技术挑战与需求 - 端到端技术学习面临多领域知识碎片化、论文数量繁多、缺乏高质量文档及系统实战指导等挑战[5] - 行业要求算法工程师具备多技能融合能力 需同时掌握算法规则、感知决策及端到端与VLA等新技术[2] - VLA作为端到端自动驾驶的皇冠技术 上限高且难度大 成为学术界和工业界研发重点 招聘需求旺盛[20] 技术应用与突破 - 世界模型技术应用广泛 涵盖场景生成、端到端及闭环仿真 代表工作包括Drive-OccWorld和OccLLaMA[15] - VLA技术融合VLM、BEV、扩散模型及强化学习 前沿工作包括小米ORION、OpenDriveVLA及ReCogDrive[20] - RLHF技术应用于VLA算法微调 具备良好延展性 支持预训练和强化学习模块搭建[21] 工业界实践 - 主机厂算法专家主导端到端、大模型及世界模型等前沿算法预研与量产 完成多项自动驾驶产品交付[22] - 行业资源向端到端与多模态大模型攻坚集中 但仍需规则算法兜底 反映技术过渡期特点[2] - 小米ORION截至2025年7月开源推理和评测模块 推动VLA技术透明化与行业应用[20]
端到端VLA的起点:聊聊大语言模型和CLIP~
自动驾驶之心· 2025-08-19 07:20
大语言模型技术发展 - 大语言模型近五年发展迅速,Transformer架构是核心技术基础 [3][5][7] - Transformer核心模块包括注意力机制和多头注意力,通过8个head增强编解码能力 [11][12] - 位置编码采用正弦/余弦函数实现顺序表征,公式为PE(pos,2i)=sin(pos/10000^(2i/d_model)) [9][13] - BPE分词算法通过合并高频字符逐步构建词表,流程包括统计频次、迭代合并等步骤 [8][13] 视觉与语言模型对齐技术 - CLIP是视觉与大模型对齐的典型代表,实现跨模态特征匹配 [18] - 多模态技术栈涵盖BEV感知、扩散模型、强化学习等方向 [48] - VLA(Vision-Language-Action)成为自动驾驶前沿方向,整合VLM、BEV和强化学习技术 [50] 端到端自动驾驶课程体系 课程结构 - 第一章概述端到端发展史,对比模块化与端到端范式差异 [40] - 第二章重点讲解大语言模型、BEV感知、扩散模型等关键技术 [41][48] - 第三章分析二段式端到端方案,涵盖PLUTO、CarPlanner等经典算法 [42] - 第四章深入一段式端到端,包括UniAD、DiffusionDrive等前沿工作 [43][47] - 第五章设置RLHF微调实战,强化VLA技术迁移能力 [52] 技术亮点 - 覆盖CVPR'25最新成果CarPlanner和AAAI'25世界模型Drive-OccWorld [42][45] - 实战项目包括Diffusion Planner和ORION开源框架复现 [47][50] - 课程目标使学员达到1年经验算法工程师水平,掌握40-70K岗位核心技术 [31][57] 行业应用与人才需求 - VLA算法专家岗位薪资达40-70K-15薪,需求集中在3-5年经验硕士 [31] - 技术栈要求涵盖多模态大模型、BEV感知、模型量化部署等方向 [34][48] - 主机厂加速布局端到端量产方案,推动世界模型、扩散模型等技术落地 [26][50]
都在做端到端了,轨迹预测还有出路么?
自动驾驶之心· 2025-08-19 03:35
端到端自动驾驶与轨迹预测技术 - 端到端自动驾驶量产应用仍较少 多数公司沿用二段式端到端或模块化方法 轨迹预测仍是量产主流算法 [1] - 轨迹预测模型与感知模型融合训练即构成端到端系统 该领域研究热度持续 会议期刊相关论文产出量大 [1] - 多智能体轨迹预测需处理历史轨迹数据 预测未来运动 应用于自动驾驶/智能监控/机器人导航 面临行为不确定性和多模态挑战 [1] 扩散模型在轨迹预测中的应用突破 - 扩散模型通过逐步去噪生成复杂分布 在轨迹预测中显著提升多模态建模能力 [2] - LeapfrogDiffusionModel采用可训练跳跃初始化器 减少去噪步骤实现实时预测 在NBA/NFL/SDD/ETHUCY数据集上精度提升19-30倍 [2] - MixedGaussianFlow构建混合高斯先验 在UCY/ETH/SDD数据集达到最先进性能 [2] - PatternMemory-basedDiffusionModel通过聚类运动模式构建记忆库 引导生成多样化合理轨迹 [2] 课程体系与科研目标 - 课程聚焦扩散模型多智能体轨迹预测 包含12周科研+2周论文指导+10周维护期 预期产出算法框架/定量分析/高水平论文 [3][9] - 覆盖轨迹预测技术发展史 比较传统模型与生成式模型创新点 包含LSTM/SocialPooling/Graph-basedmodel等经典方法解析 [24] - 重点解析LED/MGF/SingularTrajectory/MPMNet等先进算法 涉及跳跃初始化/混合高斯先验/运动模式记忆等核心技术 [24] 技术资源支持 - 提供ETH/UCY/SDD等公开行人车辆轨迹数据集及预处理脚本 [20] - 开源LED/SingularTrajectory/MGF/MPMNet等基线代码框架供参考扩展 [21][22] - 必读论文包括CVPR2023跳跃扩散模型/NeurIPS2024混合高斯流等前沿成果 [23] 课程特色与学员收益 - "2+1"师资配置(教授+研究员+行业导师) 配备科研班主任全程督学 [16][17] - 学习周期包含学前测试/个性化指导/学术复习 提供论文初稿/结业证书/推荐信等产出 [18][19] - 学员可掌握扩散模型条件控制/社会交互建模/多模态不确定性处理等高级技术 [24]
从顶会和量产方案来看,轨迹预测还有很多内容值得做......
自动驾驶之心· 2025-08-18 12:00
轨迹预测技术现状 - 轨迹预测仍是自动驾驶核心模块 对下游规划控制至关重要 可提前识别潜在危险并优化行驶路线[1] - 当前VLA方案不稳定 多数量产仍依赖两阶段或类端到端架构 轨迹预测模块不可或缺[1] - 学术界研究热度持续 联合预测/多智能体预测/Diffusion模型等方向在顶会占据重要地位[1] 扩散模型技术突破 - 扩散模型通过逐步去噪实现复杂分布生成 在轨迹预测中显著提升多模态建模能力[2] - Leapfrog Diffusion Model采用可训练跳跃初始化器 在NBA/NFL等数据集上加速19-30倍[2] - Mixed Gaussian Flow构建混合高斯先验 在UCY/ETH数据集达到SOTA性能[2][26] - MPMNet通过运动模式记忆库引导生成 提升轨迹多样性与合理性[2] 课程技术框架 - 融合扩散生成机制与社会交互建模 实现对目标点/环境因素的灵活控制[3][6] - 使用ETH/UCY/SDD等公开数据集验证 对比LED/MGF等主流方法[3][24] - 提供预处理脚本与baseline代码 包括LED/SingularTrajectory等开源框架[25] 课程体系设计 - 12周科研+2周论文指导+10周维护期 覆盖选题/实验/写作全流程[12][35] - 包含CVPR/NeurIPS等顶会论文精讲 如LED(CVPR 2023)/MGF(NeurIPS 2024)[26] - 采用"2+1"师资模式 名校导师授课+科研班主任全程督导[18][19] 学员培养目标 - 系统掌握扩散模型轨迹预测理论 形成完整知识体系[9] - 完成论文初稿产出 获得写作/投稿方法论[13][30] - 硬件要求16GB内存+4GB显存GPU 需熟悉PyTorch框架[14][16] 教学实施方案 - 每周1-1.5小时专题课 从经典LSTM到扩散模型进阶[27][28] - 阶段产出包括研究idea确定/代码实现/论文撰写[27] - 设置先导课与基础测试 配备学术通识准备环节[22]
都在聊轨迹预测,到底如何与自动驾驶结合?
自动驾驶之心· 2025-08-16 00:03
扩散模型在自动驾驶领域的应用综述 - 扩散模型凭借强大的多模态建模能力,能够从复杂数据分布中生成多样性强、符合物理约束的结果,为自动驾驶系统提供新的解决方案 [2] - 该技术可显著提升数据多样性、增强感知系统鲁棒性,并有效辅助决策模块处理各类不确定性,已成为自动驾驶基础模型重要的一环 [3] 感知与三维占用预测 - 基于扩散模型的三维占用预测方法显著优于传统判别方法,尤其在处理遮挡或低可见度区域时表现突出,生成的占用特征能有效支持下游规划任务 [5] - 条件扩散模型被应用于驾驶场景的精准图像翻译,帮助系统更好地理解和适应各种道路环境 [5] 预测与决策应用 - 稳定扩散模型可高效完成车辆轨迹预测任务,生成高精度的其他车辆运动轨迹预测结果,显著提升自动驾驶系统的预测能力 [5] - DiffusionDrive框架利用扩散模型对多模态动作分布的建模能力,通过多模态锚点和截断的扩散机制处理驾驶决策中的不确定性,实现了端到端自动驾驶的创新应用 [5] 数据生成与合成 - 扩散模型有效解决了自然驾驶数据集多样性不足、真实性与可控性受限的难题,为自动驾驶验证提供高质量合成数据 [5] - 可控生成技术对解决3D数据标注挑战尤为重要,未来还将探索视频生成以进一步提升数据质量 [5] 驾驶场景生成技术 - 双条件时间扩散模型(DcTDM)通过引导帧转换结合双条件来增强时间一致性,能够生成长达40秒、节奏一致且连贯的驾驶视频 [7] - 该模型在一致性和帧质量方面性能优于其他视频扩散模型,提高了25%以上 [7] - LD-Scene框架融合大语言模型与潜在扩散模型,通过自然语言实现用户可控的对抗性场景生成,支持对碰撞类型与强度等对抗行为的细粒度控制 [11] 多视角场景生成 - DualDiff双分支条件扩散模型引入占用射线采样(ORS)作为语义丰富的3D表示,结合数值驾驶场景表示实现全面的前景与背景控制 [14] - 该模型在FID分数上达到最先进水平,并在下游的BEV分割和3D目标检测任务中取得更优结果 [14][17] - DiVE基于扩散Transformer的生成框架专门设计用于生成高保真、时间连贯且跨视图一致的多视图视频,能够与鸟瞰图布局和文本描述无缝对齐 [19][22] 交通仿真与场景生成 - DriveGen基于大模型的新型交通仿真框架可生成多样化交通场景并支持定制化设计,包含LLM生成地图及车辆资产的初始化阶段和VLM选取路径点目标的推理阶段 [26][27] - Scenario Dreamer是一种完全数据驱动的自动驾驶规划生成仿真器,其核心是新颖的向量化潜在扩散模型,以约2倍更少的参数、6倍更低的生成延迟实现优于最强基线的生成质量 [28][33] 视频生成与质量控制 - DualDiff+引入奖励引导扩散(RGD)框架维持生成视频的全局一致性和语义连贯性,在NuScenes数据集上将FID分数降低4.09% [34][36] - 在下游任务中,车辆mIoU提升4.50%,道路mIoU提升1.70%,前景mAP提高1.46% [34] 安全关键场景生成 - AVD2事故视频扩散描述框架通过生成与详细自然语言描述及推理对齐的事故视频,增强事故场景理解能力 [39][42] - CCDiff因果组合扩散模型识别智能体间的潜在因果结构并融入场景编码器,提升生成场景的真实性,在碰撞率、偏离道路率等关键指标上展示改进的闭环性能 [44][48] 可控生成与优化技术 - 多引导扩散模型采用直接偏好优化(DPO)算法进行微调,基于引导分数优化偏好,有效应对引导采样微调过程中的复杂性和挑战 [51][52] - SceneDiffuser分摊扩散仿真技术将去噪计算成本分摊至未来仿真步骤中,显著降低单步推演成本(推理步数减少16倍),同时缓解闭环误差 [55][58] 道路场景生成 - DiffRoad扩散模型通过逆向去噪过程从白噪声中合成道路布局,保留真实世界的空间特征,设计的Road-UNet架构优化主干网络和跳跃连接之间的平衡 [59][62] - 该模型能够生成真实且平滑的道路结构,同时保持原始分布特性,生成的场景可以完全自动化转换为OpenDRIVE格式 [61][62] 评估与验证应用 - 基于扩散模型的方法通过融合行为复杂性和交通密度的对抗性引导函数,增强更有效、更真实的安全关键交通场景的生成 [65][67] - AdvDiffuser基于引导扩散的对抗性框架结合扩散模型捕捉背景车辆的合理群体行为,并利用轻量级引导模型有效处理对抗场景,提升可迁移性 [68][71] 系统性能与效率 - SLEDGE基于真实驾驶日志训练的生成式仿真器需要生成的实体具有独特属性,结合对现有车道图表示的系统研究,引入新颖的光栅到矢量的自编码器 [75][76] - 该仿真器支持500米长的路线,使2023年nuPlan挑战赛获胜者PDM的失败率超过40%,所需存储空间减少500倍(<4 GB) [76] 行为仿真与生成 - 通用行为扩散(VBD)框架利用扩散生成模型在闭环环境中预测场景一致且可控的多智能体交互,在Waymo仿真智能体基准测试中实现最先进的性能 [83][84] - 该框架通过基于行为先验和模型优化目标的多步细化,支持推理时的场景编辑,满足各种交通仿真应用中的广泛用户需求 [83] 图像与视频生成 - GenDDS基于隐扩散模型Stable Diffusion XL的驾驶场景生成方法,通过描述性提示引导合成过程,生成逼真且多样化的驾驶场景 [85][88] - GEODIFFUSION将各种几何条件转换为文本提示,赋能预训练的文本到图像扩散模型进行高质量检测数据生成,性能优于先前的L2I方法且训练时间快4倍 [95][96] 街景图像生成 - Text2Street框架通过三阶段实现可控生成:车道感知道路拓扑生成器、基于位置的目标布局生成器和多控制图像生成器 [100][102] - 在nuScenes数据集上显著优于Stable Diffusion等模型,车道计数准确率提升14.91%,目标计数准确率提升16.5% [101][103] 全景视频生成 - Panacea方法生成驾驶场景中的全景可控视频,产生无限量多样化的标注样本,融合新型4D注意力机制与两阶段生成流程以维持一致性 [104][106] - 通过ControlNet框架实现对鸟瞰图布局的精细化控制,能高效生成高质量多视角驾驶场景视频 [104] 布局引导生成 - DrivingDiffusion时空一致的扩散框架用于生成由3D布局控制的真实多视角视频,通过级联多视角单帧图像生成、多摄像头共享的单视角视频生成和后处理步骤解决问题 [119][121] - 该模型在复杂城市场景中生成大规模真实多摄像头驾驶视频,为下游驾驶任务提供支持 [119] 几何控制生成 - MagicDrive街景生成框架通过定制化编码策略融合相机位姿、道路地图、3D包围盒及文本描述,实现多样化3D几何控制 [124][125] - 与现有方法相比,通过分离前景与背景编码避免了BEV投影导致的几何信息丢失,同时支持天气、时间等场景属性控制 [125][128] 场景生成与验证 - DriveSceneGen数据驱动的驾驶场景生成方法从真实驾驶数据集学习并从零开始生成完整的动态驾驶场景,能够以高保真度和多样性生成与真实世界数据分布一致的新型驾驶场景 [128][129] - 在5000个生成场景上的实验结果突显了与真实世界数据集相比的生成质量、多样性和可扩展性 [129] 控制生成技术 - BEVControl两阶段生成方法可精确控制前景与背景内容,支持草图式输入便于人工编辑,在前景分割mIoU上显著超越当前最优方法BEVGen(5.89→26.80) [134][135] - 使用其生成图像训练下游感知模型,NDS指标平均提升1.29 [134] 安全评估生成 - DiffScene基于扩散的安全关键场景生成方法利用扩散模型近似低密度空间分布的能力,设计了多个对抗性优化目标指导扩散生成 [138][139] - 与6个最先进的基线方法相比,生成的场景在3个指标上更具安全关键性,在5个距离函数上更真实,对不同自动驾驶算法更具可转移性 [138] 交通仿真生成 - 场景扩散(Scene Diffusion)系统结合扩散模型与目标检测,直接生成具有现实性和物理合理性的智能体离散边界框布局,能够适应美国不同的地区并捕捉每个地区的复杂特征 [141][144] - 可控交通生成(CTG)条件扩散模型允许用户在测试时控制轨迹的期望属性,同时通过强制动力学保持逼真性和物理可行性 [145][148]