Diffusion模型

搜索文档
自回归模型杀回图像生成!实现像素级精准控制,比Diffusion更高效可控
量子位· 2025-07-29 05:05
AI图像生成技术 - 当前AI图像生成领域Diffusion模型占据主导地位,但在精准控制方面存在不足[1] - 自回归模型(AR)成为新研究方向,MENTOR框架通过两阶段训练法实现像素级精准控制[2][3] - MENTOR在多模态图像生成中解决了模态失衡问题,仅需十分之一训练数据即超越Diffusion方法性能[2][5] 技术架构创新 - MENTOR采用统一的自回归架构,将多模态输入与输出图像token对齐[8][9] - 两阶段训练范式:第一阶段通过图像重建等任务建立多模态对齐,第二阶段通过指令微调提升跨模态推理能力[10][12] - 框架仅需3M训练数据和2.31B参数规模,在8张A100上训练1.5天即可完成[13][18] 性能表现 - 在DreamBench++测试中,MENTOR的CP-PF分数超越Emu2(37B参数)和DreamEngine(10.5B参数)[14][15] - 图像重建任务表现优异,在COCO和JourneyDB数据集上误差率仅0.1008和0.0867,显著低于其他模型[21] - 与Kosmos-G对比实验中,MENTOR在CP指标上提升0.40,PF指标提升0.13[19] 应用前景 - 框架具备通用性,可应用于文本引导图像分割、多图像融合生成等复杂任务[24] - 自回归范式为可控图像生成开辟新路径,未来有望通过更强大基础模型释放潜力[26] - 研究团队来自UIUC、清华大学、Adobe等机构,技术路线已获验证[2][26]
TransDiffuser: 理想VLA diffusion出轨迹的架构
理想TOP2· 2025-05-18 13:08
文章核心观点 - 文章详细解释了Diffusion模型在自动驾驶轨迹生成中的应用,特别是理想汽车VLA(Vision-Language-Action)系统的技术架构和创新点 [1][4][6] - 理想汽车的VLA系统通过Diffusion模型生成驾驶轨迹,相比VLM(Vision-Language-Model)系统具有更强的拟人感和决策能力 [1][2][4] - TransDiffuser模型通过多模态感知信息融合和去相关优化机制,显著提升了轨迹生成的多样性和质量 [6][11][12] 什么是Diffusion - Diffusion是一种通过加噪和去噪过程学习数据分布的生成模型,核心思想类似于逆向拼图 [4] - 相比GAN和VAE等其他生成模型,Diffusion在生成质量和稳定性上具有优势 [4] - 理想汽车采用ODE采样器将Diffusion生成步骤从几十步减少到2-3步,大幅提升效率 [5] 理想VLA系统的技术特点 - VLA是一个具备快慢思考能力的单一系统,直接输出action token并通过Diffusion解码为轨迹 [4] - 系统能同时生成自车轨迹和预测其他交通参与者轨迹,提升复杂环境博弈能力 [5] - 当前系统输出轨迹而非直接控制信号,但未来可能演进到直接输出油门/方向盘信号 [3] TransDiffuser架构细节 - 模型采用编码器-解码器结构,融合图像/LiDAR/运动状态等多模态信息 [6][7] - 场景编码器处理前视图像(8视角)和LiDAR数据(5传感器),输出BEV/图像/点云特征 [7][10] - 去噪解码器基于DDPM算法,通过10步迭代生成覆盖4秒的8个waypoints轨迹 [9][11] - 在NAVSIM数据集上PDMS指标达到94.85,优于Hydra-MDP++等现有方法 [11] 关键创新点 - 无锚点轨迹生成:不依赖预设轨迹或词汇表,直接从感知数据生成轨迹 [11] - 多模态去相关优化:解决模式崩溃问题,提升轨迹多样性且计算开销低 [11][12] - 采用256批量大小分布在4个NVIDIA H20 GPU上进行训练 [10] 局限性与未来方向 - 模型微调存在困难,特别是感知编码器部分 [13] - 未来可能结合强化学习,并参考OpenVLA等先进模型架构 [13] - 直接输出控制信号(油门/方向盘)是更难的挑战,短期内难以实现 [3]