扩散模型 - 财报，业绩电话会，研报，新闻

扩散模型

搜索文档

自动驾驶之心· 2025-09-18 23:33

文章核心观点 - 上海交通大学严骏驰教授团队在CVPR、ICLR、NeurIPS等顶级会议上发表了一系列开创性研究，代表了人工智能领域的硬核突破 [2] - 团队研究工作聚焦于AI技术的核心挑战，包括提升机器人复杂任务能力、使AI在工业决策中超越人类专家、为黑盒模型建立坚实理论根基 [2] - 这些研究成果展示了未来AI研究的三大关键趋势：理论与实践的深度融合、AI对传统科学计算的颠覆性重塑、以及迈向更鲁棒高效自主的智能系统 [32] - 团队工作具有高度可复现性和可落地性，有望演变为更聪明的机器人、更强大的设计工具和更高效的商业解决方案 [32] CVPR 2024研究成果 - 提出基于网格的神经场模型系统性理论框架，引入网格切线核概念分析模型的近似和泛化行为 [4] - 开发MulFAGrid模型，通过联合优化核参数和网格特征的自适应学习方案，在欠拟合和过拟合极端间取得平衡 [5] - 在2D图像拟合任务中达到56.19 PSNR，在3D有符号距离场重建任务中达到0.9995 IoU和4.51法向角误差，在NeRF基准测试中PSNR高达30.12 [5] ICLR 2025研究成果 - 提出CR2PQ连续相对旋转位置查询方法，解决密集视觉对比学习中跨视图像素对应问题 [7] - 在COCO数据集上，仅用40个预训练epoch就比SOTA方法获得10.4% mAP^bb和7.9% mAP^mk的显著提升 [7] - 开发BTBS-LNS二进制紧缩分支搜索方法，在MIPLIB2017基准测试中比Gurobi提供10%更好的原始间隙 [10][11] - 提出结构化宇宙图学习方法结合异常值OOD检测，在Pascal VOC和Willow Object数据集上持续优于最先进方法 [12][13] SIGKDD 2025研究成果 - 提出BiQAP神经双层优化框架，通过修改输入实例挖掘深度网络在纯数值二次分配问题上的潜力 [15] - 内层优化使用熵正则化求解修改后的实例，外层优化处理原始QAP的二次目标函数 [15] NeurIPS 2024研究成果 - 提出Fast T2T优化一致性方法，实现扩散模型在组合优化中的快速单步求解，仅用一步生成和一步梯度搜索就超越需要数百步的SOTA扩散方法 [16][17] - 开发CLOVER闭环视觉运动控制框架，在CALVIN基准上比开环方法提升8%，实际机器人长时域操作任务完成长度提升91% [19][20] - 提出AdaptiveDiffusion无训练自适应扩散方法，通过有界差分近似策略实现2-5倍加速而无质量降低 [23][24] TPAMI 2024研究成果 - 提出EasyDGL易用流水线，实现连续时间动态图学习中编码、训练和解释的统一框架 [29] - 包含时间点过程调制的注意力架构编码模块、原则化损失训练模块和图傅里叶域扰动分析解释模块 [29] - 在公共基准上显示优越性能，能有效量化模型从演化图数据中学习的频率内容的预测能力 [30]

自动驾驶基础模型应该以能力为导向，而不仅是局限于方法本身

自动驾驶之心· 2025-09-16 23:33

基础模型在自动驾驶感知领域的革命性变革 - 基础模型正将自动驾驶感知从特定任务深度学习模型转变为海量多样化数据集训练的多功能通用架构 [2] - 这些模型通过自监督或无监督学习策略在大规模数据集上预训练基于Transformer等架构构建能有效建模数据中的复杂交互关系 [4] - 基础模型展现出广泛泛化能力、高效迁移学习能力和对特定任务标注数据集依赖降低等显著优势 [4] 全新分类框架与核心能力 - 提出围绕动态驾驶环境中稳健性能需求的四项核心能力分类框架：通用知识、空间理解、多传感器鲁棒性和时序推理 [5] - 与传统"基于方法"的综述不同该框架优先关注概念设计原则提供"以能力为导向"的模型开发指导 [6] - 框架更清晰地揭示了基础模型的核心特性为研究人员识别和解决特定缺陷提供系统性指导 [6] 通用知识能力 - 通用知识使模型能适应广泛驾驶场景包括罕见或未见情况并能合理推断可能结果和对未知智能体进行逻辑推理 [5] - 通过特征级蒸馏、伪标签监督和直接集成三种核心机制将基础模型集成到自动驾驶技术栈中 [37] - 视觉基础模型(VFMs)可直接集成到2D图像流水线也能扩展至3D感知流水线提供高层语义理解 [40] 空间理解能力 - 空间理解让自动驾驶车辆构建环境的连贯3D表示捕捉物体身份、几何形状与上下文关系 [63] - 体积模型通过将传感器输入解读为3D场景的投影构建密集、整体的环境表示 [65] - 3D掩码自动编码器通过"掩码输入-重建输出"策略迫使模型学习场景级结构、物体边界和空间关系 [73] 多传感器鲁棒性 - 多传感器鲁棒性指系统在环境变化、传感器噪声或硬件性能下降时仍能保持感知精度与稳定性的能力 [80] - 跨模态对比学习构建统一表示空间整合相机、激光雷达、毫米波雷达等不同传感器类型的互补信息 [82] - 多模态掩码自动编码器扩展至处理多模态输入通过自监督重建任务让模型捕捉互补线索 [97] 时序推理能力 - 时序理解是对场景随时间演变过程进行推理包括捕捉物体运动、跟踪遮挡物以及预测未来事件 [109] - 时序一致的4D预测模型从传感器观测序列中预测复杂动态环境的演变过程 [113] - 扩散概率模型能够表示复杂的多模态概率分布成为解决未来场景不确定性问题的理想方案 [115] 技术实现与方法创新 - 知识蒸馏通过训练学生模型模仿教师模型的输出或内部行为实现三类实现方式：输出级蒸馏、特征级蒸馏和关系级蒸馏 [17] - 神经辐射场(NeRF)采用隐式表示将场景建模为连续函数通过可微体素渲染方程实现照片级真实感渲染 [24] - 3D高斯溅射(3DGS)采用显式表示将场景建模为一组3D高斯椭球体集合通过可微前向光栅化器大幅提升渲染速度 [25] 模型对比与特性分析 - 基础模型相较于传统深度学习模型在自动驾驶感知中的核心优势在于更优的泛化性和适应性 [36] - 视觉语言模型(VLMs)融合视觉基础模型与大语言模型的优势实现视觉内容与文本语义对齐的联合表征 [35] - 大语言模型(LLMs)基于Transformer架构在海量文本语料上训练具备强大的抽象、推理与指令遵循能力 [51] 当前挑战与未来方向 - 域间隙问题是核心挑战之一需弥合基础模型预训练通用知识与自动驾驶感知特定需求之间的间隙 [59] - 幻觉风险带来严重安全风险需深入探究故障根源并开发主动缓解策略 [60] - 延迟与效率问题与自动驾驶实时处理需求存在直接冲突需通过模型优化技术构建更小、更高效的模型变体 [61]

自动驾驶感知