Workflow
扩散模型
icon
搜索文档
免费约饭!加拿大ICML 2025,相聚机器之心人才晚宴
机器之心· 2025-07-01 09:34
AI领域发展 - 2025年AI领域持续快速发展[1] - 图像视频生成技术取得突破性进展 扩散模型显著提升合成质量 分辨率 风格控制 语义理解等维度实现跨越式提升[2] - Google发布Veo 3实现原生音频同步生成 推动视频生成进入有声电影时代[2] ICML 2025会议 - ICML作为AI领域顶级学术会议 将于7月13-19日在加拿大温哥华会议中心举行[4] - 会议将汇聚全球顶尖AI研究成果[4] 云帆・ICML 2025 AI Talent Meetup活动 - 由机器之心联合上海人工智能实验室 东方菁汇 全球高校人工智能学术联盟共同发起[5] - 活动设置青年学者Talk 顶尖人才SHOW 互动体验 机构宣讲 企业岗位展示 晚宴交流等环节[7] - 活动时间7月15日16:00-20:30(加拿大时间) 地点温哥华会议中心周边 规模200人[8] - 旨在搭建人才与企业对话桥梁 探讨前沿技术应用落地问题[7] 机器之心活动经验 - 成功举办云帆・ICLR 2025 AI Talent Meetup CVPR 2025论文分享会 NeurIPS 2024论文分享会 ACL 2024 AI Talent晚宴等活动[11] - 活动有效助力合作伙伴吸纳人才并提升品牌影响力[11]
UofT、UBC、MIT和复旦等联合发布:扩散模型驱动的异常检测与生成全面综述
机器之心· 2025-06-30 23:48
扩散模型(Diffusion Models, DMs)近年来展现出巨大的潜力,在计算机视觉和自然语言处理等诸多任务中取得了显著进展,而异常检测(Anomaly Detection, AD)作为人工智能领域的关键研究任务,在工业制造、金融风控、医疗诊断等众多实际场景中发挥着重要作用。近期,来自多伦多大学、 不列颠哥伦比亚大学 、麻省理工学院、悉尼大学、卡迪夫大学和复旦大学等知名机构的研究者合作完成题为 "Anomaly Detection and Generation with Diffusion Models: A Survey" 的长文 综述,首次聚焦于 DMs 在异常检测与生成领域的应用。该综述系统性地梳理了图像、视频、时间序列、表格和多模态异常检测任务的最新进展并从扩散模型视角 提供了全面的分类体系,结合生成式 AI 的研究动向展望了未来趋势和发展机遇,有望引导该领域的研究者和从业者。 论文标题: Anomaly Detection and Generation with Diffusion Models: A Survey 论文链接: https://arxiv.org/pdf/2506.09368 ...
ICML 2025 Spotlight | 新理论框架解锁流匹配模型的引导生成
机器之心· 2025-06-28 02:54
研究背景 - 能量引导技术通过在生成模型的向量场中加入引导向量场,使生成的样本分布从训练集分布改变为被某个能量函数加权后的分布,从而实现可控生成 [7] - 现有能量引导算法主要针对扩散模型,而流匹配模型与扩散模型有本质区别,导致现有算法无法直接通用 [7] - 流匹配模型比扩散模型更一般化,允许从几乎任意源分布和耦合分布中生成样本,这使得能量引导的实现更加复杂 [1][9] 方法创新 - 首次提出流匹配能量引导理论框架,填补了该领域空白 [3] - 提出三大类无需训练的实用流匹配能量引导算法,包括蒙特卡洛估计、梯度近似和高斯近似方法 [3][13][14][17] - 该框架可将经典扩散模型能量引导算法包含为特例,具有更广泛的适用性 [3] 技术细节 - 推导出一般流匹配能量引导向量场公式,通过重要性采样技术实现精确计算 [11][13] - 梯度近似方法通过泰勒展开简化计算,在特定条件下可简化为经典的DPS算法 [15] - 高斯近似方法针对特定任务形式(如含高斯噪声的线性逆问题)可得到解析表达式 [18] 实验结果 - 在合成数据实验中,蒙特卡洛采样引导算法取得最接近真实分布的结果,验证了框架正确性 [21] - 离线强化学习任务中蒙特卡洛采样引导表现最佳,因其能产生稳定的引导采样样本 [23] - 图片逆问题中,针对问题特性设计的高斯近似引导和GDM方法表现最优 [25] 应用价值 - 为流匹配引导采样提供了理论基础,推动了生成模型的进一步应用 [27] - 通过理论分析和实验比较,为不同任务场景下的算法选择提供了实用指导 [3][27] - 代码已开源,有助于促进相关技术在实际应用中的推广 [5]
之心急聘!25年业务合伙人招聘,量大管饱~
自动驾驶之心· 2025-06-27 09:34
业务合伙人招募 - 公司计划向国内外招募10名优秀合伙人负责自动驾驶相关业务开发[2] - 主要业务方向包括课程研发、论文辅导和硬件研发[2] 技术方向需求 - 重点关注大模型/多模态大模型、扩散模型、VLA等技术方向[3] - 涉及端到端、具身交互、联合预测等前沿领域[3] - 需要SLAM、3D目标检测、世界模型等专业人才[3] - 包含闭环仿真3DGS、大模型部署与量化感知推理等技术岗位[3] 岗位要求 - 要求应聘者来自QS200以内高校[4] - 硕士及以上学历优先[4] - 拥有顶会论文者将获得优先考虑[4] 待遇福利 - 提供自动驾驶行业资源共享[6] - 包含求职、读博、出国留学等推荐机会[6] - 提供丰厚现金激励[6] - 可获得创业项目合作与推荐机会[6] 联系方式 - 咨询需添加微信并备注"机构/公司+自动驾驶合作咨询"[7]
具身世界模型新突破,地平线 & 极佳提出几何一致视频世界模型增强机器人策略学习
机器之心· 2025-06-26 04:35
近年来,随着人工智能从感知智能向决策智能演进, 世界模型 (World Models) 逐渐成为机器人领域的重要研究方向。世界模型旨在让智能体对环境进行建模并 预测未来状态,从而实现更高效的规划与决策。 与此同时,具身数据也迎来了爆发式关注。因为目前具身算法高度依赖于大规模的真实机器人演示数据,而这些数据的采集过程往往成本高昂、耗时费力,严重 限制了其可扩展性和泛化能力。尽管仿真平台提供了一种相对低成本的数据生成方式,但由于仿真环境与真实世界之间存在显著的视觉和动力学差异(即 sim-to- real gap),导致在仿真中训练的策略难以直接迁移到真实机器人上,从而限制了其实际应用效果。 因此如何高效获取、生成和利用高质量的具身数据,已成为当 前机器人学习领域的核心挑战之一 。 项目主页: https://horizonrobotics.github.io/robot_lab/robotransfer/ 模仿学习(Imitation Learning)已成为机器人操作领域的重要方法之一。通过让机器人 "模仿" 专家示教的行为,可以在复杂任务中快速构建有效的策略模型。然 而,这类方法通常依赖大量高质量的真实机器 ...
生成式视角重塑监督学习!标签不只是答案,更是学习指南 | ICML 2025
量子位· 2025-06-24 13:36
生成式视角下的监督学习范式革新 - 提出预测一致性学习(PCL)框架,通过噪声标签渐进式分解标签信息,实现标签信息的复用和价值挖掘 [1] - 核心思想是将标签作为学习过程的辅助参考而非单纯标准答案,借鉴生成式一致性模型的扩散过程 [1] - 通过引入噪声标签作为输入提示,模型在数据输入和噪声标签共同参照下预测完整标签 [1] PCL训练机制 - 传统监督学习直接对比预测结果与标准答案计算损失,PCL将学习过程分解为逐步逼近的渐进式任务 [4][5] - 采用扩散模型加噪过程,以不同噪声水平的带噪标签作为输入提示,约束跨噪声水平的预测一致性 [5][6] - 损失函数包含预测精度损失和一致性损失,权重由λ₁和λ₂控制 [8] 标签噪声处理技术 - 离散标签采用分类分布噪声过程,通过转移矩阵实现类别间转换 [9] - 连续标签采用高斯扩散模型,逐步添加方差为βₜ的高斯噪声 [10] - 复杂标签直接向潜在嵌入空间引入高斯噪声,计算效率与连续标签一致 [11] 推理阶段优化 - 测试时从随机噪声分布采样标签提示进行单步预测,实际效果优于传统监督学习 [14] - 多步推理策略通过逐步降低噪声水平细化输出,利用早期预测的提示信息提升精度 [14] - 训练目标是将低噪声条件下的高精度传递至高噪声条件,减少对标签提示的依赖 [7][19] 信息论理论基础 - 通过分解互信息I(X;Y)为条件互信息I(X;Y|Yₜ)和I(X;Yₜ),实现标签信息的渐进式学习 [15][16] - 噪声标签Yₜ的信息量控制学习重点:高噪声时捕捉全局结构,低噪声时优化细节 [17] - 最小化噪声条件依赖项,确保预测结果在不同噪声水平下保持一致 [18][19] 跨模态实验结果 - 图像语义分割任务中,PCL单步预测即超越传统监督学习,多步推理进一步提升质量 [22][25] - 图模态预测显示推理步数存在最优平衡点,需通过早停机制避免误差累积 [26][27] - 语言模型微调任务中,PCL在LLaMa2-7B上表现优于传统方法,但噪声过程仍有优化空间 [30][31] 技术实现资源 - 论文与代码已公开,涵盖理论推导和实现细节 [33] - 实验覆盖视觉、图结构、语言三大模态,验证框架通用性 [20]
技术圈热议的π0/π0.5/A0,终于说清楚是什么了!功能、场景、方法论全解析~
具身智能之心· 2025-06-21 12:06
π₀模型结构 - 核心架构基于预训练视觉语言模型(VLM)和Flow Matching技术,包含VLM backbone、动作专家和跨具身训练组件[3] - 整合7种机器人、68项任务、超10,000小时数据,通过权重调整处理不同机器人动作空间差异[3] - 训练流程继承PaliGemma VLM的语义知识,融合多模态输入(图像/语言/物理状态)[3] - 独立子网络(3亿参数)将VLM输出转换为连续动作,流匹配技术实现50Hz高频率动作序列生成[3] π₀优势与功能 - 零样本直接执行预训练覆盖的语言提示任务(如"fold shirt")[4] - 支持复杂任务多阶段微调(如叠衣服分解为4个子步骤)[5] - 语言指令跟随能力可将高层任务(如"bus the table")分解为子任务序列[6] - 流匹配技术实现50Hz精细操作,适用于衣物折叠等高精度场景[7] - 单模型适配多种机器人形态,降低部署成本[10] π₀性能分析 - 开箱即用性能:在餐桌清理等任务中指令跟随准确率比π₀-small高20%-30%[11] - 微调效率:预训练类似任务仅需1-5小时数据微调,全新任务性能比从头训练提升2倍[11] - 复杂任务表现:叠衣服等任务通过"预训练+微调"实现60%-80%完成度[11] - 衬衫折叠成功率接近100%,复杂清理任务正确分类数量比Octo高40%[12] π0.5模型结构 - 采用双阶段训练框架和分层架构,基于Transformer实现多模态序列编码[13] - 分层推理机制:高级语义子任务预测+低级动作生成,结合离散/连续动作表示[16] - 预训练阶段使用400小时异构数据(97.6%非移动机器人数据)[16] - 后训练阶段引入动作专家模块优化实时控制,SigLIP视觉编码器(400M参数)+Gemma语言模型(2.6B参数)[16] π0.5优势与功能 - 异构数据驱动泛化:在未见过场景中执行任务,支持10分钟以上长时程操作[18] - 离散-连续混合训练比纯扩散模型效率提升3倍[17] - 多场景适应性:家庭环境清洁/整理任务,跨实体迁移学习能力[20] - 数据效率突破:仅用400小时移动数据(占2.4%)实现强泛化[21] π0.5性能分析 - 真实环境表现:未训练家庭中多阶段任务成功率60%-88%,单任务耗时10-15分钟[25] - 数据规模影响:104个训练位置时性能接近测试环境基线(差距<5%)[26][27] - 关键数据源:跨实体数据移除导致性能下降20%-30%,网页数据对未知物体泛化至关重要[28] A0模型结构 - 分层架构设计:高层空间Affordance理解+低层动作执行[29] - 核心组件包括Position Offset Attention和Spatial Information Aggregation Layer[30] - 预训练策略:100万接触点数据集预训练+标注轨迹微调[31] A0优势与功能 - 跨平台泛化:支持Franka/Kinova等机器人平台无缝部署[34] - 高效空间推理:通过接触点预测降低计算成本[34] - 数据利用效率:少量任务数据即可适应新场景[34] A0性能分析 - Franka机器人平均成功率62.5%,开抽屉任务达75%[35] - Kinova机器人轨迹跟踪任务成功率比基线高20%[35] - 擦黑板任务成功率比MOKA高15%-20%,执行步骤仅为RDT-1B的1/8-1/10[35]
打造万人的自动驾驶黄埔军校,一个死磕技术的地方~
自动驾驶之心· 2025-06-20 14:06
自动驾驶社区建设 - 目标在3年内打造万人规模的智能驾驶与具身智能社区,已吸引华为天才少年及多位行业专家加入 [2] - 构建了学术+产品+招聘的完整生态链,形成课程+硬件+问答的教研闭环体系 [2] - 社区内容涵盖最新技术动态、技术讨论、入门问答及行业求职分享,重点关注具身智能转型、自动驾驶技术趋势及大模型融合等前沿议题 [2] 技术发展方向 - 2025年技术基调确定为VLA(视觉语言行动)端到端2.0体系,涉及视觉大语言模型基座、扩散模型轨迹预测、3DGS闭环仿真等前沿技术栈 [6] - 技术迭代周期持续缩短,需专业社区持续跟踪学术界与工业界的技术演进 [10] - 重点研究方向包括BEV感知、Occupancy网络、世界模型、扩散模型等,其中视觉大语言模型在自动驾驶中的应用成为新热点 [11][55] 知识星球运营 - 国内最大自动驾驶技术社区,成员近4000人,汇集100+行业专家,总结30+技术学习路线 [11] - 提供四大核心板块:学术进展追踪、专家答疑、课程优惠及求职咨询,包含近5000份干货内容并每日更新 [14] - 每周组织1-2场顶会作者或企业团队直播,全年计划100场,聚焦VLA、大模型等前沿主题 [18][19] 数据集与模型 - 汇总主流自动驾驶数据集如nuScenes(20万帧多模态数据)、Waymo Open Dataset(12万场景)等,涵盖2D/3D检测、语义分割等任务 [31] - 视觉大语言模型预训练使用LAION-5B(50亿图文对)、CLIP(4亿图文对)等超大规模数据集 [26] - 扩散模型在3D视觉、视频生成领域形成完整技术体系,相关论文年增长率超过200% [43][44] 行业应用案例 - 智能交通领域应用语言引导车辆检索、视觉问答等技术,提升多模态交互能力 [33] - 自动驾驶系统集成VLM进行行人检测、开放词汇3D分割等任务,如VLPD模型通过自监督提升检测精度34% [34] - 规划控制领域采用GPT-Driver等大模型实现轨迹预测,DRIVEVLM系统将规划误差降低25% [35][36] 人才生态 - 社区成员来自地平线、蔚来、英伟达等头部企业及清华、ETH等顶尖院校,形成产学研协同网络 [114] - 求职板块覆盖TensorRT部署、多传感器标定等实战问题,整理BEV感知等方向高频面试题100+ [71][72] - 职业发展建议显示:传统3D检测岗位需求下降,端到端驾驶、数据闭环等方向人才缺口扩大 [101]
学习端到端大模型,还不太明白VLM和VLA的区别。。。
自动驾驶之心· 2025-06-19 11:54
视觉语言模型在自动驾驶领域的应用 - 大模型技术正在智能驾驶领域快速落地,VLM(视觉语言模型)和VLA(视觉语言动作模型)成为关键技术方向 [2] - VLM侧重基础能力如检测、问答、空间理解和思维链推理,VLA更关注动作生成如轨迹预测 [4] - 学习路径建议先掌握VLM再扩展到VLA,VLM结合扩散模型可实现多模态轨迹预测 [4] 技术社区与资源 - 知识星球提供自动驾驶全栈学习路线图、硬件/代码资料及行业招聘信息,已吸引华为天才少年等专家加入 [4] - 社区覆盖四大板块:技术分类汇总、顶级学者直播、求职资源、问题解答,形成"课程+硬件+问答"闭环 [5] - 目标3年内建成万人规模的智能驾驶与具身智能社区,已与多家企业建立学术-产品-招聘全链路合作 [4] 前沿技术方向与数据集 视觉大语言模型 - 汇总10个Awesome资源库,涵盖智能交通LLM、AIGC、CLIP提示学习、模型安全等领域 [6] - 基础理论包括预训练、迁移学习、知识蒸馏三大方向 [7][10][11] 数据集规模 - VLM预训练数据集从SBU Caption(2011年1M图文)发展到LAION5B(2022年5B图文) [13] - 自动驾驶专用数据集包括NuScenes(2020年多模态)、Waymo Open Dataset(2020年)等19个主流数据集 [19] 关键技术应用 智能交通系统 - 2022-2023年出现多模态车辆检索系统,支持自然语言查询跟踪车辆 [21] - Tem-adapter等模型将图文预训练迁移到视频问答任务 [21] 自动驾驶感知 - VLPD(2023)通过视觉语言自监督提升行人检测 [22] - OpenScene(2023)实现开放词汇的3D语义分割 [22] 轨迹预测与规划 - GPT-Driver(2023)、DRIVEVLM(2024)等模型将LLM融入运动规划 [23] - 扩散模型应用显著,如DiffusionDrive(端到端驾驶)、MagicDriveDiT(高分辨率视频生成) [37] 世界模型研究进展 - 2024年涌现DriveWorld、Vista等模型,实现4D场景理解与高保真可控生成 [30] - 核心突破包括:InfinityDrive突破时间泛化限制、DriveDreamer4D增强4D重建 [30] - 17篇顶会论文覆盖物理仿真、多模态LLM融合等方向 [28][29][30] 端到端自动驾驶 - 两大资源库汇总200+篇论文,跟踪E2E驾驶最新进展 [39][43] - 关键挑战包括长尾分布处理、多任务学习、安全验证等 [43][53] - SparseAD(稀疏query范式)、GenAD(新范式)等2024年新方法提升性能25% [46]
何恺明CVPR最新讲座PPT上线:走向端到端生成建模
机器之心· 2025-06-19 09:30
CVPR 2024视觉生成建模前沿进展 核心观点 - 生成模型可能重现识别模型从逐层训练到端到端训练的历史演进路径,当前主流方法(如扩散模型)仍处于"AlexNet前时代"的多步迭代阶段[36][81] - 何恺明团队提出的MeanFlow框架在单步生成任务上实现突破,1-NFE生成FID达3.43,较之前最佳方法提升50%-70%[101][107][108] - 视觉生成建模正朝着端到端、前馈式方向演进,流匹配(Flow Matching)技术成为关键突破口[59][81] 技术演进路径 历史对照 - 识别模型在AlexNet后全面转向端到端训练,取代了DBN/DAE等逐层训练方法[10][15] - 当前生成模型(扩散/自回归)仍依赖多步推理,类似识别模型的"前AlexNet时代"[36] 方法论创新 - 提出平均速度场(Average Velocity)概念替代瞬时速度场,建立MeanFlow Identity理论框架[83][90] - 通过Jacobian-vector product计算时间导数,避免直接积分带来的计算复杂度[92] - 训练损失函数设计包含停止梯度(stopgrad)机制,防止高阶梯度干扰[93][96] 性能突破 ImageNet 256x256实验结果 - MeanFlow-XL/2模型: - 1-NFE生成FID 3.43,较Shortcut-XL/2的10.60提升67%[107] - 2-NFE生成FID 2.20,较iMM-XL/2的7.77提升71%[108] - 参数量与性能呈正相关: - 131M参数版本FID 6.17 → 676M参数版本FID 3.43[103][107] 横向对比 - 显著超越GANs(BigGAN FID 6.43)和自回归模型(MaskGIT FID 6.18)[109] - 接近多步扩散模型性能(DiT-XL/2 250步FID 2.10),但推理步数减少两个数量级[109] 行业研究方向 前沿技术路线 - 一致性模型(Consistency Models)系列:iCT/ECT/sCM等改进版本[110] - 双时间变量模型:CTM/Flow Map Matching/Shortcut Models[111] - 归一化流重构:TarFlow等新型架构[113] 开放性问题 - 如何构建不依赖迭代框架的真正端到端生成公式[113] - 神经网络在捕捉隐式轨迹与简化生成过程间的平衡优化[113] - 生成模型的"AlexNet时刻"尚未到来,存在范式创新空间[81][113]