Workflow
生成式模型
icon
搜索文档
56倍加速生成式策略:EfficientFlow,迈向高效具身智能
具身智能之心· 2025-12-17 00:05
点击下方 卡片 ,关注" 具身智能之心 "公众号 >> 点击进入→ 具身 智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区: 具身智能之心知识星球(戳我) ,这里包含所有你想要的! 本文共同第一作者为西安交通大学硕士生常建磊和博士生梅若风。柯炜为西安交通大学副教授。论文通讯作者为西安交通大学教授许翔宇,其研究方向涵盖三维 视觉、生成式 AI 与具身智能(个人主页:https://xuxy09.github.io/)。 生成式模型正在成为机器人和具身智能领域的重要范式,它能够从高维视觉观测中直接生成复杂、灵活的动作策略,在操作、抓取等任务中表现亮眼。但在真实 系统中,这类方法仍面临两大「硬伤」: 一是训练极度依赖大规模演示数据,二是推理阶段需要大量迭代,动作生成太慢,难以实时控制。 针对这一核心瓶颈,西安交通大学研究团队提出了全新的生成式策略学习方法 EfficientFlow 。该方法通过将 等变建模与高效流匹配(Flow Matching)深度融合 , 在显著提升数据效率的同时,大幅压缩推理所需的迭代步数 ,在多个机器人操作基准上实现了 SOTA 的性能,并将推理速度提升一个数量级以上。 ...
直观理解Flow Matching生成式算法
自动驾驶之心· 2025-12-17 00:03
作者 | 张云聪 编辑 | 自动驾驶之心 原文链接: https://zhuanlan.zhihu.com/p/28731517852 点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近30个 方向 学习 路线 >>自动驾驶前沿信息获取 → 自动驾驶之心知识星球 本文只做学术分享,如有侵权,联系删文 目前不少讲Flow Matching的文章都上来一大堆概念,一大堆公式,搞得人头皮发麻,但实际上这个算法没 那么复杂,代码也很容易理解。 本文不推导公式、无高深数学概念即可理解flow matching算法,并完成一个简单的代码实战。 算法原理 Related Works Flow Matching是一种 生成式模型 。 最简单的生成式模型,目标就是没输入的情况下,就能生成与给定目标集中的样本相近的样本。 举个例子,可以直接无提示的用diffusion模型来生成图片。 带提示的生成式任务是可以基于无提示的生成式任务简单实现的,这里我们先只考虑无提示的生成式任 务。 由于我们一般学的是一个映射,拿一个空输入映射成不同的样本不太符合映射的定义,因此,我们一般实 际上会生成一堆随机值作为输入, ...
理想郎咸朋长文分享为什么关于VLA与宇树王兴兴观点不一致
理想TOP2· 2025-12-10 06:50
文章核心观点 - 理想的VLA是自动驾驶的最佳模型方案 其本质是生成式模型 通过生成轨迹和控制信号来实现自动驾驶 在某些场景下已表现出对物理世界的认知涌现和拟人行为 [1][2] - 具身智能最终比拼的是整体系统能力 自动驾驶应被视为一个完整的具身智能系统 需要感知、模型、操作系统、芯片、本体等各部分全栈自研与协同 才能发挥最大价值 [1][3] - 在模型与系统适配的基础上 数据是起决定意义的 理想汽车凭借数百万辆车构建的数据闭环 能够获取海量、高质量的真实驾驶数据 这是其技术路线的核心优势 [1][2][4] VLA模型方案 - VLA本质是生成式模型 采用类似GPT的方式生成轨迹和控制信号 而非文本 已观察到模型在某些场景下出现认知涌现 表现为端到端模型之前没有的拟人驾驶行为 [2] - 世界模型更适合作为“考场”而非“考生” 其高算力需求使其更适合在云端进行数据生成、仿真测试和强化训练 理想正利用数E FLOPS的推理算力进行仿真 [2] - 模型架构之争需结合实际效果 在自动驾驶领域 脱离海量真实数据空谈模型架构是空中楼阁 理想坚持VLA路线是因为其拥有数百万辆车构建的数据闭环 能在当前算力下将驾驶水平做到接近人类 [2] 具身智能系统能力 - 自动驾驶应被视为完整的具身智能系统 需要像人类一样 实现感知(眼睛)、模型(大脑)、操作系统(神经)、芯片(心脏)、本体(身体)等各部分的相互协调 [3] - 实现系统价值需要全栈自研 不仅仅是软件栈 而是整体软硬件全栈 理想的自动驾驶团队与基座模型、芯片、底盘团队协同打造了整个系统 [3] - 底盘协同是系统能力的体现 例如车辆运动管理模块会对自动驾驶控制信号做精细化调校 区分卡钳制动和液压制动策略 以兼顾安全性与舒适体验 实现“身体”与“大脑”的协同 [3] 数据的关键作用与优势 - 数据获取在自动驾驶领域具备优势 对于已建立数据闭环能力的车企而言 获取数据并非难题 这与使用数据采集车获取的数据在质量和分布上有很大差距 [4] - 公司拥有海量、高质量的真实驾驶数据 不仅可以从过去几年积累的超过10亿公里的存量数据中挖掘筛选 更能通过超过150万车主的日常使用源源不断获取新数据 [4] - 数据筛选反映真实人类行为 在筛选数据过程中发现接近40%的人类驾驶数据存在偏一侧开车或不严格卡限速的行为 这些数据被保留 使得模型能学习到更符合人类习惯的驾驶行为 [4] 技术应用的未来展望 - VLA模型服务范围将扩展 该模型不仅服务于公司当前的各类汽车产品形态 也将服务于未来公司规划的汽车类具身机器人 [4]
另辟蹊径赴欧洲创办新AI公司,杨立昆:硅谷不是AGI的土壤
36氪· 2025-12-05 00:04
今年11月,杨立昆通过一则LinkedIn帖子宣布,他将于今年底离开Meta,专注于创建自己的公司。在当 日举行的AI-Pulse大会上,杨立昆谈及发展AI新方法时表示:"硅谷完全被生成式模型所催眠,所以你 必须在硅谷之外,在巴黎做这类工作。" 身为法国公民,杨立昆此前推动Meta于2015年在巴黎设立了Facebook AI Research(FAIR)实验室,并 在2023年催生了Meta的旗舰大语言模型Llama。他长期以来一直支持欧洲的AI人才和初创企业,因此外 界对他回国开展项目寄予厚望。 杨立昆透露,他的初创公司将是一个"全球实体",并将在世界各地设立研究机构,"尤其是在欧洲,那 里有大量的人才,他们可能没有意识到自己的全部潜力,为其提供合适的环境至关重要。"据两位知情 人士透露,杨立昆的新公司将在全球设立多个基地,其中一处位于巴黎。 杨立昆认为,当前基于文本的大语言模型"缺少一个重要的东西"以达到人类级别的智能。"我们最好的 AI系统可以通过律师资格考试、写诗、编写代码,"杨立昆说,表达了他对专注于语言模型的不满,"但 我们仍然没有一个能做五岁孩子能做的事情的机器人。我们缺少一些重要的东西。有些 ...
直观理解Flow Matching生成式算法
自动驾驶之心· 2025-11-28 00:49
算法核心原理 - Flow Matching是一种生成式模型,旨在从随机输入生成与目标数据集相似的样本[3][4] - 与直接学习随机数据到目标数据的映射不同,该算法通过学习一个“行驶方向”或速度场,引导随机点逐步移动到目标分布区域[12][14] - 训练时在源点到目标点的连线上采样中间点,并学习其朝向目标点的移动方向,推理时从随机点出发,沿学习到的方向场移动,最终收敛到目标分布[16][17] 技术优势与比较 - 相比自回归模型逐像素生成效率低的问题,Flow Matching通过一次生成关联较小的区域来平衡效果与效率[9][10] - 相较于扩散模型的多步迭代降噪,Flow Matching提供了一种更直接高效的生成方案,已被Stable Diffusion 3、Meta MovieGen等应用[12] - 该算法能有效避免模型输出因可能性过多而退化为多种可能状态平均值的问题,生成质量更高[7][11] 代码实现与实战 - 基础实现包含生成随机源点、与目标点线性插值得到中间点、训练网络预测速度场并与真实方向计算损失等关键步骤[18][19] - 带提示词的生成模型可通过在预测网络中增加提示词输入实现,将生成过程约束到特定条件或区间[24][26] - 在MNIST手写数字生成任务中,采用UNet作为骨干网络以融合多尺度特征,并改用自适应步长ODE求解器以提升生成精度[32][34][36] 行业应用与前景 - 端到端自动驾驶算法工程师等岗位薪资范围达50-80K,显示市场对相关技术人才需求旺盛[50] - 行业课程涵盖从算法框架、强化学习应用到轨迹优化、模型部署等量产经验,旨在培养面向就业的实战能力[48][49] - 量产专家分享的导航信息编码、时空联合规划兜底等经验,直接关联算法在真实场景中的落地优化[47][49]
无需再训练即可增强性能!港大团队提出GPC框架,实现机器人「策略组合」
机器之心· 2025-10-19 09:17
文章核心观点 - 香港大学团队提出了一种名为GPC(通用策略组合)的全新免训练框架,旨在提升机器人控制策略的性能 [2] - GPC框架通过在测试时对多个预训练模型的决策分数进行动态融合,创造出一个性能超越任何单一父策略的组合策略 [2] - 该框架打破了传统性能提升方式对数据和算力的依赖,能够灵活融合不同架构和模态的机器人策略 [2] 技术原理与理论基石 - GPC的核心思想是在机器人执行任务的瞬间,通过凸组合的方式将多个预训练策略的决策分数进行动态融合 [7] - 研究证明,对决策分数进行凸组合能够生成一个在单步上具有更低误差的组合分数,比任何单一策略的分数更精确 [9] - 通过建立Grönwall型界限,研究证明了单步的误差改善能够沿整个轨迹传播,确保组合策略在系统层面具有性能提升和稳定性 [10] - 理论公式表明,组合策略的轨迹采样误差低于任何单一策略的误差 [12] 框架通用性与组合机制 - GPC框架具备“即插即用”的通用性,以免训练的方式整合各种机器人策略 [14][15] - 其统一的分数凸组合机制能有效平衡来自不同条件的信息,生成更稳定、连贯的动作轨迹 [17] - 框架能够跨越策略架构进行组合,兼容基于扩散模型或基于流匹配的策略 [19] - 框架能够融合不同输入模态的策略,如视觉-动作模型、视觉-语言-动作模型等 [19] - GPC框架自然地连接了叠加原理,提供了Logical OR和Logical AND等更强大的组合操作符 [18][20] 权重搜索与性能优化 - GPC框架的权重搜索机制能为不同任务和场景量身定制最优的组合策略 [23] - 实验表明,当被组合的两个策略都具有中等准确率时,GPC能实现比单一基线策略更高的准确率,提升幅度最高达24% [24][26] - 当其中一个策略准确率显著较低时,GPC难以超越表现最好的基线策略的峰值性能 [26] - GPC性能的提升总是伴随着表现较好的基线策略获得更大权重时被最大化 [26] 实验验证与实际效果 - 在Robomimic、PushT等仿真测试平台上,GPC策略实现了最高7.55%的平均成功率提升 [28] - 在复杂的RoboTwin双臂协作任务上,GPC策略提升了7%的性能 [28] - 通过Logical AND组合,Diffusion Policy与Mamba Policy组合策略在Robomimic的Can任务上成功率提升至84%,较基线提升25.73% [30] - 真实世界采用PiPER机器人进行的实验显示,GPC在4个实际任务中对比单一基线成功率拥有5-10%的提升 [30]
Insta360最新全景综述:全景视觉的挑战、方法与未来
机器之心· 2025-10-04 03:38
文章核心观点 - 全景视觉与常规透视视觉存在根本性差异,直接将基于透视视觉开发的算法迁移到全景视觉往往失效 [6] - 文章首次以“透视-全景 gap”为主线,系统梳理了三大核心挑战、两条核心技术路线与未来方向展望 [6] - 旨在为研究者提供“按任务选解法”的指南,并为工程团队“按场景落地”提供清晰坐标 [6] 研究背景与动机 - 全景图像捕捉的是360°×180°的完整球面视域,而常规透视图像是大部分计算机视觉任务使用的标准输入 [6] - 全景视觉在虚拟现实、自动驾驶、具身智能等新兴应用中正成为不可或缺的研究方向 [6] 全景视觉的核心挑战 - **几何畸变**:球面展开到平面时,两极区域被严重拉伸,物体形状被破坏 [7] - **非均匀采样**:赤道像素密集、极区像素稀疏,同一物体在不同纬度分辨率差异明显 [7] - **边界连续性**:等距矩形投影(ERP)图像的左右边界在球面上相邻,但在二维图像上被分割,导致模型学习出现连续性问题 [7] 核心技术路线与策略适配 - **失真感知方法**:直接在ERP全景格式上建模,通过畸变设计、畸变图权重或自适应注意力来补偿极区问题,优势在于保留全局像素级别的语义对应且与主流架构高度兼容 [10][13] - **投影驱动方法**:通过立方体投影(Cubemap)、切平面投影(Tangent)等将球面转换为多个畸变较小的子视图,优势在于有效缓解极区畸变并能直接复用透视模型和大规模预训练网络 [13] - **策略适配**:失真感知方法更适配全局语义一致性的任务(如超分辨率、修复、分割、检测),而投影驱动方法更适配强调局部几何精度的任务(如深度估计、光流、关键点匹配) [13] 全景视觉任务工具箱 - 文章覆盖20+代表性任务,并提供了横向跨任务对照表,将任务按四大板块归类:增强与评估、理解、多模态、生成 [14] - 新范式加速渗透,包括Diffusion/生成式模型在文生图/视频、图像补全、新视角合成方向快速涌现,以及3D高斯泼溅(3DGS)在高效高保真渲染中的应用 [14][15] - 多模态对齐,尤其是音频、文本、LiDAR与全景的对齐成为新的研究热点 [14][15] 全景视觉的未来发展方向 - **数据瓶颈**:缺少大规模、跨任务、跨场景的标准360°数据,真实场景高质量标注成本高,多模态资源不足制约研究进程 [21] - **模型范式**:需将基础模型迁移到全景视觉并设计参数高效的专家模块,多模态对齐和全景生成是核心难点 [21] - **下游应用**:关键场景包括空间智能与自动系统(具身智能、自动驾驶)、XR与沉浸式交互、三维重建与数字孪生以及广泛的行业化社会应用 [21]
两张图就能重构3D空间?清华&NTU利用生成模型解锁空间智能新范式
量子位· 2025-07-09 01:18
3D语言场景生成技术突破 - 提出LangScene-X生成式框架,仅需2张图像即可构建3D语言嵌入场景,相比传统NeRF方法所需的20个视角大幅降低输入要求 [2][4] - 攻克传统方法依赖密集视图的痛点,实现多模态信息统一建模,为空间智能领域开辟新路径 [3][5] - 模型能模拟人类认知方式,通过稀疏视觉输入建立融合语言理解的3D空间系统 [4] 传统3D语言场景生成痛点 - 密集视图依赖:传统方法如NeRF在仅2-3张输入时物体边界模糊率超40%,而真实场景获取密集视图成本高昂 [5] - 跨模态割裂:现有方法处理外观/几何/语义时模块独立,导致ScanNet测试中法线与RGB一致性误差达27.3° [6] - 语言特征压缩瓶颈:CLIP的512维特征直接嵌入导致内存占用高,场景切换时文本查询准确率下降58% [7] LangScene-X核心技术方案 - TriMap视频扩散模型:四阶段训练实现RGB/法线/语义协同生成,仅2张输入时法线-RGB误差降至8.1°,语义边界准确率提升63% [8] - 语言量化压缩器(LQC):通过向量量化将CLIP特征压缩为3维索引,重建误差仅0.0001,跨场景迁移无需微调 [10][11] - 语言嵌入表面场:渐进法线正则化使3D表面重建误差显著降低,"冰箱"查询中表面重合度达91.7% [12] 模型架构创新价值 - 单模型统合多模态生成,消除传统模块化流程低效问题,确保3D空间一致性 [14] - 语言量化压缩器实现高维特征跨场景泛化,内存占用减少90% [10][14] - 语言嵌入表面场技术实现文本与3D场景精准对齐,如"stuffed bear"可精确定位关联区域 [15] 实证性能表现 - LERF-OVS数据集上mAcc达80.85%(+31.18%),mIoU达50.52%(+10.58%) [16] - ScanNet数据集mIoU达66.54%,超越现有方法14.92%,分割掩码边界锐利度超越人工标注 [16] 应用前景 - 技术可应用于VR场景构建、人机交互、自动驾驶及具身智能等领域 [18] - 提供底层技术范式,具备成为空间智能核心驱动力的潜力 [18]
放榜了!ICCV 2025最新汇总(自驾/具身/3D视觉/LLM/CV等)
自动驾驶之心· 2025-06-28 13:34
自动驾驶技术研究 - DriveArena: 可控生成式自动驾驶仿真平台 支持自定义场景生成和闭环测试 [4] - Epona: 基于自回归扩散世界模型的自动驾驶系统 可预测复杂交通场景演变 [4] - SynthDrive: 高保真传感器仿真流水线 实现真实-仿真-真实数据闭环 [4] - StableDepth: 场景一致的单目深度估计模型 支持尺度不变性深度预测 [4] - U-ViLAR: 基于可微分关联的视觉定位系统 集成不确定性感知模块 [4] 3D重建与场景生成 - DiST-4D: 解耦时空扩散模型 结合度量深度生成4D驾驶场景 [4] - GaussianProperty: 通过LMMs整合物理属性的3D高斯模型 支持材质属性编辑 [4] - GS-Occ3D: 基于高斯泼墨的纯视觉占用重建框架 实现自动驾驶场景三维重构 [5] - Curve-Aware Gaussian Splatting: 参数化曲线重建技术 提升3D几何结构精度 [6] 多模态感知与决策 - CoopTrack: 端到端协同序列感知框架 优化多智能体协作效率 [4] - ETA: 基于大模型的双轨自动驾驶系统 通过前瞻性思维提升决策效率 [5] - CARP: 粗到细的视觉运动策略学习 实现分层动作预测 [5] - Detect Anything 3D: 开放词汇3D检测系统 支持野外场景任意物体识别 [5] 生成式模型应用 - TaxaDiffusion: 渐进式训练扩散模型 实现细粒度生物物种生成 [8] - Hi3DGen: 图像到3D几何生成框架 通过法向桥接保持高保真度 [5] - Aether: 几何感知的统一世界建模 集成物理规律与语义理解 [4] 机器人操作与导航 - A0: 分层 affordance 感知模型 支持通用机器人操作任务 [4] - MoMa-Kitchen: 超10万样本的移动操作基准 针对最后米导航场景 [4] - OVA-Fields: 弱监督开放词汇 affordance 场 用于机器人部件检测 [5] 视觉基础模型 - ReME: 无训练开放词汇分割框架 基于数据中心的约束解除技术 [5] - StruMamba3D: 自监督点云表征学习 探索结构Mamba架构优势 [5] - G2D: 梯度引导的多模态蒸馏 提升跨模态学习效果 [9]
ICCV 2025不完全汇总(具身/自驾/3D视觉/LLM/CV等)
具身智能之心· 2025-06-27 09:41
具身智能相关 - GaussianProperty通过LMMs将物理属性整合到3D高斯模型中 [4] - Aether提出几何感知的统一世界建模方法 [4] - A0模型构建了分层架构实现通用机器人操作 [4] - PASG框架实现机器人操作中的几何基元自动提取与语义锚定 [4] - MoMa-Kitchen提供超过10万样本的移动操作导航基准数据集 [4] - OVA-Fields开发弱监督开放词汇affordance场用于机器人部件检测 [4] 自动驾驶相关 - ETA采用双模型架构提升自动驾驶系统效率 [4] - DriveArena构建可控生成式自动驾驶仿真平台 [4] - Epona开发自回归扩散世界模型用于自动驾驶 [4] - SynthDrive建立高保真传感器仿真与驾驶数据合成管线 [4] - StableDepth实现场景一致的单目深度估计 [4] - CoopTrack探索协同序列感知的端到端学习 [4] - U-ViLAR通过可微分关联实现不确定性感知的视觉定位 [4] 3D视觉与点云 - StruMamba3D探索结构Mamba模型用于点云自监督学习 [6] - DiST-4D开发解耦时空扩散模型用于4D驾驶场景生成 [6] - InvRGB+L实现复杂场景的统一颜色与LiDAR反射率建模 [6] - GS-Occ3D利用高斯泼溅扩展纯视觉占据重建规模 [6] - Detect Anything 3D实现野外环境3D物体检测 [6] - PanSt3R保证多视角全景分割一致性 [6] 大模型与生成技术 - 图知识检索与推理方法增强MLLMs处理未知领域能力 [8] - TaxaDiffusion开发渐进式训练扩散模型实现细粒度物种生成 [10] - G2D通过梯度引导蒸馏提升多模态学习效果 [13] - CL-Splats实现高斯泼溅的持续本地优化学习 [13]