Workflow
通用具身智能
icon
搜索文档
基于313篇VLA论文的综述与1661字压缩版
理想TOP2· 2025-09-25 13:33
VLA模型综述核心观点 - VLA模型的出现标志着机器人技术从传统基于策略的控制向通用机器人技术的范式转变,将视觉语言模型从被动的序列生成器重构为能够在复杂动态环境中进行主动操作和决策的智能体[1][12] - 该综述对VLA方法进行清晰的分类和系统性的回顾,基于300多项最新研究,将VLA方法主要分为四类:基于自回归、基于扩散、基于强化学习以及混合与专用方法[1][2][12] - VLA模型通过整合视觉编码器的表征能力、大语言模型的推理能力、强化学习与控制框架的决策能力,有望弥合"感知-理解-动作"的鸿沟,成为实现通用具身智能的核心路径[38][39] VLA方法分类与特点 基于自回归的模型 - 核心思想是将动作序列视为时间依赖过程,逐步生成动作,通过统一的多模态Transformer实现跨任务的泛化[4][46] - 创新点包括结合大语言模型进行链式思考和分层规划处理长时程和复杂任务,直接将语言指令映射为运动轨迹并通过视频预训练增强时间建模能力[4][47][48] - 采用层级规划、动态推理、量化和并行解码等技术减少计算冗余和延迟,典型模型包括Gato、RT-1/RT-2、PaLM-E等[4][48] 基于扩散的模型 - 核心思想是将动作生成视为一个条件去噪过程,能够对多模态的动作分布进行建模,将策略学习重新解释为视频生成[5][59] - 利用几何感知方法确保动作的物理一致性,利用Transformer统一处理视觉、语言和动作等异构模态实现灵活的目标条件化[5][63] - 出现轻量化设计以降低训练成本,发展出双系统/三系统等认知启发式架构提升任务性能和可解释性,典型模型包括SE(3)-DiffusionFields、Dita等[5][63][67] 基于强化学习的模型 - 核心思想是整合视觉语言模型与强化学习,利用视觉和语言输入在交互式环境中生成上下文感知的动作[6][72] - 利用视觉语言模型从人类演示中学习奖励代理简化奖励工程,提出约束学习对齐机制防止高风险行为同时不牺牲任务性能[6][73] - 结合离线学习和在线学习实现安全高效的训练,采用量化、剪枝和知识蒸馏等方法压缩模型提高推理速度并减少内存占用[6][73] 混合与专用方法 - 混合架构结合不同范式,利用扩散生成平滑的轨迹同时保留自回归模型的推理能力,典型代表如HybridVLA[7][80] - 从早期的特征拼接发展到显式建模几何、功能可见性和空间约束的3D感知架构,如CLIPort、3D-VLA等[7][80][82] - 将VLA框架扩展到自动驾驶、人形机器人控制和图形用户界面交互等特定领域,通过大规模多模态数据集和可扩展架构构建通用机器人智能体[7][80][83] 数据集与仿真平台 - VLA模型的发展严重依赖高质量数据集,真实世界数据集如Open X-Embodiment整合了来自21个机构的22个机器人数据集,包含527项技能和160,266个任务[8][35][99] - 模拟数据集如ALFRED、RLBench和CARLA为大规模、可控和安全的模型训练与评估提供了环境,模拟器如THOR、Habitat、MuJoCo和Isaac Gym为开发和评估智能机器人在多样化交互环境中的能力提供了平台[8][35][41] - 自动驾驶领域的数据集提供包含相机图像、激光雷达点云、雷达信号和高清地图在内的多模态传感器数据,但大多数公开数据集是在开环场景下采集的,主要反映正常驾驶行为[101][102] 核心挑战与未来机遇 - 核心挑战包括数据稀缺性、架构异构性、实时性约束和评估局限性,真实世界机器人交互数据的规模和多样性仍然不足,大规模Transformer架构的推理速度严重限制了其在需要毫秒级响应的真实机器人上的应用[9][43] - 未来机遇包括实现语言、视觉和行动的深度耦合使VLA演变为能够联合建模环境、推理和交互的"世界模型",发展能够基于因果定律进行探索和验证的模型[10][39] - 结合高保真模拟和合成数据生成构建超大规模轨迹数据集,建立风险评估、可解释性和问责制的标准化框架,将VLA从实验室工具转变为社会中值得信赖的合作伙伴[10][39]
从300多篇工作中,看VLA在不同场景下的应用和实现......
具身智能之心· 2025-09-25 04:00
文章核心观点 - 视觉-语言-动作模型是机器人技术从传统控制向通用机器人技术范式转变的关键标志,将视觉-语言模型从被动序列生成器重新定位为在复杂动态环境中执行操作的主动智能体[2] - 该综述基于300多项最新研究,首次对纯VLA方法进行系统全面总结,提出清晰分类体系并分析五类范式的设计动机、核心策略与实现方式[2][3][7] - VLA模型通过整合视觉编码器表征能力、大语言模型推理能力和强化学习决策能力,有望弥合"感知-理解-动作"鸿沟,成为实现通用具身智能的核心路径[15][20][21] VLA模型技术背景与发展历程 - 单模态建模突破为多模态融合奠定基础:计算机视觉领域从CNN到ViT的演进,自然语言处理领域Transformer架构催生大语言模型,强化学习领域从DQN到决策Transformer形成序列决策新视角[13] - 视觉-语言模型作为关键桥梁经历从模态对齐到复杂跨模态理解发展:早期对齐模型如ViLBERT、对比学习模型如CLIP、指令微调模型如BLIP-2和LLaVA[16] - VLA模型核心设计思路包括模态token化和自回归动作生成,实现端到端跨模态对齐并继承VLMs语义泛化能力[15][17] VLA模型主要方法范式 自回归模型 - 通用VLA方法发展经历三个阶段:早期统一token化如Gato、大规模真实数据训练如RT-1和RT-2、跨平台泛化与效率优化如Octo和NORA[26][27] - 基于大语言模型的推理与语义规划使VLA从"被动输入解析器"转变为"语义中介",支持长任务和组合任务的推理驱动控制[29][33] - 结构优化与高效推理机制包括分层模块化优化、动态自适应推理、轻量化压缩与并行化,如MoLe-VLA降低40%计算成本[35][36] 扩散模型 - 通用方法实现从确定性动作到概率性多轨迹生成转变:几何感知生成如SE(3)-DiffusionFields、视频驱动生成如UPDP、时间一致性优化如TUDP[37][40][44] - 多模态架构融合趋势明显:大规模扩散Transformer如Dita、多模态token对齐如M-DiT、推理与扩散结合如Diffusion-VLA[41][45] - 应用优化部署呈现三大趋势:效率优化如TinyVLA仅需5%可训练参数、任务适应性如DexVLG支持零样本灵巧抓取、认知启发架构如TriVLA实现36Hz交互频率[42][46] 强化学习微调模型 - 聚焦奖励设计、策略优化和跨任务迁移:自监督奖励与表征学习如VIP生成密集奖励函数、跨模态奖励代理与人类反馈如SafeVLA引入安全约束机制[48][49] - 实现跨机器人形态适配:四足机器人如NaVILA、人形机器人如LeVERB、自动驾驶如AutoVLA通过链推理微调生成离散可行动作[49][50] - 融合离线与在线强化学习:ConRFT结合离线行为克隆与在线一致性目标,平衡样本效率与策略安全性[49] 数据集与仿真平台支撑 - 真实世界数据集规模显著扩大:Open X-Embodiment整合21个机构22个机器人数据集,包含527项技能和160266个任务,通过标准化格式促进研究可复现性[18][64] - 仿真平台解决数据稀缺和实机测试风险:多样化环境与物理真实性支持,如MuJoCo/Isaac Gym适用于动力学仿真,CARLA面向自动驾驶场景[18][19] - 基准测试评估指标以成功率为主,自动驾驶领域增加L2距离和完成率等专用指标,仿真领域开发交互式导航评分等新指标[65][67][70] 技术挑战与未来方向 - 面临可扩展性、泛化性、安全性三大核心挑战:现有模型难以适应大规模真实场景,在未知场景中准确性下降,实机部署存在安全隐患[21][25] - 数据局限性突出:标注成本高,长尾场景覆盖不足,真实世界数据采集受硬件设备和精准操控限制[18][62][73] - 未来需突破仿真到现实差距,解决多模态对齐稳定性问题,开发更丰富评估协议匹配真实世界自主系统需求[21][73]
深度综述 | 300+论文带你看懂:纯视觉如何将VLA推向自动驾驶和具身智能巅峰!
自动驾驶之心· 2025-09-24 23:33
文章核心观点 - 视觉-语言-动作模型代表了机器人技术从传统控制向通用机器人技术的范式转变,将视觉-语言模型从被动生成器转变为能在复杂环境中决策的主动智能体 [1] - 该综述综合了300多项最新研究,对VLA方法进行了系统分类,并探讨了其应用、关键挑战及未来发展方向 [1] - VLA模型通过整合视觉编码器、大型语言模型和强化学习的优势,旨在弥合“感知-理解-动作”的鸿沟,成为实现通用具身智能的核心路径 [16][23] VLA模型的核心范式与分类 - VLA方法被划分为五大范式:自回归模型、扩散模型、强化学习模型、混合方法及专用方法 [1][24] - 自回归模型通过Transformer架构统一多模态感知和序列动作生成,支持跨任务泛化,但存在误差累积和延迟问题 [26][39] - 扩散模型将机器人控制从确定性回归转变为概率性生成,支持从同一观测生成多种有效轨迹,但在动态环境中的轨迹稳定性仍需改进 [41][43] - 强化学习微调模型通过融合视觉-语言基础模型与RL算法,增强VLA的感知和决策能力,擅长结合人类反馈和适应新任务 [48][51] VLA模型的技术演进与关键创新 - VLA模型的发展经历了从单模态基础模型到多模态融合,再到“多模态+可执行控制”的演进路径 [16] - 关键技术创新包括模态token化、自回归动作生成、以及将视觉、语言、状态和动作统一在单一序列建模框架中 [20][30] - 代表性模型如Gato实现了异质模态的统一token化,RT-1基于13万条真实世界数据训练,RT-2融入了网络级VLM知识 [30] - 扩散模型领域的创新包括SE(3)-DiffusionFields将扩散扩展到SE(3)位姿空间,以及Dita构建的可扩展扩散Transformer [42][45] VLA模型的应用场景与机器人形态 - VLA模型已应用于多种机器人形态,包括机械臂、四足机器人、人形机器人和轮式机器人 [7] - 在自动驾驶领域,VLA模型用于轨迹生成和危险规避,CoVLA构建了包含5万条语言指令-轨迹对的大规模数据集 [55] - 专用领域适配包括GUI交互、人形全身控制以及特殊任务如魔方还原,展现了VLA的通用性 [55][57] - 人形机器人控制通过分层VLA框架实现,如LeVERB将视觉-语言处理与动力学级动作处理耦合,支持150+任务的仿真到现实迁移 [55] 数据集与仿真平台的支撑作用 - VLA模型的发展高度依赖高质量数据集和仿真平台,以解决数据稀缺和实机测试风险高的问题 [17] - 真实世界数据集如BridgeData涵盖10个环境中的71项任务,Open X-Embodiment整合了22个机器人数据集,包含160266个任务 [21][65] - 仿真平台如MuJoCo/Isaac Gym提供精确的物理仿真,CARLA面向自动驾驶提供真实城市交通场景,支持安全高效的大规模训练 [21] - 评估指标通常采用成功率、语言遵循率、L2距离和完成率等,以衡量模型的性能、鲁棒性和泛化能力 [66][68][74] VLA模型面临的挑战与未来方向 - 关键挑战包括可扩展性不足、在未知场景中的泛化性下降、实机部署的安全性风险以及仿真到现实的差距 [23][29] - 未来研究方向需解决数据局限性、推理速度、安全性以及长尾场景覆盖不足等问题,以加速通用机器人技术的发展 [7][23] - 效率优化和轻量化设计成为趋势,如MoLe-VLA通过混合专家路由降低40%计算成本,BitVLA采用1位量化将内存占用降至30% [36][55] - 安全机制和可解释性研究受到重视,SafeVLA引入安全评论网络和约束策略优化框架,以降低开放环境中的风险事件 [51][57]
中金:机器人大模型为具身智能破局关键 产业重心转向“小脑+大脑”系统研发
智通财经· 2025-09-19 02:05
机器人大模型技术发展 - 机器人大模型是破解传统机器人控制瓶颈、迈向通用具身智能的关键路径 [1] - 行业形成共识认为机器人大模型可通过融合视觉、触觉等多模态信息弥补机器人"物理常识"不足 [2] - 产业重心已转向"小脑+大脑"系统研发 不同企业在研发与商业化路径上存在差异 [1] 现有技术模型局限性 - 大语言模型在自然语言处理领域成熟但无法直接解决机器人物理操作问题且存在"幻觉"现象 [3] - 自动驾驶模型与机器人技术有相通之处但机器人面临场景更复杂 对通用性要求更高 [3] - 自动驾驶领域存在的极端场景泛化不足和安全冗余失衡问题在机器人领域同样难以突破 [3] 商业化发展路径 - 商业化存在"硬件优先"(由车企、机器人企业主导)和"模型优先"(由AI企业主导)两种路径 [4] - 受场景复杂度、技术门槛及商业回报周期影响 多数企业可能聚焦特定垂直领域实现场景化应用 [4] - 仅有少数具备全栈技术能力、资源整合优势与长期主义战略的企业有望突破至"具身智能"层级 [1][4]
自变量机器人获近10亿元A+轮融资
北京商报· 2025-09-08 02:08
融资情况 - 自变量机器人公司完成近10亿元A+轮融资 [1] - 本轮融资由阿里云和国科投资领投 国开金融、红杉中国、渶策资本跟投 [1] - 老股东美团战投超额跟投 联想之星和君联资本持续追投 [1] 资金用途 - 资金将用于全自研通用具身智能基础模型的持续训练 [1] - 资金将用于硬件产品的研发迭代 [1] 技术路径 - 公司自2023年底成立起确立以端到端统一大模型实现通用具身智能的技术路径 [1] - 近期发布适配多模态大模型控制的全自研轮式双臂仿人形机器人量子2号(Quanta X2) [1]
人形机器人开始比拼订单落地:松延动力称7月量产交付破百台
21世纪经济报道· 2025-08-01 09:46
公司商业化进展 - 松延动力7月实现量产交付105台人形机器人 其中N2型92台 E1型13台 环比增长176% 创公司最高交付纪录 [1] - 公司量产启动不足2个月即实现单月破百台交付 跻身人形机器人赛道头部 目前处于产能快速爬坡阶段 [1] - 总订单规模突破2500台 总合同额超1亿元 成为继宇树科技后又一家销量破千的人形机器人公司 [2] - 北京昌平工厂拥有3000平米标准厂房 常州天宁工厂拥有2100平米厂房 另设东莞基地专注仿生人形机器人生产 [2] 公司战略与融资 - 2023年成立至今完成五轮融资 投资方包括英诺天使基金 SEE Fund无限基金 水木清华校友种子基金等 [2] - 2024年3月完成两轮过亿元融资 近期正交割A++轮和Pre-B轮融资 规模约数亿元 [4] - 下半年重点目标是将订单破亿元转化为确收破亿元 2025年目标交付量达万台 [2] - 通过"百日誓师大会"全力解决量产交付问题 强调交付可靠性与避免大规模返修风险 [3] 行业动态与竞争格局 - 行业头部企业频获大额订单:优必选中标觅亿汽车科技9051.15万元采购项目 智元机器人和宇树科技中标中国移动1.24亿元代工服务项目 [5] - 2024年多家企业完成融资:它石智航获1.2亿美元天使轮融资(具身智能行业最高纪录) 银河通用获11亿元融资 宇树科技获7亿元融资 [4] - 行业应用场景存在同质化竞争 松延动力订单主要来自教育 科研 文旅展示和商业演出领域 与友商重合度较高 [6] - 行业现阶段处于马拉松"起跑阶段" 尚未达到商业爆发时点 需聚焦高产品力与高价值场景的匹配 [5][6] 行业专家观点 - 单月交付破百台证明松延动力具备大规模生产和快速爬产能力 完成商业化能力闭环验证 [1] - 人形机器人行业共同目标是实现通用具身智能 当前需通过售后反馈促进技术研发突破 建立利润和正向现金流 [5] - 松延动力正加强现有场景渗透并开拓新场景 以规避同质化竞争 行业场景开发仍处早期阶段 [6]
四川首批机器人产业机会清单发布
新华财经· 2025-07-31 09:08
行业政策与活动 - 四川省机器人产业供需对接活动在成都中国西部国际博览城举行 [1] - 四川首批机器人产业机会清单正式发布 包括应用场景、重点产品、技术需求、创新平台四张子清单 [1] 应用场景清单 - 应用场景清单共收集194个场景 覆盖工业、公安、民政、文旅、卫健、应急等系统 [1] - 场景分为制造与物流、生活与服务、医疗与康复、导览与交互、应急与巡检、特种作业六大需求类型 [1] 重点产品清单 - 重点产品清单采用自愿申报方式 第一批选录120个产品 [1] - 产业分布以成都和绵阳为主承载地 其他市州协同支撑 [1] - 产品分类在应用场景6类基础上增加通用具身智能和机器人关键零部件 共8种类别 [1] 技术需求与创新平台 - 技术需求清单共35条 涉及20多家企业 覆盖智能算法、关键零部件、外观设计、系统集成、产品优化等领域 [2] - 创新平台清单共10个 包括四川省机器人及智能装备创新中心、绵阳科技城新区机器人产业技术研究院等重点平台 [2] - 平台主要分布于成都、德阳、绵阳等地 [2] 产业发展规划 - 产业机会清单将持续更新迭代 致力于打通供需信息堵点 [2] - 以标志性产品为牵引 加强整零对接、技术对接、产融对接、场景对接 [2] - 推进机器人样机试制、中试验证、迭代升级、示范应用 加快建设机器人产业集群 [2]
百万规模数据集打造人形机器人通用大模型,实现精细动作跨平台、跨形态动作迁移丨北大人大联合发布
量子位· 2025-05-14 08:55
技术突破 - 北大和人大团队首创具备数据-模型协同放量特性的通用动作生成框架Being-M0 [1] - 构建业界首个百万规模动作生成数据集MotionLib,规模达现有最大公开数据集的15倍 [4][10] - 研发端到端文本驱动动作生成模型,实现人体动作向多类型人形机器人的迁移 [2] 数据集创新 - 从2000万段视频中筛选出100万条高质量动作序列,建立全自动化处理流程 [7][10] - 采用分层标注方案,利用Gemini-1.5-pro生成结构化描述,细化到身体部位运动特征 [10] - 数据集包含RGB视频、深度信息等多模态数据,支持多人交互场景分析 [10] 模型架构 - 验证模型规模与数据规模的协同放大效应,13B参数模型比700M参数模型性能显著提升 [13] - 提出MotionBook二维无查找量化框架,使动作词表容量提升两个数量级 [16] - 空间-时序解耦编码保留运动多维结构特征,解决传统VQ技术信息损失问题 [16] 动作迁移 - 创新"优化+学习"两阶段方案,实现人体动作向宇树H1/H1-2/G1等机器人的高效迁移 [6][19] - 多目标优化生成满足机器人运动学约束的动作序列,保证数据质量 [20] - 轻量级MLP网络学习映射关系,提升系统实时性能同时保持准确性 [20][21] 应用前景 - 为构建通用动作生成模型提供关键设计准则,奠定通用动作智能基础 [5][14] - 推动人形机器人具身大模型、灵巧操作等技术的发展 [22] - 项目将持续迭代,目标是让机器人具备更强通用能力和自主性 [22]
北京一季度产业经济亮点纷呈:增长强劲、创新加速、信心攀升
新京报· 2025-04-28 11:00
产业经济表现 - 一季度北京工业和信息软件业增加值突破4000亿元 占全市GDP比重超过35% [3] - 全市GDP增速5.5% 工业和信息软件业贡献近3个百分点 规上工业增加值增长6.8% 增速跑赢全国 [3] - 汽车制造和电子信息业增加值分别实现17.2%和28%的高速增长 [3] 创新动能发展 - 国际医药创新园吸引美敦力、阿斯利康、辉瑞三大巨头研发中心入驻 [3] - 高技术制造业和战略性新兴产业均保持两位数增长 [3] - 数字经济增加值同比增长8.3% 其中核心产业增长9.7% [3] - 自动驾驶新规落地 国产算力验证中心平台投用 全球首个通用具身智能平台"慧思开物"亮相 [3] 重大项目投资 - 京津冀新能源汽车科技生态港等重大项目落地开工 [4] - 工业重点产业投资增长23.1% 信息软件业投资激增1.8倍 [4] 出口贸易表现 - 规上工业出口交货值突破500亿元 创近3年同期新高 [4] - 汽车出口增长52% 电气机械出口增长1.2倍 [4] 市场信心指标 - 前两月信息软件业利润增幅达37.5% 研发投入保持两位数增长 [4] - 制造业PMI重返扩张区间 [4] - 一季度新设工业企业增长25.7% 信息软件业企业注册量激增1.8倍 [4]
谷歌VS Figure AI VS成都:人形机器人的“脑”力角逐
机器人大讲堂· 2025-04-22 08:28
全球人形机器人产业技术革命 - 全球人形机器人产业正迎来"大脑"技术革命,2025年初美国Figure AI、谷歌DeepMind和成都人形机器人创新中心先后发布通用具身智能大模型,争夺产业标准话语权 [1] 谷歌DeepMind技术路径 - 谷歌DeepMind发布基于Gemini 2.0的机器人AI模型Gemini Robotics和Gemini Robotics-ER,目标构建通用机器人生态 [1] - Gemini Robotics在泛化性、交互性和灵巧性三方面提升:泛化能力比现有模型提高一倍,能处理训练中未遇到的任务;语言理解能力优秀,可实时调整路径;能精确操作复杂多步骤任务 [1][3] - Gemini Robotics-ER专注于增强空间推理能力,如识别咖啡杯把位置并规划安全接近路径 [5] Figure AI技术路径 - Figure AI发布Helix端到端视觉-语言-动作通用控制模型,泛化能力、动作精度与实时性显著提升,已在宝马工厂试点 [5] - Helix采用"系统1+系统2"双系统架构:S2解析指令并规划任务目标,S1以毫秒级响应生成动作;具备跨物体泛化能力,可直接部署在低性能芯片上;支持多机器人协作,共享神经网络权重和实时环境感知数据 [5][7] 成都创新中心技术路径 - 成都人形机器人创新中心发布Raydiculous—1系统,国内首个基于3DSGs的自主跨空间任务规划推理执行系统,突破单一场景限制 [9] - Raydiculous—1具有跨场景、长视野、轻量型特点:通过3DSGs实现跨空间连续任务执行;采用长视野任务规划引擎分解复杂任务;模块化设计降低算力需求,硬件成本仅为同类方案1/3 [10][12][15] 技术路径对比 - 谷歌依赖云端算力打造通用机器人生态,Figure AI专注工业场景实时响应,成都方案侧重家庭服务等民生领域轻量化本地部署 [16] - 核心差异:算力需求方面谷歌需千卡集群而成都成本优势显著;联网需求方面谷歌需联网而Figure与成都减少云端依赖;规划能力方面成都具备长视野跨空间优势 [17] - 三家均采用"规划-执行"分层策略,致力于提升机器人日常事务与家务劳动能力 [17] 产业竞争格局 - 人形机器人"大脑"技术是算法竞赛与国家高端制造能力的试金石,中国通过根技术创新可能绕开欧美技术霸权开辟万亿美元级市场 [18] - 产业生态涉及工业机器人、服务与特种机器人、医疗机器人、人形机器人及核心零部件企业 [23][24][25]