Workflow
通用具身智能
icon
搜索文档
基于313篇VLA论文的综述与1661字压缩版
理想TOP2· 2025-09-25 13:33
以下文章来源于自动驾驶之心 ,作者Dapeng Zhang等 自动驾驶开发者社区,关注自动驾驶、计算机视觉、感知融合、BEV、部署落地、定位规控、领域方案 等,坚持为领域输出最前沿的技术方向! 压缩版: VLA (Vision Language Action) 模型的出现标志着机器人技术从传统的基于策略的控制向通用机 器人技术的范式转变 。它将视觉语言模型 (VLM) 从被动的序列生成器重构为能够在复杂动态环 境中进行主动操作和决策的智能体 。 该综述对VLA方法进行清晰的分类和系统性的回顾。 VLA方法主要可分为四类:基于自回归、基于扩散、基于强化学习以及混合与专用方法 。 基于自回归 (Autoregression-based) 的模型 自动驾驶之心 . 核心思想: 将动作序列视为时间依赖过程,逐步生成动作 。 创新与发展: 通用智能体: 通过统一的多模态Transformer(如Gato, RT-1/RT-2, PaLM-E)实现跨任务的泛化 。 推理与规划: 结合大语言模型 (LLM) 进行链式思考 (Chain-of-Thought) 和分层规划,处理长时程 和复杂任务 。 轨迹生成: 直接将语言指 ...
从300多篇工作中,看VLA在不同场景下的应用和实现......
具身智能之心· 2025-09-25 04:00
点击下方 卡片 ,关注" 具身智能 之心 "公众号 编辑丨具身智能之心 本文只做学术分享,如有侵权,联系删文 >> 点击进入→ 具身智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有你想要的。 兰州大学、中科院、新加坡国立等单位联合出品的一篇最新survey! Pure Vision Language Action (VLA) Models: A Comprehensive Survey 论文链接:https://arxiv.org/pdf/2509.19012 视觉-语言-动作(Vision Language Action, VLA)模型的出现,标志着机器人技术从传统基于策略的控制向通用机器人技术的范式转变,同时也将视觉- 语言模型(Vision Language Models, VLMs)从被动的序列生成器重新定位为在复杂、动态环境中执行操作与决策的主动智能体。 机器人技术长期以来一直是科学研究的重要领域。在历史发展进程中,机器人主要依赖预编程指令和设计好的控制策略来完成任务分解与执行。这些 方法通常应用于简单、重复性的任务,例如工厂 ...
深度综述 | 300+论文带你看懂:纯视觉如何将VLA推向自动驾驶和具身智能巅峰!
自动驾驶之心· 2025-09-24 23:33
视觉-语言-动作(Vision Language Action, VLA)模型的出现,标志着机器人技术从传统基于策略的控制向通用机器人技术的范式转变,同时也将视觉-语言模型(Vision Language Models, VLMs)从被动的序列生成器重新定位为在复杂、动态环境中执行操作与决策的主动智能体。 为此,兰州大学、中科院和新加坡国立大学的团队深入探讨了先进的VLA方法,旨在提供清晰的分类体系,并对现有研究进行系统、全面的综述。文中全面分析了VLA 在不同场景下的应用,并将VLA方法划分为多个范式: 自回归、扩散模型、强化学习、混合方法及专用方法 ;同时详细探讨了这些方法的设计动机、核心策略与实现方 式。 此外,本文还介绍了VLA研究所需的基础数据集、基准测试集与仿真平台。基于当前VLA研究现状,综述进一步提出了该领域面临的关键挑战与未来发展方向,以推动 VLA模型与通用机器人技术的研究进展。通过综合300多项最新研究的见解,本综述勾勒出这一快速发展领域的研究轮廓,并强调了将塑造可扩展、通用型VLA方法发 展的机遇与挑战。 论文标题:Pure Vision Language Action (VLA) M ...
中金:机器人大模型为具身智能破局关键 产业重心转向“小脑+大脑”系统研发
智通财经· 2025-09-19 02:05
机器人大模型技术发展 - 机器人大模型是破解传统机器人控制瓶颈、迈向通用具身智能的关键路径 [1] - 行业形成共识认为机器人大模型可通过融合视觉、触觉等多模态信息弥补机器人"物理常识"不足 [2] - 产业重心已转向"小脑+大脑"系统研发 不同企业在研发与商业化路径上存在差异 [1] 现有技术模型局限性 - 大语言模型在自然语言处理领域成熟但无法直接解决机器人物理操作问题且存在"幻觉"现象 [3] - 自动驾驶模型与机器人技术有相通之处但机器人面临场景更复杂 对通用性要求更高 [3] - 自动驾驶领域存在的极端场景泛化不足和安全冗余失衡问题在机器人领域同样难以突破 [3] 商业化发展路径 - 商业化存在"硬件优先"(由车企、机器人企业主导)和"模型优先"(由AI企业主导)两种路径 [4] - 受场景复杂度、技术门槛及商业回报周期影响 多数企业可能聚焦特定垂直领域实现场景化应用 [4] - 仅有少数具备全栈技术能力、资源整合优势与长期主义战略的企业有望突破至"具身智能"层级 [1][4]
自变量机器人获近10亿元A+轮融资
北京商报· 2025-09-08 02:08
融资情况 - 自变量机器人公司完成近10亿元A+轮融资 [1] - 本轮融资由阿里云和国科投资领投 国开金融、红杉中国、渶策资本跟投 [1] - 老股东美团战投超额跟投 联想之星和君联资本持续追投 [1] 资金用途 - 资金将用于全自研通用具身智能基础模型的持续训练 [1] - 资金将用于硬件产品的研发迭代 [1] 技术路径 - 公司自2023年底成立起确立以端到端统一大模型实现通用具身智能的技术路径 [1] - 近期发布适配多模态大模型控制的全自研轮式双臂仿人形机器人量子2号(Quanta X2) [1]
人形机器人开始比拼订单落地:松延动力称7月量产交付破百台
21世纪经济报道· 2025-08-01 09:46
公司商业化进展 - 松延动力7月实现量产交付105台人形机器人 其中N2型92台 E1型13台 环比增长176% 创公司最高交付纪录 [1] - 公司量产启动不足2个月即实现单月破百台交付 跻身人形机器人赛道头部 目前处于产能快速爬坡阶段 [1] - 总订单规模突破2500台 总合同额超1亿元 成为继宇树科技后又一家销量破千的人形机器人公司 [2] - 北京昌平工厂拥有3000平米标准厂房 常州天宁工厂拥有2100平米厂房 另设东莞基地专注仿生人形机器人生产 [2] 公司战略与融资 - 2023年成立至今完成五轮融资 投资方包括英诺天使基金 SEE Fund无限基金 水木清华校友种子基金等 [2] - 2024年3月完成两轮过亿元融资 近期正交割A++轮和Pre-B轮融资 规模约数亿元 [4] - 下半年重点目标是将订单破亿元转化为确收破亿元 2025年目标交付量达万台 [2] - 通过"百日誓师大会"全力解决量产交付问题 强调交付可靠性与避免大规模返修风险 [3] 行业动态与竞争格局 - 行业头部企业频获大额订单:优必选中标觅亿汽车科技9051.15万元采购项目 智元机器人和宇树科技中标中国移动1.24亿元代工服务项目 [5] - 2024年多家企业完成融资:它石智航获1.2亿美元天使轮融资(具身智能行业最高纪录) 银河通用获11亿元融资 宇树科技获7亿元融资 [4] - 行业应用场景存在同质化竞争 松延动力订单主要来自教育 科研 文旅展示和商业演出领域 与友商重合度较高 [6] - 行业现阶段处于马拉松"起跑阶段" 尚未达到商业爆发时点 需聚焦高产品力与高价值场景的匹配 [5][6] 行业专家观点 - 单月交付破百台证明松延动力具备大规模生产和快速爬产能力 完成商业化能力闭环验证 [1] - 人形机器人行业共同目标是实现通用具身智能 当前需通过售后反馈促进技术研发突破 建立利润和正向现金流 [5] - 松延动力正加强现有场景渗透并开拓新场景 以规避同质化竞争 行业场景开发仍处早期阶段 [6]
四川首批机器人产业机会清单发布
新华财经· 2025-07-31 09:08
行业政策与活动 - 四川省机器人产业供需对接活动在成都中国西部国际博览城举行 [1] - 四川首批机器人产业机会清单正式发布 包括应用场景、重点产品、技术需求、创新平台四张子清单 [1] 应用场景清单 - 应用场景清单共收集194个场景 覆盖工业、公安、民政、文旅、卫健、应急等系统 [1] - 场景分为制造与物流、生活与服务、医疗与康复、导览与交互、应急与巡检、特种作业六大需求类型 [1] 重点产品清单 - 重点产品清单采用自愿申报方式 第一批选录120个产品 [1] - 产业分布以成都和绵阳为主承载地 其他市州协同支撑 [1] - 产品分类在应用场景6类基础上增加通用具身智能和机器人关键零部件 共8种类别 [1] 技术需求与创新平台 - 技术需求清单共35条 涉及20多家企业 覆盖智能算法、关键零部件、外观设计、系统集成、产品优化等领域 [2] - 创新平台清单共10个 包括四川省机器人及智能装备创新中心、绵阳科技城新区机器人产业技术研究院等重点平台 [2] - 平台主要分布于成都、德阳、绵阳等地 [2] 产业发展规划 - 产业机会清单将持续更新迭代 致力于打通供需信息堵点 [2] - 以标志性产品为牵引 加强整零对接、技术对接、产融对接、场景对接 [2] - 推进机器人样机试制、中试验证、迭代升级、示范应用 加快建设机器人产业集群 [2]
百万规模数据集打造人形机器人通用大模型,实现精细动作跨平台、跨形态动作迁移丨北大人大联合发布
量子位· 2025-05-14 08:55
技术突破 - 北大和人大团队首创具备数据-模型协同放量特性的通用动作生成框架Being-M0 [1] - 构建业界首个百万规模动作生成数据集MotionLib,规模达现有最大公开数据集的15倍 [4][10] - 研发端到端文本驱动动作生成模型,实现人体动作向多类型人形机器人的迁移 [2] 数据集创新 - 从2000万段视频中筛选出100万条高质量动作序列,建立全自动化处理流程 [7][10] - 采用分层标注方案,利用Gemini-1.5-pro生成结构化描述,细化到身体部位运动特征 [10] - 数据集包含RGB视频、深度信息等多模态数据,支持多人交互场景分析 [10] 模型架构 - 验证模型规模与数据规模的协同放大效应,13B参数模型比700M参数模型性能显著提升 [13] - 提出MotionBook二维无查找量化框架,使动作词表容量提升两个数量级 [16] - 空间-时序解耦编码保留运动多维结构特征,解决传统VQ技术信息损失问题 [16] 动作迁移 - 创新"优化+学习"两阶段方案,实现人体动作向宇树H1/H1-2/G1等机器人的高效迁移 [6][19] - 多目标优化生成满足机器人运动学约束的动作序列,保证数据质量 [20] - 轻量级MLP网络学习映射关系,提升系统实时性能同时保持准确性 [20][21] 应用前景 - 为构建通用动作生成模型提供关键设计准则,奠定通用动作智能基础 [5][14] - 推动人形机器人具身大模型、灵巧操作等技术的发展 [22] - 项目将持续迭代,目标是让机器人具备更强通用能力和自主性 [22]
北京一季度产业经济亮点纷呈:增长强劲、创新加速、信心攀升
新京报· 2025-04-28 11:00
产业经济表现 - 一季度北京工业和信息软件业增加值突破4000亿元 占全市GDP比重超过35% [3] - 全市GDP增速5.5% 工业和信息软件业贡献近3个百分点 规上工业增加值增长6.8% 增速跑赢全国 [3] - 汽车制造和电子信息业增加值分别实现17.2%和28%的高速增长 [3] 创新动能发展 - 国际医药创新园吸引美敦力、阿斯利康、辉瑞三大巨头研发中心入驻 [3] - 高技术制造业和战略性新兴产业均保持两位数增长 [3] - 数字经济增加值同比增长8.3% 其中核心产业增长9.7% [3] - 自动驾驶新规落地 国产算力验证中心平台投用 全球首个通用具身智能平台"慧思开物"亮相 [3] 重大项目投资 - 京津冀新能源汽车科技生态港等重大项目落地开工 [4] - 工业重点产业投资增长23.1% 信息软件业投资激增1.8倍 [4] 出口贸易表现 - 规上工业出口交货值突破500亿元 创近3年同期新高 [4] - 汽车出口增长52% 电气机械出口增长1.2倍 [4] 市场信心指标 - 前两月信息软件业利润增幅达37.5% 研发投入保持两位数增长 [4] - 制造业PMI重返扩张区间 [4] - 一季度新设工业企业增长25.7% 信息软件业企业注册量激增1.8倍 [4]
谷歌VS Figure AI VS成都:人形机器人的“脑”力角逐
机器人大讲堂· 2025-04-22 08:28
全球人形机器人产业技术革命 - 全球人形机器人产业正迎来"大脑"技术革命,2025年初美国Figure AI、谷歌DeepMind和成都人形机器人创新中心先后发布通用具身智能大模型,争夺产业标准话语权 [1] 谷歌DeepMind技术路径 - 谷歌DeepMind发布基于Gemini 2.0的机器人AI模型Gemini Robotics和Gemini Robotics-ER,目标构建通用机器人生态 [1] - Gemini Robotics在泛化性、交互性和灵巧性三方面提升:泛化能力比现有模型提高一倍,能处理训练中未遇到的任务;语言理解能力优秀,可实时调整路径;能精确操作复杂多步骤任务 [1][3] - Gemini Robotics-ER专注于增强空间推理能力,如识别咖啡杯把位置并规划安全接近路径 [5] Figure AI技术路径 - Figure AI发布Helix端到端视觉-语言-动作通用控制模型,泛化能力、动作精度与实时性显著提升,已在宝马工厂试点 [5] - Helix采用"系统1+系统2"双系统架构:S2解析指令并规划任务目标,S1以毫秒级响应生成动作;具备跨物体泛化能力,可直接部署在低性能芯片上;支持多机器人协作,共享神经网络权重和实时环境感知数据 [5][7] 成都创新中心技术路径 - 成都人形机器人创新中心发布Raydiculous—1系统,国内首个基于3DSGs的自主跨空间任务规划推理执行系统,突破单一场景限制 [9] - Raydiculous—1具有跨场景、长视野、轻量型特点:通过3DSGs实现跨空间连续任务执行;采用长视野任务规划引擎分解复杂任务;模块化设计降低算力需求,硬件成本仅为同类方案1/3 [10][12][15] 技术路径对比 - 谷歌依赖云端算力打造通用机器人生态,Figure AI专注工业场景实时响应,成都方案侧重家庭服务等民生领域轻量化本地部署 [16] - 核心差异:算力需求方面谷歌需千卡集群而成都成本优势显著;联网需求方面谷歌需联网而Figure与成都减少云端依赖;规划能力方面成都具备长视野跨空间优势 [17] - 三家均采用"规划-执行"分层策略,致力于提升机器人日常事务与家务劳动能力 [17] 产业竞争格局 - 人形机器人"大脑"技术是算法竞赛与国家高端制造能力的试金石,中国通过根技术创新可能绕开欧美技术霸权开辟万亿美元级市场 [18] - 产业生态涉及工业机器人、服务与特种机器人、医疗机器人、人形机器人及核心零部件企业 [23][24][25]