Workflow
具身智能之心
icon
搜索文档
从300多篇工作中,看VLA在不同场景下的应用和实现......
具身智能之心· 2025-09-25 04:00
文章核心观点 - 视觉-语言-动作模型是机器人技术从传统控制向通用机器人技术范式转变的关键标志,将视觉-语言模型从被动序列生成器重新定位为在复杂动态环境中执行操作的主动智能体[2] - 该综述基于300多项最新研究,首次对纯VLA方法进行系统全面总结,提出清晰分类体系并分析五类范式的设计动机、核心策略与实现方式[2][3][7] - VLA模型通过整合视觉编码器表征能力、大语言模型推理能力和强化学习决策能力,有望弥合"感知-理解-动作"鸿沟,成为实现通用具身智能的核心路径[15][20][21] VLA模型技术背景与发展历程 - 单模态建模突破为多模态融合奠定基础:计算机视觉领域从CNN到ViT的演进,自然语言处理领域Transformer架构催生大语言模型,强化学习领域从DQN到决策Transformer形成序列决策新视角[13] - 视觉-语言模型作为关键桥梁经历从模态对齐到复杂跨模态理解发展:早期对齐模型如ViLBERT、对比学习模型如CLIP、指令微调模型如BLIP-2和LLaVA[16] - VLA模型核心设计思路包括模态token化和自回归动作生成,实现端到端跨模态对齐并继承VLMs语义泛化能力[15][17] VLA模型主要方法范式 自回归模型 - 通用VLA方法发展经历三个阶段:早期统一token化如Gato、大规模真实数据训练如RT-1和RT-2、跨平台泛化与效率优化如Octo和NORA[26][27] - 基于大语言模型的推理与语义规划使VLA从"被动输入解析器"转变为"语义中介",支持长任务和组合任务的推理驱动控制[29][33] - 结构优化与高效推理机制包括分层模块化优化、动态自适应推理、轻量化压缩与并行化,如MoLe-VLA降低40%计算成本[35][36] 扩散模型 - 通用方法实现从确定性动作到概率性多轨迹生成转变:几何感知生成如SE(3)-DiffusionFields、视频驱动生成如UPDP、时间一致性优化如TUDP[37][40][44] - 多模态架构融合趋势明显:大规模扩散Transformer如Dita、多模态token对齐如M-DiT、推理与扩散结合如Diffusion-VLA[41][45] - 应用优化部署呈现三大趋势:效率优化如TinyVLA仅需5%可训练参数、任务适应性如DexVLG支持零样本灵巧抓取、认知启发架构如TriVLA实现36Hz交互频率[42][46] 强化学习微调模型 - 聚焦奖励设计、策略优化和跨任务迁移:自监督奖励与表征学习如VIP生成密集奖励函数、跨模态奖励代理与人类反馈如SafeVLA引入安全约束机制[48][49] - 实现跨机器人形态适配:四足机器人如NaVILA、人形机器人如LeVERB、自动驾驶如AutoVLA通过链推理微调生成离散可行动作[49][50] - 融合离线与在线强化学习:ConRFT结合离线行为克隆与在线一致性目标,平衡样本效率与策略安全性[49] 数据集与仿真平台支撑 - 真实世界数据集规模显著扩大:Open X-Embodiment整合21个机构22个机器人数据集,包含527项技能和160266个任务,通过标准化格式促进研究可复现性[18][64] - 仿真平台解决数据稀缺和实机测试风险:多样化环境与物理真实性支持,如MuJoCo/Isaac Gym适用于动力学仿真,CARLA面向自动驾驶场景[18][19] - 基准测试评估指标以成功率为主,自动驾驶领域增加L2距离和完成率等专用指标,仿真领域开发交互式导航评分等新指标[65][67][70] 技术挑战与未来方向 - 面临可扩展性、泛化性、安全性三大核心挑战:现有模型难以适应大规模真实场景,在未知场景中准确性下降,实机部署存在安全隐患[21][25] - 数据局限性突出:标注成本高,长尾场景覆盖不足,真实世界数据采集受硬件设备和精准操控限制[18][62][73] - 未来需突破仿真到现实差距,解决多模态对齐稳定性问题,开发更丰富评估协议匹配真实世界自主系统需求[21][73]
基于移动设备采集的3DGS实现个性化Real-to-Sim-to-Real导航
具身智能之心· 2025-09-25 00:04
研究背景与核心问题 - 具身AI(如导航机器人)的训练高度依赖仿真环境,但面临保真度与成本的矛盾,导致仿真中表现优异的策略在真实机器人上难以落地,即sim-to-real迁移难题 [2] 现有技术潜力与局限 - 3D高斯Splatting技术能从普通设备捕获的图像生成高保真3D表征,渲染速度快,但此前相关研究如SplatNav和GaussNav存在局限,未针对室内图像目标导航实现端到端策略训练和真实机器人评估 [3] - 全合成环境(如HSSD)缺乏真实世界细节,导致策略在真实场景性能骤降;高保真真实场景重建(如HM3D、Matterport3D)依赖昂贵专业设备,流程繁琐,无法覆盖多样化部署环境 [6] - 本研究是首个针对室内图像目标导航,实现端到端策略训练、真实机器人评估及明确sim-to-real迁移的基于3D高斯Splatting的方案 [3] 核心方法:EmbodiedSplat的四阶段流程 - 研究设计了从真实场景捕获到机器人部署的完整流程,核心是通过手机低成本捕获结合3D高斯Splatting高保真重建,构建与真实环境对齐的仿真训练场景,实现策略个性化微调与高效sim-to-real迁移 [4] - 阶段1场景捕获使用iPhone 13 Pro Max和Polycam应用记录RGB-D数据,单一场景捕获仅需20-30分钟,无需云台等额外设备 [11] - 阶段2网格重建采用DN-Splatter实现3D高斯训练与网格生成,通过深度正则化(λd=0.2)和法向量正则化维持几何一致性,GS训练迭代30000次后转换为仿真支持的网格格式 [11] - 阶段3仿真训练在Habitat-Sim中进行,每个捕获场景生成1000个训练Episode和100个评估Episode,策略网络采用2层LSTM,使用DD-PPO框架训练 [12][13] - 阶段4真实部署使用Stretch机器人,通过Flask服务器连接远程集群进行策略推理,Episode终止条件为输出停止动作或达到100步,成功判定为机器人最终位置与目标点距离≤1米 [14][17] 实验设计与关键结果 - 实验围绕预训练策略的零样本性能、微调提升效果以及sim-to-real迁移能力三个核心问题展开,数据集涵盖HM3D、HSSD预训练场景和Captured大学场景、MuSHRoom室内评估场景 [19] - 在零样本性能方面,HM3D预训练策略在小场景(如会议室)成功率可达85%-88%,但在大场景(如教室、休息室)性能骤降至50%-53%;HSSD预训练策略零样本性能更差,如在教室场景成功率仅1% [20][24] - 微调后性能显著提升,HM3D预训练策略微调后所有场景成功率超过90%,HSSD预训练策略微调后多数场景成功率超过80%,大场景提升幅度最为显著 [25][28] - 在sim-to-real迁移方面,HM3D预训练策略零样本真实世界成功率仅50%,微调后提升至70%;HSSD预训练策略零样本真实成功率仅10%,微调后提升至40%-50%,重建网格的sim-to-real相关系数高达0.87-0.97 [29][32] - 过拟合实验表明,仅在单个场景训练的过拟合策略在仿真中成功率接近100%,但真实世界性能差(POLYCAM mesh 50%,DN mesh 10%),证明大规模预训练对泛化能力至关重要 [33][35] - 场景规模与PSNR分析显示,零样本成功率随起点-目标点平均最短距离增大而下降,随3D GS的验证PSNR升高而提升,捕获稳定性对重建质量有重要影响 [36][40] - 预训练步数分析发现,HM3D预训练至400M步后零样本性能停止提升甚至下降,HSSD预训练至300M步后进入平台期,说明过度训练会损害对新场景的泛化能力 [38][44]
ARTS 2025大咖云集|第三届自主机器人研讨会嘉宾公布,相约浙大,开放注册!
具身智能之心· 2025-09-25 00:04
ARTS 2025 为了促进自主机器人领域一线青年学者/工程师的交流,推动学术界与企业界的交融与产学研合作,搭建一个深度、纯粹的技术交流平台,中国自动化学会决定主办自主 机器人技术研讨会(Autonomous Robotic Technology Seminar,简称ARTS)。 ARTS倡导理性批判、敢于质疑、务实的科学精神,积极探索自由平等的思想交锋。ARTS主要关注传感与感知、自主导航、状态估计、移动机器人定位建图、运动规 划、建模与控制、多机器人系统、具身智能、医疗仿生等方向。 第三届ARTS大会将于 2025年10月18日至19日 ,在浙江大学盛大启幕。诚挚邀请您参加,并对大会的组织提供意见和建议! 本届会议特邀超40位青年领军研究者,并设有学术辩论会、学术脱口秀、ARTS奖学金及企业参观等多元日程。 温馨提示:会议名额有限,请尽早报名以免满额后无法注册。 了解线下会议详情 请扫码加入 【 ARTS 2025 交流群】 一、组织机构 主办单位 : 中国自动化学会 承办单位 : 浙江大学控制科学与工程学院 上海交通大学自动化与感知学院 协办单位 : 深蓝学院 二、会议日程 | | 9:20-9:50 ...
具身的「Imagenet 时刻」,李飞飞团队官宣全球顶级具身智能挑战赛
具身智能之心· 2025-09-25 00:04
文章核心观点 - 具身智能领域正迎来一个类似ImageNet的里程碑时刻,其标志是李飞飞团队与斯坦福AI实验室在NeurIPS 2025推出的首届BEHAVIOR挑战赛 [1] - BEHAVIOR挑战赛是一个为具身智能量身定制的综合性基准测试与研究资源,旨在通过大规模、高保真的家庭任务,推动机器人完成真实、复杂操作的能力发展 [1][14][20] - 该挑战赛不仅是一场学术竞赛,更是一次面向核心科学问题的集体实验,旨在探索具身智能距离独立完成以人为本的家务任务还有多远,以及泛化与扩展性等关键问题 [20][22] BEHAVIOR挑战赛的定位与意义 - 被视为具身智能与机器人领域的潜在“拐点时刻”,类似于引爆深度学习浪潮的Imagenet挑战赛 [1] - 是有史以来最全面的具身智能研究资源,旨在推动该领域的发展 [14] - 其价值不仅在于奖项(最高1000美元),更在于能在NeurIPS舞台与全球顶尖团队交流与展示 [16] 挑战赛的核心特点与规模 - **任务规模前所未有**:涵盖真实家庭场景下最关键的1000个日常任务,并首次以50个完整长时段任务作为核心赛题 [1][5] - **任务复杂度高**:平均单个任务需要6.6分钟连续操作,考验机器人在逼真虚拟环境中完成贴近人类生活的操作 [1][5] - **能力要求全面**:要求机器人同时具备跨房间导航、双手精细操控、长期规划与动态适应等多项能力 [4] 挑战赛的技术与数据支持 - **高保真环境仿真**:基于NVIDIA Omniverse的高保真模拟器OmniGibson,支持衣物折叠、液体倒水、加热/冷冻等复杂物理交互 [6] - **数据史无前例**:提供10,000条专家遥操作示范,总计1,200+小时,细致标注物体状态、空间关系和自然语言描述,为模仿学习和强化学习提供“黄金数据集” [8] - **平台统一**:采用星海图R1 Pro机器人作为默认本体,其双手协调与稳定导航能力保证了研究成果的可迁移性 [10] 挑战赛的赛制与评估 - **赛题**:完成50个来自真实家庭场景复杂活动的BEHAVIOR任务 [19] - **主要评估指标**:任务成功率(完全达成 vs 部分达成) [19] - **辅助评估指标**:效率(用时、路径、动作)、数据利用率(示范数量 vs 成效) [19] - **时间线**:2025年9月2日开放报名与数据下载,11月15日最终评估,12月6-7日在NeurIPS 2025公布结果 [19] 挑战赛的资源与参与方式 - **官方网站**(behavior.stanford.edu)提供安装仿真器、下载3D资源与模型、加载数据集、入门套件、示例脚本和评估例程的详细指南 [17] - 提供从仿真器设置到提交结果的详细教程和分步指南,方便新手入门 [18] - **基准方法**:官方提供模仿学习(如ACT、Diffusion Policy)与视觉语言行动模型(如OpenVLA、π0)的完整训练评估流程,帮助选手快速入门 [19]
最近在具身领域做的一些事情,社区、硬件和求职......
具身智能之心· 2025-09-25 00:04
社区运营与近期动态 - 社区运营方近期主要推进硬件方案优化、社区体系完善和商务合作[3] - 针对用户反馈的硬件价格高、体验不佳问题,正在测试和开发具身产品平台,未来将在知识星球优先公开[3] - 计划在节后优化社区内容结构,解决体系零散问题,减少用户信息盲区[3] - 社区持续整合高校具身方向的招生需求(如RA、博士、博士后),为2026年升学求职提供提前准备渠道[3] - 社区提供简历内推服务,覆盖秋招和社招人群,直接对接企业需求[3] - 知识星球定位为全栈式具身智能社区,覆盖学术交流、求职内推、升学指导等闭环服务[3][6] - 社区团队开放招募,鼓励用户共同推动领域发展,并推出节日优惠券吸引加入[4] 社区内容体系与技术资源 - 社区已梳理超30种技术路线,涵盖benchmark、综述、入门指南等,缩短用户检索时间[6] - 邀请数十位一线产业界和学术界嘉宾入驻,提供答疑和深度交流机会[6] - 定期举办圆桌论坛与直播,主题覆盖机器人本体、数据、算法等前沿问题[6] - 社区内容按模块分类,包括数据采集、灵巧手、VLA模型、多传感器融合等13个技术板块[7] - 汇总近40个开源项目、超60个具身数据集及主流仿真平台,提供多类学习路线(如感知、交互、强化学习等)[14][15] - 针对小白和进阶用户分别提供技术栈入门路线和产业级项目方案[8][10] - 社区成员来自全球顶尖高校(如斯坦福、清华、ETH)和头部公司(如智元机器人、优必选等)[14] 社区专属福利与资源库 - 提供国内外具身智能高校实验室汇总,助力申研读博参考[18][19] - 整合国内外机器人公司信息,覆盖教育、医疗、工业等多元场景[22] - 汇总行业研报,跟踪大模型、人形机器人等领域动态[24] - 收录机器人导航、动力学、路径规划等基础理论书籍PDF[27] - 梳理机器人零部件品牌(芯片、激光雷达等)及3D相机厂商资源[29][33] - 开放数据采集方案(遥操作、动作捕捉)和开源数据集,覆盖感知、导航、大模型等方向[34][35][37] - 强化学习与VLA+RL等前沿方向工作汇总,提供应用训练参考[41][43][61] - 社区成员可自由提问,获得工作或研究方向的选择建议[75] - 目前社区已聚集近2000名用户和200家企业机构,促进产业与学术联动[78]
具身智能之心国庆&中秋福利来了!课程/社区/硬件/论文辅导等
具身智能之心· 2025-09-24 06:32
促销活动概览 - 公司于9月24日至10月12日期间推出国庆和中秋优惠活动 [1] - 活动涵盖知识星球、具身课程、硬件、论文辅导及超级折扣卡等多个产品线 [1] 知识星球优惠 - 新用户加入知识星球享受7折优惠 [1] - 老学员续费知识星球享受5折优惠 [1] 具身课程折扣 - 多门具身课程包括VLA、VLN、Diffusion Policy、强化学习、仿真等课程提供8折优惠 [2] - 购买超级折扣卡后,1年内所有课程享受7折优惠 [4] 论文辅导服务 - 1对1论文辅导提供1000元最多可抵扣5000元的优惠 [4] - 1对6的VLA论文辅导立减1000元 [4] 硬件产品促销 - 公司提供强化学习平台、具身机械臂(舵机版)、具身机械臂(电机版)等科研硬件 [4] - 具体硬件产品包括全栈教研平台黑武士001、足式/强化学习科研平台TRON1、桌面级机械臂科研平台 [7] 其他福利专区 - 大模型星球售价99元一年,涵盖技术、行业及求职内容 [6] - 超级折扣卡售价299元,提供自驾课程7折优惠,有效期一年 [7] - 知识星球会员可获赠7门精品课程 [6] 联系方式与后续行动 - 用户可添加小助理微信AIDriver005或扫描海报二维码咨询详情及领取优惠券 [5] - 部分课程节后将再次涨价 [6]
准备搞一个具身的吃瓜群!
具身智能之心· 2025-09-24 06:32
文章核心观点 - 公众号“具身智能之心”的运营者“峰哥”为满足社区粉丝需求,创建了一个非正式的、专注于行业交流的社群 [1][2] - 该社群旨在提供一个轻松的环境,供成员讨论行业动态、产品、学术、工作、求职及创业等话题,而非转发公众号的正式内容 [2] - 社群规模限定为500人,满员后将关闭加入通道,目标用户为具身智能工业界从业者或相关科研人员 [2][3] 社群创建背景与目的 - 创建动因源于粉丝反馈,希望有一个不那么学术化、可以日常交流行业八卦、求职等话题的社群 [1] - 运营者认识到现有社群过于学术化,与教育科技IP属性有关,因此决定创建一个更有趣的交流群 [2] - 新社群明确不会转发公众号文章和直播内容,专注于行业交流、产品讨论、学术讨论及工作生活话题 [2] 社群运营规则与加入方式 - 社群规模严格限制在500人以内,满员后即停止接纳新成员 [2] - 目标成员需为正在具身智能工业界任职或从事相关科研活动的人员 [2] - 加入方式为添加指定微信,并备注“昵称+机构/公司+入群”以完成验证 [3]
今日Talk来啦!具身智能新基建:从大模型到真实世界
具身智能之心· 2025-09-24 02:30
点击下方 卡片 ,关注" 具身智能 之心 "公众号 编辑丨具身智能之心 本文只做学术分享,如有侵权,联系删文 今天下午2点,智源人工智能研究院为行业带来一场具身智能新基建的分享。届时,具身智能之心将 会全程转播。欢迎大家关注! AI 智原Talk 大賞型到賞受賞 时间: 2025年9月24日周三 14:00-17:30 地点:智源大厦一层报告厅(北京市海淀区成府路150号) 主办单位:北京智源人工智能研究院 协办单位:百度飞桨、具身智能之心、机器人大讲堂、始智AI Wisemodel、 中国互联网协会人工智能工委会、中国AIA联盟数据委员会、 ModelScope魔搭社区、51CTO、GitCode、阿里云天池平台. iv 日程 14:00-14:15 ◆ 十功致 註 不顺 1 北京智源人工智能研究院 副院长兼总 战斗师 14:15-14:45 + 具身智能的创新基座 - 智源具身一站式平 姚国才 北京智源人工智能研究院 具身数据负责人 智源DataCube(数据魔方)智能视频 14:45-15:05 半台介绍 - III = 北京智源人工智能研究院 算法研究专家 15:05-15:20 ◆ 休息 15:20 ...
【CEAIS 2025】全日程公布,参会早鸟报名火热进行中!
具身智能之心· 2025-09-24 00:04
会议概况 - 第二届中国具身智能与系统大会(CEAIS 2025)将于2025年11月1日在陕西西安建国饭店举办 [4] - 大会预计将吸引超过1000名与会者 [4] - 会议日程包括2025年10月31日的报到、晚餐及专委会增选会议,以及11月1日的开幕式、4场主旨报告和15场技术分论坛 [7][8] 主办方背景 - 西安交通大学于1986年成立了国内最早的人工智能专职研究机构“人工智能与机器人研究所”(人机所),并于2018年12月在此基础上成立“人工智能学院” [2] 会议核心议题与专家阵容 - 大会特邀十余位院士及近百位资深专家,深入探讨具身智能基础模型、世界模型与具身学习、网联具身智能、计算架构与芯片、智能驾驶、人形与仿生机器人等热点议题 [4] - 技术分论坛涵盖具身智能基础模型、计算架构与芯片、网联具身智能、具身智能驾驶、自动化实验室、机器人传感器、教育实践、世界模型与具身学习、人形与仿生机器人、标准化、情感具身智能、照护机器人等方向 [8][9][10][11][12] 会议注册与合作信息 - 会议注册费分为非会员、会员和学生三类,早鸟注册费(2025年9月30日及以前)分别为1800元、1200元和800元,普通注册费(2025年10月1日-10月31日)分别为2000元、1400元和1000元 [41] - 大会招募钻石合作单位(20万元)、金牌合作单位(10万元)、银牌合作单位(5万元)和展位合作(2万元),并提供相应的宣传权益和参会名额 [45][46]
跨越仿真与真实数据鸿沟:Real2Sim2Real重要工作一览!
具身智能之心· 2025-09-24 00:04
行业研究趋势 - 具身智能领域的研究重点正从高成本的真实数据采集转向利用仿真技术进行数据生成和策略迁移,即Real2Sim2Real技术路线 [1] - 该技术路线旨在通过仿真与真实数据之间的迁移学习,在少量或零真机数据下实现良好的机器人操作效果 [1] - 近三年该领域的研究成果集中发表在ICRA、CoRL、IROS、CVPR等顶级机器人及人工智能会议上 [1] 关键技术进展 - 3D高斯溅射(3D Gaussian Splatting)技术被广泛应用于提升仿真环境的真实感和物理一致性,例如RL-GSBridge和RoboGSim等项目 [3][18] - 针对复杂操作任务,如双手机器人灵巧操作(DexMimicGen)和可变形线性物体操作,开发了专用的数据生成和策略适应方法 [5][9] - 大规模生成模型和基础模型被集成到仿真流程中,用于示范生成(如Real2Gen、CyberDemo)和奖励设计(如R*项目利用大语言模型) [13][16] 学术机构与产业参与 - 全球顶尖学术机构是该领域研究的主力,包括加州大学伯克利分校、斯坦福大学、麻省理工学院、卡内基梅隆大学、清华大学、上海交通大学等 [4][5][9][13][15] - 领先的科技公司如英伟达、Google DeepMind、地平线机器人已深度参与相关技术研发 [5][6][9] - 研究社区规模显著,例如具身智能之心知识星球已聚集近2000名成员进行交流 [1][19] 应用场景拓展 - 技术应用覆盖广泛的机器人操作场景,包括蘑菇采摘、食品制备、水下软鳍运动、机器人辅助喂养等特定领域 [4][11][13][18] - 在机器人导航、运动规划以及群体机器人行为涌现等宏观系统层面也有深入研究 [6][9][15] - 部分研究开始探索跨具身(Cross-Embodiment)学习,旨在实现不同形态机器人之间的知识迁移 [10]