Workflow
具身智能之心
icon
搜索文档
开源对机器人的价值,远超想象丨唐文斌深度对谈抱抱脸联创
具身智能之心· 2025-10-21 00:03
文章核心观点 - 当前机器人研究面临“仿真到现实”的巨大鸿沟,许多模型在模拟器中表现完美但在现实世界中彻底失灵[2] - Dexmal与Hugging Face联合推出RoboChallengeai平台,旨在建立一个开放、统一、可复现的真实世界机器人评测基准[6][45] - 开源是推动物理智能/具身智能领域发展的关键驱动力,其重要性在机器人领域甚至超过在大语言模型中的作用[10][19][26] 行业痛点与挑战 - 机器人领域缺乏统一、开放且可复现的基准系统来公平比较不同方法、策略和模型[44] - 大多数现有基准仍基于仿真环境,由于“仿真到现实”差距,无法真实反映模型在现实中的表现[42][50] - 机器人评测面临硬件访问限制、环境变量控制、模型部署等多重技术难题[36][52][53] RoboChallengeai平台解决方案 - 平台首次实现全球研究者在物理环境中远程测试模型,通过独创的Remote Robot技术,用户仅通过API即可控制真实机器人[8][53] - 采用模型留在用户本地的部署方式,用户通过HTTP API访问平台摄像头和机器人进行远程测试,无需上传模型[53] - 以Table 30作为起点基准测试,提供30个任务,每个任务约1000个episodes的微调数据供开发者使用[53][61][62] 开源在具身智能中的作用 - AI领域几乎所有重大突破都基于开源,transformer架构及其演化都是全球开源社区协作的产物[10][11][12] - 开源使模型能够被应用到不同类型机器人上,实现“共同大脑”驱动各种机器人的新局面[22][23] - 本地化运行的嵌入式模型几乎都是开源模型,开源与硬件开发自然结合成为机器人领域演化关键动力[25][26] 平台发展愿景与规划 - 平台遵循完全开放策略,提供免费评测服务,任何人都可提交模型并获得排名[78][79] - 未来将扩展评测维度至多任务、长时任务、交互任务等更复杂场景[81] - 三到五年内,具身智能研究将向执行更长时间任务发展,基准测试随之演化[82] 公司背景与行业动态 - Dexmal成立仅20天即完成2亿元天使轮融资,投资方包括君联资本、九坤创投和启明创投[83][84] - 团队核心成员拥有超过十年AI原生产品与落地经验,在仓储场景已交付超过一万辆AMR/AGV[85] - 公司专注于将大模型和AI技术引入机器人领域,探索具身智能新赛道[86]
无需再训练!港大团队提出GPC框架,实现机器人「策略组合」
具身智能之心· 2025-10-21 00:03
技术框架概述 - 香港大学团队提出通用策略组合(GPC)框架,通过免训练方式在测试时组合多个预训练模型,以超越单一策略性能 [1] - GPC框架采用凸组合方式动态融合多个预训练策略的决策分数,创造性能更强的组合策略 [6] - 该框架能够灵活融合不同架构和不同模态的机器人策略,打破传统性能提升对数据和算力的依赖 [2] 技术原理与优势 - GPC通过功能层面的提升证明组合分数在单步上具有更低误差,比任何单一策略更精确 [8] - 系统层面的稳定性通过Grönwall型界限确保组合策略在整个生成轨迹上具有系统性性能提升 [9] - 框架提供叠加原理扩展,包括Logical OR和Logical AND操作符,为策略性能提供更强放大潜力 [15][16] 应用兼容性 - GPC具备跨架构兼容性,能够组合基于扩散模型或基于流匹配的策略 [19] - 框架支持跨模态融合,可整合视觉-动作模型、视觉-语言-动作模型等不同输入条件下的策略优势 [19] - 权重搜索机制能为不同任务量身定制最优权重配置,实现组合策略性能最大化 [18] 实验验证结果 - 在Robomimic和PushT任务上GPC实现最高7.55%的平均成功率提升,在RoboTwin双臂协作任务上提升7% [24] - 真实世界PiPER机器人实验中,GPC在每个任务对比单一基线成功率拥有5-10%的提升 [26] - 实验发现当被组合的两个策略准确率都高于30%时,GPC能实现比单一基线策略更高的准确率 [25]
告别 “专家垄断”!AdaMoE 破解 VLA 模型效率与精度两难问题
具身智能之心· 2025-10-21 00:03
文章核心观点 - 上海交通大学等机构提出的AdaMoE架构通过解耦专家选择与权重分配,解决了视觉-语言-动作模型在机器人操控中面临的计算效率与任务精度难以兼顾的困境 [1] - 该架构在不增加计算负担的前提下,显著提升了任务成功率,仿真任务成功率提升近10%,真实场景操作成功率提升21.5% [1] - AdaMoE证明了机器人操控的精细度与效率并非单选题,为VLA模型的落地应用提供了新路径 [1][24] 传统VLA模型面临的挑战 - 传统模型想提升性能却受限于高昂的训练成本,收集精准的机器人演示数据困难,从头训练需耗费数百至上千GPU时 [2] - 模型在容量与效率间难以平衡,传统的密集模型需全参数激活,导致响应速度慢,而简化模型又会牺牲性能 [3] - 混合专家架构在VLA场景中出现“专家打架”问题,单一路由器同时负责专家选择和权重分配,难以兼顾负载均衡与任务精度 [5][11] AdaMoE的核心架构设计 - 设计直接继承预训练模型权重,无需从头训练,大幅降低了数据与计算成本 [8] - 采用稀疏激活策略,每次仅激活1个共享专家和1个路由专家,计算量仅为传统密集模型的1/5 [12] - 关键创新在于将路由模块与尺度适配器解耦,路由模块专司专家选择以实现负载均衡,尺度适配器独立调整专家贡献权重以保障任务精度 [12][17] - 共享专家负责通用基础动作,路由专家通过权重复制与微调专注于专项技能学习 [10] 实验验证与性能表现 - 在LIBERO和RoboTwin仿真基准上,AdaMoE平均成功率高达96.0%,优于传统密集模型的94.2%和传统MoE的94.9% [18][23] - 专家数量并非越多越好,实验表明4个专家(成功率96.0%)优于8个专家(成功率95.6%),体现了“少而精”的优势 [19] - 在真实世界ALOHA双臂机器人实验中,AdaMoE将平均成功率从50%提升至71.5%,尤其在“放透明杯子”任务中从40%提升至80% [22] - 解耦架构被证明优于耦合架构,AdaMoE(96.0%)在半解耦的CSMoE(95.5%)和传统MoE(94.9%)基础上实现了进一步提升 [18][21] 技术突破与行业意义 - 该研究为VLA模型指明了一条不依赖堆砌资源即可实现高效落地的技术路径 [24] - 架构实现了对预训练知识的有效利用、模型容量与计算效率的平衡以及专家间的协同优化 [26] - 证明了基于明确分工的协作方式是实现机器人高效操控的关键,对未来具身智能发展具有重要启示 [24]
最后1个名额!强化学习在人形/四足/机械臂等方向上的应用
具身智能之心· 2025-10-21 00:03
强化学习行业应用与重要性 - 强化学习在学术和工业界持续受到重视,在顶会上出现较多,并非古老过时的学科 [1] - 强化学习是具身智能机器人(如人形、四足)实现步态控制等复杂任务的核心技术,应用于爬楼梯、跑步、跳舞等高难度动作 [2][8] - 机械臂的视觉语言动作模型与强化学习结合方案在学术领域越来越受欢迎,能提升执行效率与流畅度 [3][8] 强化学习领域面临的挑战 - 强化学习体系庞大且内容繁杂,对研究经验要求高,初学者入门难度极大 [5][9] - 产出符合顶会标准的论文需在方法论证、实验结果、写作方式等多模块达到要求,任一环节出错都可能导致低分 [5] 论文辅导课程核心内容 - 课程周期为14周核心在线辅导加8周维护答疑,目标产出可投向RAL/ICRA/IROS/CoRL等顶会的论文初稿 [9][15] - 采用6人小班模式,每周1次直播课并配有课程录播和专属助教答疑 [7][15] - 课程面向前沿,基于最新的IsaacLab仿真环境,并提供四足、人形、机械臂三轨并跑的研究主题选择 [15][16] 课程具体模块与产出 - 课程涵盖论文方向选择、强化学习基础、仿真环境、sim2real技术、各机器人本体专项及写作投稿全流程 [17][18][19] - 学员将完成理解算法原理、手写代码、仿真训练、定量分析报告及论文初稿等一系列交付物 [20][23] - 结营后8周维护期提供补实验、改图、润色与审稿回复支持 [21] 师资力量与研究选题 - 授课导师来自美国顶尖高校,在RSS、ICRA、IROS、RAL等顶级会议期刊有发表经验并担任审稿人 [21] - 课程提供四足机器人跨任务运动技能迁移、人形机器人全身运动控制等具体研究方向的可创新idea [24] 学员要求与课程特色 - 学员需具备一定的Python编程和Linux基础,并建议配备12G以上显存的Nvidia GPU,无实机亦可完成仿真 [25][27] - 课程强调科研闭环,提供从方法、工程、评测到写作投稿的全流程陪跑,每周有明确任务指标 [30]
原力灵机提出ManiAgent!会 “动手”,会 “思考”,还会“采数据”!
具身智能之心· 2025-10-20 10:00
文章核心观点 - 提出了一种名为ManiAgent的新型智能体架构,旨在解决机器人操作领域Vision-Language-Action模型在复杂推理与长程任务规划中面临的数据稀缺和模型容量限制问题 [1] - 该架构实现了从任务描述、环境输入到机器人操作动作的端到端输出,通过多个智能体协同工作来应对复杂操作场景 [1][2] - 实验验证表明,该框架在仿真和真实世界任务中均取得高成功率,并能作为高效自动化数据采集工具,为VLA模型训练提供高质量数据 [2][10] 方法与架构 - ManiAgent框架由四个核心智能体组成:场景感知智能体、推理智能体、物品级别感知智能体和控制器智能体,分别负责环境感知、子任务分解、目标物体识别和动作序列生成 [11] - 框架通过工具调用、上下文工程、实时性优化与自动数据采集四大关键技术构建完整技术链路 [8] - 工具调用方面,整合了视觉语言模型用于场景感知与物体筛选、大型语言模型用于推理规划与动作生成,以及专用感知工具解决机械臂抓取精度问题 [8][17] 技术实现细节 - 上下文工程通过场景描述优化、子任务上下文管理和物体信息格式化来提升任务相关性与信息传递一致性 [17] - 实时性优化通过参数化动作缓存机制降低动作生成延迟,当新任务与缓存任务匹配时直接调用缓存序列,无需重复查询大型语言模型 [17] - 自动数据采集体系支持随机或规则化场景重置,集成数据记录与筛选功能,整个采集过程仅需少量人工介入,平均每46分钟干预1次 [17] 实验评估与性能 - 在SimplerEnv仿真基准测试中,ManiAgent使用GPT-5版本取得了86.8%的平均任务成功率,显著高于对比方法CogACT的51.3%和pi-0的55.7% [10][22] - 在真实世界实验中,使用WidowX 250S机械臂执行8项代表性任务,最高取得了95.8%的平均成功率 [2][25] - 实验使用的提示词在仿真和实物环境中完全保持一致,未针对任何特殊任务进行调整 [18] 应用价值与前景 - ManiAgent可自动采集高质量训练数据,基于该数据训练的VLA模型性能能够与基于人工标注数据集训练的模型相媲美,显著降低数据采集成本 [2][10] - 该框架打通了“感知-推理-控制”技术链路,为机器人操作框架提供参考,未来将聚焦于强化实时反馈、拓展至移动机器人平台及优化人机交互体验 [26]
具身智能之心交流群成立来!VLA/RL/导航/数采等多个方向
具身智能之心· 2025-10-20 10:00
文章核心观点 - 行业正在组建一个专注于具身智能领域的技术交流社群,旨在汇聚该领域的未来领导者 [1] 技术交流社群 - 社群覆盖近20个具身智能子技术方向 [1] - 社群面向的行业参与者涉及人形机器人、四足机器人、机械臂等本体研发 [1] - 社群关注的技术方向包括视觉语言导航、大模型、视觉语言行为、强化学习、移动操作、多模态感知、仿真及数据采集等 [1] 社群参与方式 - 行业参与者可通过添加指定微信账号并备注“加群+昵称+研究方向”的方式加入该技术交流群 [1]
我们的具身社区,最近又增加了很多模块~
具身智能之心· 2025-10-20 03:29
社区发展现状 - 近一年搭建已完成技术路线分享、直播、问答、求职、赛事等多个版块,实现产业、学术、求职、问答交流等多领域闭环 [1] - 社区成员规模近2000名,覆盖200家具身公司与机构 [10][80] - 成员背景包括斯坦福大学、清华大学、西湖大学等国内外知名高校,以及智元机器人、有鹿机器人、优必选等头部机器人公司 [12] 社区核心功能模块 - 提供持续直播分享,包括圆桌论坛和专题直播,覆盖本体、数据到算法等具身智能全链路内容 [2] - 整理完整技术路线,为入门者提供小白友好型学习路径 [3] - 针对已入门研究者提供产业体系和项目方案,包含近40+开源项目和60+具身智能相关数据集 [5][12] - 建立具身公司岗位内推机制,实现简历直推服务 [7] 知识体系资源汇总 - 汇总国内外具身智能高校实验室信息,覆盖多个研究方向,为读研申博提供参考 [15] - 整理各类国内外具身相关机器人公司,涉及教育、宠物、工业、救援、物流等方向 [18] - 汇集大模型、人形机器人等行业研报,及时跟踪行业发展与工业落地情况 [20] - 汇总机器人导航、概率机器人、动力学等基础学习书籍PDF资源 [23] 技术专题内容覆盖 - 涵盖具身感知、交互、强化学习、VLN、VLA、世界模型等24个技术方向的学习路线 [12] - 包含机器人仿真平台、零部件品牌、ToF与3D相机等硬件相关资源 [25][29][35] - 针对多模态大模型理解与生成、大模型微调与量化推理等前沿领域进行系统汇总 [49][51][52] - 专门设置机械臂抓取、双足/四足机器人、移动操作等机器人硬件实践板块 [66][68][70] 社区互动与学习支持 - 提供星球内部自由提问机制,涵盖工作选择和研究方向等专业咨询 [71] - 邀请数十位一线产业界和工业界嘉宾答疑解惑,缩短检索时间 [10] - 通过实际案例交流(如3090显卡配置下的VLA+RL方向建议)提供个性化指导 [71]
MuJoCo教程来啦!从0基础到强化学习,再到sim2real
具身智能之心· 2025-10-20 00:03
具身智能行业趋势 - 行业正处于前所未有的转折点,从符号推理、深度学习到大语言模型,如今具身智能正在全面崛起 [1] - 全球顶尖科技公司如Tesla、Boston Dynamics、OpenAI、Google等均在竞相布局具身智能领域 [1] - 具身智能将彻底改变制造业、服务业、医疗健康、太空探索等几乎所有行业 [1] MuJoCo技术核心价值 - MuJoCo是连接虚拟世界与现实世界的重要桥梁,为机器人学习提供高保真、高效率的训练环境 [4] - 仿真速度可比现实时间快数百倍,并能通过域随机化技术将仿真中训练的策略成功迁移到真实世界 [6] - MuJoCo采用先进的接触动力学算法,支持高度并行化计算,并提供丰富的传感器模型,已成为学术界和工业界的标准工具 [6][8] 技术能力培养体系 - 课程采用项目驱动的学习方式,包含六个层次递进的实战项目,从机械臂控制到Sim-to-Real迁移 [11][16][17] - 项目设计涵盖MuJoCo建模、物理仿真、强化学习、机器人控制、多智能体系统等完整技术栈 [17][20][22][24][26][28][29] - 学员将掌握现代AI开发工具链,包括Python生态、深度学习框架、版本控制等,培养独立解决复杂问题的能力 [13][32][33]
稳定训练、数据高效,清华大学提出「流策略」强化学习新方法SAC Flow
具身智能之心· 2025-10-20 00:03
文章核心观点 - 提出一种名为SAC Flow的新方案,使用高数据效率的强化学习算法SAC来端到端优化真实的流策略,无需采用替代目标或策略蒸馏 [1] - 核心创新在于将流策略的多步采样过程视为一个残差循环神经网络,并引入GRU门控和Transformer Decoder两套速度参数化方法来稳定训练 [1][8] - 该方法在MuJoCo、OGBench、Robomimic等多个基准测试中实现了极高的数据效率和显著的性能提升,达到SOTA水平 [1] 研究背景与问题 - 流策略因其建模多峰动作分布的表达能力及比扩散策略更简洁的优势,在机器人学习领域热门,并被广泛应用于先进的VLA模型如π_0、GR00T等 [4] - 使用数据高效的off-policy RL算法(如SAC)训练流策略时会出现训练崩溃,原因是流策略的K步采样推理导致反向传播深度等于采样步数K,引发梯度爆炸或消失 [4][7] - 现有工作通过使用替代目标或策略蒸馏来规避此问题,但牺牲了流策略本体的表达能力,未能真正端到端优化流策略 [5] 技术方法:SAC Flow - 将流策略的每一步中间动作视为隐状态,Euler积分过程等价于一个残差RNN的单步前向,从而将流策略的K步采样反传等价于对RNN网络的反传 [10] - 提出两种速度网络参数化方式:Flow-G(GRU门控结构)自适应决定保留当前动作或写入新动作以抑制梯度放大;Flow-T(Transformer Decoder)在全局状态语境下稳态细化动作 [16][17] - 通过添加高斯噪声和配套漂移修正,解决SAC熵正则化中确定性K步采样无法直接给出可积密度的问题,使SAC的损失函数可直接用流策略多步采样的对数似然表示 [14] - 支持两种训练范式:对于密集奖励任务可从头开始训练;对于稀疏奖励任务且拥有示例数据的场景,支持离线预训练后再进行在线微调 [18] 实验结果 - 在MuJoCo的Hopper、Walker2D、HalfCheetah、Ant、Humanoid、HumanoidStandup环境中,SAC Flow-T/Flow-G能够稳定快速地收敛,并取得更高的最终回报 [20] - 消融实验表明,SAC Flow-T和Flow-G能有效稳定梯度范数,防止训练崩溃,而直接使用SAC微调流策略则会出现梯度爆炸 [24][26] - 方法对采样步数K具有鲁棒性,在K=4/7/10的条件下均能稳定训练,其中Flow-T对采样深度的鲁棒性尤其强 [27] - 在OGBench的Cube-Triple/Quadruple等高难度任务中,SAC Flow-T收敛更快,整体成功率领先或持平现有off-policy基线(如FQL、QC-FQL) [30] - 相比扩散策略基线(如DIME、QSM),基于流策略的方法普遍收敛更快,而SAC Flow在此基础上性能进一步超越FlowRL [30]
移动操作&双臂操作开源硬件与方案
具身智能之心· 2025-10-20 00:03
行业趋势与开源生态 - 机器人技术正从单一机械臂迈向“手脚协同”的移动操作时代,开源力量成为打破技术壁垒、加速创新落地的关键引擎 [3] - 近两年国内外涌现的优质开源方案为科研人员、开发者和创客提供了前所未有的便利,涵盖从硬件设计到软件框架、从仿真平台到真实部署的全链条资源 [3] - 开源项目适用于低成本家用机器人快速搭建、工业级双臂协调控制算法探索以及跨平台通用策略训练实践等多个场景 [3] 2025年开源项目概览 - **XLeRobot**:南洋理工大学开源项目,聚焦机器人在复杂环境中的灵活运动与精细操作融合,提供移动底盘与双臂协同控制的参考框架 [4] - **AhaRobot**:天津大学推出,侧重双臂操作的自主性与环境适应性,整合感知、规划与控制模块,为动态场景中的任务执行提供算法平台 [6] - **ManiGaussian++**:清华大学在IROS 2025发布,以高斯模型为基础优化双臂操作精度,在3D环境感知与运动规划上有突破 [8][9] - **H-RDT**:清华大学与地平线机器人联合开发,聚焦移动机器人的高效决策与实时操作,提供从感知到执行的完整流程方案 [11] - **RoboTwin 2.0**:上海交通大学与香港大学合作,是集成移动与双臂操作的仿真与实物平台,提供虚实结合的开发工具 [14][15] - **Open X-Embodiment**:亚利桑那州立大学等机构开源,侧重机器人操作的通用化学习框架,支持移动与双臂操作的跨场景迁移 [16][20] - **3D FlowMatch Actor**:卡内基梅隆大学与NVIDIA开源,聚焦3D空间中的运动流匹配技术,提升移动机器人与双臂操作的动态适应性 [19][21] 2024年及更早开源项目概览 - **OmniH2O**:卡内基梅隆大学等机构开源,主打人机动作映射与仿人操作,通过human2humanoid框架实现人类动作向机器人双臂的精准转化 [24][25] - **TidyBot++**:普林斯顿大学与斯坦福大学推出,专注于家居环境下的整理类任务,整合物体识别、路径规划与双臂协作算法 [26][27] - **robosuite**:加州大学伯克利分校等机构开源的成熟机器人操作仿真平台,支持移动与双臂操作的虚拟环境搭建,提供标准化任务与评估工具 [29] - **Standard Open Arm 100 (SO-ARM100)**:是标准化的双臂操作硬件与软件方案,提供通用控制接口与驱动程序,降低开发门槛 [31][32] - **GOAT: GO to Any Thing**:UIUC、CMU等机构开源,聚焦机器人的目标导向移动与操作,实现“到达任意目标并执行操作”的核心功能 [34] - **Mobile ALOHA**:斯坦福大学开源,结合移动底盘与双臂操作,主打低成本、易部署的服务机器人方案,支持远程示教与自主学习 [35]