具身智能之心

搜索文档
机器人与具身控制WBC和MPC方法汇总
具身智能之心· 2025-07-14 11:15
机器人控制方案 - 机器人控制主要分为MPC(模型预测控制)和强化学习两种方案 [3] - MPC是一种实时控制方法,广泛应用于人形机器人领域 [3] - WBC(全身控制)是一种优化框架,用于人形机器人在复杂环境中的运动生成 [4] MPC相关研究 - 2013年提出了一种实时MPC系统,应用于人形机器人控制 [3] - 2015年将MPC应用于HRP-2人形机器人,实现全身控制 [3] - 2017年出版MPC理论、计算与设计的专著 [3] - 2023年综述了MPC在腿式和人形机器人中的应用模型与算法 [3] WBC相关研究 - 2006年提出人形机器人在人类环境中的全身控制框架 [4] - 2014年开发分层二次规划方法,实现快速在线运动生成 [4] - 2015年优化Atlas人形机器人的运动规划、估计与控制设计 [4] - 2015年结合WBC与运动跟踪实现柔顺运动 [5] - 2017年出版人形机器人百科全书,涵盖WBC内容 [5] - 2024年推出ExBody2系统,实现高级表达性全身控制 [5] - 2025年提出统一框架,实现精细运动控制 [5]
从本体到数据,从VLA到VLN!大家在这里抱团取暖
具身智能之心· 2025-07-14 11:15
具身智能社区发展 - 社区成立三周年,专注于具身智能领域,目前正推动社区规模扩展至2000人[1] - 已见证ACT、RDT-1/RDT-2、CogACT、OpenVLA、π0、π0.5等具身智能技术迭代,行业进展迅速[1] - 社区成员包括学术研究者和求职者,内部梳理30+技术路线,覆盖benchmark检索、综述学习等需求[1] 资源与技术支持 - 汇集40+开源项目、60+具身智能数据集及主流仿真平台,提供技术学习路线如强化学习、VLN、VLA等[11] - 汇总国内外30家具身机器人公司(智元、优必选等)及高校实验室(斯坦福、清华等)资源[11][17] - 提供机器人零部件品牌清单(芯片、激光雷达等)及仿真平台资源(通用与真实场景仿真)[24][32] 行业活动与人才服务 - 举办圆桌论坛、直播活动,覆盖本体、数据、算法等主题,邀请产业界嘉宾参与[1] - 与多家具身公司建立内推机制,直接对接求职者与岗位需求[2] - 成员可获取专属研报(大模型、人形机器人等)、技术书籍(导航、动力学等)及数据集(触觉感知、机械臂抓取等)[19][22][30] 技术路线与研究方向 - 强化学习全栈方案涵盖LLM强化学习、可解释强化学习等子领域[34] - 具身感知路线整合3D视觉定位、触觉感知等任务,交互方向覆盖抓取、视觉语言模型等[36][38] - 多模态大模型内容包含理解(Image+Text到Text)与生成(Video+Text到Video+Text)技术[44][46] 社区互动与案例 - 成员可自由提问工作或研究方向问题,获行业大佬解答[66] - 案例:研一学生通过仿真项目(如Isaac Sim)准备具身智能实习,社区提供项目建议[68] - 直播内容涉及机器人操作系统(EMO S)、协同感知(RoboTwin数据集)等前沿主题[65]
智源全面开源具身大脑RoboBrain 2.0与大小脑协同框架RoboOS 2.0:刷新10项评测基准
具身智能之心· 2025-07-14 11:15
具身智能技术突破 - 智源研究院发布RoboBrain 2.0 32B版本和跨本体大小脑协同框架RoboOS 2.0单机版,RoboBrain 2.0作为"通用具身大脑"集感知、推理与规划于一体,32B版本在多项权威具身智能基准上刷新纪录,7B版本具备轻量化设计适配边缘设备部署需求 [2] - RoboOS 2.0是全球首个具身智能SaaS开源框架,创新性集成MCP协议与无服务器架构,实现轻量化部署,同步推出单机版产品线及RoboSkill技能商店,支持"三行指令"极速部署 [3] - RoboBrain 2.0突破三大能力瓶颈:空间理解精度不足、时间依赖建模薄弱、长链推理能力欠缺,显著提升对复杂具身任务的理解与执行能力 [4] RoboBrain 2.0技术架构 - 采用模块化的编码器-解码器架构,实现感知、推理和规划的统一,专门针对具身推理任务如空间感知、时间建模和长链因果推理 [9] - 依托全面且多样化的多模态数据集,融合高分辨率图像、多视角视频序列、场景图、3D场景数据及复杂自然语言指令 [12] - 采用三阶段递进式训练流程:基础时空学习、具身时空增强、具身情境中的推理链训练,训练样本量分别为4.8M、224K、195K [14][15][17][18] 性能表现 - RoboBrain-32B-2.0在BLINK-Spatial(83.63)、CV-Bench(83.92)、RoboSpatial(72.43)等空间推理基准上表现优异 [19][20] - 在时间推理方面,RoboBrain-32B-2.0在多机器人规划(80.33)、Ego-Plan2(57.23)、RoboBench(72.16)等任务中领先 [19] - RoboBrain 2.0 7B模型在Multi-Robot Planning以81.50分拔得头筹,32B版本在Ego-Plan2以57.23分登顶 [22] RoboOS 2.0框架 - 是全球首个基于具身智能SaaS平台、支持无服务器一站式轻量化机器人本体部署的开源框架,代码量仅为传统手动注册方式的1/10 [25] - 对端到端推理链路进行系统级优化,整体性能提升30%,全链路平均响应时延低至3ms以下,端云通信效率提升27倍 [27] - 新增多本体时空记忆场景图共享机制,支持动态环境下的实时感知与建模,引入多粒度任务监控模块提升任务执行稳定性 [27] 开源生态 - RoboBrain 2.0及RoboOS 2.0已全面开源,模型权重、训练代码与评测基准全部可用 [30] - 智源研究院已与全球20余家机器人企业与顶尖实验室建立战略合作关系 [33] - 提供多个开源资源链接包括GitHub仓库、模型检查点、技术文档等 [31][34]
VLA之外,具身+VA工作汇总
具身智能之心· 2025-07-14 02:21
具身智能领域研究进展 2025年核心研究方向 - 扩散策略优化:多篇研究聚焦扩散策略在机器人操作中的应用,包括Latent Space强化学习[2]、流轨迹简化处理[2]、推理时模态组合[2]以及接触式操作的慢快策略学习[2] - 多模态融合:涉及视觉-触觉策略[3][5]、雷达-相机融合抓取[3]、跨模态表示学习[7][9]以及视觉-语言模型课程设计[3] - 通用化策略开发:包括跨机械臂适配的抓取策略[3]、零样本仿真到现实迁移[3][6]、物体中心表示法[7]以及大规模仿真训练[3][6] 技术方法创新 - 模仿学习革新:提出无机器人的人类视频训练[4]、单次演示学习[2][5]、演示数据生成[3]以及去噪加速策略[5][8] - 世界模型构建:Robotic World Model强调神经模拟器优化[2],LaDi-WM利用潜在扩散进行预测操作[7],Unified World Models耦合视频与动作扩散[6] - 高效策略架构:包括混合专家去噪器[6]、一致性蒸馏[8][9]、稀疏可重用策略[8]以及十亿参数级Transformer扩展[11] 应用场景突破 - 灵巧操作:涵盖双手协调策略[2][5]、非抓取式操作[5]、透明物体抓取[3]以及不规则物体追踪[4] - 跨领域迁移:研究分割掩码跨载体迁移[4]、人类视频到机器人动作转换[3][5]以及跨形态技能表示[6] - 实时控制优化:开发高频重规划策略[3]、事件相机驱动跑酷[5]以及流匹配快速策略[6][7] 数据集与训练范式 - 超大规模训练:Dex1B项目使用10亿演示数据训练灵巧操作[9],DataMIL研究数据选择对模仿学习影响[6] - 仿真-现实协同:Sim-and-Real联合训练方法在平面推动[5]和操作策略[5][6]中验证有效性 - 新兴训练技术:包括无数据模仿学习[5]、强化与模仿学习交错[5]以及人类视频预训练[7][11]
SURPRISE3D:首创复杂3D场景空间推理数据集,突破语义捷径依赖瓶颈
具身智能之心· 2025-07-13 09:48
具身智能与空间推理 - 空间推理是具身AI和机器人系统的核心能力,智能体需在真实环境中解读3D空间布局和上下文指令以完成导航、物体操作等任务[3] - 现有3D视觉-语言基准存在三大局限:过度依赖显式查询、推理覆盖有限且浅显、模板驱动或简单空间查询,导致模型依赖语义先验而非真正空间推理[4] - SURPRISE3D是首个支持20多万查询-物体掩码对的大规模空间推理分割基准,覆盖2800多种物体类别,通过隐式性、模糊性和语义轻量性设计强制模型进行深度空间推理[4][5] 数据集创新与构建 - SURPRISE3D基于ScanNet++ v2的900多个室内环境构建,包含89K+人工生成复杂空间查询和110K LLM生成的常识/意图推理问题[6] - 采用双重标注流程:空间推理标注固定相机视角下的四种问题类型,常识/意图标注通过LLM生成+人工验证的两阶段工作流[16][18] - 引入3D-SRS基准套件,采用掩码IoU和grounding精度等指标,实证显示现有3D基础模型在缺乏语义捷径时性能下降50%以上[5][15][26] 技术突破与评估 - 定义四类空间推理任务:叙事视角(模拟智能体视角)、参数视角(解析方向指令)、相对位置(处理遮挡关系)、绝对距离(计算物理距离)[12] - 在零样本测试中,最先进的MLLMfor3D模型在叙事视角任务上仅达15 07%准确率(A25),参数视角任务低至4 25%,暴露当前技术瓶颈[26][27] - 微调后模型性能提升约3倍,证明现有数据集因保留语义线索而低估了真实空间推理难度,SURPRISE3D为行业提供更严格的评估标准[28] 行业应用与局限 - 该技术可提升服务机器人执行"沙发左侧桌子"等空间指令的准确率,优化家庭助手根据"离地板2米的灯"等模糊查询的响应能力[3][6] - 当前局限包括标注扩展性依赖人工、部分查询类型在实际部署中不够自然、数据集仅覆盖室内静态场景[29] - 行业未来方向包括领域迁移至户外环境、引入时间推理维度以及开发多轮交互框架,以全面推动具身智能商业化落地[29]
EmbodyX最新!VOTE:集成投票&优化加速VLA模型的通用框架,吞吐量加速35倍!
具身智能之心· 2025-07-13 09:48
具身智能与VLA模型优化 核心观点 - VOTE框架通过无分词器微调和集成投票策略显著提升VLA模型的推理速度(35倍加速)和泛化能力(成功率提升20%以上)[4][9][31] - 该方法摒弃传统扩散技术和额外视觉模块,采用单一<ACT> token压缩动作块表示,使边缘设备吞吐量达42Hz[9][21][31] - 在LIBERO和SimplerEnv基准测试中超越CogACT等SOTA模型,WidowX机器人任务平均成功率54.2%[28][32] 技术背景 - 现有VLA模型依赖动作分词器或扩散技术,导致CogACT延迟增加33.8%内存开销,SpatialVLA因多模态输入使token序列延长50%[7][11][13] - 传统方法在跨形态数据训练时需162K-200K轨迹数据,而VOTE通过LoRA微调(秩r=32)降低70K步训练成本[24][25] - 7自由度动作空间设计(平移+旋转+gripper状态)兼容多样化机器人控制需求[16] 创新架构 - 引入<ACT> token替代传统分词器,将ND个动作解码简化为1次MLP前向传播,A6000 GPU吞吐量达145Hz[18][19][21] - 动态投票集成策略基于余弦相似度(阈值τ=0.5)筛选历史动作,错误预测过滤效率提升40%[22][23] - 双token变体支持16动作块解码,NVIDIA Orin平台内存占用仅0.7%[31][32] 性能验证 - LIBERO测试中块大小8的单token方案最优,跨任务成功率超OpenVLA基准线15-25%[27][32] - SimplerEnv评估显示每帧3倍延迟优化,WidowX任务执行误差降低3% vs CogACT[28] - 消融实验证实block大小与吞吐量正相关,但单token8块配置保持精度优势[32]
MuJoCo明天即将开课啦!从0基础到强化学习,再到sim2real
具身智能之心· 2025-07-13 09:48
具身智能技术发展 - 具身智能正在全面崛起 重新定义人类与机器的关系 从Tesla的Optimus到Boston Dynamics的Atlas 全球顶尖科技公司都在布局这一领域 [1] - 具身智能将彻底改变制造业、服务业、医疗健康、太空探索等多个行业 机器人在工厂精密装配、医院协助手术、家庭服务、危险环境救援等方面具有革命性潜力 [1] MuJoCo技术核心价值 - MuJoCo是连接虚拟世界与现实世界的重要桥梁 为机器人学习提供高保真、高效率的训练环境 [4] - MuJoCo可加速学习过程数百倍 支持极端情况测试 通过域随机化技术实现仿真到现实的策略迁移 [6] - MuJoCo采用先进接触动力学算法 支持高度并行化计算 提供视觉/触觉/力觉等多模态传感器模型 已成为学术界和工业界标准工具 [6] 行业应用与生态 - Google、OpenAI、DeepMind等科技巨头都在使用MuJoCo进行机器人研究 顶级会议ICRA、IROS、NeurIPS、ICML大量前沿研究基于MuJoCo [8] - 掌握MuJoCo意味着站在具身智能技术最前沿 获得参与技术革命的入场券 [8] 技术课程体系 - 课程包含MuJoCo技术细节与完整具身智能技术栈 涵盖物理仿真原理、深度强化学习、机器人控制理论、Sim-to-Real迁移技术 [9] - 采用项目驱动学习方式 构建机械臂控制、视觉抓取、运动技能、多机器人协作等实际应用 项目来自中国机器人企业真实场景 [11][30] - 课程工具链包括MuJoCo、Stable Baselines3、PyTorch等 培养从环境搭建到模型训练的完整工作流程 [13] 职业发展路径 - 技术专家方向:机器人算法工程师年薪30-60万 一线城市可达80-150万 涵盖控制算法、感知算法、规划算法研发 [34] - 产品经理方向:机器人产品经理年薪30-80万 需具备技术细节理解与市场洞察能力 可发展为技术总监或创业者 [34] 课程结构设计 - 六周进阶式学习模块:MuJoCo基础→高级建模→强化学习→机器人控制→多智能体系统→Sim-to-Real迁移 [15][17] - 六个实战项目:智能机械臂→视觉抓取→强化学习运动技能→自适应控制→多机器人协作→Sim-to-Real验证 [16][19][21][23][25][27][29]
模拟大脑功能分化!Fast-in-Slow VLA,让“快行动”和“慢推理”统一协作
具身智能之心· 2025-07-13 09:48
研究背景与挑战 - 机器人操作系统需依据传感器输入和语言指令生成精确控制信号,但大规模视觉-语言模型(VLMs)因参数庞大和推理速度慢,限制了高频控制任务的实用性[9] - 现有双系统结构(系统1快速执行/系统2深度推理)存在协同效率低下问题,系统1无法充分利用系统2的语义推理结果[9] 技术方案创新 - FiS-VLA通过将VLM末端Transformer层重构为系统1执行模块,实现快慢系统一体化设计,系统2低频处理2D图像/语言指令,系统1高频响应实时感知输入[11] - 采用异构模态输入设计:系统2接收语言指令与2D图像,系统1接收2D图像/机器人状态/3D点云信息[15] - 双系统协作采用1:4频率比,系统2每运行一次可为系统1后续H步动作生成提供约束[14] 架构与训练 - 基于Prismatic VLM架构,包含SigLIP+DINOv2视觉编码器、LLaMA2-7B语言模型(最后n层Transformer用于系统1)、轻量级3D tokenizer[13] - 系统1采用扩散建模增强动作生成能力,系统2保留自回归推理能力,联合优化训练使用86万条轨迹数据[15][16] 性能表现 - 仿真测试:RLBench任务平均成功率69%,显著优于CogACT(61%)与π0(55%),控制频率达21.9Hz(CogACT的2倍)[18][19] - 真机测试:Agilex与AlphaBot平台平均成功率分别达68%与74%,在"倒水"等高精度任务中优势显著[20] - 泛化能力:面对未见物体/复杂背景/光照变化时,FiS-VLA准确率下降幅度(19%-31%)远小于π0(27%-46%)[23][24] - 消融实验:共享2层Transformer时性能最佳,单步预测8个动作理论控制频率达117.7Hz[25] 应用前景 - 通过统一VLM嵌入执行模块实现推理与控制融合,具备高频(117.7Hz)/高精度/强泛化特性[29] - 未来引入动态调整共享结构与协同频率策略可进一步提升自适应性与鲁棒性[29]
头部互联网具身实验室招募:多模态大模型、机器人多模态交互、强化学习等算法岗位
具身智能之心· 2025-07-13 05:03
招聘岗位概述 - 头部大型互联网具身实验室正在招聘具身多模态大模型、机器人多模态交互、强化学习等方向的研究员 岗位base北京 薪资open [1] 具身多模态大模型研究员 职位描述 - 主导具身智能大模型的核心算法研发 包括多模态感知(视觉、语言、动作)、强化学习策略优化、世界模型构建等方向 [1] - 研究传统仿真与生成式仿真相结合的数据合成方案 构建机器人及具身智能领域的新型数据范式 [1] - 跟踪学术界与工业界最新进展(如VLA、具身智能等) 保持技术领先性并推动团队技术迭代 [1] - 推动模型在机器人场景的落地 解决实际应用中的挑战 [1] 职位要求 - 计算机科学、人工智能、数学、机器人学等相关专业 博士学位优先 5年左右大模型相关工作经验 [2] - 熟悉机器人学、强化学习、多模态融合(VLA)等技术 具备学术敏感度与工程化思维 [2] - 对具身智能、通用机器人方向有浓厚兴趣 具备优秀的逻辑表达与跨团队沟通能力 [2] - 在顶会(CVPR、ICLR、ICRA等)发表过相关论文或主导过开源项目 [2] 机器人多模态交互算法研究员 职位描述 - 研究多模态智能体、多模态推理规划、流式音视频对话模型等前沿技术 推动机器人交互技术创新 [3] - 探索多模态大模型、强化学习算法、大模型Agent在机器人上的创新应用 参与研发下一代智能机器人系统 [3] 职位要求 - 硕士研究生及以上学历 具备优秀的代码能力、数据结构和基础算法功底 [4] - 在大模型、多模态、NLP、CV、强化学习等领域有一定研究基础或项目经验 [4] - 主导过相关重要项目或在顶会(CVPR、ACL、NeurIPS等)发表过论文者优先 [4] - 具备良好的沟通协作能力 能够与团队紧密合作推进项目 [4] 强化学习研究员 职位描述 - 探索多模态大模型、VLA等前沿技术方向 [5] - 推动世界模型、强化学习在具身智能的应用 参与研发下一代智能机器人 [5] 职位要求 - 计算机、自动化、电子等相关专业 [6] - 扎实的机器学习、深度学习、强化学习基础 [6] - 在具身智能、多模态、大模型等领域有研究基础或项目经验 在顶会发表过论文 [6] - 具备良好的沟通协作能力 能推进技术进步 [6] 加分项 - 动手能力和代码能力强 ACM、ICPC等比赛获奖者优先 [9] - 对机器人技术有浓厚兴趣 参加过机器人比赛者优先 [9] - 熟悉物理仿真和常见的虚拟仿真环境 [9]
具身目标导航是怎么找到目标并导航的?
具身智能之心· 2025-07-13 04:13
机器人导航技术演进 - 技术路线从传统建图定位导航向基于大模型方案演变 分为视觉语言导航(VLN)和目标导航两类 [1] - VLN核心是"听懂指令走对路" 目标导航是"看懂世界自己找路" [1][6] 视觉语言导航(VLN)技术架构 - 任务包含三要素:理解语言指令 感知环境 规划运动策略 [2] - 系统由视觉语言编码器 环境历史信息表征 动作策略三大模块构成 [2] - 编码器采用预训练视觉语言模型 LLM用于指令拆解成为主流范式 [2] - 序列决策采用隐式端到端(隐变量表示)或显式端到端(拓扑图/BEV地图等)方法 [2] 目标导航技术突破 - 需在陌生环境中仅凭目标描述自主完成探索与路径规划 [4] - 实现从显式指令到自主决策跃迁 需融合语义解析 环境建模 动态决策能力 [6] - 关键技术包括端到端强化学习 模块化语义地图构建 LLM/VLM集成方法 [17] 商业应用现状 - 终端配送领域:美团无人车实现动态路径重规划 Starship园区配送机器人欧美落地 [8] - 服务场景:嘉楠科技 云迹科技 擎朗智能等公司实现药品/文件/餐食自主配送 [8] - 人形机器人领域:宇树科技Unitree 智元机器人 特斯拉Optimus集成导航模块 [8][9] 行业人才需求 - 导航技术被公认为具身智能最先落地的子领域 [9] - 具身公司为导航岗位开出七位数年薪 [9] 技术学习难点 - 需掌握NLP CV 强化学习 图神经网络等多领域知识 [10] - 知识碎片化严重 论文数量繁多导致入门困难 [10] 专业课程内容 - VLN课程覆盖仿真环境 基准测试 端到端方法 数据增强等模块 [13] - 目标导航课程包含语义框架 Habitat仿真 LLM/VLM系统等方向 [16] - 学习成果包括掌握3D仿真接口 复现主流框架 实现Sim2Real迁移等能力 [16][17]