具身智能之心
搜索文档
邀请更多具身领域优秀创作者加入我们一起分享!
具身智能之心· 2025-09-30 01:46
具身智能之心是国内具身领域优秀的创作平台,致力于推动具身产业的发展、人才的培育。 我们高度重视产业和学术领域的最新进展,持续创作最新内容。一个产业的发展需要众人不断地持续推 进,具身智能之心诚邀学术界&工业界大佬加入我们一起创作,为全行业带来最专业和最有深度的工 作,让更多人受益。 主要创作内容 最新技术/paper分享、核心技术模块讲解、行业类分析文章、深度的技术栈分享; 联系我们 提供一定的稿费支持和个人IP扶持,加入我们的圈子和我们一起共享行业资源。更多详细内容欢迎添加 微信:oooops-life咨询。 ...
最后1个名额,即将开课!VLA方向1v6论文辅导来啦~
具身智能之心· 2025-09-30 01:46
行业研究热点与方向 - 视觉-语言-行动模型及其相关衍生方向在机器人与人工智能顶会中占据了近一半的具身智能产出 [1] - 研究热点集中在长程操作、泛化、少样本学习、视觉-语言-行动模型与强化学习结合以及人形机器人相关领域 [1] - 视觉-语言-行动模型打破了传统方法的单任务局限,使机器人能在多样化场景中自主决策并灵活应对未见过的环境 [4] 技术演进与应用前景 - 视觉-语言-行动模型的技术演进包括从早期的抓取位姿检测到行为克隆,再到近期的Diffusion Policy和多模态基础模型 [9] - 前沿模型如RT-2、OpenVLA和PI0实现了从视觉输入和语言指令到机器人动作的端到端映射 [10] - 该模型广泛应用于制造业、物流和家庭服务等领域,并适用于机械臂、四足机器人和人形机器人等多种平台 [4] 产业发展与市场格局 - 国内外具身智能领域处于蓬勃发展阶段,Unitree、智元、星海图、银河通用、逐际动力等团队正从实验室走向商业化 [6] - 科技巨头如华为、京东、腾讯以及国外的Tesla、Figure AI公司均在积极布局该领域 [6] - 视觉-语言-行动模型已成为智能机器人领域的关键驱动力,推动了学术界与工业界的合作 [4] 核心挑战与前沿方向 - 具身智能面临的核心挑战包括跨域泛化、长期规划与世界模型构建 [10] - 前沿发展方向包括多模态感知融合、触觉反馈整合、基于物理的推理以及社会互动能力 [10] - 研究空白与机会存在于长期记忆、视觉-语言-行动模型与强化学习原子技能库构建、动作解码问题及多模态思维链等多个方向 [15]
更为稳健,具备泛化!BumbleBee: 通用人形机器人全身控制范式
具身智能之心· 2025-09-29 02:08
点击下方 卡片 ,关注" 具身智能 之心 "公众号 编辑丨 具身智能之心 专家学习 —— 首先在全数据上训练一个基础控制策略,作为专家模型的初始点。随后,针对聚类结果在各动作簇上分别微调,得到更具针对性的专家模型。接 着,将专家模型部署到真实机器人上执行以采集轨迹,并基于这些轨迹为每个类别单独训练动作增量模型,再冻结增量模型对专家进行微调,实现对仿真与现实间 偏差的补偿。通过迭代更新,专家模型在"更优策略—更高质量数据—更精准增量—再优化专家"的循环中逐步提升性能。 本文只做学术分享,如有侵权,联系删文 >> 点击进入→ 具身智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有你想要的。 BumbleBee 提出了一条完整的人形机器人全身控制训练流程。首先,利用 AMASS 数据集训练基础的全身控制模型;在此基础上,通过聚类区分不同类型的动作, 并分别训练相应的专家控制模型;随后,将这些专家模型部署到真实机器人上,采集执行轨迹;基于采集的轨迹序列,为每个专家模型训练对应的动作增量模型 (delta model),以缓解仿真与现实之间的差距( ...
AnywhereVLA:在消费级硬件上实时运行VLA
具身智能之心· 2025-09-29 02:08
核心观点 - AnywhereVLA提出了一种模块化架构,旨在融合经典导航的鲁棒性与视觉语言动作模型的语义理解能力,以解决在未知大型室内环境中执行语言驱动拾取-放置任务的技术瓶颈 [3] - 该方案设计可在消费级硬件上实时运行,针对家庭服务、零售自动化、仓储物流等开放、非结构化场景 [3] 相关工作回顾:现有方案的优势与不足 - 通用视觉语言动作模型缺乏空间感知能力,难以应对大型环境 [4] - 视觉语言导航方案需预先知晓目标物体的环境位置,在动态或未探索场景中不实用 [4] - 经典导航框架缺乏语言理解与语义推理能力,无法执行语言驱动的目标导向任务 [4] - 轻量化视觉语言动作模型泛化能力仅局限于操作领域,缺乏环境探索能力 [5] - 结合视觉语言导航与SLAM的方案在185平方米环境中需10-15分钟完成探索,效率低下 [5] AnywhereVLA架构:四大核心模块与工作流 - 工作流逻辑为语言指令解析,同步指导视觉语言动作操作与主动探索,构建3D语义地图,通过前沿探索定位目标,由趋近模块导航至预抓取位姿,最后视觉语言动作执行操作 [7] - 带置信度的3D语义地图模块核心功能是融合多传感器数据,构建含目标类别、几何信息与置信度的语义点云地图 [7] - 主动环境探索模块基于“前沿探索”策略,结合语言指令中的目标类别定位目标物体 [11] - 趋近模块核心是计算机械臂可操作的安全基座位姿,确保后续视觉语言动作操作能稳定执行 [12] - 视觉语言动作操作模块基于微调后的SmolVLA模型,将视觉上下文与语言子目标转化为机械臂的抓取/放置动作 [12] VLA模型微调与硬件平台 - 模型微调使用NVIDIA RTX 4090,数据集为50个SO-101机械臂的拾取-放置片段 [15] - 训练参数包括批量大小16,余弦衰减学习率调度器,AdamW优化器 [15] - HermesBot移动操作平台专为AnywhereVLA设计,平衡传感与计算能力 [16] - 计算硬件分配中,SLAM模块处理频率10赫兹,处理时间25毫秒;语义地图模块处理频率2赫兹,处理时间45毫秒;视觉语言动作模块处理频率5赫兹,处理时间20毫秒 [16] 实验结果:性能与有效性验证 - 在未知多房间实验室中执行50次拾取-放置任务,整体成功率为46% [17][22] - 微调后的SmolVLA操作模块成功率达85%,未微调时整体成功率仅10% [22] - 各模块单独成功率分别为:SLAM 100%,主动环境探索 75%,目标检测 90%,导航 80%,视觉语言动作操作 85% [22] - 探索半径为5米时,平均任务完成时间小于133秒;探索半径为10米时,完成时间小于10分钟 [23]
好用,高性价比!面向具身科研领域打造的轻量级机械臂
具身智能之心· 2025-09-29 02:08
面向具身科研领域打造的轻量级高性价比机械臂 还在为具身领域的硬件发愁吗?太贵的硬件买不起,太便宜的机械臂不好用,有没有一款价格低但质量很 高的产品? Imeta-y1来了!低成本可以完成具身领域论文的验证,科研场景的开发,满足大多数从业人员和科研工作者 的需求。 这是一款专为教育、科研与轻工业场景设计的轻量级机械臂。 该机械臂融合高精度运动控制、低功耗设计与开放软硬件架构,支持从仿真到真机的无缝联调,并提供全 流程开源SDK与工具链,助力用户快速实现算法验证、数据采集、模型训练与部署应用。 其紧凑型结构与模块化接口,尤其适用于嵌入式AI与机器人学习平台的开发与应用推广。 | 本体重量 | 4.2KG | 额定负载 | 3KG | 自由度 | 6 | | --- | --- | --- | --- | --- | --- | | 工作半径 | 612.5mm | 重复定位精度 | ±0. 1mm | 底座安装尺寸 | 90mm*90mm*M5*4 | | 供电电压 | 24V | 控制器 | PC | 材质 | 铝合金 | | 通讯方式 | CAN | 外部接口 | 电源+CAN XT30 2+2 | 控制方式 ...
好用,便宜!面向具身科研领域打造的轻量级机械臂
具身智能之心· 2025-09-28 07:00
产品定位与目标市场 - 产品是专为教育、科研与轻工业场景设计的轻量级高性价比机械臂Imeta-y1 [1][2][3] - 旨在解决具身科研领域硬件价格高或质量差的市场痛点,满足从业人员和科研工作者对低成本高质量设备的需求 [2] - 紧凑型结构与模块化接口特别适用于嵌入式AI与机器人学习平台的开发与应用推广 [4] 核心性能参数 - 机械臂本体重量4.2KG,额定负载3KG,具有6个自由度,工作半径612.5mm [6][16] - 重复定位精度达到±0.1mm,关节运动范围覆盖J1 -165°至165°,J2 -180°至0°,J3 -0°至180°等 [6][16] - 关节运动最大速度J1-J3为180°/s,J4-J6为220°/s,供电电压24V,通讯方式采用CAN [6][16] - 夹爪重量约670g,行程0-90mm,重复定位精度±0.1mm [18][19] 技术架构与开发支持 - 提供全流程开源SDK与工具链,支持从数据采集、模型训练到推理部署的端到端算法落地 [14][30] - 兼容TensorFlow、PyTorch等主流框架,支持视觉、力控等多模态数据融合 [14][30] - 提供urdf模型,支持Gazebo等主流仿真环境与真机实时联动,实现仿真验证后一键部署至物理设备 [14][20] - 同时提供C++、Python开发接口,并支持ROS1和ROS2开发环境 [15][16] 产品生态与售后服务 - 后期将陆续升级更新VLA、VA相关源码,新老客户均可享受升级服务 [16] - 售后响应及时,非人为损坏质保半年,质保期后按市场价支付售后费用 [39] - 支持批量采购优惠,并提供基于本产品的项目开发、教学培训等服务 [16] - 公司提供完善的硬件测试流程,包括精度校准、耐久性、负载性能与稳定性验证 [35][36][37][40]
没有导师指导,最快多久可以产出一篇具身领域相关论文?
具身智能之心· 2025-09-28 07:00
行业发展趋势 - VLA及其相关衍生方向在机器人与AI顶会中占据了近一半的具身产出 [1] - 长程操作、泛化、少样本、VLA+RL、人形相关是当前热门研究方向 [1] - 国内外具身智能领域处于蓬勃发展阶段 Unitree、智元、星海图、银河通用、逐际动力等团队从实验室走向商业化 [6] - 华为、京东、腾讯等科技巨头积极布局具身智能领域 与国外Tesla、Figure AI等公司共同推动行业发展 [6] VLA技术特点与应用 - VLA模型通过语言指令和视觉信号直接生成机器人可执行动作 打破了传统单任务训练的局限性 [7] - VLA使得机器人能够在多样化场景中自主决策 灵活应对未见过的环境 [4] - 该技术广泛应用于制造业、物流和家庭服务等领域 [4] - VLA模型可应用于机械臂、四足机器人和人形机器人等多种平台 为各类智能机器人发展提供广泛潜力 [4] 前沿研究项目 - VLA领域已推动多个前沿项目发展 包括pi0、RT-2、OpenVLA、QUAR-VLA和HumanVLA [4][7] - 这些研究促进了学术界与工业界的合作 [4] - RT-2、OpenVLA和PI0等模型实现了从视觉输入和语言指令到机器人动作的端到端映射 [10] 技术演进路径 - VLA范式技术演进包括从早期抓取位姿检测到行为克隆 再到近期Diffusion Policy和多模态基础模型 [10] - 研究关注如何将大型语言模型推理能力与机器人控制系统结合 实现从高级任务描述到低级运动规划的有效转换 [11] - PaLM-E、RT-X等模型通过多模态预训练和微调策略 增强机器人在开放环境中的适应性和鲁棒性 [11] 核心研究挑战 - 具身智能面临的核心挑战包括跨域泛化、长期规划与世界模型构建 [11] - 前沿研究方向包括多模态感知融合、触觉反馈整合、基于物理的推理以及社会互动能力 [11] - 领域未解决难点包括长期记忆、VLA+RL原子技能库构建、动作解码问题、多模态思维链等多个前沿方向 [16]
一个近2000人的具身社区,给出了这样的答案~
具身智能之心· 2025-09-28 01:05
社区运营与近期动态 - 社区运营者长期在线处理用户问题,近期正推进硬件方案测试开发以解决用户反馈的硬件贵、不好用等问题 [1][2] - 社区致力于完善体系、整理内容,计划在节后呈现更完善的社区内容 [2] - 社区收到多所高校具身方向的招生需求,并为用户提供2026年升学、工作内推及辅导服务 [2] - 社区在国庆和中秋节期间推出今年最大优惠券以吸引新成员 [3] 社区资源与技术内容体系 - 社区已完成产业、学术、求职、问答交流等多个领域的闭环,提供前沿研究解决方案和求职岗位对接 [5] - 社区内部梳理了超过30种技术路线,涵盖benchmark、综述和入门路线,以缩短用户检索时间 [6] - 社区邀请了数十位活跃于产业界和工业界的一线专家作为嘉宾,为用户提供答疑解惑服务 [6] - 社区定期举办圆桌论坛和直播,内容覆盖本体、数据、算法等多个具身行业核心议题 [6] - 社区汇总了超过40个开源项目、近60个具身智能相关数据集以及行业主流仿真平台 [13] - 社区提供了包括具身智能感知、交互、强化学习、VLA、大模型部署等超过20个技术方向的学习路线 [13][14][39][42][54][62] 社区成员与合作伙伴 - 社区成员来自斯坦福大学、清华大学、上海交大等国内外知名高校,以及智元机器人、优必选、小米等头部机器人公司 [13] - 社区与近2000名用户和200家具身公司及机构建立联系,共同交流产业、学术和工程落地话题 [80] - 社区与多家具身公司建立了岗位内推机制,可第一时间将用户简历推荐至心仪公司 [7] 社区特色福利与内容模块 - 社区汇总了国内外具身智能高校和公司信息,涵盖教育、宠物、工业、医疗等多个方向 [16][19] - 社区提供大模型、人形机器人等行业研报,帮助用户了解行业发展与工业落地情况 [21][22] - 社区汇总了机器人导航、动力学、运动学等方向的PDF书籍,供用户进行基础学习 [24][25] - 社区整理了机器人行业知名零部件制造厂商信息,涉及芯片、激光雷达、相机等关键部件 [27] - 社区针对机器人仿真、抓取、控制等领域的开源项目进行了汇总,助力用户快速上手 [29] - 社区提供了包括ToF与3D相机、数据采集方案、多模态数据集等专项技术资源汇总 [31][33][35]
仿真专场!一文尽览神经渲染(NERF/3DGS)技术在具身仿真框架Isaac Sim中的实现
具身智能之心· 2025-09-28 01:05
神经渲染技术在仿真领域的应用 - 神经渲染技术(NERF/3DGS)通过神经网络表达空间,在新视角合成方面表现优越,直击辅助驾驶和具身智能仿真中传感器仿真的痛点,可解决传统计算机图形学渲染图像缺乏真实性的问题,广泛应用于算法闭环测试和训练 [3] - 现有研究围绕NERF和3DGS技术开发面向闭环测试的仿真框架,但完全新开发仿真框架工作量巨大,因此另一种思路是将训练好的NERF/3DGS模型嵌入现有仿真软件框架,以利用现有3D数字资产和算法接口工具链 [3] 技术集成与工具支持 - LumaAI的3DGS插件可将高斯点云ply插入基于Unreal的CARLA游戏引擎,而NVIDIA的Isaac Sim仿真软件也已支持神经渲染技术,允许插入3DGS模型 [4] - NVIDIA开源项目提出三维高斯渲染方法,可输出适用于Isaac Sim的usdz模型,3DGRUT工具支持将其他3DGS方法生成的高斯点云ply转化为usdz模型 [4] - 3DGRUT生成的usdz模型文件包含default.usda、gauss.usda等描述文件和nurec格式模型文件,可直接解压使用 [4] Isaac Sim中的操作流程 - Isaac Sim的神经渲染功能NuRec需5.0.0以上版本(Omniverse Kit 107.3以上),安装后可通过Content栏导航到usdz模型解压文件夹,将gauss.usda拖动或插入Stage,即可显示三维高斯模型 [5] - 导入的3DGRUT模型仅具备视觉特征,需通过2DGS等方法提取场景mesh(ply格式),并调整mesh的scale和位姿以匹配usdz渲染结果 [6][7] - 需将usdz模型与mesh绑定,在gauss的Property中选择Raw USD Properties,找到proxy并添加Target,选择mesh对象,最后勾选omni:nurec:useProxyTransform特性以实现对齐 [7] 物理属性与交互功能 - 需为mesh添加物理属性,右键选择mesh,在Add中选择Physics->Collider,以增加碰撞属性,避免物体穿透问题 [8] - 在mesh的Property中勾选Matte Object,配合DomeLight光照实现光影交互效果,同时可添加OmniPBR材料并将Reflectivity中的Specular降至最低,减少不必要的反光 [8] - 添加Rigid Body with Colliders Preset属性后,可进一步设置质量等物理属性,使模型与仿真环境中的其他物体(如球体、地面)产生碰撞交互 [14] 动态物体与场景构建 - 通过3DGS方法训练场景(如mipnerf360的kitchen),使用在线工具编辑ply文件提取特定物体(如乐高推土机),再经3DGRUT转化为usdz模型,可实现动态物体导入 [11][13] - 将动态物体(如推土机)放入其他神经渲染场景(如garden或room),可实现模型间及模型与原生物体的动态交互,显存占用较低,在3090显卡上fps表现良好 [15][17] 未解决的问题与挑战 - 神经渲染模型间的光影交互关系尚未完全解决,例如推土机未在神经渲染背景中投下阴影 [18] - 仿真环境测试具体算法的效果尚未探究,例如在room环境中让VLA算法执行"捡起地毯上的乐高推土机"指令的可行性 [19] - 需解决如何快速提供rgb图像外的真值信息(如图像分割、对象标注标签),以及如何获取动态物体的物理属性真值(如硬度、摩擦系数、质量) [19] - 需进一步提升计算效率,以支持更大规模神经渲染场景和更多对象的实时仿真 [19]
首款推理具身模型,谷歌DeepMind造!打破一机一训,零样本迁移
具身智能之心· 2025-09-28 01:05
产品发布与定位 - 谷歌DeepMind正式发布新一代通用机器人基座模型Gemini Robotics 1.5系列 成为全球首个具备模拟推理能力的具身模型[3][5] - 该系列由两大模型组成:GR 1.5负责动作执行的多模态大模型 GR-ER 1.5强化推理能力并提供规划与理解支持[4][6] - 两大模型协同工作 其中GR-ER 1.5不执行实际操作 而GR 1.5专为执行层设计 两者结合实现"先思考再行动"的完整闭环[6][7][37] 技术能力与创新 - 模型具备执行复杂长程任务能力 可将多步任务分解为多个阶段并逐一完成 例如分拣深浅色衣物或根据天气打包行李[7][11][13] - 引入全新Motion Transfer机制 将不同机器人平台的运动轨迹映射到统一动作语义空间 实现零样本跨平台技能迁移[9][19][46] - 在230项任务基准测试中 模型在指令泛化、动作泛化、视觉泛化和任务泛化四个维度表现优异 明显优于前代模型[58] - 长时序任务完成进度分数最高接近80% 几乎是单一VLA模型的两倍[59] - 在ASIMOV-2.0安全基准中展现出更高风险识别与干预能力 能够理解物理风险并触发保护机制[61] 应用场景与性能 - 可驱动多种机器人硬件包括低成本双臂机器人ALOHA、工业级Franka和人形机器人Apollo 实现丝滑无缝迁移[16][17] - 能够根据特定要求自主上网搜索信息 例如根据不同城市的垃圾分类标准帮助完成分类任务[8] - 具备自我检测与修正能力 在操作失败时可立即转换方案 例如抓取水瓶失败后改用另一只手完成[31] - 能识别潜在风险并避免危险动作 确保在人类环境中的运行安全性[32] 技术架构与数据 - 两款模型均基于Gemini基础模型构建 并使用适应物理空间操作的数据进行微调[34] - GR 1.5作为执行者 直接将自然语言和视觉输入转化为低层级机器人动作[35] - GR-ER 1.5作为大脑指挥官 负责理解复杂任务、做出高层规划并调用外部工具及监控进度[36] - 训练数据包括真实机器人在ALOHA、Franka、Apollo等平台完成的成千上万种操作数据 以及互联网中的文本、图像与视频信息[39][40] - 约90%以上的迭代在MuJoCo仿真环境中完成 显著提升研发效率并保证现实硬件执行的稳定性与安全性[47][48] 行业影响与定位 - 该模型代表谷歌将通用AI推向现实世界的重要里程碑 使机器人从执行单一指令转向对物理任务进行真正理解和解决问题[10][64] - 在学术基准测试中 GR-ER 1.5在空间推理、复杂指点和进度检测等任务上全面超越GPT-5和Gemini 2.5 Flash[56] - 具备显性思考能力 行动前会用自然语言拆解复杂任务 提升可解释性和信任感[24][25][51]