Workflow
具身智能之心
icon
搜索文档
具身智能之心技术交流群成立了!
具身智能之心· 2025-08-07 02:38
具身智能技术交流群成立 - 交流群聚焦VLA、VLN、遥操作、Diffusion Policy、强化学习、VLA+RL、sim2real、多模态大模型、仿真、运动控制、目标导航、建图定位、导航等技术方向 [1] - 社群通过微信小助理AIDriver005邀请加入 [2] - 入群需备注机构/学校+姓名+研究方向以加速审核 [3]
国内首个具身大脑+小脑算法实战全栈教程
具身智能之心· 2025-08-07 02:38
具身智能概述 - 具身智能强调智能体与物理环境的交互与适应 聚焦于感知环境 理解任务 执行动作并反馈学习的能力 [1] - 大脑模块负责语义理解和任务规划 小脑模块负责高精度运动执行 构成具身机器人核心架构 [1] 产业动态 - 2024年华为启动"全球具身智能产业创新中心" 联合乐聚机器人 大族机器人等企业共建大脑 小脑关键技术 [5] - 京东2025年起连续投资智元机器人 千寻智能 逐际动力等公司 强化物流科技与家庭服务场景能力 [5] - 腾讯 蚂蚁集团 小米通过战略投资加速构建具身智能产业生态 [5] - 国外Tesla/Figure AI聚焦工业与物流机器人 Wayve Apptronik获资本支持推进自动驾驶与仓储机器人应用 [5] 技术演进路径 - **第一阶段**:抓取位姿检测技术依赖单步决策 缺乏任务上下文建模能力 [6] - **第二阶段**:行为克隆技术通过专家数据实现端到端映射 但存在泛化能力弱 误差累积缺陷 [6] - **第三阶段**:2023年Diffusion Policy采用扩散模型生成动作轨迹 提升策略稳定性与泛化能力 [6] - **第四阶段**:2024年VLA模型融合视觉 语言与动作模块 支持零样本快速泛化 实现"感知+推理+行动"范式跃迁 [7] - 2025年技术探索聚焦VLA与强化学习 世界模型 触觉感知的融合 突破环境预测与多模态感知边界 [8] 商业化应用 - 技术演进推动人形机器人 机械臂 四足机器人在工业 家居 餐饮 医疗康复领域落地 [9] - 行业岗位呈现爆发式增长 吸引大量跨领域人才转入具身智能研究 [9] 工程化挑战 - 产业界需求推动从论文向部署转型 对Mujoco IsaacGym Pybullet等仿真平台训练能力要求提升 [13] - 需解决Diffusion Policy/VLA模型训练部署 强化学习反馈微调 世界建模一体化架构等工程难题 [13] 人才能力需求 - 从业者需掌握Python/Pytorch基础 具备3090ti及以上算力设备 [17] - 核心技能覆盖仿真环境搭建 模型训练优化 触觉信息融合 世界模型应用等全栈能力 [17]
谷歌“世界模拟器”深夜上线!一句话生成3D世界,支持分钟级超长记忆
具身智能之心· 2025-08-07 00:03
谷歌DeepMind Genie 3技术突破 - 新一代通用世界模型Genie 3支持720P画质、每秒24帧实时导航及分钟级一致性保持,性能显著优于Genie 2的360P画质和非实时交互 [3][4][12] - 生成内容具备3D空间一致性,可逐帧创建动态丰富的世界,支持长达57秒的连续场景生成 [5][13] - 能够模拟物理特性(如水面效果)和复杂环境相互作用,并可构建虚拟场景(如童话世界、魔法森林) [14][16][18][20][21] 技术对比与优势 - 横向对比显示Genie 3在分辨率(720P)、交互时长(分钟级)、控制方式(支持文本提示事件)上超越GameNGen、Genie 2等同类模型 [13] - 长期环境一致性表现突出:物体在几分钟内保持物理一致性,视觉记忆可追溯至一分钟前(如雅典建筑场景中树木的一致性) [25][26][28][29] - 支持基于文本提示动态生成事件(如草原背景中替换拖拉机为棕熊,或伦敦河畔添加恐龙) [31][33] 应用与行业影响 - 推动具身智能体研究:与SIMA智能体兼容,可模拟未来事件以支持复杂目标训练(如面包店、农贸市场场景交互) [35][37][38][39][41] - 被行业评价为“通往AGI的关键拼图”,潜在应用包括开放式学习、机器人技术及虚拟环境开发 [9][44] - 目前以研究预览形式开放测试,主要面向专业研究者和创作者 [11] (注:社群推广、论文辅导等非技术内容已按规则跳过)
这个2000人的具身社区,帮助大家解决了各种各样的难题!
具身智能之心· 2025-08-07 00:03
具身智能社区核心价值 - 提供具身智能全栈技术交流平台,覆盖产业、学术、求职等多领域闭环 [3] - 解决实际问题如机器人调试、数据采集、VA/VLA模型部署等痛点 [1][3] - 汇聚30+技术路线与60+数据集,缩短检索时间 [5][17] 社区资源体系 学术与产业资源 - 链接斯坦福、清华等高校及优必选、小米等40+头部企业资源 [17] - 汇总40+开源项目、60+数据集及主流仿真平台 [17][31][39] - 梳理30家具身机器人公司研报与零部件品牌 [22][24][29] 技术学习路线 - 提供20+专项学习路径,包括强化学习、VLA、Diffusion Policy等 [17][41][61] - 覆盖感知、交互、导航等方向,如触觉感知路线提升3D视觉能力 [45][51] - 整合多模态大模型理解与生成技术,涵盖Image/Video/Audio+Text应用 [53][55] 职业发展支持 - 建立企业内推机制,直通智元机器人等头部公司岗位 [11][18] - 针对SLAM/自动驾驶从业者提供转岗具身智能的技术过渡方案 [81][83] - 汇总国内外高校实验室信息,助力升学与科研规划 [19][21] 行业前沿动态 - 定期举办圆桌论坛与直播,解析本体、算法等最新进展 [5][77] - 跟踪VLA+RL、sim2real等热点技术落地案例 [43][67] - 分析具身智能发展阶段,对标自动驾驶2017-2018年窗口期 [83] 典型用户案例 - 自动驾驶工程师转型视觉语言导航,衔接DL与Transformer技术栈 [81] - SLAM从业者通过强化学习路线切入人形机器人高薪岗位 [82][83] - 学生利用Isaac Sim仿真环境快速构建具身项目经验 [80]
XRoboToolkit:延迟低、可扩展、质量高的数据采集框架
具身智能之心· 2025-08-07 00:03
核心背景与目标 - 视觉-语言-动作模型(VLAs)快速发展,对大规模、高质量机器人演示数据集需求迫切 [3] - 现有遥操作方案存在可扩展性有限、设置复杂、数据质量欠佳等问题 [3] - XRoboToolkit基于OpenXR标准,通过低延迟立体视觉反馈、优化逆运动学算法及模块化架构解决现有局限 [3] 现有遥操作方案的局限 - Leader-follower方案:延迟低但依赖定制硬件,可扩展性受限 [5] - 视觉基遥操作系统:硬件兼容性强但跟踪性能不稳定、延迟高 [5] - XR方案:跨平台通用但配置复杂,缺乏标准化数据格式,新设备集成工作量大 [5] XRoboToolkit的核心设计 整体架构 - 三层结构:XR端(Unity-Client)、服务端(PC-Service)、机器人端(模块化接口) [4] - 支持多种机器人平台(UR5、ARX R5机械臂等)和模拟器(MuJoCo) [5] 数据流式传输 - 异步回调驱动架构实现实时数据传输 [7] - 数据格式:6自由度位姿数据以7个浮点数表示,90Hz频率传输,封装为JSON对象 [9] - 跟踪数据类型涵盖头、控制器、手、全身及运动跟踪器,具体字段见Table 1 [7][9] 机器人控制模块 - 逆运动学求解:基于二次规划(QP)的IK solver,优化目标函数生成平滑运动 [8] - 灵巧手重定向:将OpenXR手模型26个关节点映射到机器人手关节,优化函数实现平滑运动 [10] - 移动基座控制:XR控制器摇杆实现全向移动平台控制,左摇杆线速度,右摇杆角速度 [10] XR Unity应用与立体视觉反馈 - 应用界面包含5个面板(Network、Tracking、Remote Vision等),支持PICO 4 Ultra和Meta Quest 3 [16] - 立体视觉支持PICO 4 Ultra和ZED Mini,自定义着色器调整瞳距,优化深度感知 [16] 应用场景与验证 多平台适配 - 双臂系统完成地毯折叠,移动操纵器完成运输放置 [16] - 双UR5机械臂实现3mm螺丝刀插入4mm孔(公差±0.5mm) [16] - 冗余机械臂控制通过肘部运动跟踪器引入约束,实现类人化运动 [16] 性能评估 - 延迟对比:XRoboToolkit(ZED Mini-PICO 4 Ultra)平均延迟82ms,显著低于Open-TeleVision的121.5ms [11] - PICO 4 Ultra自传输配置延迟100.5ms,稳定性最优(标准差3.12ms) [11] - 数据质量验证:ARX R5双臂折叠地毯数据微调模型后,30分钟连续运行成功率100% [13]
成功率提高57%,VLA+RL最新!CO-RFT:实现VLA模型的高效微调(北航&清华等)
具身智能之心· 2025-08-07 00:03
核心观点 - VLA模型在现实世界机器人控制中展现出巨大潜力 但传统监督微调方法面临样本效率低和泛化能力差的问题[4] - 提出分块强化学习框架(Chunked RL)和CO-RFT算法 通过结合动作分块的离线强化学习显著提升模型性能[8] - CO-RFT采用两阶段训练 先通过模仿学习初始化网络 再用离线RL优化策略 在6个任务中平均成功率提升57% 周期时间减少22 3%[29][30] - 该方法展现出强大位置泛化能力 在未见过的位置上达到44 3%成功率 显著优于传统方法[30] 技术框架 - 分块强化学习框架扩展了时间差分学习 采用自注意力和因果掩码设计 仅需一个网络即可学习所有Q值[13][15] - CO-RFT算法第一阶段通过全参数微调进行模仿学习 第二阶段实施带动作分块的离线RL优化[16] - 采用CalQL作为基础算法 其保守正则化器可防止Q值高估 并解决稀疏奖励问题[16][18] - 模型架构基于RoboVLMs 使用Kosmos2作为VLM主干 并采用TD3算法生成确定性动作[18] 实验结果 - 在6个灵巧操作任务评估中 CO-RFT在4个任务达到近100%成功率 显著优于SFT方法[29] - 抓取消毒剂和取回马克杯等困难任务中 CO-RFT分别实现36%和30%成功率 展示处理复杂场景能力[29] - 数据多样性对性能影响显著 随机初始化数据集训练的模型OOD性能仅下降10-15% 而固定初始化下降55 3%[32][33] - 奖励上采样策略有效缓解稀疏奖励问题 提升价值学习效率[18] 应用价值 - 该方法使用30-60个样本即可有效微调 大幅降低数据需求 提升样本效率[4][29] - 在Realman单臂平台和Inspire灵巧手上验证 展示实际机器人应用潜力[23] - 解决VLA模型在现实场景部署的关键挑战 包括样本效率 训练稳定性和泛化能力[8][30] - 为具身智能领域提供新思路 结合离线RL和动作分块技术突破性能瓶颈[34]
VLA和VLN技术交流群来啦!
具身智能之心· 2025-08-06 08:30
社群信息 - 具身智能之心建立多个VLA和VLN技术交流群 旨在促进学术界和工业界相关领域的讨论 [1] - 社群聚焦VLA和VLN技术发展动态及产品落地情况 涵盖学术研究与产业应用方向 [1] - 加入社群需通过微信小助理AIDriver005 备注格式为VLA/VLN+昵称+加群 [2]
具身智能之心招募科研辅导老师了!学术圈的大佬看过来~
具身智能之心· 2025-08-06 08:30
招募科研辅导老师 - 具身智能方向招募科研辅导老师 旨在带动学术界发展 [1] - 研究方向包括VLA VLN 遥操作 Diffusion Policy 强化学习 VLA+RL sim2real 多模态大模型 仿真 运动控制 目标导航等 [2] - 要求博士及以上学历 包含在读 需有2篇A会或一区以上期刊/会议 有辅导经验者优先 [3] - 提供行业资源共享 论文署名与现金激励 [4]
ICCV 2025具身研讨会&挑战赛征稿来啦!人机场景交互与协作多个方向
具身智能之心· 2025-08-06 03:37
研讨会概述 - ICCV 2025 "人机场景交互与协作"研讨会将于2025年10月20日在夏威夷檀香山举行 [1] - 研讨会聚焦智能机器人在家庭、医院、工厂和学校等场景中的安全、智能、自然协作与环境适应能力 [3] - 研讨会主页链接提供详细信息 [5] 前沿研究方向 - 知识迁移创新:从人-人及人-场景交互中转移知识,支持具身智能体开发 [4] - 视觉表征突破:提取与人机协作相关的对象属性、动态和可供性信息 [4] - 意图预测革命:建模人类意图使机器人能预测并安全反应 [4] - 场景融合实践:将机器人集成到交互环境以实现无缝团队合作 [4] - 评估体系构建:建立基准和指标衡量人机交互进步 [4] 论文征稿 - 接受长论文(最多8页)和短论文(最多4页),需遵循ICCV 2025格式规范 [7] - 投稿截止时间为2025年8月15日,录用通知于8月29日发布,最终版本提交截止为9月5日 [7][12] - 录用论文以海报展示,部分优秀论文获口头报告机会 [7] 挑战赛 多地形人形运动挑战赛 - 聚焦复杂非结构化地形下的自主导航算法,推动家庭服务、灾难救援等应用 [15] - 奖项设置:一等奖1000美元、二等奖500美元、三等奖300美元 [17] - 注册截止9月14日,提交截止9月21日,获奖公布9月23日 [17] 人形-物体交互挑战赛 - 要求开发能感知、推理并与日常物体交互的模拟人形智能体,完成复杂室内任务 [20] - 需整合接触操作、交互感知和语义推理能力 [20] - 奖项设置:一等奖1000美元、二等奖500美元、三等奖300美元 [21][22] - 时间安排与多地形挑战赛同步 [22] 资源链接 - 论文格式规范与投稿系统链接 [11] - 多地形挑战赛官网链接 [17] - 人形-物体交互挑战赛官网链接 [22]
具身智能数采方案:全身动捕工作一览
具身智能之心· 2025-08-06 00:19
全身动捕方案技术汇总 - OpenWBC项目实现对Unitree G1机器人的全身控制 结合Apple Vision Pro控制上半身 使用OpenHomie算法控制下半身运动 支持全身数据采集功能 [3] - 主要功能特性包括双模式控制(上半身远程操控+下半身自主行走) 实时低延迟控制 模块化设计 跨平台通信架构 [5] TWIST系统 - 斯坦福大学团队开发全身远程操控人形机器人系统 通过全身运动模仿实现协调控制 结合强化学习与行为克隆提升跟踪精度 [6] - 系统引入特权未来运动帧和真实世界动作捕捉数据 显著提升多任务协调能力 包括全身操作 腿臂协同 移动及富表现力动作 [6] AMO框架 - 加州大学圣迭戈分校团队提出自适应运动优化框架 结合仿真到现实强化学习与轨迹优化 实现29自由度Unitree G1的实时全身控制 [9] - 通过混合型AMO数据集训练网络 解决运动模仿中的分布偏差问题 在仿真和实机验证中展现卓越稳定性及扩展工作空间 [11] 清华大学&银河通用项目 - 基于Apple Vision Pro实现Unitree G1/H1全身遥操作 支持实机与仿真 通过摇杆控制下半身 VR捕捉实现上半手部动作 [14] - 提出R²S²框架构建现实可用技能库 集成至统一潜空间 实现零样本仿真-现实迁移 解决大范围触达的全身协同控制问题 [16] CLONE系统 - 北京理工大学团队开发基于混合专家的闭环纠错系统 仅需MR头显追踪即可实现高保真全身操作 抑制长距离移动的位置漂移 [20] - 系统通过实时反馈机制学习多样化运动技能 完成复杂协调动作如地面拾物 树立长期人机交互的全身遥操作新标杆 [20] 具身智能社区资源 - 具身智能之心知识星球提供30+技术路线 开源代码方案 产业学术资源 及一线企业嘉宾答疑 [26] - 建立多家具身公司岗位内推机制 覆盖入门者技术栈与资深研究者产业体系 [32][33][35]