具身智能之心

搜索文档
RoboMemory:专为物理具身系统中的终身学习而设计
具身智能之心· 2025-09-04 01:04
文章核心观点 - RoboMemory是一个类脑启发的多记忆框架 专为物理具身系统中的终身学习而设计 旨在攻克现实环境中的四大核心挑战:持续学习能力 多模块记忆延迟 任务关联性捕捉以及闭环规划中的死循环规避 [2] - 该框架整合了四个核心模块:信息预处理系统(类丘脑功能) 终身具身记忆系统(类海马体功能) 闭环规划模块(类前额叶功能)及低层级执行器(类小脑功能) 以此实现长期规划与增量式学习 [2] - 作为框架中枢的终身具身记忆系统通过空间记忆 时序记忆 情景记忆与语义记忆四大子模块的并行更新与检索机制 有效化解了复杂记忆架构中的推理速度瓶颈 [2] 技术框架特点 - 采用动态知识图谱与一致性架构设计 显著提升了记忆连贯性与可扩展性 [2] - 综合了时间 空间 语义 自传体记忆等与人脑相同的记忆类别 并部署在真实的具身环境下 [4] - 专为动态真实环境中的持续学习能力而设计 帮助具身Agent获得终身学习能力 [4] 应用场景与价值 - 针对具身Agent在真实环境中的痛点设计 重点解决物理具身系统的实际应用问题 [2][6] - 通过多记忆框架提升具身Agent在闭环规划中的决策能力 避免死循环问题 [2] - 将记忆系统应用在具身Agent领域 填补了该方向的研究空白 [4] 研究背景 - 由香港中文大学(深圳)在读本科生与深圳市未来智联网络研究院研究助理联合开发 [2][6] - 论文已发布于arXiv平台 论文编号为arXiv:2508.01415 [3] - 项目详情可通过https://sp4595.github.io/robomemory/ 获取 [2]
Galaxea 团队推出:大规模高质量开放世界数据集与G0双系统VLA模型
具身智能之心· 2025-09-04 01:04
核心观点 - Galaxea开放世界数据集是首个在真实人类生活与工作环境中采集的大规模机器人行为数据集 解决现有数据集场景单一、本体不一致、标注粗糙的问题 [3][5] - G0双系统框架通过视觉语言模型进行多模态规划 并与视觉-语言-动作模型协同实现细粒度执行 在桌面操作、少样本学习和长程移动操作等基准测试中表现优异 [3][5] - 三阶段课程训练策略包括跨实体预训练、单实体预训练和任务特定后训练 单实体预训练阶段与Galaxea数据集的结合对实现强劲性能具有关键作用 [3][35][39] Galaxea开放世界数据集 - 数据采集通过统一机器人本体Galaxea R1 Lite移动双臂机器人进行 具备23个自由度 搭载头部立体RGB相机与手腕RGB-D相机 负载能力达5kg [3] - 在11个物理站点的50个独特场景中采集 涵盖住宅、零售、餐饮、办公四大核心场景 住宅场景占比最高达50.8% 办公场景占33.2% [6][12] - 总计500小时数据、10万条演示轨迹 覆盖150类任务、1600种物体、58种操作技能 并以2Hz频率标注细分子任务指令 [8] - 操作中"仅手臂""躯干+手臂""全身协同"的动作占比均衡 技能分布呈长尾特征 既包含高频基础动作也包含特殊技能 [11] - 相较于BridgeData V2、Open-X-Embodiment等主流数据集 具有完全开放世界场景优势 数据采集无预设脚本 还原人类真实生活中的任务场景 [15][17] G0双系统框架设计 - 设计灵感来自Kahneman的"双系统理论" System 2负责规划 System 1负责反应 两者异步运行 G0-VLM以15Hz规划 G0-VLA以200Hz控制 [19] - G0-VLM接收人类高层指令并分解为可执行的子任务序列 G0-VLA接收子任务指令、实时视觉观察与机器人本体状态 生成连续动作序列实现闭环控制 [21] - 采用三阶段训练策略:阶段1跨本体预训练使用1000小时Open-X-Embodiment数据、500小时Galaxea数据集和200小时内部未标注数据 [27] - 阶段2单一本体预训练使用Galaxea数据集的完整标注数据 阶段3任务特定后训练每个任务仅用最多100条高质量轨迹 [28][29] 性能评估结果 - G0-Full模型表现最优 平均任务进度得分最高 在"拾取-放置"类任务中优势显著 [39] - 单一本体预训练不可或缺 G0-Stage2在语言跟随、动作一致性、全身控制上表现优于G0-Stage1 数据量400小时性能优于200小时 [39] - 在少样本迁移场景中 G0-Stage2系列模型任务进度得分显著高于G0-Scratch与G0-Stage1 跨本体预训练无优势 [40] - G0-VLM准确率领先主流VLM模型50%以上 在整理床铺上准确率达78.2% 桌面整理达83.3% [42][47] - G0-Stage2显著提升本体控制能力 在"走向床铺""躯干抬起抓被子"等技能上得分远超G0-Stage1与基线模型 [46]
VLA方向的1v1论文辅导来啦,辅导至中稿~
具身智能之心· 2025-09-03 10:00
服务内容 - 提供具身智能领域1对1论文辅导服务 目前有5个VLA相关方向名额[1] - 辅导目标为顶级会议期刊录用 包括A会B会及一区二区等 承诺直中稿[1] - 覆盖主流人工智能与机器人会议 包括CVPR、ICCV、ECCV、ICLR、CoRL、ICML、ICRA、RSS等[1] 师资力量 - 辅导教师均活跃在具身智能学术前沿领域[1] - 每位教师至少拥有10篇以上顶级会议研究成果[1] - 教师团队具备具体研究思路与创新方案提供能力[1] 咨询方式 - 目标客户可通过添加微信oooops-life进行咨询[2] - 支持扫码方式联系 需备注具身论文辅导咨询字样[2]
Galaxea 团队推出:大规模高质量开放世界机器人数据集与G0双系统VLA模型
具身智能之心· 2025-09-03 03:23
数据集核心特征 - Galaxea开放世界数据集是在真实人类生活与工作环境中记录的大规模多样化机器人行为集合 采用统一机器人实体采集并配有精确子任务级语言标注 [2] - 数据集覆盖11个物理站点的50个独特场景 涵盖住宅 零售 餐饮 办公四大核心场景 其中住宅场景占比50.8% 办公场景占比33.2% [6][12] - 总规模达500小时数据 10万条演示轨迹 覆盖150类任务 1600种物体 58种操作技能 并以2Hz频率标注细分子任务指令 [8] 技术框架设计 - G0双系统框架耦合视觉语言模型(G0-VLM)与视觉-语言-动作模型(G0-VLA) 分别以15Hz和200Hz频率异步运行 平衡规划合理性与执行实时性 [19][21] - 采用三阶段课程训练策略:跨实体预训练获取通用知识 单实体预训练适配目标机器人 任务特定后训练精修复杂技能 [21][27][28][29] - 训练数据包含1000小时Open-X-Embodiment数据 500小时Galaxea数据集及200小时内部未标注数据 [27] 性能表现评估 - G0-VLM在指令准确率上显著领先主流模型 整理床铺任务达78.2% 桌面整理达83.3% 较基线模型提升超50个百分点 [42][47] - 单一本体预训练阶段对性能提升至关重要 G0-Stage2-400h在语言跟随和动作一致性上表现最优 且数据规模与性能呈正相关 [35][39] - 在少样本迁移场景中 G0-Stage2系列仅用20条轨迹微调即实现显著性能提升 而跨本体预训练显示负迁移效应 [38][40][46] 差异化竞争优势 - 相较BridgeData V2等数据集 具备完全开放世界场景采集 单一本体一致性和细分子任务标注三大核心优势 [15][17][18] - 行为模式覆盖仅手臂 躯干+手臂 全身协同操作 技能分布呈长尾特征 既包含基础拾取动作也涵盖打开冰箱等特殊技能 [11] - 物体覆盖家电 日用品等10余大类 对难操作物体采用高保真复制品 任务时长和复杂度呈多样化分布 [12]
诚聘英才 | 朗毅机器人2026届全球校园招聘启动!
具身智能之心· 2025-09-03 00:03
公司概况 - 专注于研发新一代具身智能和空间智能解决方案的企业 致力于突破机器人感知与导航技术边界 [2] - 推出全球首款具身感知导航模组 赋能人形机器人实现全自主移动避障、高阶空间推理和可泛化环境交互能力 [2] - 产品市占率高达80% 已服务数十家头部人形机器人厂商 [3] 技术实力 - 研发投入占比85% 团队核心成员来自华中科技大学、浙江大学、电子科技大学等高校 [3][4] - 在空间智能核心算法领域拥有超十年技术积累 [4] - 已获得数千万投资 投资方包括英诺天使、嘉道资本、奇绩创坛等头部机构 [4] 人才招聘 - 面向2026届本硕博应届毕业生招聘全职岗位 面向本硕博全日制在校生提供实习岗位 [9] - 实习日薪300-600元 要求可连续实习3个月以上 [9] - 招聘岗位包括SLAM算法工程师、AI视觉算法工程师、结构设计工程师和电子硬件工程师四大技术方向 [10][13][15][18] 技术岗位要求 - SLAM算法工程师需熟悉ROS1/2框架和C++编程 掌握LOAM、FAST-LIO、LIO-SAM、VINS等算法 [12] - AI视觉算法工程师需熟悉ResNet/ViT、YOLO/DETR、Mask2Former/SAM等模型 掌握PyTorch及模型开发部署 [15][16] - 结构设计工程师要求精通SolidWorks等3D设计软件及ANSYS仿真 熟悉机械原理和加工工艺 [17] - 电子硬件工程师需熟练使用Altium Designer等EDA工具 掌握硬件设计规范 [19] 发展机遇 - 处于具身智能爆发风口 有机会成为行业标准制定者 [5] - 提供固定薪酬+绩效奖金+核心人才期权激励的薪酬体系 [5] - 配备行业技术大咖1v1导师制 提供管理/技术双晋升通道 [5]
MemoryVLA:给机器人装上海马体,助力长时序机器人操作任务
具身智能之心· 2025-09-03 00:03
当前VLA模型局限性 - 主流视觉-语言-动作模型忽略时序context导致长周期任务表现不佳[2] - 机器人操作任务本质具有非马尔可夫性需依赖时序信息[2] - 现有模型决策过度依赖当前观测缺乏长期记忆机制[7] MemoryVLA框架设计 - 受人类工作记忆与海马体系统启发构建认知-记忆-动作框架[3] - 预训练VLM将观测编码为感知token与认知token形成工作记忆[3] - 感知-认知记忆库存储低层级细节与高层级语义实现信息巩固[3] - 工作记忆从记忆库检索决策相关条目并与当前token自适应融合[3] - 记忆条件化扩散动作专家生成时序感知动作序列[3] 技术实现机制 - 记忆库通过合并冗余条目实现动态更新[3] - 框架同时保留逐字细节与语义要点形成多层次记忆[3] - 检索机制增强模型对长周期时序依赖任务的适应性[3] 应用价值 - 解决长周期机器人操作任务中的时序依赖问题[2][7] - 为具身智能系统构建类生物记忆的认知架构[3][7] - 推动视觉-语言-动作模型向更接近人类决策机制演进[3][7]
刚入学,导师让我从0开始研究具身智能方向......
具身智能之心· 2025-09-03 00:03
明智能之川 th 利 #F 得 0.57 95 时间 9.1-9.14号 活动说明 499元限时超级折扣卡: 全课七折 E 具身课程七折优惠 (一年期) 具身智能之心知识 减66元 减 星球立减66 最高抵扣 具身智能论文辅导 新 1000登高抵扣10000 10000 课程和社区亮点 每次有小朋友问峰哥关于具身研究方向或者前景的时候,我都会给他们一个答案: 具身的市场规模和容 量,要比其它领域都大,但同样还有很多问题没有解决,需要大家一起努力。 所以这个基础上,大家如果感兴趣可以放开手做事情,数据、本体、算法都能大有所为。由于具身发展时 间较短,很多同学也苦于没有体系和路线,具身智能之心为了解决这类痛点,研发了几门具身领域的教 程,还有一个很不错的具身社区供大家学习。 开学季大额优惠 又到了九月的开学季,实验室里已经可以陆续听到敲代码的声音了。还记得之前通宵调试机器人小车的校 园时光,转眼间机器人算法也从传统的pipeline方案发展到端到端。最近有个小朋友找峰哥,保研马上要开 学了,导师让我自己去看具身智能方向,不知道这个领域怎么样...... 从技术上来说,具身算法对全局的感知能力有进一步提升。一个抓取 ...
Scaling Laws起源于1993年?OpenAI总裁:深度学习的根本已揭秘
具身智能之心· 2025-09-03 00:03
扩展定律的历史溯源 - 扩展定律(Scaling Laws)的核心观点是将模型性能与算力等资源投入相关联 成为构建先进大模型的重要参考标尺[2] - 康奈尔大学博士生Jack Morris指出扩展定律的真正探索者是贝尔实验室 其研究可追溯至1993年[3] - OpenAI联合创始人Greg Brockman认为贝尔实验室的研究结果跨越多个数量级和数十年时间 揭示了深度学习的根本[7] 贝尔实验室的扩展定律研究 - 1993年NeurIPS论文提出通过预测分类器性能来优化算力分配 避免高成本训练过程[12] - 研究证明模型错误率与训练数据量在对数曲线上呈现规律性 并适用于单层和多层网络[12] - 实验显示经过12000种模式训练后 新网络性能优于旧网络 证明模型规模扩大可提升智能水平[16] 论文作者贡献 - 一作Corinna Cortes论文引用量达104,248次 与Vladimir Vapnik共同提出支持向量机(引用77,000+次)并参与构建MNIST数据集[19][21] - 二作Lawrence D Jackel曾与Yann LeCun合作完成高引用研究 包括反向传播论文[23] - 三作Sara A Solla最高引用论文《Optimal brain damage》运用信息论优化神经网络规模[25] - 四作Vladimir Vapnik引用量335,349次 提出统计学习理论VC理论[27] - 五作John S Denker涉足多个领域 包括量子物理 计算机安全及神经网络 并拥有多项专利[29][30] 扩展定律的早期探索 - 心理学领域最早研究学习曲线概念[36] - Vladimir Vapnik在1960年代已研究样本大小的扩展定律[37] - Frank Rosenblatt在1958年感知器论文中清晰描述学习曲线[38] - 日本学者甘利俊一1992年论文证明学习曲线渐进行为 显示预测熵收敛规律与参数数量相关[40][41] 研究脉络总结 - 扩展定律的发展是跨学科跨时代的累积过程 从心理学 感知器到系统化研究 最终通过大规模实验验证[43] - 该定律并非突发顿悟 而是数十年理论与实践反复印证的结果 体现科学探索的长期积累[43]
XDog:具身低成本科研平台,四足机械狗+单臂(含VLA/强化学习/仿真/sim2real教程)
具身智能之心· 2025-09-02 02:00
产品定位与核心功能 - Xdog是一款低成本多功能四足机械狗+机械臂开发平台 专为具身智能开发者设计 涵盖机器狗二次开发、仿真强化学习和sim2real迁移部署等技术栈 [1] - 平台已实现语音控制、目标识别与跟踪、机械臂自主抓取、强化学习步态控制等核心功能 支持ROS1开发环境 [2] - 机械狗与机械臂通过ROS通信 机械臂和总系统由PC控制 正上方抓取高度达0.85米 基座周围抓取范围0.4米 [6][7] 硬件配置参数 - 机械狗采用蔚蓝品牌 尺寸25cm×20cm×30cm 总重7kg 配备Allwinner H616四核1.6GHz主控芯片 4G内存和32G存储 [3][4][11] - 单腿自由度3个 电池能量93.24Wh 综合续航120分钟 最大前进速度7.2公里/小时 最大旋转速度450度/秒 [5][11] - 配备SO101机械臂 采用20KG总线舵机 搭配9-12.6V输入驱动板和12V/7A电源适配器 [12] - 深度相机采用主动双目红外+结构光技术 深度分辨率1280×800@30fps 工作距离0.2-10米 RGB分辨率1080p@30fps [14] 软件与控制系统 - 支持语音控制(TCP协议)、键盘控制、视觉控制和强化自主运动等多种控制方式 [15] - 开发语言以Python为主 系统基于ROS1 推荐使用2080ti及以上显卡进行推理 [16] - 集成主流大模型实现低延迟高准确性语音交互 支持二次开发 [17] - 实现机械臂MuJoCo仿真映射、目标跟随算法协同控制和自主抓取(ACT)功能 [18][19][20] 课程体系与技术支持 - 课程涵盖ROS基础、Mujoco仿真、IsaacGym环境配置、强化学习算法(PPO/DreamWaQ)和YOLO目标识别等核心内容 [22][23] - 配备5人专业讲师团队 涵盖硬件设计、视觉算法和强化学习等领域 含港大博士生技术支持 [22] - 提供增值课程包括乐鑫开发板应用和机器人大模型语音控制系统开发 [23] 配套服务与交付 - 配套赠送专用遥控器和充电器套装 开发接口包含千兆以太网、WiFi/BT和USB2.0等 [5] - 建议配置为2080ti及以上GPU和i7及以上CPU进行二次开发 [24] - 付款后3周内完成调试交付 提供1年售后服务期 视频和源码在硬件收货后立即提供 [25][26]
还在卷端到端模型?Embodied-R1另辟蹊径:用“指向”+强化学习实现SOTA性能!
具身智能之心· 2025-09-02 00:03
点击按钮预约直播 点击下方 卡片 ,关注" 具身智能 之心 "公众号 >>直播和内容获取转到 → 具身智能之心知识星球 通用具身智能的发展长期受限于一个核心难题:"视觉到行动的鸿沟"(seeing-to-doing gap)。这一鸿沟源于两大挑战: (a) 数据稀缺 ,有限的机器人数据难以将语言和视觉与物理动作充分关联; (b) 形态异构 ,多样的机器人形态阻碍了知识的有效迁移。 尽管现有的视觉-语言-动作(VLA)模型在模仿专家演示方面表现出色,但在新环境中,其性能往往会急剧下降。无论是端到端模型存在的知识遗忘问题,还是 模块化模型易于出现级联故障的弊端,都未能有效解决这一根本性问题。如何让机器人真正"理解"它所看到的,并将其转化为精准的物理操作,是推动通用机器 人发展的关键。 在机器人研究中,如何让"看到的"顺利转化为"做到的",一直是一个难题。虽然近年来的视觉语言模型(VLM)和视觉语言动作模型(VLA)大幅提升了机器人 理解场景与指令的能力,但当机器人真正要操作物体时,性能常常大打折扣。VLM本身具有强大的环境感知和视觉理解能力,但基于VLM进行继续训练的端到 端VLA却几乎完全失去了零样本的操作能力 ...