Workflow
具身智能之心
icon
搜索文档
清北推出Motion Transfer,机器人直接从人类数据中端到端学习技能
具身智能之心· 2025-11-07 00:05
MotionTrans框架核心创新 - 提出业界首个纯端到端、零样本、多任务的人类→机器人技能迁移框架MotionTrans,实现从“看人会”到“我会做”的直接转化[4] - 核心能力包括零样本迁移(无需同任务机器人演示)和小样本精进(仅需5-20条机器人数据微调即可将成功率提升至80%)[7] - 框架采用架构无关设计,已在Diffusion Policy与VLA两大主流范式上验证即插即用特性[7] 技术实现细节 - 自研基于VR设备的人类数据采集系统,可便携式采集第一人称视频、头部运动、腕部位姿和手部动作[9] - 通过坐标系变换和手部重定向将人类数据转换为机器人格式,并使用统一动作归一化与加权联合训练算法优化迁移效果[10] - 采用相对腕部动作表征与Dex-Retargeting工具缩小人机动作差距,提升迁移精度[11] 数据集与实验表现 - 构建大规模人类-机器人数据集,包含3200+轨迹、15个机器人任务、15个人类任务及超过10个真实生活场景[10] - 零样本迁移在13个任务上平均成功率达20%,其中Pick-and-Place任务成功率60%-80%,VLA模型在“关电脑”任务实现100%成功率[14] - 小样本微调后平均成功率从20%跃升至50%(5条数据)和80%(20条数据),显著优于基线方法[17][18] 行业影响与开源贡献 - 证明人类VR数据可独立作为机器人技能学习主菜,改变人类数据仅作为辅助工具的认知[22] - 框架采用模块化设计,支持横向扩容,具备应对大规模数据集与参数量级模型的扩展性[22] - 团队全面开源技术报告、训练代码、权重及数据集,推动相关研究发展[6][23]
从转型和研究来看,什么方向更适合第一篇论文?
具身智能之心· 2025-11-06 11:47
研究方向选择 - 具身智能领域的研究方向包括视觉语言导航、视觉语言动作、强化学习以及真实到仿真再到真实的闭环方法[1] - 对于从事同步定位与地图构建研究的同学,视觉语言导航和视觉语言动作是较好的切入方向[1] - 拥有机械臂硬件的研究者可选择展开视觉语言动作研究,预算不足的研究者可利用仿真环境或低成本硬件如so-100进行实验[1] - 四足机器人和人形机器人更适合强化学习方向,而视觉语言动作的研究难度较高[1] 研究方法与支持 - 产生优秀的研究想法对新人研究者至关重要,但往往需要经历多次尝试[1] - 公司提供从选题创新点挖掘、实验设计、代码调试到论文写作和投稿策略的全流程闭环辅导服务[2] - 辅导服务覆盖中国计算机学会推荐A类到C类国际学术会议以及科学引文索引一区到四区期刊[2] - 导师团队由来自国内外名校的博士及头部企业研究员组成,具备顶级会议如ICML、ICLR、CoRL、ICRA、NeurIPS、CVPR的投稿和审稿经验[2] - 公司提供工业界与学术界双视角,不仅关注论文发表,更注重研究成果的落地价值[3]
创办了一个具身论文复现的交流群
具身智能之心· 2025-11-06 11:47
技术交流平台 - 平台旨在为论文复现提供技术交流服务 解决复现VLA VLN DP等开源项目指标及数据采集的困难 [1] - 平台名称为具身智能之心 目标是为用户创造交流平台 分享经验以减少踩坑 [1] - 用户可通过添加指定微信账号并备注姓名和复现信息加入技术交流群 [2]
需要撕衣验证?全网都吵疯了!小鹏的人形机器人,是不是真人
具身智能之心· 2025-11-06 05:28
公司战略转型与产品发布 - 小鹏汽车在AI Day 2025上正式宣布从造车公司转型为AI公司 [10] - 公司基于自研的Xpeng VLA 2.0大模型衍生出一整套AI定义的应用 [10] - 最新一代人形机器人IRON的发布引发了广泛讨论 [5][10] IRON机器人技术规格 - 机器人身高约1.78米,体重70公斤,比1X的NEO等机器人更高 [12] - 双手拥有22个自由度,仅比人类少5个,能完成叠衣服、擦桌子等精细任务 [14] - 全身共有65个自由度,具备类人脊柱运动能力,比NEO多出10个 [15] - 由三颗图灵AI芯片驱动,总算力高达2,250 TOPS [25] - 整合了VLT、VLA、VLM三大认知模型,实现视觉感知、语言理解与动作决策一体化 [25] - 使用全固态电池,但容量和续航未公布 [28] 机器人设计与交互 - IRON拥有全新的类人骨骼结构、仿生肌肉系统以及全覆盖柔性皮肤,机械感大幅降低 [11] - 外观可定制男性或女性特征,通过柔性3D网格结构与软质皮肤材料实现拟人身体曲线与触感 [21] - 采用3D打印的蜂窝网格织物,兼具结构强度、柔韧性和温柔触感 [22] - 头部采用3D曲面显示屏作为交互界面,实现更自然的人机交流 [27] 商业化路径与市场展望 - 官方计划于2026年实现IRON量产,但仅限在自有商业场景中使用,如展厅导览员、接待员或销售顾问 [32] - 公司认为人形机器人进入工厂大约需要3-5年,家庭普及约需5-10年 [33] - 明年将在全球小鹏展厅部署IRON作为门店员工 [34] - 公司将推出IRON SDK,开放开发接口,并与宝钢集团等大型企业合作 [34] 研发历史与性能表现 - 小鹏在机器人领域已深耕7年,从四足形态进化至完全类人阶段 [11] - 新一代IRON行走更稳、更自然,非预编程也非远程操控 [11] - 机器人具备背后运动小脑,运控实力不俗 [17]
小鹏AI Day昨日发布 | 颜值、算法、算力均拉满!“IRON:最拟人的人形机器人来了?!”
具身智能之心· 2025-11-06 03:27
小鹏IRON人形机器人产品概览 - 公司发布全新一代面向真实世界场景、易泛化、数据易获取的人形机器人平台[1] - 机器人整体面部采用3D曲面大屏设计,未采用仿生脸[4] - 机器人具备站、坐、蹲、躺、爬等多种运动能力,采用柔软材料作为皮肤,仿人类设计[6] - 机器人单手具备22个自由度,灵巧手性能突出[8] 小鹏机器人生态战略 - 公司布局机器人场景,旨在建立“车-Robotaxi-人形机器人”的生态系统[9] - 该产品为全新一代,此前已于2024年首次亮相[9] IRON机器人核心配置 - 搭载首个全固态电池,重量降低30%,续航提升30%[11] - 配备3颗图灵AI芯片,总算力达到2250 TFLOPs[11] - 采用VLT+VLA+VLM高阶大小脑能力组合的物理世界大模型[13] - 具备主动安全保护功能[19] - 公司计划于2026年实现量产,重点突破家居和工业场景[21]
都在研究具身,但相当一部分同学卡在了这些地方.......
具身智能之心· 2025-11-06 00:03
文章核心观点 - 文章旨在推广一个名为“具身智能之心知识星球”的付费社区,该社区定位为国内首个具身智能全栈技术交流平台,为从业者、研究者和学生提供从入门到进阶的全面资源、技术路线、项目实战及行业交流机会 [1][2][12] - 社区通过整合技术内容、行业资源与人才网络,致力于解决学习者在具身智能领域遇到的算力、数据、模型优化与项目实战等核心难题,并构建了连接产业、学术与求职的闭环生态 [1][2][12] 社区内容与资源 - **技术路线与学习资料**:社区整理了覆盖具身智能全领域的技术学习路线,包括但不限于具身智能感知、交互、强化学习、VLA/VLN模型、多模态大模型、机器人导航规划等近20条详细学习路径 [13] - **开源项目与数据集**:汇总了超过40个开源项目、近60个具身智能相关数据集,以及行业主流的仿真平台,旨在帮助成员快速上手和复现 [13][28][34] - **直播与知识分享**:定期举办圆桌论坛和直播,内容涵盖数据采集、本体、算法、世界模型等前沿话题,目录显示已规划或完成至少15个大型技术主题的分享 [6][7] - **行业研究报告与公司信息**:汇总了具身智能、大模型及人形机器人等行业研报,并整理了国内外涉及教育、工业、医疗等多个方向的具身智能公司及知名高校实验室名单,供行业研究与求职参考 [18][20][21][15] 社区成员与网络 - **成员构成**:社区已拥有近2000名成员,来自国内外顶尖高校(如斯坦福大学、清华大学、上海交大等)和头部机器人公司(如智元机器人、优必选、小米、逐际动力等)[12] - **专家资源**:邀请了数十位活跃在产业界和学术界的具身智能领域嘉宾,为成员提供答疑和深度交流的机会 [12] 社区服务与功能 - **求职与内推**:与多家具身智能公司建立了岗位内推机制,可协助成员简历直达目标企业 [12] - **项目与方案支持**:为已有研究基础的成员提供有价值的产业体系参考和项目方案 [10] - **互动问答**:设有内部问答板块,成员可就技术方向、职业选择等实际问题提问并获得社区及专家的解答,示例如一位研一学生在社区内获得了针对其硬件条件(2张3090显卡、UR5e机械臂)的具体学习与研究方向建议 [72]
智源具身框架Thor开源:迈向类人级全身控制,在强对抗中“站稳脚跟”
具身智能之心· 2025-11-06 00:03
文章核心观点 - 智源研究院联合北京理工大学提出名为BAAI Thor的具身智能框架,旨在解决人形机器人在高强度、接触丰富的环境中实现类人级全身协同反应与控制的关键技术瓶颈 [6][7][8] - 该框架通过结合生物力学控制原理与创新的解耦式网络结构,使机器人能自主学习人类在物理对抗中的全身协调策略,显著提升了在真实复杂环境中的作业潜力与动态稳定能力 [8][12][13] - 实验验证显示,搭载Thor框架的宇树G1机器人能拉动重约1400kg的汽车,并在多项力交互任务中性能显著优于基线算法,峰值拉力达到167.7N,约为机器人自重的48%,较最佳基线算法性能提升68.9% [18][26] 人形机器人全身控制的技术挑战 - 类人反应机制缺失:现有控制策略多通过增大关节力矩刚性对抗外力,易导致关节输出饱和、姿态不稳,且依赖精确动力学模型或外力传感器,限制了在非结构化环境中的自适应交互能力 [9] - 高维协调控制复杂性:人形机器人具有高维状态空间(数十个自由度关节角度、速度、IMU等构成数百至上千维状态向量)、高维动作空间(数十维连续动作空间)以及高维动力学耦合(各关节强耦合的非线性系统),导致强化学习采样稀疏、优化难度大、学习复杂度急剧上升 [10] BAAI Thor框架的核心技术创新 - 力自适应躯干倾斜奖励(FAT2):基于考虑外部作用力的零力矩点(ZMP)准则,引导机器人学习通过自适应倾斜身体调整质心位置的类人姿态策略,以增强末端执行器有效作用力,胜任高强度力交互任务 [13] - 解耦式网络结构:将全身控制器分解为上半身、腰部、下半身三个独立的Actor-Critic模块,共享全身观测输入但独立输出控制指令并同步更新,通过降低单一策略网络优化复杂度应对高维动作空间挑战 [17] - 消融实验表明FAT2奖励函数是提升力交互能力的核心驱动力,贡献约80%-90%的性能增益,而解耦式网络结构则确保核心能力在极限条件下的稳定发挥 [30] 实验验证与性能表现 - 在真实物理交互任务中,搭载Thor的宇树G1机器人(重约35kg)成功拉动重约1400kg的汽车,展示了极限负载下的全身协调与动态平衡能力 [18] - 在单手开启消防门(需约60N稳定拉力)、拖拽约85kg轮式吊架、擦拭白板等持续接触任务中表现出卓越的泛化能力与鲁棒性 [20][22][27] - 定量分析显示Thor在双手向后拉动任务中实现167.7N峰值拉力,较最佳基线算法性能提升68.9%,且躯干倾斜角度与所受拉力正相关,验证了类人自适应姿态调节策略的有效性 [25][26] 行业应用前景与意义 - 该技术突破使人形机器人能从“表演者”转变为“劳动者”,在家庭陪护、工业装卸、应急救援等需高强度、不可预测物理交互的场景中替代人类成为可能 [7][31] - 通过生物力学原理与强化学习的深度融合,为机器人全身智能控制开辟新路径,推动具身智能在工业、服务业、特种作业等更广泛场景中的演进与落地 [31]
北大&智源研究院最新!RoboOS-NeXT:“记忆 + 分层架构” 实现通用多机器人协作
具身智能之心· 2025-11-06 00:03
文章核心观点 - RoboOS-NeXT 提出了一种创新的多机器人协作框架,通过“时空-实体统一记忆(STEM)”和“大脑-小脑分层架构”,解决了现有方案在终身适应性、协作扩展性和调度鲁棒性方面的核心缺陷 [1] - 该框架实现了跨任务、跨机器人、跨环境的全能协作,在餐厅、超市、家庭等场景中表现出色,为多机器人协作技术的产业化提供了新范本 [1][26] 现有方案困境 - 端到端视觉-语言-动作模型依赖大规模数据集,新场景或新机器人泛化能力差,且无长期记忆,无法复用历史经验 [2] - 分层控制框架以单机器人为中心,异构团队协作效率低,策略与机器人形态强绑定,更换设备需重新调试 [2] - 传统多机器人协作方案仅适配同构机器人与结构化环境,动态场景适应性差,缺乏高层语义推理与低层执行的衔接 [2] RoboOS-NeXT 核心设计 - 系统核心是时空-实体统一记忆,整合了空间场景几何、时间事件历史和机器人实体属性三大维度信息,为所有机器人提供统一信息接口 [6] - 采用大脑-小脑分层架构,大脑模型负责全局任务分解与规划,小脑模型负责局部执行与容错,形成规划-执行-记忆更新的闭环 [9] STEM统一记忆组件 - 空间记忆采用树形场景与图结构物体的分层设计,通过场景树与SLAM地图对齐以及物体关系图更新,精准描述全局场景与局部物体关系 [6] - 时间记忆是一个仅追加、按时间排序的事件队列,为长序列任务提供历史上下文,避免重复操作 [7] - 实体记忆为每个机器人建立能力-状态档案,实时同步机器人位置、技能库、资源状态等信息,确保任务分配时选对机器人、用对技能 [8] 系统执行流程 - 任务分解阶段通过检索增强生成从STEM中提取场景信息、历史反馈和机器人状态,生成结构化任务流图 [10][12] - 动态调度阶段实时监控任务进度与机器人状态,若某机器人离线,立即从STEM查询空闲且有对应技能的机器人重新分配任务 [10] - 分布式子任务执行阶段每个机器人代理调用小脑技能库工具,结合STEM记忆动态调整动作 [12] - 动态记忆更新阶段机器人执行动作时实时更新STEM的空间、时间、实体记忆,为后续任务提供最新信息 [12] 实验性能表现 - 在终身适应性测试中,RoboOS-NeXT在长序列任务下保持75%以上成功率,而无记忆基线完全失效,证明记忆能维持长期任务能力 [13] - 复杂任务执行步数比基线降低20%-70%,例如家庭中等难度任务从41.4步降至15.5步,效率提升61% [13][17] - 协作扩展性测试显示,同构机器人从1个增至5个时,任务平均执行步数从34.8步降至8.5步,降低76%,每步成功率从2.20%/步升至8.20%/步,提升373% [14][18] - 在故障场景下,系统表现出强容错能力,如机器人离线时任务成功率仅从81.6%降至87.6%,而基线降至44.5% [19] 技术优势与价值 - 统一记忆是协作的基石,STEM整合空间-时间-实体信息,彻底打破单机器人的信息壁垒,为终身适应、弹性协作、鲁棒调度提供数据支撑 [23] - 分层架构平衡全局与局部规划,大脑模型确保任务分解合理,小脑模型确保动作精准容错,实现规划-执行-记忆的闭环 [23] - 鲁棒性源于记忆与动态调度结合,通过STEM实时同步状态,大脑模型动态调整任务分配,快速应对机器人离线、工具失效等故障 [23]
多任务、全场景、跨本体通用移动:银河通用发布环视导航基座大模型
具身智能之心· 2025-11-06 00:03
核心观点 - 公司联合多所高校发布全球首个跨本体全域环视导航基座大模型NavFoM,实现导航技术从碎片化任务模型到统一智能基座的跨越 [3][8][9] - 该模型通过统一范式、多任务支持、跨本体适配等创新,使机器人具备自主感知与决策能力,推动具身智能规模化商业落地 [9][11][29] - 基于NavFoM衍生的应用模型矩阵已在复杂场景中验证实效,标志公司完成从单一功能创新到智能基础设施建设的升级 [27][28][30] 技术架构创新 - 提出TVI Tokens机制,为视觉数据添加时间与视角标记,使模型理解空间连续变化并兼容多类视觉输入方式 [14] - 采用BATS策略动态采样关键帧,在7B参数规模下实现毫秒级响应,兼顾算力限制与决策精度 [17] - 构建1,200万条跨任务数据集(800万条导航数据+400万条问答数据),训练量达以往工作的两倍,覆盖多机器人形态与场景 [21][23] 性能与泛化能力 - 在VLN-CE、HM3D-OVON、NavSim等国际基准中达到或刷新SOTA水平,展现零样本导航与跨任务泛化能力 [25] - 实测支持四足机器人长程自主跟随、轮式机器人室内外混合导航、无人机复杂地形规划等任务,无需微调即可直接部署 [25] 应用模型衍生 - TrackVLA++实现30分钟以上稳定长程跟随,适应室内外多地形复杂路况 [27] - MM-Nav突破360°厘米级纯视觉避障,解决玻璃、细线等传统方案难以处理的极限场景 [28] - UrbanVLA与第三方地图软件打通,实现街道、天桥等室外环境自主路径规划,复杂度超越汽车自动驾驶 [30]
欢迎具身世界模型&数采相关方向的大佬加入我们!
具身智能之心· 2025-11-05 09:00
合作招募背景 - 行业对具身世界模型、机器人运控、数据采集相关领域咨询需求旺盛[2] - 相关方向存在较高行业门槛但具备显著价值[2] - 公司旨在与领域专家合作研发课程或实战项目以提供行业见解[2] 合作内容与要求 - 合作聚焦于具身世界模型、运控、数据采集相关课程设计与制作[3] - 期望合作者至少发表一篇CCF-A级别会议论文或拥有1年以上工业界经验[3] - 合作形式灵活可兼职并提供高于行业水平的薪资与资源共享[5]