具身智能之心
搜索文档
无人机也能打排球吗?清华团队用强化学习探了探路
具身智能之心· 2025-10-28 00:02
研究背景与任务创新 - 清华大学团队提出“无人机打排球”新任务,将机器人运动挑战从地面推向三维空间,要求无人机集群在高机动性精确控制基础上实现团队合作与策略对抗 [1][2] - 该任务融合了混合博弈、回合制交互和复杂物理约束等难题,旨在验证具身智能在真实物理空间中的策略推理与高精度控制能力 [2][4] - 相关研究成果已被NeurIPS 2025与CoRL 2025国际顶会收录,标志着人工智能从虚拟博弈走向真实世界的关键进展 [1] VolleyBots测试平台 - 团队基于NVIDIA Isaac Sim高保真物理引擎构建了VolleyBots测试平台,精确模拟无人机动力学、气动力及碰撞反弹等真实物理效果 [6] - 平台模仿人类学习排球技能过程,设计了从单机基本技能到多机合作对抗的多层级任务体系,包括单机颠球、多机传球及3v3/6v6比赛等形式 [7][9] - 平台内置并测试了PPO、TD3、MAPPO、HAPPO等多种强化学习与博弈算法,为“空中对抗”研究提供了标准化仿真环境 [9][19] 分层协同自博弈算法(HCSP) - HCSP算法将复杂对抗任务拆分为负责团队战术的高层策略和负责精细飞行的低层技能,通过三阶段训练流程实现策略与技能的协同进化 [12][14] - 在对抗测试中,HCSP训练的策略以平均82.9%的胜率击败多种基线算法,对抗最强基于规则策略时仍保持71.5%的胜率 [15] - 算法使无人机队伍形成明确分工与协作,并自发演化出“二传吊球”等人类球赛中常见的临场战术,展现出高级策略推理能力 [15] 真实世界部署与性能突破 - 团队提出JuggleRL系统,首次实现四旋翼无人机基于强化学习的真实物理交互,通过系统辨识、域随机化和零样本部署完成“Real2Sim2Real”闭环 [16] - 在未经真实数据微调的情况下,真机连续颠球最高达462次(平均311次),较传统分层方法(最高14次)提升一个数量级 [18] - 该成果标志着具身强化学习从“虚拟对抗”走向“真实物理交互”的关键突破,为无人机在动态环境中的实时控制提供了技术验证 [16][19]
社区内的同学陆续出offer了......
具身智能之心· 2025-10-28 00:02
行业人才需求与就业趋势 - 具身智能领域人才市场需求旺盛,社区成员已获得互联网大厂具身实验室、科研院所及具身独角兽公司的职位,涵盖数据采集和算法等方向[1] - 在校学生凭借优质项目经验在就业市场依然具有竞争力,获得的职位质量较高[1] - 建议求职者优先选择头部大厂或具备独特技术路线的独角兽公司,以规避职业发展风险[1] 社区资源与服务概览 - 社区提供持续的直播分享,包括圆桌论坛,内容覆盖本体、数据、算法等领域,旨在揭示行业动态与待解决问题[2] - 为入门者整理了完整的技术学习路线,帮助小白快速建立知识体系[3] - 为已有研究基础者提供产业体系与项目方案,具备较高实用价值[5] - 建立了与多家具身公司的岗位内推机制,可快速将简历递送至目标企业[7] - 社区汇集了数十位活跃于产业界和工业界的具身领域专家,可提供答疑解惑[9] - 社区成员近2000名,来自斯坦福大学、清华大学等国内外知名高校及智元机器人、优必选等头部公司[9] 技术知识体系与学习资源 - 汇总了超过40个开源项目及近60个具身智能相关数据集,涵盖行业主流仿真平台[9] - 技术学习路线全面,包括具身智能感知、交互、强化学习全栈、VLN等超过20个具体方向[9][10] - 提供了机器人导航、概率机器人、动力学与运动学等领域的PDF书籍资源,用于基础学习[21] - 汇总了基于LLM的强化学习、可解释强化学习等主流方案,覆盖VLA+RL等前沿应用[35][37] - 针对多模态大模型的理解与生成任务,汇总了大量相关工作,涵盖Image/Video/Audio/3D等多种模态[46][48] - 详细汇总了机械臂抓取、位姿估计、策略学习以及双足/四足机器人的开源项目与硬件方案[63][65] 产业研究与数据支持 - 汇总了国内外具身智能领域的知名高校实验室,为深造提供参考[12] - 汇总了涉及教育、宠物、工业、医疗等方向的国内外各类具身相关机器人公司[15] - 汇集了大模型、人形机器人等相关行业研报,便于跟踪行业发展与工业落地情况[17][18] - 整理了机器人行业知名的零部件制造厂商信息,覆盖芯片、激光雷达、相机、IMU等关键部件[23] - 针对机器人仿真、通用及真实场景仿真平台进行了系统汇总[33] - 汇总了触觉感知、遥操方案、动作捕捉等数据采集方案及相关开源数据集[29][31] 社区互动与交流价值 - 社区成员可在内部自由提问,内容涵盖工作选择、研究方向等,并能获得解答[68] - 具体案例显示,成员就研究方向选择、开源项目复现等实际问题获得了针对性建议,例如VLA模型和相关综述推荐[68]
Efficiency Law, 世界模型引擎驱动的具身智能学习新范式
具身智能之心· 2025-10-28 00:02
文章核心观点 - 具身智能行业正面临从“数据驱动”到“引擎驱动”的根本性范式转变,其核心挑战在于高质量数据的生成效率,而非单纯的算法创新[1][2] - 跨维智能与香港中文大学(深圳)联合提出的“基于生成式仿真的世界模型”(GS-World)是解决数据瓶颈、实现Efficiency Law的关键技术,它通过构建物理精确的仿真环境,为具身智能提供了可自演化、可计算的学习引擎[11][16][18] - GS-World引擎驱动的学习范式有望使具身智能从依赖人工设计转向自主演化,是实现产品级鲁棒性和通用性的必然技术路径[28][29][34] Scaling Law与Efficiency Law - Scaling Law在大语言模型中有效,但其前提是存在海量文本数据,而具身智能领域尚未建立支撑该定律的数据范式,导致其指导作用失效[5] - Efficiency Law是专为具身智能提出的新定律,指出在有限时间内,决定模型性能上限的关键因素是高质量数据的生成速率(r_D),而非单纯增加数据量[5][6] - 当数据生成速率(r_D)过低时,模型会进入“数据稀缺区”,性能无法提升;提高r_D能快速“喂饱”大模型,从而突破性能瓶颈[6] 世界模型的物理精确性挑战 - 当前基于视频生成的世界模型(如Sora)主要追求“视觉逼真”,缺乏对真实物理规律(如摩擦、质量、受力)的理解,容易产生违反物理常识的反事实场景[8] - 具身智能要求世界模型必须具备物理精确性,能够根据动力学、运动学原理预测世界状态变化,并保持时序一致性,以支撑可执行的学习与决策[9] 基于生成式仿真的世界模型(GS-World) - GS-World是一种将生成模型与物理仿真引擎深度融合的新型世界模型,其生成过程显式或隐式地引入物理仿真,确保世界的动态演化遵循真实的力学方程[11] - 该模型不仅生成视觉外观,还同时生成三维资产、物体材质、物理参数与交互规则,从源头上保证运动、碰撞等现象的因果合理性[11][12] - GS-World将视频生成视为“自然副产物”,其本质是一个能够内蕴计算完整物理因果过程的引擎,解决了纯视觉模型的物理一致性问题[13] 引擎驱动的具身智能新范式 - GS-World推动形成了“引擎驱动”的具身智能学习范式,相比被动依赖外部数据的“数据驱动”范式,它能主动生成并仿真物理精确的三维世界,形成“生成—交互—反馈—优化”的闭环[17][24] - 该范式将“世界生成、物理仿真、任务构建、反馈优化”整合为统一引擎,使智能体的训练由被动数据驱动转向主动任务生成与环境演化,是实现Efficiency Law的核心机制[20] - 引擎驱动范式是实现产品级成功率和鲁棒抗干扰性的必然选项,因为它能让智能体在仿真中经历无限真实的交互,自主习得对复杂扰动的补偿策略[27][28][29] GS-World作为技能生成与演化场 - 在GS-World中,机器人技能是通过引擎在物理世界中自然“挖掘”出来的,而非人工设计,技能能抽象、组合与迁移,形成可扩展的智能基元[31][32] - GS-World是具身智能机器人的“演化场”,它使智能体的身体结构、控制策略与环境动力学在同一物理生成机制下共同演化,促使机器人实现身体与智能的协同生长[34] - 该平台让机器人从“人工设计产物”走向“自演化生命体”,是实现通用机器人的关键跃迁平台[34]
征和工业:灵巧手的“阿喀琉斯之踵” | 微链技术如何破解传动系统的“不可能三角”
具身智能之心· 2025-10-27 04:00
文章核心观点 - 微链传动系统通过集成化创新解决了类人机器人灵巧手在可靠性、性能、成本等方面的多重矛盾,有望成为推动其商业落地的关键技术 [2][11][25][28] 多元矛盾集成与市场痛点 - 传统灵巧手驱动系统面临“可靠性-性能-成本”不可能三角的挑战,例如产线灵巧手故障导致每小时高达12万元的直接损失,企业需求百万次以上的循环寿命 [4] - 传统腱绳传动方案初始成本低但全生命周期成本高,且存在性能不一致问题,影响AI模型训练和大规模部署 [4][5] - 齿轮/连杆系统在高自由度下重量和体积急剧增加,难以兼顾轻量化,而腱绳方案则存在寿命短和控制精度退化问题 [5][8] - 境外第三方测试显示,腱绳驱动在25万次循环后拉伸达17mm,定位精度从±0.1mm衰减至±0.5mm以上,性能退化导致隐性成本增加 [6] 微链方案的突出优势 - 微链技术在重量特性上表现轻量化(如微型链<20g/m),循环寿命超过100万次,单链抗拉强度大于30kg,具备优雅失效特性 [16] - 动力传输效率始终保持95-98%,定位精度优秀且接近零间隙,维护要求低并采用自润滑设计 [16] - 在高自由度下可实现承重30kg+,整体重量控制在400-700克区间,并能持续保持0.1-0.2mm级控制精度 [20] - 在3年周期内,链条传动方案的全生命周期成本经模拟测算为最优,解决了传统方案TCO过高的问题 [20] 技术壁垒与竞争格局 - 微链传动系统的产业链门槛高,仅少数企业拥有规模化量产和核心技术突破能力,行业头部企业对人形机器人领域布局谨慎 [23] - 市场窗口期有限,真正具备差异化壁垒的是那些掌控微链核心技术的企业 [23] 行业价值与落地关键 - 灵巧手商业化的核心是“能用、耐用、好用”,微链方案以其高集成度、高可靠性、低维护和易工程化特性,有望成为规模应用的基石 [25][27] - 微链方案满足了真实用户对高自由度下持续可用、超长寿命、高精度及轻量高负载的集成需求,正成为行业新方向 [27]
智源&悉尼大学等出品!RoboGhost:文本到动作控制,幽灵般无形驱动人形机器人
具身智能之心· 2025-10-27 00:02
文章核心观点 - 研究团队提出名为RoboGhost的创新方案 旨在解决基于语言引导的人形机器人运动流程中存在的多阶段处理问题 通过将文本驱动的人形机器人运动视为生成任务而非简单映射 该方案无需显式的运动解码与重定向流程 能够直接从噪声中解算出可执行动作 在保持语义完整性的同时支持快速响应控制 [6][7][8] 技术方法与架构 - 团队设计了两阶段训练过程 第一阶段采用连续自回归架构训练动作生成器 第二阶段训练基于扩散模型的学生策略 该策略以第一阶段的运动潜变量为条件引导运动降噪过程 [11] - 教师策略采用Mixture-of-experts架构提高泛化性 并引入因果自适应采样方法动态调整动作序列采样概率 以掌握更具挑战性的长运动序列 [11][13] - 推理阶段完全由潜变量驱动 文本描述输入运动生成器获得潜运动表征后 直接通过扩散模型生成可执行动作 无需解码为显式运动序列 消除了运动重定向需求 [13] 实验结果与性能 - 在HumanML3D数据集上 Ours-DDPM模型的R Precision Top 1达到0.639 Top 2达到0.808 Top 3达到0.867 FID为11.706 MM-Dist为15.978 Diversity为27.230 Ours-SiT模型的R Precision Top 1为0.641 Top 2为0.812 Top 3为0.870 FID为11.743 MM-Dist为15.972 Diversity为27.307 [16] - 在HumanML数据集上 Baseline方法的IsaacGym平台成功率为0.92 Empjpe为0.23 Empkpe为0.19 MuJoCo平台成功率为0.64 Empjpe为0.34 Empkpe为0.31 而Ours-DDPM方法在IsaacGym平台成功率提升至0.97 Empjpe降至0.12 Empkpe降至0.09 在MuJoCo平台成功率提升至0.74 Empjpe降至0.24 Empkpe降至0.20 [16] - 在Kungfu数据集上 Baseline方法的IsaacGym平台成功率为0.66 Empjpe为0.43 Empkpe为0.37 Ours-DDPM方法成功率提升至0.72 Empjpe降至0.34 Empkpe降至0.31 [16] - 与Baseline方法相比 RoboGhost将部署时间成本从17.850秒大幅降低至5.840秒 同时成功率从92.0%提升至97.0% [17] - 在未见过的MotionUnion子集测试中 基于扩散的策略相比多层感知机策略成功率从0.54提升至0.68 Empjpe从0.48降至0.42 Empkpe从0.45降至0.39 显示出更优的跟踪效果和鲁棒性 [18][19]
很多初学者想要的具身科研平台来了,为具身领域打造,高性价比
具身智能之心· 2025-10-27 00:02
产品定位与目标客群 - 产品是专为具身智能科研领域设计的轻量级高性价比机械臂Imeta-Y1 [1][2] - 主要目标用户为学生、教育工作者及机器人领域初学者,旨在帮助其低成本、高效率完成算法验证与项目开发 [2] 核心产品优势 - 提供全流程开源工具链与代码示例,覆盖从数据采集、模型训练到推理部署的全过程,支持视觉、力控等多模态数据融合 [3][17][32] - 支持Python与C++双语言接口,并兼容ROS1与ROS2,提供URDF模型,实现仿真与真机无缝切换 [3][18][19][22] - 提供24小时快速售后响应,确保用户学习与开发过程顺畅 [3][19] 关键性能参数 - 机械臂本体重量为4.2公斤,额定负载为3公斤,具有6个自由度,工作半径为612.5毫米 [8][19] - 重复定位精度达到±0.1毫米,关节运动最大速度范围为180°/秒至220°/秒 [8][19][22] - 采用24V供电,通讯方式为CAN,控制方式支持轨迹跟踪、示教及API [8][19] 软件开发与生态支持 - 提供完整的开源软件开发工具包(SDK),包含驱动程序、API接口及示例代码 [26][27] - 目前已适配ALOHA ACT等算法,并在NVIDIA GeForce RTX 4060显卡上即可完成训练与推理 [46] - 公司计划后续持续升级VLA(Visual-Language-Action)等相关源码,新老客户均可享受升级服务 [19] 硬件适配与测试 - 机械臂已适配Intel RealSense D435系列及奥比中光DCW2等型号相机 [46] - 产品经过严格的硬件测试流程,包括精度校准、耐久性、负载性能与稳定性验证,确保可靠性 [35][39][40][42]
HuggingFace联合牛津大学新教程开源SOTA资源库!
具身智能之心· 2025-10-27 00:02
行业技术范式转变 - 机器人学正经历从经典显式建模到现代隐式学习的根本性变革,基于学习的方法成为现代机器人学的中流砥柱[3] - 传统机器人技术依赖模块化流水线,而基于学习的方法通过统一高层控制器直接处理高维感知-运动信息,简化了从感知到动作的过程[15][33] - 基于学习的方法优势在于紧密整合感知和控制、减少专家建模干预,并能随着数据规模扩大而提升性能[26][33] 核心学习方法与技术 - 强化学习通过试错法让机器人自主学习最优策略,但面临安全、效率和高昂试错成本的瓶颈[28][34] - 教程介绍了通过模拟器训练结合域随机化技术来规避物理风险,并利用离线到在线强化学习框架提升样本效率和安全性[34][36] - 模仿学习通过行为克隆复现专家操作,规避了复杂的奖励函数设计,但面临复合误差和多模态行为挑战[41] - 先进模仿学习方法如ACT和Diffusion Policy利用生成模型有效建模多模态数据,后者仅需50-150个演示即可完成训练[42][43][45] 通用机器人策略与开源生态 - 构建跨任务、跨设备的通用机器人策略是未来方向,得益于大规模开放机器人数据集和视觉-语言模型的发展[52][53] - 前沿VLA模型如π₀和SmolVLA采用混合专家架构,π₀基于超过1000万条轨迹数据集预训练,展现强大泛化能力[53][54] - SmolVLA作为开源模型,参数量仅为π₀的约七分之一,内存消耗降低6倍,显著降低了应用门槛[56][58] - HuggingFace与牛津大学提供的LeRobot开源库包含预训练模型、数据集和模拟环境,用户无需实体机器人即可上手[6][7][8] 教程价值与内容覆盖 - 教程从经典机器人学概念出发,逐步介绍强化学习、模仿学习、生成模型理念以及通用机器人策略[4][11] - 教程附带了基于PyTorch的开源数据集、模型、工具和代码库LeRobot,收录了许多当前SOTA方法[6][10] - 该教程是踏入机器人学习领域的一份有价值的起点,全面探索了现代机器人学习的全景[3][12]
盲人复明!马斯克Neuralink联创实现人工视觉里程碑
具身智能之心· 2025-10-27 00:02
文章核心观点 - 一项名为PRIMA的人工视觉技术取得重大突破,成功帮助一位因年龄相关性黄斑变性失明15年的70岁患者恢复功能性中央视力,标志着视力恢复领域的里程碑进展 [4][8][12] PRIMA技术原理与特点 - PRIMA是一种光伏视网膜植入物微阵列,其原理是作为光敏细胞的替代物,通过电刺激幸存的视网膜神经元来恢复视觉 [27] - 该技术系统由尺寸为2mm x 2mm x 30μm的小型光伏视网膜植入物和一副特殊眼镜组成,整个过程无线且由光子激活 [29] - 与传统疗法只能延缓疾病进程不同,PRIMA能够直接恢复患者失去的功能性视力 [33] 临床试验结果 - 研究团队在5个国家的17个临床地点对38名患者进行了试验,其中32名参与者完成了最终评估 [31] - 实验结果表明,PRIMA系统能够让84%的患者恢复功能性中央视力,80%的患者实现了0.2 logMAR的水平上升,平均可改善25.5个字母(约5行) [32] - 在术后前两个月,虽然部分患者出现排异反应,但其中95%在发病后2个月内症状消退,且原有的周边自然视力未出现显著下降 [35] 技术应用范围与局限性 - 该设备不仅适用于年龄相关性黄斑变性患者,对于色素性视网膜炎等感光细胞死亡但视网膜神经元仍存活的疾病也有帮助 [36] - 当前系统存在局限性,其最大敏锐度有提升空间,系统仅包含381个像素,每个像素为100微米平方,用户视觉体验为黑白且非快速流畅 [38] - 研究团队正在开发下一代植入物和眼镜,旨在通过数字图像处理等技术进一步优化视觉性能,实现更小像素、更高效率和色觉 [41] 背后公司与创始人 - PRIMA技术由Science Corporation公司开发,该公司成立于2021年,专注于神经工程和脑机接口技术 [43] - 公司创始人Max Hodak是脑机接口公司Neuralink的联合创始人,拥有生物医学工程背景和丰富的创业经验 [44][46] - Science Corporation拥有自主的微型医疗芯片制造工厂,可实现从材料、制造到临床实验的全流程自主完成,并于今年4月完成了由Khosla Ventures领投的超1亿美元融资 [48] 行业背景与意义 - 年龄相关性黄斑变性晚期(地图样萎缩,GA)患者在全球超过500万人,传统疗法大多只能延缓视力丧失,而PRIMA首次实现了视力的逆转恢复 [20][25][26] - 该技术被类比为“视力版”人工耳蜗,旨在推动人工视觉成为现实,如同人工耳蜗已有50多年历史一样 [51][52]
具身智能之心招募产品领域的大佬一起合作了~
具身智能之心· 2025-10-26 12:00
公司定位与目标 - 公司是垂直聚焦于具身智能领域的专业内容平台与社区 [1] - 公司致力于构建最全面的具身智能知识体系并连接产学研用各方资源 [1] - 公司旨在推动具身智能技术创新与产业落地以及培育该领域专业人才 [1] 招募讲师职责 - 讲师将负责设计与开发具身产品经理相关课程 [3] - 讲师需通过线上形式兼职授课并制作高质量教学材料如课件和案例 [3] - 讲师需具备1年以上embodied AI领域的产品设计或需求管理经验 [3] 招募咨询专家职责 - 咨询专家将为企业客户提供具身智能技术应用与产品化的专业咨询 [5] - 咨询专家需协助企业制定具身智能战略与实施方案并参与解决实际项目问题 [5][6] - 咨询专家需具备丰富的具身智能项目实践经验并深刻理解行业需求与技术趋势 [6] 加入价值 - 加入可提升专业影响力并与顶尖专家交流合作 [8] - 提供灵活的合作模式与时间安排包括线上线下多种工作方式 [8] - 提供具有竞争力的报酬机制并连接学术界与产业界优质资源 [9]
World-in-World:约翰霍普金斯 × 北大联合提出闭环下的具身世界模型评估框架!
具身智能之心· 2025-10-26 04:02
文章核心观点 - 当前生成式世界模型的评估体系存在缺陷,过度关注视频生成质量而忽略了其在具身智能任务中的实际决策辅助能力 [1][2] - 约翰・霍普金斯大学和北京大学等团队推出的World-in-World平台首次采用闭环交互方式评估世界模型,将焦点从“画面逼真度”转向“任务实用性” [1][3] - 实验证明,对具身任务而言,模型的动作-预测对齐能力(可控性)比视觉质量更重要,且通过任务数据微调小模型比直接使用大模型更具成本效益 [16][17][18] 评估体系痛点 - 现有评估基准如VBench和WorldModelBench均为开环测试,只评估视频清晰度和场景合理性,不测试模型帮助智能体完成实际任务的能力 [2] - 生成式世界模型技术已能实现分钟级视频生成和动态3D场景变化,但评估体系与具身任务所需的“动作和预测对齐”需求严重脱节 [2] - 在示例中,能生成超清晰画面但动作预测错误的模型A,反而比画面稍模糊但预测精准的模型B获得更高评分,凸显了评估标准的不合理 [2] 平台设计框架 - 平台通过统一动作API解决模型兼容性问题,将智能体的原始动作转换成不同世界模型能理解的格式(如文本提示、相机位姿序列) [6] - 采用三步闭环决策流程:提案阶段生成候选动作序列,模拟阶段预测执行后未来画面,修正阶段根据任务目标评分选择最优方案执行 [7][13] - 决策公式融合了候选动作、预测结果、当前观测和任务目标四要素,确保每一步决策都有依据 [9] 任务测试范围 - 平台选取四类真实具身任务进行测试:主动识别、图像导航、具身问答和机械臂操作 [10][14] - 针对预训练视频生成模型,平台设计了后训练机制,使用任务相关的动作-画面数据进行微调,且训练与测试场景分离防止过拟合 [12] 实验关键发现 - 模型可控性(1-LPIPS衡量)与任务成功率呈正相关,证明“听话”比“好看”更重要 [16] - 1.5B参数的SVD模型经80K数据微调后,主动识别成功率从56.3%提升至61%,而14B参数的Wan2.2模型未微调时成功率低于微调后的SVD [17] - 增加推理时模拟的候选动作数量可提升成功率,SVD模型模拟次数从3次增至11次,主动识别成功率从53.4%升至61%,且平均路径长度缩短12% [20] - 在机械臂操作任务中,表现最佳的SVD模型成功率仅为46.5%,仅比基础策略高2个百分点,暴露出现有模型缺乏物理建模能力的短板 [21][22] 未来发展方向 - 世界模型研发应聚焦提升可控性,确保模型能精准响应动作指令 [23] - 利用少量任务数据微调是低成本提升模型效果的高性价比路径 [17][23] - 需补强物理建模能力,使模型能够理解碰撞、摩擦力等物理规律,以胜任机械臂操作等精细任务 [22][23]