Workflow
具身智能之心
icon
搜索文档
最近面向具身科研级的硬件好像越来越多了......
具身智能之心· 2025-10-14 00:02
行业现状与商业模式 - 当前大量机器人公司,包括元老级公司和新兴具身智能公司,其产品均面向科研场景,业务涉及高校 [1] - 教育场景的落地模式主要包括提供科研本体、组织赛事、线下基地建设和学科建设等 [1] - 行业内存在明显的错位竞争,公司分别专注于提供灵巧手、完整机器人本体、视觉系统(眼睛)或具身大脑等不同环节 [1] 社区资源与平台服务 - 社区已完成产业、学术、求职、问答交流等多个领域的闭环,提供问题解决方案和前沿研究思路 [3] - 社区汇总了超过30种技术路线,涵盖基准测试、综述和学习路径,以缩短用户检索时间 [4] - 社区邀请了数十位来自产业界和学术界的具身智能领域专家,提供答疑解惑服务 [4] - 社区与近2000名成员及200家公司和机构建立了联系,提供学术进展、工业应用和交流机会 [76] - 社区汇总了40多个开源项目、60多个数据集以及行业主流仿真平台 [13] 技术研究与发展方向 - 技术研究覆盖数据采集、灵巧手、VLA模型、VLN模型、多传感器融合、分层感知操作、机器人操作系统、协同感知、机器人模型、Sim2Real泛化、具身世界模型、触觉感知、大模型规划推理、模型加速与微调等多个领域 [5] - 具体技术议题包括机器人仿真与数据采集平台、人形机器人模仿学习、VLA在抓取与规划中的应用、VLA+RL方法、sim2real挑战、分层决策与端到端方案比较等 [4] - 社区为不同基础的学习者提供了从入门到进阶的多种学习路线,包括具身智能感知、交互、强化学习、VLN、VLA、多模态大模型、Diffusion Policy等 [13][14] 行业生态与基础设施 - 社区汇总了国内外具身智能领域的高校实验室和机器人公司,涵盖教育、宠物、工业、救援、物流、交互、医疗等多个方向 [13][19] - 基础设施资源包括行业研报、机器人相关书籍、零部件品牌(芯片、激光雷达、相机、IMU、底盘等)、ToF与3D相机厂家、数据采集方案、开源数据集和仿真平台等 [16][19][21][24][25][27][29][31][33][35][37]
马斯克从英伟达挖人做AI游戏!第一步:研发世界模型
具身智能之心· 2025-10-14 00:02
xAI入局世界模型 - 马斯克的xAI公司已正式进入世界模型研发领域,加入与Google DeepMind、Meta、英伟达等巨头的竞争 [2][7][8] - 为增强实力,xAI于2024年夏季从英伟达挖来多名资深研究员,包括Zeeshan Patel和Ethan He [2][9][16] 核心人才引进 - Zeeshan Patel于2024年5月硕士毕业于UC伯克利,研究方向为深度学习、生成模型和物理人工智能,此前曾在英伟达研究院从事生成式世界模型研究 [10][11] - Ethan He本科毕业于西安交通大学,在CMU获得计算机视觉硕士学位,其Google Scholar被引数高达8495,在加入xAI前于英伟达从事MoE模型、多模态模型和世界模型研究 [12][13][15][16] - 两位研究员均参与了英伟达Omniverse平台的核心开发工作,该平台是全球最成熟的物理一致性仿真系统之一 [18][19][20] 世界模型的战略意义与技术路径 - 世界模型被视为实现AGI(通用人工智能)的核心底座,其目标是让AI系统真正理解和推理物理3D世界,而不仅限于文本处理 [23][24][26] - xAI计划将英伟达在图形与物理模拟领域的积累(如Omniverse技术)应用到自家的世界模型体系中 [21][22] - 世界模型的应用前景广泛,可驱动AI游戏、智能体、自动驾驶乃至具身智能机器人 [38][39] 游戏领域作为首要落地场景 - xAI入局世界模型后的首批落点可能是电子游戏,团队正尝试让AI自动生成自适应、逼真的3D场景,并能根据玩家行为实时变化 [30][31] - 马斯克设下目标,计划在2026年底前推出一款由世界模型驱动的AI生成游戏 [3][32] - 为达成目标,xAI正在组建全模态团队(Multimodal Team),并公开招聘“电子游戏导师”(Video Games Tutor),时薪45–100美元,旨在向模型讲解游戏机制与设计逻辑 [33][34][35][36] 马斯克AI帝国的协同效应 - xAI的使命是“让AI理解宇宙的本质”,世界模型是实现该目标的关键路径 [37] - xAI、特斯拉、Neuralink、X平台之间可能形成协同效应:xAI研发模型,特斯拉提供机器人和自动驾驶数据,Neuralink提供脑机接口,X平台则作为社交与实时反馈渠道 [40][41]
ICLR 2026惊现SAM 3,分割一切的下一步:让模型理解「概念」
具身智能之心· 2025-10-14 00:02
SAM 3 技术发布与背景 - 一篇匿名论文“SAM 3: SEGMENT ANYTHING WITH CONCEPTS”登陆ICLR 2026,引发广泛关注,外界普遍猜测其为Meta公司“Segment Anything”系列的正式续作[3][5] - SAM系列发展节奏清晰,SAM 1于2023年4月发表并获得ICCV最佳论文提名,SAM 2于2024年7月发表,SAM 3的登场符合一年一度的更新节奏[6][7][8] - 该工作被定义为一个更高级的任务:可提示概念分割(Promptable Concept Segmentation, PCS),其核心是识别原子视觉概念[9] SAM 3 核心技术突破 - SAM 3实现了从“手动一个个点出来”到“告诉模型一个概念,它帮你全部找出来”的升级,用户可通过简短名词短语、图像范例或两者组合来指定视觉概念并分割所有实例[9][12][13] - 模型在论文提出的新基准SA-Co上性能比之前系统提升至少2倍,在LVIS数据集上零样本掩码平均精度达到47.0,超越之前最佳纪录38.5[13] - 模型处理效率高,在单个H200 GPU上处理一张有超过100个物体的图像仅需30毫秒[13] - 针对PCS任务的固有模糊性问题,公司在数据收集、指标设计和模型训练等多个阶段进行了系统化处理,并允许用户通过添加优化提示来消除歧义[19] 数据、架构与基准测试 - 研究构建了人机协同数据引擎,成功标注了包含400万独特短语和5200万掩码的高质量训练数据,以及包含3800万短语和14亿掩码的合成数据集[20] - 模型采用双编码器-解码器Transformer架构,是一个具有图像级识别能力的检测器,通过与跟踪器和内存模块相结合可应用于视频领域[19] - 本文创建了用于PCS任务的Segment Anything with Concepts(SA-Co)基准测试,涵盖124K张图像和1.7K视频中的214K独特概念,其概念数量超过现有基准测试集50倍以上[24] 实验性能表现 - 在零样本设置下,SAM 3在LVIS掩码任务上表现显著更好,在开放词汇SA-Co/Gold数据集上的CGF分数是最强基线OWLv2的两倍[27][28] - 在ADE-847、PascalConcept-59和Cityscapes上进行的开放词汇语义分割实验显示,SAM 3的表现超越了强大的专家型基线APE[29] - 在小样本自适应方面,SAM 3在10-shot设置下实现了当前最优性能,超过了Gemini的上下文提示以及目标检测专家模型[30] - 在物体计数任务中,SAM 3不仅实现了良好的物体计数准确率(如CountBench上MAE为0.11,Acc为95.6),还提供了大多数MLLM无法提供的对象分割功能[32][33] - 在视频分割任务中,SAM 3的表现远超基线,在大多数基准测试中比SAM 2取得了显著改进,对于交互式图像分割任务,SAM 3在平均mIoU方面优于SAM 2[33][34][35]
LightVLA:你的VLA真的可以又强又快!
具身智能之心· 2025-10-14 00:02
LightVLA技术核心与创新 - 提出一种面向视觉-语言-动作模型的可微分token剪枝框架,旨在解决资源受限平台上的计算开销难题 [2] - 采用自适应、性能驱动的视觉token剪枝方法,生成动态查询以评估token重要性,并使用Gumbel softmax实现可微分token选择 [2] - 框架无需依赖启发式参数且不引入额外可训练参数,使其能够兼容现代推理框架 [2] 性能表现与效率提升 - 在LIBERO基准测试中,LightVLA在计算量和延迟上分别降低59.1%与38.2%,同时任务成功率提升2.6% [3][8] - 该方法在多种任务中均优于不同VLA模型及现有token剪枝方法,以显著降低的计算开销实现了更高的成功率 [3] - 实现了效率与性能的双重提升,任务成功率提升至97.4% [8] 技术意义与行业影响 - 该研究是首个将自适应视觉token剪枝应用于VLA任务并同步优化效率与性能的工作 [3] - 标志着向高效、强大且实用的实时机器人系统迈出关键一步 [3] - 首次打破了“效率与性能不可兼得”的魔咒 [8]
一些项目合作,待遇open~
具身智能之心· 2025-10-13 04:02
公司业务与定位 - 公司是国内具身智能领域的优秀创作平台 业务集在线教育 线下培训 企业咨询 企业宣传服务 硬件研发销售 解决方案为一体 [3] - 公司致力于为行业提供优质的内容输出和教育方案 [4] - 公司主要业务方向包括技术服务 培训 课程开发与科研辅导等 [1] 行业现状与公司目标 - 行业处于新兴阶段 存在许多需要探索和克服的困难 增加了企业和个人的研发与学习成本 [1] - 公司期望通过自身努力为行业带来价值 减少企业和个人的研发与学习成本 从而推动整个行业的发展 [1] - 公司收到越来越多来自合作伙伴和中小公司的诉求 期望在方案与数据采集 技术升级 企业培训等多个方向上获得赋能 [1] 合作与招聘方向 - 公司面向全球具身智能领域从业者发出合作邀请 寻求在技术服务 培训 课程开发与科研辅导等多个领域展开合作 [1] - 公司将提供高额的酬金与丰富的行业资源以吸引合作伙伴 [2] - 合作与招聘的主要技术方向包括但不限于 VLA VLN Diffusion Policy 强化学习 VLA+RL 遥操作 动捕 sim2real 多模态大模型 仿真 运动控制 端到端 3D感知等 [5] - 岗位主要面向具身课程开发 方案研发 硬件研发 培训合作 B端客户主要面向企业 高校及研究院所 C端面向学生及求职人群 [6]
你的第一套具身科研平台来了,高性价比+代码开发方便
具身智能之心· 2025-10-13 04:02
产品定位与目标客群 - 产品为面向具身智能科研领域的轻量级高性价比机械臂 Imeta-Y1 [1][2] - 目标用户为学生、教育工作者及机器人领域初学者,旨在帮助其低成本、高效率完成算法验证与项目开发 [2] 核心产品优势 - 提供全流程开源工具链与代码示例,覆盖从数据采集到模型部署的全过程 [3][17] - 支持Python与C++双语言接口,兼容ROS1与ROS2,并提供URDF模型以实现仿真与真机无缝切换 [3][18][19] - 提供快速响应的售后支持,承诺24小时内响应 [3][19] - 融合高精度运动控制、低功耗设计与开放软硬件架构,支持仿真到真机的无缝联调 [5] - 支持视觉、力控等多模态数据融合,兼容TensorFlow、PyTorch等主流框架 [17][32] - 提供完整的开源软件开发工具包(SDK),包含驱动程序、API接口及示例代码 [26] 机械臂核心性能参数 - 本体重量为4.2千克,额定负载为3千克,具备6个自由度 [8][19] - 工作半径为612.5毫米,重复定位精度达到±0.1毫米 [8][19] - 供电电压为24V,控制器为PC,材质为铝合金,通讯方式采用CAN [8][19] - 各关节运动范围及最大速度均有详细规格,例如J1关节运动范围为-165°至165°,最大速度为180°/秒 [8][19] 应用场景与兼容性 - 其紧凑型结构与模块化接口适用于嵌入式AI与机器人学习平台的开发 [6] - 目前已适配的相机包括Realsense D435系列和奥比中光DCW2 [46] - 已开源适配的算法模型包括lerobot和ACT,未来计划适配robotwin、pi0等 [46] - 算法训练与推理对硬件要求相对亲民,例如ALOHA ACT算法在GeForce RTX 4060显卡上即可运行 [46] 交付与售后 - 产品交付周期为1至2周 [44] - 提供半年质保(非人为损坏),质保期后售后服务按市场价收费 [45] - 产品为单臂销售,不支持无理由退货或测试 [46]
多机器人协作不再「慢半拍」!ReCA破解具身智能落地效率瓶颈
具身智能之心· 2025-10-13 00:02
文章核心观点 - 当前协同具身智能系统面临高昂的时间延迟和低下的协作效率等核心瓶颈,阻碍了其从实验室走向现实应用 [2] - 研究团队推出的ReCA集成加速框架通过算法、系统、硬件的跨层次协同优化,旨在实现智能体“实时、高效地完成”任务 [4][5] - ReCA框架在保证任务成功率的前提下,实现了平均5-10倍的端到端任务加速,并将任务成功率平均提升了4.3% [25][28] - 该研究为具身智能领域提供了从“能用”到“好用”的跨越路径,并为下一代机器人“大脑”+“小脑”的设计提供了可行方案 [33] 当前系统性能瓶颈 - 系统严重依赖基于LLM的模块进行高阶规划和智能体间通信,每一步行动都可能涉及多次LLM的顺序调用,导致高昂的规划与通信延迟 [7] - 随着智能体数量增加,去中心化系统面临通信轮次爆炸性增长,而中心化系统则因单一规划者难以处理复杂协同导致任务成功率急剧下滑,存在有限的可扩展性问题 [9] - LLM生成的高阶计划需要被精确翻译成底层的控制指令,底层执行的效率和鲁棒性直接关系到任务成败,存在底层执行的敏感性 [11] ReCA框架的优化方案 - 在算法层面,通过部署本地化微调的开源LLM摆脱对外部API的依赖,并采用规划指导下的多步执行模式,一次性生成可指导连续多步动作的高阶计划,大幅减少LLM调用频率 [15][16] - 在系统层面,引入分层协作规划模式,在小范围“簇”内采用中心化规划,在“簇”之间采用去中心化通信,并设计长短时记忆分离的双重记忆结构以提升规划连贯性 [20][21] - 在硬件层面,采用异构硬件系统,用GPU处理高阶规划,并为低阶任务设计专用硬件加速器,其定制化的A-Star处理单元相较于GPU实现取得了4.6倍速度提升和281倍能效改进 [23][31] 性能评估结果 - 在任务步骤仅增加3.2%的情况下,实现了平均5-10倍的端到端任务加速,将原本需要近一小时的复杂任务缩短至20分钟内完成 [25] - 在大幅提升速度的同时,任务成功率平均提升了4.3%,证明了效率与性能可以兼得 [28] - 在12个智能体的大规模协作场景下,ReCA能保持80-90%的高成功率,而基线系统的成功率已跌至70%以下,展现出卓越的可扩展性 [29] 行业影响与未来展望 - ReCA推动了领域研究范式的转变,使延迟、效率和可扩展性成为衡量具身智能系统的核心指标,加速其在家庭服务、智能制造等场景的落地 [33] - 该框架为GPU处理高阶规划、硬件加速器处理底层任务的异构计算模式提供了范本,指明了软硬协同释放效能提升的未来方向 [33] - 效率提升将解锁机器人管家团队、灾难救援现场协同、自动化科学实验室等实时协作应用场景的想象力,推动具身智能从实验室走向真实世界 [34]
统一高效VLA+RL训练平台RLinf-VLA!
具身智能之心· 2025-10-13 00:02
核心观点 - RLinf-VLA是清华大学推出的首个面向具身智能的大规模强化学习框架,提供了一个统一、高效的平台用于视觉语言动作模型与强化学习的研究 [2] - 该框架的核心特点是“快”、“多”、“好”,系统级优化使吞吐量比基线平台提升2.27倍,支持大规模多任务训练,单个模型在130个任务中成功率高达98.11% [2] - 框架旨在解决当前VLA+RL研究中存在的算法设计分析不全面、基础设施上手难度高、算力昂贵等开发困境 [3] 系统设计 - 框架具有“统一”特性,支持LIBERO和ManiSkill两类典型仿真器,支持OpenVLA和OpenVLA-OFT两种主流模型,并支持PPO和GRPO两种强化学习算法 [5] - 框架具有“高效”特性,系统层面通过YAML文件可灵活切换3种分配模式,吞吐量提升高达2.27倍,算法层面引入了轻量化critic、轨迹长度归一化等优化设计 [5] - 针对不同仿真器的资源需求特点,框架提供了共享式、分离式、混合式三类GPU调度模式,并在混合式中支持细粒度流水设计,以优化资源调度减少GPU空闲 [6][7] - 在ManiSkill仿真器中,OpenVLA模型采用混合式细粒度流水调度模式(k=2)展现了最佳吞吐,吞吐量加速达1.61倍至1.88倍 [7][43] - 在LIBERO仿真器中,OpenVLA-OFT模型的最佳调度模式是共享式,其训练速度比基线快1.34倍至2.27倍 [44] 算法设计 - 框架定义了VLA模型输出的三个粒度:Token-level、Action-level和Chunk-level,并支持两种优势函数计算粒度和三种对数概率计算粒度 [12][14] - 在PPO算法中,基于动作级(action-level)的价值估计优于基于块级(chunk-level)的估计,且部分重置(partial resets)可显著提升采样效率 [9][17] - 在GRPO算法中,轨迹长度归一化与动作掩码是稳定训练的关键,框架还设计了过滤机制,可加速策略收敛并提升模型性能 [9][25][29] - 对于PPO算法,框架采用了轻量化的Critic模型设计,与Actor策略共享大部分参数以减少GPU资源占用 [21] 性能表现 - 在ManiSkill的25个pick&place任务中,经过训练的模型成功率相较于基础模型提升幅度在45%至70%,其中PPO算法表现更稳定,OpenVLA-OFT模型达到97.66%的成功率 [31][35] - 在LIBERO所有的130个任务中,采用GRPO算法训练的单个OpenVLA-OFT模型成功率高达98.11%,在部分任务组中成功率超过99% [40] - 在训练数据分布外的泛化能力测试中,OpenVLA模型也表现出色,成功率优于对比基线 [34][35] - 真机实验表明,在Franka机械臂上部署的OpenVLA模型展现出零样本泛化能力,其任务成功率显著优于基于SFT训练的策略 [45][46]
有臂有手还带主动视觉?全球首款桌面级灵巧手机械臂BeingBeyond D1震撼发布
具身智能之心· 2025-10-13 00:02
点击下方 卡片 ,关注" 具身智能 之心 "公众号 在具身智能蓬勃发展的今天,高校与科研机构对兼具性能与性价比的机器人平台需求愈发迫切。然而,传 统工业机械臂不仅价格高昂、动辄数十万元,还面临开发复杂、维护困难、算法与模型配套缺失等诸多瓶 颈,严重限制了科研创新的落地效率。 为打破这一局限, BeingBeyond正式发布全球首款桌面级灵巧手机械臂——D1 。它将"机械臂 + 灵巧手 + 主动视觉系统"三大核心功能集于一体,高性价比价格 ,打造高集成度的一体化平台 ,真正实现具身智能 的即刻上手。 D1不仅拥有强大的硬件能力,更搭载自研VLA大模型 Being-H0 ,覆盖 从数据采集、模型训练到部署落地 的完整链条 ,开箱即用,开源灵活,为科研人员提供一站式、低门槛的具身智能研究平台。 灵活模块化设计,功能强大、扩展无限 D1机械臂,不止是"灵巧",更是为科研量身打造的全能平台。它采用高度模块化架构,拥有19个自由度 (6臂 + 2头 + 11手),其中14个为主动自由度,5个为被动联动自由度,真正实现从感知到操控的全流程覆 盖。 模块解耦、接口标准,随装随用、随拆随换,是科研与教学的理想选择。 机械臂模块 ...
宇树科技2025发布的R1人形机器人荣登美国《时代周刊》2025年度最佳发明
具身智能之心· 2025-10-11 16:02
宇树科技行业荣誉 - 公司R1人形机器人荣登美国《时代周刊》2025年度最佳发明 代表行业发展新高度 [4] - 公司创始人王兴兴被评选为2025年度AI领域最具影响力100人 [4] - 公司被评选为2025年度全球100大最具影响力企业 [4] 具身智能行业社区与资源 - 具身智能之心知识星球是国内首个具身智能开发者社区 关注领域包括数据集、仿真平台、VLA、VLN、大模型、强化学习等 [8] - 社区汇总近30+学习路线、40+开源项目、近60+具身智能相关数据集 [8] - 社区汇集近200家公司和机构进行学术和产业交流 [9] 具身智能行业技术社群 - 具身智能之心社群覆盖大模型、VLN、VLA、Diffusion Policy、足式机器人、规划控制等方向 [13] - 社群拥有近60+技术交流群 面向学校/公司等不同背景的开发者 [13]