具身智能之心

搜索文档
具身智能数采方案:全身动捕工作一览
具身智能之心· 2025-08-05 05:44
全身动捕方案汇总 - OpenWBC项目实现对Unitree G1机器人的全身控制 上半身通过Apple Vision Pro结合avp_teleoperate控制 下半身采用OpenHomie算法控制 支持全身数据采集功能 [3][4] - 项目具备双模式控制(上半身远程操控+下半身自主行走) 实时控制延迟低 采用模块化设计和TCP/IP网络通信架构 [4] - TWIST系统由斯坦福大学团队开发 通过全身运动模仿实现人形机器人远程操控 结合人体动作捕捉数据重定向与强化学习+行为克隆技术 实现前所未有的协调全身运动技能 [5] - AMO框架由加州大学圣迭戈分校团队提出 将仿真到现实的强化学习与轨迹优化结合 解决29自由度Unitree G1人形机器人的非线性动力学控制难题 [8][10] - 清华大学&银河通用团队开发系统支持通过Apple Vision Pro对Unitree G1/H1人形机器人进行全身遥操作 实现蹲、弯、抓、搬等动作 扩展机器人作业空间 [13] - R²S²框架构建现实可用基础技能库 通过技能优化与仿真-现实验证 实现零样本的仿真-现实迁移 解决人形机器人全身协同控制问题 [15] - CLONE系统由北京理工大学等团队开发 基于混合专家(MoE)的闭环纠错机制 仅通过MR头显头手追踪实现高保真全身操作 抑制长距离移动中的位置漂移 [19] 具身智能社区资源 - 具身智能之心知识星球提供30+技术路线梳理 包含前沿学术内容、开源代码方案、求职信息等资源 [25][31] - 社区邀请数十位具身领域产业界/学术界专家 提供圆桌论坛、直播和技术答疑 [25] - 建立与多家具身公司的岗位内推机制 为不同阶段从业者提供针对性学习路线和产业项目方案 [31][32][34]
哈工大提出UAV-ON:面向空中智能体的开放世界目标导航基准测试
具身智能之心· 2025-08-05 00:03
研究背景与动机 - 无人机在货物运输、紧急救援、环境监测等领域的应用日益广泛,随着智慧城市和低空空域管理的发展,无人机需要在复杂、动态的开放环境中实现自主导航 [2] - 现有研究多依赖视觉-语言导航(VLN)范式,这类方法需要详细的分步语言指令,限制了在开放世界中的可扩展性和自主性 [2] - 目标导航(ObjectNav)作为一种替代方案,要求智能体基于语义线索定位目标,无需密集的指令序列,但现有研究主要集中在地面室内场景,在大规模、非结构化的户外空中环境中仍未得到充分探索 [2] UAV-ON基准概述 - UAV-ON是首个针对无人机在开放世界中进行实例级目标导航的大规模基准 [4] - 包含14个基于Unreal Engine构建的高保真户外环境,覆盖城市、森林、山地、水域等多种场景,空间尺度从350×250到1400×1250单位不等,总水平面积约900万平方单位 [4] - 定义了1270个标注目标,每个目标对应一个实例级语义指令,包含类别、大致尺寸和自然语言描述,引入了现实中的歧义性和推理挑战 [4] 任务设置 - 无人机被随机放置在环境中,仅依靠前、左、右、下四个方向的RGB-D传感器获取的第一视角信息进行导航,需自主避障和路径规划,无全局地图或外部信息支持 [6] - 任务终止条件为:无人机发出停止指令、碰撞障碍物,或达到最大步数(150步);若停止时与目标距离≤20单位,则判定为成功 [6] 任务定义与仿真器设计 - 任务开始时,无人机的初始姿态为6自由度位姿,目标指令包含目标类别、尺寸和视觉描述,目标被限定在以起始位置为中心、半径50单位的水平范围内 [7] - 无人机配备四个同步RGB-D相机,分别朝向前后左右和下方,获取的RGB和深度图像记为和,所有视图分辨率和视场一致且时间同步 [9] - 采用参数化连续动作,包括平移(前进、左右移动、上升、下降)、旋转(左右旋转)和停止,每个动作对应连续的距离或角度参数 [9] 数据集与评估指标 - 训练集包含10个环境、10000个导航episode,任务数量根据环境空间大小和目标分布比例分配 [9] - 测试集包含1000个episode,覆盖10个训练环境和4个新环境,混合了熟悉场景、新场景及已知/未知目标类别 [9] - 采用四个经典导航指标:成功率(SR)、潜在成功率(OSR)、成功距离(DTS)、成功加权路径长度(SPL) [10] 基线方法与实验结果 - 实验实现了四种基线方法:随机策略(Random)、CLIP启发式探索(CLIP-H)、空中目标导航智能体(AOA) [13] - AOA-V(AOA Variable-step)OSR最高(26.30%),但SR(4.20%)和SPL(0.87%)较低,反映出LLM在同时处理语义理解、运动规划和终止控制时的注意力分散问题 [14] - AOA-F(AOA Fixed-step)SR(7.30%)和SPL(4.06%)更稳定,尤其在大型、视觉显著目标上表现较好 [16] - CLIP-H SPL较高(4.15%),但OSR(11.90%)和SR(6.20%)较低,说明其对语义目标的理解有限 [16] - 随机策略所有指标均最差(SR 3.70%,OSR 8.00%),验证了无目标导向的盲目探索无效性 [16] - 所有方法的碰撞率均超过30%(如AOA-F达65.5%),远高于实际应用的安全要求,凸显了当前导航策略在避障和鲁棒控制上的不足 [15]
腾讯入局具身智能,宇树首批用上“大脑”
具身智能之心· 2025-08-05 00:03
腾讯具身智能战略 - 公司推出具身智能通用外接大脑平台Tairos,以模块化方式提供多模态感知、规划、感知-行动联合模型等能力,不涉足硬件本体、量产及商业化[2][3][8][22] - Tairos平台集成多模态感知算法、规划大模型及开发工具链,首批合作厂商包括宇树、越疆、乐聚等6家机器人企业[6][7][21] - 平台采用标准化接口与SDK,提供仿真环境、数据集及预置模板,支持厂商灵活调用单一模块或完整训练流程[14][15][18][19] Tairos平台技术架构 - 模型层包含三大核心:多模态感知模型(右脑功能,融合图像/语音/触觉)、规划大模型(左脑功能,任务拆解与记忆)、感知-行动联合模型(小脑功能,物理动作映射)[12][13] - 云服务层提供数字孪生仿真平台、三维视觉数据集及可视化开发工具,强调国内首个模块化具身智能软件平台的定位[15][16] - 技术方案采用层次化学习框架SLAP(感知-学习-行动-规划),区别于端到端方案,强化动态环境下的交互能力[37] 腾讯RoboticsX实验室布局 - 实验室2018年成立,聚焦移动、操作、智能决策三大方向,研发成果包括机器狗Max、四腿轮足机器人"小五"等原型[25][27][28] - 技术路线遵循"A2G"方针,探索非人形机器人形态(如轮腿一体化),认为双足形态在人居环境中效率低下[31][32][33] - 战略目标为IDEAS框架(虚实集成世界、技术降门槛等),重点突破养老服务等复杂场景的交互需求[39] 行业合作与趋势洞察 - 公司已调研60家国内机器人企业,认为硬件生态成熟后应专注软件层,通过Tairos与厂商共同优化3D环境认知、物理约束建模等痛点[35] - 具身智能现阶段需补足动态环境理解能力,现有文本描述无法覆盖现实交互需求,需结合仿真环境训练[37] - 行业距离"iPhone时刻"仍有差距,平台发布旨在加速推进至"大哥大时刻"[40]
无界智慧招募操作算法、导航算法、运动控制等方向(社招+实习)
具身智能之心· 2025-08-05 00:03
公司概况 - 无界智慧(Spatialtemporal AI)是一家专注于时空智能与具身智能融合创新的前沿科技企业 以自主研发的时空智能技术为核心 致力于构建具备多模态感知、自主认知与决策、精准任务执行能力的智能体系统 [1] - 团队成员来自PKU、清华、CASIA、CMU、MBZUAI等顶尖高校及研究机构 面向康养与医疗场景 公司正在开发"成长型数字家人"陪护机器人 深度融合时空感知与环境理解技术 [1] 技术社区生态 - 具身智能之心知识星球是国内首个具身全栈技术社区 已完成产业、学术、求职、问答等多领域闭环 社区运营注重实效性 拒绝华而不实的内容 [6] - 社区汇集斯坦福、ETH、清华等顶尖高校实验室成员 以及智元机器人、优必选、小米等头部企业从业者 形成产学研一体化交流平台 [19] - 已梳理30+技术路线 包括强化学习全栈、VLN/VLA学习路线、多模态大模型、Diffusion Policy等前沿方向 覆盖从入门到进阶的全阶段需求 [19] 知识体系架构 学术资源 - 汇总40+开源项目与60+具身智能数据集 涵盖仿真平台、机械臂控制、机器人导航等应用场景 [19][34][38] - 整理近30家国内外具身智能实验室信息 为升学深造提供参考 同时收录机器人动力学、运动学等专业书籍PDF资源 [22][30] 产业图谱 - 建立具身智能公司数据库 覆盖教育、医疗、工业等细分领域 包含零部件供应商品牌名录(激光雷达、IMU等核心部件) [24][32] - 持续更新行业研报 跟踪大模型与人形机器人领域的技术商业化进展 [27] 职业发展支持 - 与多家头部企业建立内推机制 提供智元机器人、逐际动力等公司的直接简历投递通道 [13] - 开设职业转型指导 包括自动驾驶转具身智能的技术栈迁移方案 涉及视觉语言导航、端到端导航等过渡方向 [80][82] - 实时分享头部企业招聘信息 组织大佬圆桌论坛 解决研究方向选择、项目包装等实际问题 [78][79] 技术前沿动态 - 重点追踪VLA模型、触觉感知、sim2real等创新方向 汇总Diffusion Policy在机器人任务中的最新应用案例 [58][60][66] - 深度解析多模态大模型技术路线 涵盖跨模态理解(视频/3D+文本)与生成(语音/图像+文本)两大体系 [52][54] - 提供四足/双足机器人开源项目全栈资源 包括硬件搭建方案与仿真环境部署指南 [71][74]
Interleave-VLA:首个支持交错图文指令的VLA框架,跨域泛化提升2-3倍
具身智能之心· 2025-08-05 00:03
核心观点 - Interleave-VLA是首个能理解交错图文指令并生成连续动作序列的框架,显著提升机器人操作的灵活性和泛化能力 [2][3] - 通过自动化流程创建了首个大规模真实世界交错具身数据集,包含21万条交互数据和1300万帧图像 [2] - 在仿真和真实机器人实验中,Interleave-VLA的跨域泛化能力比基线模型提升2-3倍,并支持零样本处理手绘草图等图像指令 [3][7] 技术架构与数据集 - 采用模型无关的范式,仅需对现有VLA模型进行最小修改即可实现 [2] - 基于Open X-Embodiment数据集转换纯文本指令为交错图文指令,解决数据缺失问题 [2][7] - 异构数据集和多样化指令图像(包括互联网图像)是其零样本性能的关键 [3] 性能优势 - 支持灵活任务接口,如直接处理用户提供的非结构化图像输入 [3] - 在未知场景或复杂描述任务中表现优于传统纯文本指令模型 [7] - 真机实验中成功验证了域外任务性能提升,具体案例包括手绘草图理解 [3][7] 应用场景 - 适用于需要多模态交互的机器人操作场景,如工业装配或家庭服务 [7] - 可扩展至互联网图像等开放域指令,具备商业化潜力 [3] - 相关技术(如BridgeVLA)已在CVPR竞赛中实现32%的真机性能提升 [10]
具身机器人公司无界智慧招募操作算法、导航算法、运动控制等方向(社招+实习)
具身智能之心· 2025-08-04 10:19
公司概况 - 无界智慧(Spatialtemporal AI)专注于时空智能与具身智能融合创新 核心研发方向为多模态感知 自主认知与决策 精准任务执行的智能体系统 [1] - 团队背景来自PKU 清华 CASIA CMU MBZUAI等顶尖高校及研究机构 聚焦康养与医疗场景开发"成长型数字家人"陪护机器人 [1] 行业社区生态 - 具身智能之心知识星球是国内首个具身全栈技术社区 覆盖产业 学术 求职 问答闭环 提供30+技术路线 40+开源项目 60+数据集资源 [6][19] - 社区成员包括斯坦福 加州大学 清华 上海人工智能实验室等高校 以及智元机器人 优必选 小米等头部企业从业者 [19] - 建立企业内推机制 与云深处 逐际动力等公司合作直达招聘通道 [13] 技术资源体系 学术研究 - 汇总近40+开源项目如机械臂抓取 四足机器人仿真 60+数据集涵盖触觉感知 导航等方向 [19][34][38] - 梳理强化学习 VLN VLA Diffusion Policy等20+技术路线 提供主流仿真平台如Isaac Sim应用方案 [19][42][60] 产业应用 - 分类汇总医疗 教育 工业等场景的具身机器人公司 分析零部件厂商在激光雷达 IMU等供应链环节 [24][32] - 跟踪大模型部署 轻量化方法 sim2real迁移等工程化难点 分享机械臂抓取位姿估计等量产经验 [64][66][69] 人才发展路径 - 针对入门者设计感知 交互等基础学习路线 为进阶者提供产业级项目方案如双足机器人控制系统 [14][16][71] - 自动驾驶从业者可通过视觉语言导航 端到端控制等技术栈向具身智能领域平滑过渡 [80][82] - SLAM工程师建议结合DL转型 或切入强化学习 具身感知等高需求方向以提升薪资竞争力 [81][82]
RAGNet: 从“看得见”到“想得通”,再到“抓得准”的通用机器人之路 (ICCV'25)
具身智能之心· 2025-08-04 01:59
通用抓取技术研究 - 核心观点:机器人需同时具备"功能推理+精细操作"能力以实现开放世界通用抓取 香港中文大学等机构联合推出RAGNet数据集与AffordanceNet框架 通过语言指令对齐实现复杂场景抓取[3] - 技术突破点: - 数据集创新:RAGNet包含27.3万张图像/180类物体/2.6万条指令 覆盖真实场景/机器人平台/第一视角[8] - 标注创新:采用三级指令体系(模板/简单推理/困难推理) 示例包括"请分割锤子"到"需要敲钉子的工具"等模糊指令[10] - 模型架构:AffordanceVLM改进LISA模型 增加系统提示词与<AFF> token 结合Pose Generator实现3D抓取位姿预测[12] 性能验证 - 零样本检测:在GraspNet novel和3DOI数据集上 AffordanceNet的gloU指标达45.6和37.4 显著超越VLPart+SAM2(40.9)等基线[14] - 真机测试:UR5平台抓取成功率70% 较传统GraspNet(32%)提升118% 在炒锅/螺丝刀等工具上表现突出(80%成功率)[16][17] 行业影响 - 数据价值:提供273k图像+26k指令的开源数据集 标注成本降低50%以上 支持自动数据采集飞轮[23] - 技术定位:作为VLA框架的3D几何语义前置模块 增强感知(RGB-D→3D Mask)与语言理解(三级指令体系)能力[18] - 应用前景:实现从物体分类到功能执行的跨越 未来或支持"帮我修书架"等复杂家庭任务自主完成[20]
具身智能之心强化学习交流群来啦!
具身智能之心· 2025-08-04 01:59
行业交流平台 - 行业搭建技术交流与分享平台 专注于四足 人形 机械臂相关运控领域 [1] - 目标群体为从事强化学习技术研究的专业人士 [1] - 通过微信渠道加入交流群 需备注特定格式信息 [2]
全球首个体智能安全基准出炉:大模型集体翻车
具身智能之心· 2025-08-04 01:59
具身智能安全研究 - 全球首个针对具身智能体安全性的综合性评测基准AGENTSAFE发布,填补了对抗性安全评测领域的空白[5][6] - 研究团队来自北航、中关村实验室、南洋理工大学等机构,成果荣获ICML 2025多智能体系统研讨会杰出论文奖[3][6] - 团队计划发布数据集、代码和评测沙盒供全球研究者使用[7] AGENTSAFE技术框架 - 基于AI2-THOR平台构建高度仿真的交互式沙盒环境,模拟45种真实室内场景和104种可交互物体[14][15] - 包含9900条危险指令的风险指令数据集,灵感来源于机器人三定律[16] - 引入6种前沿"越狱"攻击手段,如多语言攻击、说服性攻击、嵌套梦境攻击等[16][20] 评测方法与结果 - 采用端到端评测闭环设计,覆盖感知→规划→执行全流程[17][21] - 测试5个主流VLM模型,包括GLM-4V、Qwen2.5、GPT-4o、Gemini和Grok-2[30] - GPT-4o在"伤害人类"指令上拒绝率最高达90%,但"越狱"后暴跌至58.33%[36][39] - Qwen和Gemini对危险指令拒绝率最低,分别为5.11%和4.45%[32] - 所有模型在"越狱"攻击下安全性急剧下降,部分模型会生成完整的危险行动方案[38][40][41] 行业意义 - 具身智能的安全问题从"生成有害内容"升级为"执行危险物理动作"[10] - 现有评测基准多关注任务完成率,缺乏对抗性危险指令评估[11] - 研究表明当前具身智能体安全防护非常脆弱,需通过严格测试才能部署[43][44]
中科院自动化所机器人视觉中的多模态融合与视觉语言模型综述
具身智能之心· 2025-08-04 01:59
多模态融合与视觉语言模型综述 - 系统整合了传统多模态融合策略与新兴视觉语言模型(VLMs),从架构设计、功能特性及适用任务等方面进行比较分析 [5] - 分析范围扩展到新兴应用场景如多模态SLAM、机器人操作和具身导航,展示其在复杂推理和长期任务决策中的潜力 [5] - 总结了多模态系统相对于单模态方法的关键优势,包括增强的感知鲁棒性、语义表达能力、跨模态对齐和高级推理能力 [5] - 对当前用于机器人任务的主流多模态数据集进行深入分析,涵盖模态组合、覆盖任务、适用场景和局限性 [5] 多模态融合技术 - 多模态融合策略分为早期融合、中期融合和晚期融合,各有优缺点 [11] - 编码器-解码器框架通过编码器提取不同模态特征,解码器融合特征产生最终输出 [11] - 注意力机制通过自适应加权能力捕获跨模态特征之间的长距离依赖关系 [11] - 图神经网络通过图结构建模多模态数据,提取和融合不同模态的高级语义表示 [11] 3D目标检测 - 激光雷达和相机融合是3D目标检测中的主要研究方向之一 [11] - 基于雷达和相机、激光雷达和雷达的融合研究也取得进展 [13] - 在nuScenes基准测试中,多模态融合方法显著提高了目标检测的精度和鲁棒性 [72] 导航与定位 - 具身导航依赖于多模态信息在动态和非结构化环境中指导智能体行动 [14] - 具身导航研究主要集中在目标导向导航、指令遵循导航和对话式导航三个方向 [14] - 视觉定位通过多模态融合显著提高了定位的准确性和鲁棒性 [17] SLAM与机器人操作 - 多模态SLAM通过整合异构传感器数据增强环境感知能力 [19] - 视觉-语言-动作模型通过整合视觉感知、语言理解和动作规划为复杂操作任务提供高效框架 [20] - 视觉和触觉的多模态融合对于机器人抓取任务的精度和稳定性至关重要 [21] 视觉语言模型技术演变 - 跨模态预训练通过大规模多模态数据学习视觉和语言之间的深层关联 [23] - 跨模态对齐和表示学习是视觉-语言模型的核心 [26] - Transformer架构已成为深度学习的核心,在自然语言处理、计算机视觉和多模态学习中取得重大进展 [29] 多模态数据集 - 多模态数据集在语义场景理解领域中起关键作用 [43] - 代表性数据集包括nuScenes、Waymo Open Dataset、SemanticKITTI等 [48] - 机器人操作数据集整合了视觉、语言、深度和触觉等多种模态信息 [47] 性能评估 - 定义了一系列关键评估指标,涵盖语义理解、3D目标检测、定位和导航等多个方面 [55] - 在nuScenes基准测试中,多模态融合方法显著优于单模态方法 [71] - 在Room-to-Room基准测试中,多模态预训练方法提高了跨模态对齐能力 [74] 挑战与机遇 - 面临低质量数据、异构性、高效训练和推理以及高质量数据集稀缺等关键挑战 [84] - 未来研究方向包括改进跨模态对齐技术、开发高效的训练和推理策略等 [93] - 自监督学习和合成数据生成是减少对标注数据依赖的重要方向 [66]