具身智能之心

搜索文档
Being-H0:从大规模人类视频中学习灵巧操作的VLA模型
具身智能之心· 2025-07-23 08:45
研究背景与动机 - 大语言模型和多模态模型在文本、图像领域取得突破,但机器人领域缺乏类似"ChatGPT时刻"的变革 [3] - 现有视觉-语言-动作模型(VLAs)在复杂灵巧操作任务中表现不佳,主要受限于数据问题:合成数据存在"仿真到真实"鸿沟,远程操作演示规模小、多样性不足 [3] - 人类视频蕴含丰富操作数据,但面临四大挑战:数据异质性、手部运动量化、跨模态推理、机器人控制转移 [3] 核心方法:物理指令调优 - 提出物理指令调优范式,通过"预训练-物理空间对齐-后训练"三阶段将人类手部运动知识迁移到机器人操作 [4] - 预训练阶段以人类手为理想操纵器,在大规模人类视频上训练基础VLA,学习视觉、语言到运动的映射 [6] - 物理空间对齐阶段通过弱透视投影对齐和视角不变运动分布平衡策略统一多源数据的3D推理 [10][12] 关键技术:运动token化与跨模态融合 - 采用分组残差量化(GRQ)进行部分级运动token化,将手部运动分解为手腕和手指两部分分别处理,保留毫米级精度 [14][18] - 跨模态融合通过共享注意力机制实现视觉、语言和运动token的统一交互,视觉token替换文本占位符,运动token作为结构化块插入序列 [17][23] UniHand数据集 - 构建包含44万任务轨迹、1.3亿帧视频、1100多小时内容的UniHand数据集,生成1.65亿运动-指令对 [21] - 数据集整合三类数据源:高精度运动捕捉数据、VR录制数据、伪标注真实场景视频 [24] - 采样250万样本(UniHand-2.5M)用于预训练,平衡任务和数据源分布 [21] 实验结果 - 14B模型在运动生成任务中表现最优:MPJPE 6.87mm(头部)、8.11mm(尾部),MWTE 5.19mm(头部)、7.41mm(尾部) [25] - 长序列生成中,14B模型误差累积更少:短期(2-5s)MPJPE 7.43-8.39mm,长期(6-10s)MPJPE 7.98-9.72mm [27] - 真实机器人操作任务成功率显著提升:在"拾取unseen玩具"和"杂乱场景拾取"中分别达65%和60% [28]
从“想得好”到“做得好”有多远?具身大小脑协同之路解密
具身智能之心· 2025-07-23 08:45
具身智能系统架构 - 具身智能系统由"大脑"、"小脑"和"身体"三部分组成,分别对应认知决策、运动控制和物理执行功能 [2] - "大脑"采用大语言模型和视觉语言模型,具备感知、理解、推理和规划能力,是系统的智慧核心 [2] - "小脑"运用运动控制算法和反馈控制系统,实现精准流畅的动作控制,被称为"动作艺术家" [2] - "身体"作为物理载体,负责将认知决策和运动指令转化为实际动作,完成"知行合一" [2] 当前技术挑战 - "大脑"需提升自主推理能力,实现无指令、无地图环境下的实时在线思考与路径规划 [3] - "小脑"需增强适应性,在复杂物理环境中实现类人类的直觉反应和精细操作 [3] - 系统需解决"大脑"与"小脑"的协同问题,目前存在信息传递延迟和动作响应滞后 [3] - 数据采集面临成本高、质量差等挑战,需构建真实多样且可迁移的训练数据集 [3] 行业技术进展 - 北京智源人工智能研究院和智元机器人正在开展具身智能相关研究 [3] - RoboBrain 2.0和RoboOS 2.0等系统展示了最新技术成果 [5] - 对抗性数据收集方法(Human-Collaborative Perturbations)可提升模仿学习效率与鲁棒性 [5] - 相关研究成果已在ArXiv等平台公开发表,涉及机器人操作系统和脑机协同等领域 [7] 未来发展方向 - 行业聚焦于提升具身智能系统的认知能力、运动控制精度和系统协同效率 [4] - 需建立更高效的数据获取与处理体系,解决数据质量与成本问题 [3] - 技术突破将推动具身智能向通用人工智能(AGI)方向发展 [3]
即将开课啦!具身智能目标导航算法与实战教程来了~
具身智能之心· 2025-07-23 08:45
目标驱动导航技术概述 - 具身导航是具身智能的核心领域,涉及语言理解、环境感知、路径规划三大技术支柱,目标驱动导航通过赋予机器人自主决策能力,成为最具代表性的方向 [2] - 目标驱动导航要求智能体在陌生三维环境中仅凭目标描述(坐标、图片、自然语言)自主完成环境探索与路径规划,实现从"听懂指令走对路"到"看懂世界自己找路"的跃迁 [2] - 技术需融合语义解析(识别空间特征与视觉属性)、环境建模(构建空间拓扑)及动态决策(避开移动障碍),依赖计算机视觉、强化学习与3D语义理解的交叉突破 [2] 产业化落地现状 - 终端配送场景:美团无人配送车通过动态路径重规划在复杂城市环境执行任务,Starship Technologies的园区配送机器人已在欧美高校和社区部署 [3] - 医疗/酒店/餐饮场景:嘉楠科技、云迹科技、擎朗智能的商用服务机器人及美国Aethon的TUG系列实现药品、文件、餐食自主配送,提升服务响应效率 [3] - 人形机器人适配:宇树科技Unitree系列通过Habitat预训练完成基础导航,智元机器人集成工业场景导航模块,特斯拉Optimus展示端到端操作能力 [3] 技术演进与生态发展 - Habitat仿真生态完整记录技术迭代:从2020年CVPR提出PointNav基准扩展至ImageNav、ObjectNav及移动抓取任务,形成空间认知到任务执行的闭环 [4] - 关键技术突破:视觉预训练模型(如Masked Autoencoder)提升特征泛化能力,分布式强化学习框架(DDPPO)显著提升PointNav任务SPL指标,大语言模型(LLM)解决开放词汇导航难题 [4] - 当前技术梯度:PointNav和闭集ObjectNav接近人类表现,开放词汇物体导航和动态障碍物场景仍存挑战,Sim2Real迁移框架推动仿真到真实部署 [4] 三代技术路线迭代 - **第一代端到端方法**:基于强化学习与模仿学习框架,聚焦网络结构设计、奖励函数优化及数据多样性增强,在PointNav与闭集图片导航任务中SPL指标逼近人类表现 [5] - **第二代模块化方法**:通过显式构建语义地图分解任务为探索与目标定位,利用预训练视觉语言模型(如CLIP)实现跨模态语义对齐,零样本目标导航任务中未见物体场景成功率显著提升 [5] - **第三代LLM/VLM融合方法**:引入大语言模型知识推理生成语义指导策略,通过视觉语言模型提升开放词汇匹配精度,当前重点为设计场景表征接口(Scene Representation Interface)以解析3D环境特征 [7] 技术挑战与学习路径 - 具身导航需综合自然语言处理、计算机视觉、强化学习和场景图知识,领域论文数量繁多且碎片化,初学者易因缺乏系统框架而放弃 [9] - 学习需结合实战闭环,但Habitat生态缺少高质量文档,仿真训练到实际部署的过渡存在门槛 [9] - 行业推出首门目标导航算法与实战课程,基于Just-in-Time Learning理念,覆盖核心技术栈、领域框架构建及理论到实践的完整闭环 [10][11][12] 课程核心内容 - **语义导航框架**:系统阐释Point/Image/Object/Instance Navigation任务定义及三代技术演进路径(端到端训练、模块化架构、LLM/VLM融合) [16] - **Habitat仿真生态**:深度解构Habitat-Sim/Lab/Baselines技术架构,实践RGB/Depth相机配置、NavMesh路径规划算法及HM3D/MP3D数据集部署 [17][28] - **方法论与实战**: - 端到端导航:解析ZSON、PIRLNav、Implicit-Map等框架的算法设计与性能差异 [19] - 模块化导航:对比SemExp(强化学习生成热力图)与VLFM(视觉语言模型跨模态匹配)的技术路径 [21] - LLM/VLM驱动:探讨InstructNav、UniGoal、3Dmem的集成范式与SOTA优化方案 [23] - **大作业**:聚焦VLFM算法复现与真实部署,涵盖占据地图构建、边缘探索点生成、值地图设计及仿真到实机迁移 [25][29] 行业应用与人才需求 - 目标人群:机器人抓取领域从业者、具身智能研究者、传统CV/自动驾驶转行者,需具备Python/PyTorch基础及3060以上显卡算力 [33] - 能力培养:掌握Habitat仿真开发、零样本导航/开放词汇识别技术落地、Sim2Real部署流程,可独立开展论文级算法改进与工程优化 [33]
X-Nav:端到端跨平台导航框架,通用策略实现零样本迁移
具身智能之心· 2025-07-22 06:29
核心观点 - 提出X-Nav框架实现端到端跨形态导航 单一通用策略可部署于轮式和四足机器人 通过两阶段学习机制(专家策略训练+通用策略提炼)解决现有方法通用性受限问题 [3][4] - 核心创新是导航动作分块transformer(Nav-ACT)模型 将多专家策略提炼为统一策略 支持对未知形态机器人的零样本迁移 [3][8] - 实验显示在商用机器人上成功率(SR)达90 4% 成功率加权路径长度(SPL)达0 84 显著优于行为克隆等基线方法 [13] 技术架构 阶段1:专家策略学习 - 在4096个随机生成的机器人形态上训练3类专家策略(小型四足/大型四足/轮式) 采用PPO算法和定制奖励函数(含任务奖励与正则化奖励) [6][10][16] - 奖励函数包含7项指标:目标位置跟踪(Tpos)、前进激励(Tfwd)、停止精度(Tstop)、碰撞惩罚(Tcollide)等 轮式与四足采用不同正则化权重(Table I) [7] 阶段2:通用策略提炼 - Nav-ACT模型含4层transformer和4注意力头 嵌入维度256 通过256 batch size训练100 epoch 输入统一观测序列(含本体感受/目标位置/激光雷达等14维数据) [15][16] - 动作空间统一为14维向量 前2维对应轮式速度 后12维对应四足关节位置 采用MSE损失函数(L1损失会导致性能下降15%) [15][19] 实验验证 性能对比 - 在6款商用机器人(Jackal/Dingo/A1等)测试 X-Nav的SR(90 4%)和SPL(0 84)全面领先BC/BCT/DP/CP等方法 其中Jackal的SPL比次优方法高23% [13] - 训练形态数量从128增至4096时 SPL提升37% 显示数据规模对泛化能力的关键作用 [14] 实际部署 - 在TurtleBot2和Jackal真实机器人测试 室内外环境平均成功率85% SPL 0 79 验证不同传感器(Kinect/ZED 2相机)下的适用性 [22] - 轮式机器人需时间集成(TE)平滑动作 四足则直接采用首动作 消融实验显示该设计使Jackal的SPL提升29% [11][19]
机器人需求驱动导航新SOTA,成功率提升15%!浙大&vivo联手打造
具身智能之心· 2025-07-22 06:29
核心观点 - 浙江大学和vivo人工智能实验室团队开发了CogDDN框架,这是首个将心理学"双过程理论"应用于机器人需求驱动导航的系统,模拟人类认知机制以实现更灵活的决策能力[2][3] - CogDDN在AI2-THOR模拟器上的闭环实验中,导航成功率(NSR)比当前SOTA方法DDN提升15%,在未见场景中性能与依赖深度输入的InstructNav相当[12][28] - 该系统通过启发式过程(快速直觉决策)与分析过程(深度推理优化)的协同,实现了38.3%的NSR和17.2%的SPL,显著优于传统单视角方法[27][34] 技术架构 双过程理论应用 - 启发式过程(系统1)依赖经验库进行快速决策,包含Explore(环境扫描)和Exploit(精准执行)模块,通过思维链(CoT)优化路径[19][20] - 分析过程(系统2)利用VLM预训练知识进行障碍反思,通过500个epoch的迭代训练将错误修正经验整合至知识库,使SPL指标持续提升[23][31][32] 模块设计 - **3D感知模块**:采用UniMODE单目3D检测技术,仅需单视角图像即可精准定位物体,摆脱多传感器依赖[15] - **需求匹配模块**:通过有监督微调(SFT)优化LLM,解决模糊指令下推荐偏差问题(如"放花"误推杯子),提升物体选择准确率[16] 性能表现 基准测试 - 在ProcTHOR数据集400个场景中,CogDDN的NSR达38.3%(seen scene)和34.5%(unseen scene),较DDN的21.5%和16.1%实现跨越式提升[27][28] - 消融实验显示移除Exploit模块导致NSR下降至24.2%,去除CoT后SPL降低4.9个百分点,验证核心组件必要性[29][30] 跨场景适应性 - 在相同传感器输入条件下,CogDDN的SSR(选择成功率)达29.8%,远超CLIP-Nav-GPT(4.0%)等对比模型[27] - 反思机制使系统在连续训练中SPL增长曲线显著优于无反思版本,证明持续学习有效性[32] 行业意义 - 该技术突破传统导航对明确指令的依赖,使机器人能理解"我饿了"等抽象需求,适用于家庭服务、医疗护理等场景[6] - 双过程架构为具身智能领域提供新范式,其开源特性(项目主页已公布)可能加速行业技术迭代[33][35]
将再狂揽近6亿融资!机器人Moz1卷入办公室,全力冲刺万亿赛道
具身智能之心· 2025-07-22 06:29
行业动态 - 2025年具身智能赛道迎来爆发式增长,全球科技巨头与初创公司竞相布局[4][5][10] - 谷歌Gemini Robotics、Figure AI、Physical Intelligence等国际玩家在推理、灵巧操作、复杂任务执行方面取得突破[6][8] - 中国具身智能市场同样火热,众多公司涌入万亿级市场,但第一梯队玩家屈指可数[11][12] 公司融资 - 千寻智能在2个月内完成近6亿元PreA+轮融资,由京东领投,中网投、浙江省科创母基金等跟投[15] - 2024年2月成立至今已完成多轮融资,3月获沙特阿美旗下P7领投的5.28亿元Pre-A轮[16][17] - 老股东P7、顺为资本、华控基金等持续加码,显示对发展潜力的认可[17] 技术突破 - 发布首款商用级人形机器人Moz1,具备26个自由度,功率密度比特斯拉Optimus高15%[21][22][24] - 搭载自研端到端VLA模型Spirit v1,70亿参数,基于13000小时数据训练,叠衣服成功率70%-80%[37][39][42] - 创新OneTwoVLA模型实现"边想边做",复杂任务成功率提升30%,代码与数据已开源[49][50][54] 商业化布局 - 深入能源电池、物流、餐饮等上百个场景调研,形成"场景需求-技术攻关-产品落地-市场反馈"闭环[56][57] - Moz1已应用于办公场景(清洁、收纳等),计划拓展物流、医疗、康养等高附加值领域[58] - 瞄准欧美高人工成本地区海外市场,创始团队具备国际化商业化经验[59][60] 核心竞争力 - VLA模型与硬件协同的差异化技术路线,快速迭代能力领先同行[63][64] - 全球顶尖技术团队,精准场景切入与多场景拓展的商业策略[65][66][67] - 技术、商业、团队、市场无短板,成为具身智能赛道领军者[69][70]
太魔幻了!具身一边是海量岗位,一边是招不到人......
具身智能之心· 2025-07-22 06:29
行业现状与人才供需矛盾 - 具身智能行业面临"有钱招不到人"的困境,尽管公司融资充足且岗位开放多,但实际offer发放审慎,反映出行业进入精打细算的保守发展阶段 [1] - 当前产品成熟度不足(本体/算法/数据),底层技术突破拐点未现,企业更倾向储备核心技术人才(如人形机器人稳定性、数据规模化应用等方向) [1] - 行业洗牌周期预计持续2-3年,企业选择"储备干粮过冬"策略,求职者需技术硬实力与研究方向高度适配 [1] 技术社区资源体系 - 具身智能之心知识星球覆盖国内外40+开源项目、60+数据集及主流仿真平台,提供40+技术学习路线(含强化学习/VLA/Diffusion Policy等16个细分领域) [12] - 社区成员来自斯坦福、ETH、清华等顶尖高校及优必选、小米等头部企业,建立内推机制直通30+具身公司招聘 [12][7] - 技术资源覆盖全产业链: - 硬件端:汇总芯片/激光雷达/IMU等零部件厂商 [25] - 算法端:强化学习/多模态大模型(理解+生成)/VLA模型等17类技术方案 [35][45][47][51] - 应用端:机械臂抓取/四足机器人/sim2real等9大场景 [62][64][59] 行业研究基础设施 - 建立全球实验室/公司数据库:收录斯坦福、港科大等高校实验室及智元机器人、傅里叶机器人等企业 [15][17] - 研报体系覆盖大模型/人形机器人等领域,跟踪30家企业动态 [20][13] - 仿真平台资源包含通用机器人仿真和真实场景仿真两类,配套开源项目助力快速验证 [33][27] 人才发展路径 - 针对入门者:提供机械臂策略学习/机器人导航等基础技术栈,配套PDF书籍(如概率机器人、运动学教材) [8][23] - 针对进阶者:设置触觉感知/视觉语言导航等前沿方向,含传感器应用、多模态算法集成等深度内容 [37][43] - 职业支持:组织产业大佬直播(含顶会专家)、圆桌论坛,实时解答求职/研究方向选择问题 [2][71] 典型应用场景案例 - 机械臂领域:涵盖位姿估计/抓取策略/任务数据表示全流程方案 [62] - 移动机器人:提供双足/四足机器人从仿真到硬件的完整资源 [64] - 复合系统:整合"轮式/四足+机械臂"硬件方案设计指南 [66][67]
各类任务上超越π0!字节跳动推出大型VLA模型GR-3,推动通用机器人策略发展
具身智能之心· 2025-07-22 04:10
GR-3核心能力与定位 - GR-3是字节跳动研发的大型视觉-语言-动作(VLA)模型,旨在推动通用机器人策略发展,能根据自然语言指令、环境观察和机器人状态生成动作序列控制双臂移动机器人 [2] - 模型解决传统机器人"认不全、学不快、做不好"三大痛点,采用"数据驱动+架构优化"双路径设计,既能理解抽象指令又能完成精细操作 [7] - 结合ByteMini双臂移动机器人可完成多样化任务,在各类挑战性任务上超越当前最先进基线方法π0 [2] 技术架构 - 采用端到端VLA架构,分为"感知理解"和"动作生成"两大模块,总参数达40亿,通过KV缓存复用感知结果提升推理速度 [10] - 感知层基于Qwen2.5-VL-3B-Instruct模型处理图像和文本,动作层通过动作扩散Transformer(DiT)控制机器人19个自由度 [13] - 关键创新包括流匹配动作预测、RMSNorm稳定性优化(指令遵循准确率提升30%)和任务状态感知设计 [14] 训练方案 - 采用"三位一体"训练策略:机器人轨迹模仿学习(通过智能调度系统保证数据质量)、视觉语言数据联合训练(新物体识别成功率提升40%)、人类轨迹少样本微调(10条演示数据使新物体操作成功率从57.8%升至86.7%) [15][18][19][23] - 人类VR演示数据采集效率达450条/小时,是传统机器人采集的1.8倍 [23] 硬件载体 - ByteMini机器人具备7自由度机械臂(球形腕关节设计)、全向移动底座+升降机构、RGBD相机系统,续航达10小时以上 [25] - 系统控制优化包括全身柔顺控制和轨迹优化算法,确保动作流畅精准 [26][28] 实验验证 - 通用拾取放置任务:新环境成功率仅比熟悉环境下降5%(基线下降20%),抽象指令理解成功率77.1%(基线40%) [35][38] - 长周期餐桌清理任务:整体进度达89%(基线62%),无效指令识别率97.5%(基线53.8%) [42] - 灵巧衣物操作任务:基础成功率86.7%(基线61%),新衣物适应成功率75.8%(基线42%),主要失败点为衣架滑落(占60%) [43]
一起做点牛掰的事情!具身智能之心准备招合伙人了.......
具身智能之心· 2025-07-22 03:33
具身智能行业发展 - 具身智能领域发展迅速,多家明星公司准备上市 [1] - 行业需要共同试错和积极交流,平台期望汇聚全行业人才 [1] - 公司成立1周年,计划邀请更多行业大佬加入推动进步 [1] 具身项目合作 - 公司正在北京、上海、深圳、广州、杭州、武汉建立研发团队 [3] - 每个城市计划招募10名左右具身领域专家 [3] - 要求应聘者具备2年以上具身算法和机器人研究经验 [3] - 项目类型包括横向、纵向项目和企业咨询,可兼职参与 [3] 具身教育研发 - 邀请行业专家开发具身教育在线课程 [4] - 重点研究方向包括大模型、多模态、强化学习、机器人运动规划等12个领域 [4] - 应聘者需具备博士及以上学历或2年以上工业界研发经验 [5] 人才待遇 - 提供大比例分红和全行业资源共享 [6] - 工作形式灵活,可兼职或全职 [6] 联系方式 - 可通过扫码咨询负责人,需备注"具身智能之心+老师咨询" [7]
NVIDIA最新!GraspGen:基于扩散模型的六自由度抓取生成框架
具身智能之心· 2025-07-21 08:42
核心观点 - GraspGen是一个针对机器人6自由度抓取泛化能力不足问题提出的创新框架,通过将抓取生成建模为迭代扩散过程,结合DiffusionTransformer架构和高效判别器,显著提升了抓取生成能力和适应性 [2] - 该框架采用"生成器上训练"策略大幅提升判别器性能,并通过新发布的大规模模拟数据集(含5300万抓取)实现对不同物体和夹具的适配 [2][9] - 在模拟和真实机器人实验中,GraspGen全面超越基线方法,在单物体场景AUC超过基线48%,在clutter场景任务成功率超过Contact-GraspNet 16.9% [10][13] - 真实机器人实验中整体成功率81.3%,远超M2T2(28%)和AnyGrasp(17.6%),尤其在复杂场景优势明显 [19] 核心方法 - 扩散生成器:将6自由度抓取生成建模为SE(3)空间中的扩散过程,采用DDPM模型计算更快、实现更简单 [4] - 平移归一化:通过数据集统计计算归一化系数,避免人工设置或网格搜索的低效 [4] - 对象编码:采用PointTransformerV3作为骨干网络,相比PointNet++减少5.3mm平移误差,提升4%召回率 [4] - 扩散网络:通过10步去噪生成抓取(远少于图像扩散的数百步),训练损失为预测噪声与真实噪声的L2损失 [5] 判别器设计 - 高效评估:复用生成器的对象编码器,内存使用减少21倍 [7] - 生成器上训练:用生成器生成约7K物体×2K抓取/物体的数据集训练判别器,使其AUC达0.947,显著高于仅用离线数据的0.886 [7][16] 模拟数据集 - 覆盖范围:包含三种夹具(每种约1700万抓取)和36366个网格模型 [11] - 生成方式:每个物体采样2K抓取姿态,通过摇晃测试判断成功 [11] 实验结果 - 单物体场景:在ACRONYM数据集上精度-覆盖率曲线AUC超过基线48% [10] - clutter场景:在100个场景×60任务中,任务成功率和抓取成功率均为最优 [13] - 遮挡鲁棒性:混合训练使模型在完整点云和单视图点云输入下均保持高性能 [14] - 多夹具泛化:在Robotiq-2f-140夹具上AUC达0.68873,远超M2T2的0.24265 [17] 局限 - 依赖深度传感和实例分割质量,对立方体物体表现较差 [21] - 训练需约3K GPU小时(NVIDIA V100),计算成本较高 [21]