具身智能之心

搜索文档
准备扩大具身团队了,拉一些人搞点事.......
具身智能之心· 2025-07-25 07:11
行业发展趋势 - 具身智能领域发展迅速,多家明星公司准备上市 [1] - 早期产业需要共同努力,技术孤立不利于整体发展 [1] - 公司期望汇聚全行业人才,推动行业进步 [1] 具身项目合作 - 计划在北京、上海、深圳、广州、杭州、武汉建立研发团队 [3] - 每个城市招募10人左右,要求具备2年以上具身算法和机器人研究经验 [3] - 承接横向、纵向项目及企业咨询,支持兼职 [3] 具身教育研发与咨询服务 - 邀请领域专家开发在线课程、企业咨询和辅导业务 [4] - 需求方向包括大模型、多模态、强化学习、机器人运动规划等 [4] - 目标是为行业输出优质教程 [4] 人才要求 - 期望候选人为博士及以上学历(包括在读) [5] - 工业界需具备2年以上研发经验 [5] 待遇与资源 - 提供大比例分红和全行业资源共享 [6] - 支持兼职或全职加入 [6] 联系方式 - 通过扫码咨询负责人,备注“具身智能之心+老师咨询” [7]
NVIDIA最新!ThinkAct:复杂的具身任务中实现少样本适应、长时程规划
具身智能之心· 2025-07-24 09:53
核心观点 - ThinkAct提出了一种双系统框架,通过强化视觉潜在规划将高层推理与低层动作执行连接起来,显著提升了复杂具身AI任务中的少样本适应、长时程规划和ego修正能力 [4][9] - 该方法通过动作对齐视觉奖励(目标奖励和轨迹奖励)引导MLLM生成具身推理planning,并将其压缩为视觉planning潜变量,为下游动作模型提供条件 [14][17][18] - 在机器人操作和具身推理基准测试中,ThinkAct表现优于现有方法,如在SimplerEnv上比基准动作模型DiT-Policy最高提升16.9%,在LIBERO基准上以84.4%成功率位居榜首 [25][26] 方法架构 双系统设计 - 高层推理系统:MLLM生成具身推理planning,通过强化学习(GRPO)优化,奖励函数结合目标完成度(r_goal)和轨迹一致性(r_trail) [12][19][20] - 低层执行系统:基于Transformer的动作模型以视觉planning潜变量为条件,实现异步"慢思考-快控制"执行模式 [21][22] 关键技术 - 动作对齐视觉反馈:目标奖励(式1)评估起始/结束位置匹配度,轨迹奖励(式2)通过DTW距离规范轨迹分布 [17] - 强化微调:采用GRPO算法,从M组响应中选择最优解,KL散度约束防止模型偏离原始分布 [19] - 潜变量压缩:将文本推理抽象为紧凑的视觉planning潜变量,捕捉时空规划意图 [20][23] 性能表现 定量结果 - 机器人操作: - SimplerEnv-Google-VM任务中Pick Coke Can子任务达到92%成功率,比Magma提升8.3% [25] - LIBERO-Long任务成功率70.9%,显著优于CoT-VLA(69%)和DiT-Policy(57.6%) [25] - 具身推理: - EgoPlan-Bench2总体得分48.2%,超越GPT-4V(32.6%)和Qwen2.5-VL*(45.7%) [27] - RoboVQA的BLEU-4得分52.4%,比次优方法高4.4分 [27] 定性优势 - 长时程规划:将"拿起书放入后部隔间"分解为3个子任务,可视化轨迹显示gripper严格遵循推理planning [30] - Ego修正:在物体掉落场景中,通过视频context识别故障并生成重新抓取的修正planning [37] 创新价值 - 行业突破:首次实现强化学习驱动的视觉-语言-动作联合推理,解决端到端模型在长时程规划中的局限性 [6][7] - 技术复用性:潜变量设计兼容不同动作模型(如Diffusion Policy),支持跨平台部署 [21][23] - 数据效率:仅需10个演示样本即可在新环境(LIBERO-Spatial)实现9.5%的少样本性能提升 [35]
具身公司的两边倒!一边是大额融资,一边是招不到人.......
具身智能之心· 2025-07-24 09:53
行业现状与人才供需矛盾 - 具身智能行业存在"有钱但不敢花"现象 公司手握充足融资却保持审慎招聘态度 反映出行业进入精打细算的发展阶段 [1] - 行业技术成熟度不足 产品(本体/算法/数据)尚未完善 导致企业集中争夺顶尖学者资源 重点关注人形机器人稳定性/数据规模化应用/泛化能力等方向 [1] - 行业洗牌周期预计持续2-3年 底层技术突破拐点尚未显现 企业普遍采取技术储备策略应对潜在寒冬 [1] 技术社区生态建设 - 具身智能之心知识星球已汇聚国内外40+开源项目/60+数据集/主流仿真平台 覆盖感知/交互/强化学习/VLA等16个技术路线 [14][15] - 社区建立高校-企业双轨资源网 包含斯坦福/清华等顶尖院校实验室及优必选/小米等30+头部企业 [14][21] - 提供岗位内推直通机制 实现求职者与智元机器人/傅里叶机器人等企业直接对接 [8][19] 技术体系分类 - **基础研究资源**:汇总机器人动力学/运动学/导航等专业书籍PDF 及ToF相机/IMU等核心零部件厂商技术手册 [26][27][29][33] - **算法应用体系**: - 多模态大模型细分12个应用方向 涵盖图文/视频/3D数据的理解与生成 [48][50] - 强化学习路线包含LLM融合/可解释性等前沿分支 机械臂抓取方案覆盖位姿估计到策略学习全流程 [39][65] - **开发工具链**: - 仿真平台支持双足/四足机器人开发 提供Isaac Sim等环境实战案例 [37][67] - 数据集涵盖触觉感知/视觉语言导航等7大领域 满足sim2real训练需求 [35][62] 人才发展路径 - 针对不同阶段开发者: - 入门者提供20+学习路线 包括Diffusion Policy/VLN等热门方向 [9][40][56] - 进阶者可获得产业级项目方案 涉及移动机械臂系统集成等工程实践 [11][69] - 职业发展支持: - 定期举办顶会学者直播 解析VLM在机器人规划等场景的工业落地 [71] - 实时解答研究方向选择/项目包装等求职问题 典型案例如控制专业学生实习规划 [74][75]
Zebra-CoT:开创性视觉思维链数据集问世,多模态推理准确率提升13%
具身智能之心· 2025-07-24 09:53
背景 - 人类解决复杂问题时借助图表、草图等视觉辅助工具,训练多模态模型实现类似能力面临两大挑战:现有视觉思维链性能欠佳且缺乏高质量训练数据[3] - 前沿多模态模型在视觉思维链方面主要通过代理管道利用外部工具实现视觉编程,但具备交替生成文本和图像能力的模型存在生成无效推理辅助工具或缺乏多模态生成训练的问题[3] - 专门模型在特定场景展示视觉思维链能力,但通用高质量视觉思维链基础模型缺失,主因缺乏大规模多样化交替文本-图像推理训练数据集[3] 核心创新点 - 提出Zebra-CoT数据集,包含182,384个逻辑连贯的交替文本-图像推理轨迹样本,覆盖科学问题、2D/3D视觉推理、视觉逻辑与策略游戏四大类别[6] - 突破现有数据集单一任务限制和语义对齐弱的问题,按高质量文本推理数据集标准构建[6] 数据集构建 覆盖范围 - 科学推理:几何、物理、化学、算法问题等[9] - 2D视觉推理:视觉搜索、视觉拼图等[9] - 3D视觉推理:3D多跳目标计数、具身思维链、机器人规划[9] - 视觉逻辑与策略游戏:国际象棋、迷宫、俄罗斯方块等[9] 数据来源与处理 - 真实世界数据:从数学、物理、编程等领域在线资源获取并清洗含多模态的原始推理轨迹[10] - 合成数据:通过生成图像结合推理模板创建示例,利用视觉语言模型填充模板占位符增强推理轨迹多样性[10] 规模与分布 - 总量182,384样本,视觉逻辑与策略游戏占比最高达36.7%,2D视觉推理占28.5%,3D视觉推理占21.7%,科学推理占13.2%[12] - 子类别中国际象棋样本量最大(20,483,占11.2%),迷宫(20,000,11.0%)和俄罗斯方块(10,000,5.5%)次之[13] 模型微调与性能 - Anole-Zebra-CoT模型在分布内测试集准确率从4.2%提升至16.9%,相对提升4倍[14] - 在7个视觉推理基准测试中平均提升4.9%,视觉逻辑基准最高提升13.1%[14] - Bagel-Zebra-CoT模型微调后实现原生无法生成的交替文本-图像输出能力[15] 局限 - 合成数据依赖模板生成,文本推理多样性和表达性可能受限[18] - 部分子任务样本量小(几何0.6%、竞争编程0.7%),影响模型专项能力[18] - 模型在部分子任务上性能提升不显著甚至下降(如EMMA物理子任务)[18]
具身智能之心求职交流群来啦!!!
具身智能之心· 2025-07-23 15:16
应广大粉丝的要求,我们开始正式运营具身相关的求职社群了。社群内部主要讨论相关具身产业、公司、 产品研发、求职与跳槽相关内容。如果您想结交更多同行业的朋友,第一时间了解产业。欢迎加入我们! 微信扫码添加小助理邀请进群,备注昵称+具身求职; 具身智能之心求职与行业交流群成立了! ...
具身智能离不开的感知模块!最强性价比3D激光扫描仪来啦
具身智能之心· 2025-07-23 09:48
产品概述 - GeoScan S1是国内目前最强性价比实景三维激光扫描仪,轻量化设计,一键启动,提供高效实用的三维解决方案 [1] - 以多模态传感器融合算法为核心,实现厘米级精度的三维场景实时重构 [1] - 可广泛用于多种作业领域,支持20万平米以上的大场景扫描 [1] 技术参数 - 每秒20万级点云成图,70米测量距离,360°全域覆盖 [1][28][29] - 相对精度优于3cm,绝对精度优于5cm [22] - 支持彩色点云输出,导出数据格式包括pcd, las, ply等多种通用格式 [22] - 系统环境为ubuntu 20.04,支持ROS [22] - 尺寸为14.2cm * 9.5cm * 45cm,重量1.3kg(不含电池) [22] - 续航时间约3-4小时,存储容量256G [22] 硬件配置 - 采用Intel N5095处理器,4核2.0GHz(睿频2.9G) [22] - 内存16G,硬盘256G(可拓展TF卡) [22] - 配备WIFI/蓝牙无线连接,千兆网口、USB3.0*2、Micro SD外部拓展 [22] - 激光雷达型号为Livox Mid-360,深度相机型号为Intel D435i [23] - RTK型号为T-RTK UM982 Mobile,采用全频四臂螺旋胶棒天线 [23] 功能特点 - 支持跨平台集成,适配无人机、无人车、机械狗等多种负载平台 [44] - 选配3D高斯模块可实现高保真实景还原 [52] - 多传感器融合,微秒级数据同步,在线实时测绘 [33][36] - 操作简单直观,一键启动即可执行扫描作业 [5] - 扫描结果导出即用,无需复杂部署和繁琐处理 [5] 应用场景 - 适用于写字楼、停车场、工业园区、隧道、森林、矿场等复杂场景 [38][46] - 可用于地理信息数据采集、林业资源监测、工程测量等领域 [55][56] - 支持城市规划、大富监测、林业资源保护与开发等应用 [55] 产品版本及价格 - 基础版本:19800元 [61] - 深度相机版本:23800元 [61] - 3DGS在线版本:39800元 [64] - 3DGS离线版本:67800元 [64]
行为基础模型可实现高效的人形机器人全身控制
具身智能之心· 2025-07-23 08:45
人形机器人全身控制技术演进 - 人形机器人全身控制面临复杂动力学、欠驱动和多样化任务需求的根本性挑战[1] - 技术演进分为三个阶段:基于模型的控制器(MPC/WBOSC)、基于学习的任务特定控制器(强化学习/模仿学习)、行为基础模型(BFM)[6][7][8] - BFM通过大规模预训练学习可重用技能和行为先验,实现零样本或快速适应新任务[1][8] 行为基础模型核心定义 - BFM首次定义于《Fast Imitation via Behavior Foundation Models》,基于无监督强化学习+前后向表征学习方法构建[10] - 扩展定义为:使用大规模行为数据预训练的特殊基础模型,能编码广泛行为模式并实现跨任务泛化[12] - 核心特性包括支持行为克隆、特征匹配、基于奖励/目标的归纳等多种模仿学习规则[10] BFM算法分类体系 - 预训练方法分为三类:目标导向学习(DeepMimic/MaskedMimic)、内在奖励驱动学习(ICM/DIAYN)、前后向表征学习(FB/FB-IL)[13][14] - 目标导向学习方法直接输入任务目标(如状态/函数/描述),基于动作追踪技术广泛用于人型机器人任务[14][16] - 前后向表征学习通过分解后继测度实现策略学习与任务目标解耦,Meta的Motivo模型展示卓越零样本能力[21][23][26] BFM应用场景与限制 - 潜在应用包括人形机器人通用加速器、虚拟智能体开发、工业5.0弹性制造、医疗辅助机器人等[33] - 主要限制:Sim2Real差距导致行为泛化不稳定、训练数据规模远小于LLMs/视觉模型、具身泛化能力有限[32][37] - 数据瓶颈突出,缺乏多模态对齐数据(视觉-本体感知-触觉),真实部署面临控制失效风险[37][39] 未来研究方向 - 重点方向:开发多模态BFM、构建认知-运动一体化架构(结合LLMs)、探索缩放定律、优化多智能体系统[38] - 需建立标准化评估体系,涵盖任务泛化性、鲁棒性和人机安全等多维度指标[38] - 需同步推进伦理规范和安全防护,解决传感器干扰、多模态攻击等开放环境风险[36][39]
Being-H0:从大规模人类视频中学习灵巧操作的VLA模型
具身智能之心· 2025-07-23 08:45
研究背景与动机 - 大语言模型和多模态模型在文本、图像领域取得突破,但机器人领域缺乏类似"ChatGPT时刻"的变革 [3] - 现有视觉-语言-动作模型(VLAs)在复杂灵巧操作任务中表现不佳,主要受限于数据问题:合成数据存在"仿真到真实"鸿沟,远程操作演示规模小、多样性不足 [3] - 人类视频蕴含丰富操作数据,但面临四大挑战:数据异质性、手部运动量化、跨模态推理、机器人控制转移 [3] 核心方法:物理指令调优 - 提出物理指令调优范式,通过"预训练-物理空间对齐-后训练"三阶段将人类手部运动知识迁移到机器人操作 [4] - 预训练阶段以人类手为理想操纵器,在大规模人类视频上训练基础VLA,学习视觉、语言到运动的映射 [6] - 物理空间对齐阶段通过弱透视投影对齐和视角不变运动分布平衡策略统一多源数据的3D推理 [10][12] 关键技术:运动token化与跨模态融合 - 采用分组残差量化(GRQ)进行部分级运动token化,将手部运动分解为手腕和手指两部分分别处理,保留毫米级精度 [14][18] - 跨模态融合通过共享注意力机制实现视觉、语言和运动token的统一交互,视觉token替换文本占位符,运动token作为结构化块插入序列 [17][23] UniHand数据集 - 构建包含44万任务轨迹、1.3亿帧视频、1100多小时内容的UniHand数据集,生成1.65亿运动-指令对 [21] - 数据集整合三类数据源:高精度运动捕捉数据、VR录制数据、伪标注真实场景视频 [24] - 采样250万样本(UniHand-2.5M)用于预训练,平衡任务和数据源分布 [21] 实验结果 - 14B模型在运动生成任务中表现最优:MPJPE 6.87mm(头部)、8.11mm(尾部),MWTE 5.19mm(头部)、7.41mm(尾部) [25] - 长序列生成中,14B模型误差累积更少:短期(2-5s)MPJPE 7.43-8.39mm,长期(6-10s)MPJPE 7.98-9.72mm [27] - 真实机器人操作任务成功率显著提升:在"拾取unseen玩具"和"杂乱场景拾取"中分别达65%和60% [28]
从“想得好”到“做得好”有多远?具身大小脑协同之路解密
具身智能之心· 2025-07-23 08:45
具身智能系统架构 - 具身智能系统由"大脑"、"小脑"和"身体"三部分组成,分别对应认知决策、运动控制和物理执行功能 [2] - "大脑"采用大语言模型和视觉语言模型,具备感知、理解、推理和规划能力,是系统的智慧核心 [2] - "小脑"运用运动控制算法和反馈控制系统,实现精准流畅的动作控制,被称为"动作艺术家" [2] - "身体"作为物理载体,负责将认知决策和运动指令转化为实际动作,完成"知行合一" [2] 当前技术挑战 - "大脑"需提升自主推理能力,实现无指令、无地图环境下的实时在线思考与路径规划 [3] - "小脑"需增强适应性,在复杂物理环境中实现类人类的直觉反应和精细操作 [3] - 系统需解决"大脑"与"小脑"的协同问题,目前存在信息传递延迟和动作响应滞后 [3] - 数据采集面临成本高、质量差等挑战,需构建真实多样且可迁移的训练数据集 [3] 行业技术进展 - 北京智源人工智能研究院和智元机器人正在开展具身智能相关研究 [3] - RoboBrain 2.0和RoboOS 2.0等系统展示了最新技术成果 [5] - 对抗性数据收集方法(Human-Collaborative Perturbations)可提升模仿学习效率与鲁棒性 [5] - 相关研究成果已在ArXiv等平台公开发表,涉及机器人操作系统和脑机协同等领域 [7] 未来发展方向 - 行业聚焦于提升具身智能系统的认知能力、运动控制精度和系统协同效率 [4] - 需建立更高效的数据获取与处理体系,解决数据质量与成本问题 [3] - 技术突破将推动具身智能向通用人工智能(AGI)方向发展 [3]
即将开课啦!具身智能目标导航算法与实战教程来了~
具身智能之心· 2025-07-23 08:45
目标驱动导航技术概述 - 具身导航是具身智能的核心领域,涉及语言理解、环境感知、路径规划三大技术支柱,目标驱动导航通过赋予机器人自主决策能力,成为最具代表性的方向 [2] - 目标驱动导航要求智能体在陌生三维环境中仅凭目标描述(坐标、图片、自然语言)自主完成环境探索与路径规划,实现从"听懂指令走对路"到"看懂世界自己找路"的跃迁 [2] - 技术需融合语义解析(识别空间特征与视觉属性)、环境建模(构建空间拓扑)及动态决策(避开移动障碍),依赖计算机视觉、强化学习与3D语义理解的交叉突破 [2] 产业化落地现状 - 终端配送场景:美团无人配送车通过动态路径重规划在复杂城市环境执行任务,Starship Technologies的园区配送机器人已在欧美高校和社区部署 [3] - 医疗/酒店/餐饮场景:嘉楠科技、云迹科技、擎朗智能的商用服务机器人及美国Aethon的TUG系列实现药品、文件、餐食自主配送,提升服务响应效率 [3] - 人形机器人适配:宇树科技Unitree系列通过Habitat预训练完成基础导航,智元机器人集成工业场景导航模块,特斯拉Optimus展示端到端操作能力 [3] 技术演进与生态发展 - Habitat仿真生态完整记录技术迭代:从2020年CVPR提出PointNav基准扩展至ImageNav、ObjectNav及移动抓取任务,形成空间认知到任务执行的闭环 [4] - 关键技术突破:视觉预训练模型(如Masked Autoencoder)提升特征泛化能力,分布式强化学习框架(DDPPO)显著提升PointNav任务SPL指标,大语言模型(LLM)解决开放词汇导航难题 [4] - 当前技术梯度:PointNav和闭集ObjectNav接近人类表现,开放词汇物体导航和动态障碍物场景仍存挑战,Sim2Real迁移框架推动仿真到真实部署 [4] 三代技术路线迭代 - **第一代端到端方法**:基于强化学习与模仿学习框架,聚焦网络结构设计、奖励函数优化及数据多样性增强,在PointNav与闭集图片导航任务中SPL指标逼近人类表现 [5] - **第二代模块化方法**:通过显式构建语义地图分解任务为探索与目标定位,利用预训练视觉语言模型(如CLIP)实现跨模态语义对齐,零样本目标导航任务中未见物体场景成功率显著提升 [5] - **第三代LLM/VLM融合方法**:引入大语言模型知识推理生成语义指导策略,通过视觉语言模型提升开放词汇匹配精度,当前重点为设计场景表征接口(Scene Representation Interface)以解析3D环境特征 [7] 技术挑战与学习路径 - 具身导航需综合自然语言处理、计算机视觉、强化学习和场景图知识,领域论文数量繁多且碎片化,初学者易因缺乏系统框架而放弃 [9] - 学习需结合实战闭环,但Habitat生态缺少高质量文档,仿真训练到实际部署的过渡存在门槛 [9] - 行业推出首门目标导航算法与实战课程,基于Just-in-Time Learning理念,覆盖核心技术栈、领域框架构建及理论到实践的完整闭环 [10][11][12] 课程核心内容 - **语义导航框架**:系统阐释Point/Image/Object/Instance Navigation任务定义及三代技术演进路径(端到端训练、模块化架构、LLM/VLM融合) [16] - **Habitat仿真生态**:深度解构Habitat-Sim/Lab/Baselines技术架构,实践RGB/Depth相机配置、NavMesh路径规划算法及HM3D/MP3D数据集部署 [17][28] - **方法论与实战**: - 端到端导航:解析ZSON、PIRLNav、Implicit-Map等框架的算法设计与性能差异 [19] - 模块化导航:对比SemExp(强化学习生成热力图)与VLFM(视觉语言模型跨模态匹配)的技术路径 [21] - LLM/VLM驱动:探讨InstructNav、UniGoal、3Dmem的集成范式与SOTA优化方案 [23] - **大作业**:聚焦VLFM算法复现与真实部署,涵盖占据地图构建、边缘探索点生成、值地图设计及仿真到实机迁移 [25][29] 行业应用与人才需求 - 目标人群:机器人抓取领域从业者、具身智能研究者、传统CV/自动驾驶转行者,需具备Python/PyTorch基础及3060以上显卡算力 [33] - 能力培养:掌握Habitat仿真开发、零样本导航/开放词汇识别技术落地、Sim2Real部署流程,可独立开展论文级算法改进与工程优化 [33]