Workflow
具身智能之心
icon
搜索文档
VLA/VLA+触觉/VLA+RL/具身世界模型等!国内首个具身大脑+小脑算法实战教程
具身智能之心· 2025-08-14 06:00
具身智能技术发展 - 具身智能强调智能体与物理环境的交互与适应,聚焦感知、理解、执行和反馈学习能力,其核心模块为大脑(语义理解与任务规划)和小脑(高精度运动执行)[1] - 技术演进分为四个阶段:从抓取位姿检测(静态物体单步决策)→行为克隆(端到端模仿但泛化弱)→Diffusion Policy(扩散模型提升时序稳定性)→VLA模型(多模态协同实现零样本泛化)[6][7] - 2025年技术前沿探索VLA与强化学习、世界模型、触觉感知的融合,以解决"理解不反馈"、"关注当下不预测未来"等局限[8] 产业竞争格局 - 国内企业以产业链投资驱动:华为2024年建"全球具身智能产业创新中心"联合乐聚机器人等;京东2025年连续投资智元机器人等强化物流与家庭服务场景;腾讯/蚂蚁/小米通过战略合作布局生态[5] - 海外企业侧重基础研发:Tesla/Figure AI推进工业物流机器人;Wayve/Apptronik获资本支持发展自动驾驶与仓储机器人;中美进入关键技术竞赛阶段[5] - 明星创业团队涌现:星海图、银河通用、逐际动力等从实验室走向商业化,推动本体与大小脑技术进步[3] 应用与商业化进展 - 技术落地产品涵盖人形机器人、机械臂、四足机器人,应用于工业、家居、餐饮、医疗康复等领域,融资与岗位呈爆发式增长[9] - 工程化需求激增:产业界要求从论文转向部署,需掌握Mujoco/IsaacGym等仿真平台训练、Diffusion Policy/VLA模型部署、强化学习微调等能力[24] 技术培训市场动态 - 课程体系覆盖全技术栈:包括具身仿真框架配置、Diffusion Policy/VLA/VLA+RL算法详解、触觉融合与世界模型等前沿内容[15][20] - 实践导向设计:每个模块配备实战代码(如DP3、SmolVLA)、大作业监督,目标使学员达到1-2年从业经验水平[20][30] - 受众定位明确:面向算法从业人员、转行者及在校生,要求具备Python/Pytorch基础及3090ti以上算力[13][30]
学会see和act:机器人操作中的任务感知视角规划
具身智能之心· 2025-08-14 00:03
研究背景与动机 - 现有视觉-语言-动作模型依赖固定视角和共享视觉编码器 限制3D感知能力并引发任务干扰 影响鲁棒性和泛化性[2] - 固定视角在复杂场景中问题突出 在杂乱或动态环境中易导致目标物体被遮挡 使场景理解不完整[2] - 共享编码器处理视觉和语义差异大任务时会因任务干扰限制模型在多任务中的泛化性和扩展性[2] 核心方法框架 - 提出任务感知视图规划框架 整合主动视图规划与任务特定表征学习[3] - 框架包含TaskMoE模块和MVEP策略[3] TaskMoE模块设计 - 通过动态专家路由机制融合指令和场景线索引导专家选择 实现自适应任务敏感专家选择[10] - 采用解耦门控策略将路由门数量与任务总数解耦 促进语义相似任务参数共享同时隔离差异大任务[10] MVEP视角策略 - 选择能最大化捕获操作目标相关信息区域的K个视角 提升动作预测准确性[6] - 采用球坐标解耦相机位置和方向 每个相机姿态用5维向量表示[10] - 通过可微分采样将相机姿态参数建模为高斯分布样本[10] 训练策略 - 分三阶段训练:先训练固定视角变体 再优化MVEP 最后微调除MVEP外整个模型[7][8] - 损失函数包含粗/细接地模块热图交叉熵损失 末端执行器旋转损失及gripper状态二分类损失[7] - 引入伪环境交互机制减少物理交互成本 定义任务损失/置信度/多样性三个奖励项[8][11] 性能表现 - 在RLBench的18个任务中平均成功率86.7% 较基准ARP+的84.9%提升1.8个百分点[13][14] - 在易受遮挡任务中成功率提升达56% 简单任务中仍有4%提升[13] - 具体任务表现:插入钉子任务成功率96.0% vs ARP+的78.4% 放进橱柜任务76.0% vs 69.6%[14] 消融实验 - 移除TaskMoE后平均成功率从86.67%降至85.56%[15][18] - 用随机视角替代主动探索后成功率仅8.89%[15][18] 参数敏感性 - 视角数量K从2增至4时 平均成功率从27.2%提升至55.2%[16][17] - 径向约束在0.90-1.04m时平均成功率56.0% 优于基准范围0.75-1.3m的49.6%[17][19] 效率与泛化 - 推理延迟增加约10.7% 从0.394s增至0.436s 但平衡了性能与效率[20] - TaskMoE显著提升对未见任务泛化性 在打开抽屉任务中成功率12.0% vs 无模块的0[24] - 在已见任务中带TaskMoE平均成功率49.6% 是无模块24.0%的两倍多[24]
英伟达为机器人推出懂推理的“大脑”!升级版Cosmos世界模型来了
具身智能之心· 2025-08-14 00:03
英伟达机器人领域布局 - 英伟达在SIGGRAPH大会上发布全新升级的Cosmos世界模型,聚焦机器人领域[2][4] - Cosmos用于生成符合现实物理规律的合成数据,已被Figure、Agility Robotics、通用汽车等公司采用[3] - 升级重点包括规划能力和生成速度两方面,同时配套更新Omniverse库、RTX PRO Blackwell服务器和DGX Cloud云平台[4] Cosmos模型升级细节 - 推出70亿参数视觉语言模型Cosmos Reason,具备物理理解和多步推理能力,可作为机器人"大脑"[6][9][10] - 新增Cosmos Transfer-2及其精简版,加速虚拟场景到训练数据的转换,精简版将70步蒸馏简化为1步[6][12][13] - 配套发布Omniverse新库与SDK,支持三维重建、仿真及跨平台数据互通[13] 硬件基础设施升级 - 推出RTX PRO Blackwell服务器,覆盖训练、数据生成、机器人学习等工作负载[16] - DGX Cloud云平台已上线微软云市场,降低大规模仿真与训练的硬件门槛[16] - 硬件升级旨在配合软件模型,形成完整的机器人开发基础设施[16] 战略布局与行业影响 - 英伟达认为计算机图形与AI融合将改变机器人领域,构建"虚拟平行宇宙"让机器人安全试验[17][20][22] - 目标是通过虚拟环境降低机器人训练成本,加速落地应用[21][22] - 在中国市场与银河通用、阿里云、优必选等企业达成深度合作,推动机器人技术商业化[26][27] 技术整合优势 - 结合实时渲染、计算机视觉、物理运动模拟及生成式AI技术打造虚拟训练环境[23] - Omniverse负责三维仿真环境,Cosmos提供物理AI模型,形成黄金搭档[14] - 技术整合可生成更精确、更大规模的机器人训练数据[14]
保持精度,提升速度!Spec-VLA:首个专为VLA推理加速设计的推测解码框架
具身智能之心· 2025-08-14 00:03
视觉-语言-动作(VLA)模型加速技术 - 视觉-语言-动作(VLA)模型依托视觉语言模型(VLMs)的强大能力取得显著进展,但VLMs庞大的参数规模和自回归解码特性带来较大计算负担 [2] - 投机解码(SD)技术通过高效的草稿生成与并行验证,能在单次前向传播中生成多个token,从而加速大型语言模型(LLMs)推理,但该技术在VLA模型中的应用尚未被探索 [2] Spec-VLA框架创新 - 提出首个专为VLA推理加速设计的SD框架Spec-VLA,针对动作预测任务难度和贪婪解码机制,设计宽松接受机制提升生成速度 [2] - 多场景测试表明,Spec-VLA框架能将接受长度提升44%,相比OpenVLA基线模型实现1.42倍速度提升,且不降低任务成功率 [2] - 该框架无需微调VLA验证模型,仅需训练草稿模型即可对OpenVLA框架实现42%加速 [6] 技术应用与潜力 - Spec-VLA框架的成功凸显了投机执行在VLA预测场景中更广泛应用的潜力 [2] - 相关技术包括推测解码方法、VLA模型介绍以及Spec-VLA框架的实现细节 [7] 行业动态与活动 - 直播活动聚焦推测解码技术在大语言模型加速中的应用,以及Spec-VLA框架的具体实现 [6][7] - 行业其他技术进展包括VR-Robo真实场景机器人导航、CVPR冠军方案BridgeVLA真机性能提升32%等 [9]
想做具身方向,师兄建议我去这里......
具身智能之心· 2025-08-14 00:03
具身智能社区概况 - 国内首个具身全栈技术社区"具身智能之心知识星球"已完成产业、学术、求职、问答等多领域闭环,成员来自斯坦福大学、清华大学、ETH等顶尖高校及智元机器人、优必选等头部企业[17] - 社区提供近40+开源项目、60+数据集、30+技术路线及主流仿真平台资源,覆盖感知学习、强化学习、多模态大模型等16个技术方向[17] - 已建立企业内推机制,与智元机器人、傅里叶机器人等公司合作输送人才,首批学员获头部公司offer并开始实习[1][11] 技术资源体系 - 汇总30家具身机器人公司资料,涉及教育、医疗、工业等7大应用场景,包含零部件厂商芯片/激光雷达等供应链信息[22][27] - 整理60+数据集涵盖触觉感知、视觉语言导航等9大领域,40+开源项目覆盖仿真、抓取、控制等6大模块[17][30] - 技术路线包含Diffusion Policy、VLA+RL等24个前沿方向,提供强化学习全栈、多模态大模型等系统学习路径[17][31][32] 行业动态与人才发展 - 具身智能行业处于探索期,技术路径向大模型/端到端迁移,自动驾驶领域人才正逐步转向该领域[47][49] - 薪资水平显示:具身智能岗位薪资较传统SLAM岗位高出6k/月,头部初创公司1-2年经验总包达70-80万[48][49] - 职业转型建议:视觉SLAM从业者可转向视觉语言导航或DL-based SLAM,需补充Transformer等深度学习基础[47][49] 社区运营模式 - 采用"问题驱动"机制,实时解决设备使用、数据采集等实操问题,案例响应速度达项目级应用[1] - 组织圆桌论坛/直播活动50+场,邀请产业界嘉宾分享本体设计、算法优化等实战经验[4][43] - 建立分层学习体系:小白可获取入门技术栈,进阶者接触产业级项目方案,高阶成员参与前沿课题研讨[14][15][17] 技术热点聚焦 - VLA+RL融合方向受重点关注,社区汇总相关训练方案及在抓取规划任务中的应用案例[3][31] - sim2real技术瓶颈突破方案受关注,社区提供real2sim2real等创新方法解析[3][41] - 多模态大模型应用最活跃,细分12个子领域包括Many-to-Many跨模态生成等前沿方向[36][37]
端到端模型!GraphCoT-VLA:面向模糊指令的操作任务的VLA模型
具身智能之心· 2025-08-13 00:04
领域介绍 - 视觉-语言-动作(VLA)模型正成为机器人领域的核心范式,旨在实现自然高效的人机交互 [5] - 现有VLA模型基于预训练视觉-语言模型(VLMs)构建,利用其强大的视觉接地和语言理解能力 [5] - 当前模型依赖清晰结构化指令,难以处理现实场景中的模糊指令(如"我想吃辣味河鲜") [6] 技术挑战 - 现有模型无法关联多模态感知与上下文,导致动作规划脱离真实环境 [8] - 观测模态局限在静态二维视图,缺乏对三维交互的建模能力 [8] - 思维链(CoT)方法存在情境感知有限、无法处理模糊指令等缺陷 [8] 解决方案 - 提出GraphCoT-VLA模型,整合结构化CoT推理与实时3D姿态-物体图 [9] - 结构化CoT模块包含:高层任务理解与规划、失败任务反馈、低层未来想象推理 [3] - 姿态-物体图实时捕捉机器人关节配置与物体三维拓扑关系 [13] - 采用dropout混合推理策略平衡深度推理与实时控制需求 [15] 模型架构 - 姿态-物体图构建:通过YOLO-World检测物体,结合深度信息投影为三维点,与机器人末端执行器形成全连接图 [13] - 图编码器使用两层GNN处理空间关系,输出节点特征输入VLM [17][18] - CoT推理流程:场景理解→可行性分析→反馈生成→未来预测(间隔ΔT帧) [19][20] - 整体框架整合多视角图像、本体感受、语言指令和图数据,输出动作序列分布 [22][23] 训练策略 - CoT监督采用交叉熵损失,动作优化采用条件流匹配损失 [24][26] - 联合训练引入CoT监督dropout(概率p),支持推理引导与直接预测双模式 [27][28] - 推理时混合策略:首帧生成完整CoT,后续帧跳过推理直接预测动作 [28] 实验结果 - 在"食物准备"任务中成功率比最优基线Octo提升10%,"服装选择"任务比π₀提升18.33% [37] - 姿态-物体图使成功率最高提升18.33%,动作更连贯自然 [40] - CoT模块显著增强模糊指令下的任务规划能力,减少动作不足或持续挥舞等问题 [41] - 推理频率保持10Hz,与基线π₀相当,满足实时控制需求 [44][45] 技术验证 - 姿态-物体图可视化显示其有效编码机器人与物体的空间配置 [42] - CoT能根据环境变化动态调整决策,预测物体位置与实际高度匹配 [43] - 在双臂机器人上验证,涉及600个训练演示和20次/任务的测试协议 [29][36]
近2000人了!这个具身社区偷偷做了这么多事情了......
具身智能之心· 2025-08-13 00:04
具身智能社区概述 - 社区定位为国内首个具身全栈技术交流平台,聚焦学术与工程问题,成员来自斯坦福大学、清华大学等顶尖高校及智元机器人、优必选等头部企业[13][14] - 已形成产业、学术、求职、问答的闭环生态,日均运营复盘优化社区内容[1] - 核心目标是缩短技术检索时间,提供从入门到进阶的全链条资源[14] 核心资源体系 学术与产业资源 - 汇总40+开源项目、60+具身数据集及主流仿真平台[14] - 梳理30+技术路线,覆盖强化学习、多模态大模型、机械臂控制等24个细分方向[14][41][43][45] - 收录近30家国内外具身机器人公司资料,涉及教育、医疗等应用领域[21] 人才发展支持 - 建立与智元机器人等企业的内推机制,直接对接招聘需求[6] - 提供职业路径规划,包括实习项目包装建议(如Isaac Sim仿真项目)[74][75] - 汇总国内外50+高校实验室信息,助力升学与科研发展[19] 技术内容矩阵 学习体系 - 入门者可通过技术栈路线(如Diffusion Policy学习路线)快速上手[57][7] - 进阶者获取产业级项目方案与VLA模型等前沿技术资料[9][55] - 配套50+机器人专业书籍与行业研报,覆盖动力学、导航等基础领域[24][27] 行业动态追踪 - 实时更新具身智能在自动驾驶迁移、大模型部署等领域的融合应用案例[77][81] - 分析技术趋势:传统SLAM向端到端导航演进,Transformer架构逐步渗透[77][79] - 跟踪零部件供应链,汇总芯片、激光雷达等关键设备厂商信息[29][33] 社区运营特色 - 定期举办圆桌论坛,邀请产业界嘉宾解析算法落地挑战[2] - 成员可自由提问,获得职业转型建议(如SLAM从业者转向具身感知的路径)[78][80] - 提供仿真平台对比数据与触觉感知等多模态技术集成方案[37][47]
VLA还是VTLA?这家企业用“超人类触觉”技术颠覆机器人未来!
具身智能之心· 2025-08-13 00:04
行业现状与技术瓶颈 - 具身机器人硬件和技术相比去年有较大提升,但感知大脑落后于硬件 [1] - 端到端VLA模型是行业关注重点,但视觉在物理交互中存在材质、硬度、摩擦力感知不足的问题 [1] - 触觉感知可弥补视觉缺陷,VTLA(视觉-触觉-语言-动作)被认为是下一代端到端模型范式 [1] - 触觉传感器行业存在分辨率低、实时性差、耐用性不足等技术瓶颈 [2][3] 公司技术与产品突破 - 戴盟机器人研发出基于单色光的高分辨率视触觉感知技术,通过光学变化生成触觉"图像" [4] - 核心产品DM-Tac W是全球首款多维高分辨率高频率视触觉传感器,每平方厘米覆盖4万个感知单元,远超人类手指的240个和传统传感器的数百倍 [4] - 推出多维触觉灵巧手DM-Hand1,集成毫米级超薄视触觉传感器,提升灵活性和感知能力 [6] - 产品通过500万次按压测试,获欧盟CE和美国FCC双认证,实现千片级规模量产 [9] 融资与商业化进展 - 完成亿元级天使++轮融资,三轮融资总额达数亿元,刷新全球触觉感知领域天使轮融资纪录 [3] - 融资资金将用于推动高分辨率视触觉感知技术和灵巧操作技术的产业化落地 [3] - 在世界机器人大会(WRC)展示核心产品,与京东联合展示真实应用场景 [8] 应用场景与行业影响 - 技术可应用于工业装配、医疗手术、家庭服务等需要高精度任务的场景 [1] - DM-Hand1能为工业制造、医疗康复等领域提供全新解决方案 [6] - 产品已从"样机时代"迈向"规模部署时代",推动触觉传感技术商业化应用 [9] - 公司致力于构建覆盖感知、操作、学习的完整产品生态,助力行业进入触觉智能新纪元 [10]
AI如何一步步「看懂」时空结构?一篇综述解析通往四维世界的五大层次
具身智能之心· 2025-08-13 00:04
编辑丨 机器之心 点击下方 卡片 ,关注" 具身智能之心 "公众号 >> 点击进入→ 具身 智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有你想要的。 4D 空间智能重建 是计算机视觉领域的核心挑战,其目标在于从视觉数据中还原三维空间的动态演化过程。这一技术通过整合静态场景结构与时空动态变化,构建 出具有时间维度的空间表征系统,在虚拟现实、数字孪生和智能交互等领域展现出关键价值。 当前研究主要围绕两大技术维度展开: 基础重建层面聚焦深度估计、相机定位、动态点云等底层视觉要素的精准提取;高阶理解层面则致力于解析场景组件的时 空关联与物理约束。 arXiv: https://arxiv.org/abs/2507.21045 Project Page: https://github.com/yukangcao/Awesome-4D-Spatial-Intelligence 他们提出了一种新的分析视角,将已有方法按照空间智能的建构深度划分为五个递进的层次: 这种多维度的空间建模能力正成为新一代人工智能发展的基础设施——无论是构建具身智能的环境认 ...
具身目标导航/视觉语言导航/点导航工作汇总!
具身智能之心· 2025-08-12 07:04
点目标导航 - 无模型与基于模型学习规划方法比较研究 展示不同方法在点目标导航任务中的性能差异[4] - RobustNav基准测试平台专注于评估具身导航系统的鲁棒性 涵盖多种干扰场景[4] - 视觉里程计技术在点目标导航中表现出惊人效果 为定位提供新解决方案[5] - 可微分SLAM-Net框架实现粒子SLAM的端到端学习 提升视觉导航精度[5] - DD-PPO算法从25亿帧数据中学习接近完美的点目标导航器 训练规模达2.5B frames[5] - 占用预测技术实现高效探索与导航 通过环境结构预判提升路径规划效率[6] - 辅助任务加速点目标导航学习过程 通过多任务学习提升训练效果[6] - 主动神经SLAM方法结合学习与探索 实现动态环境下的自适应导航[6] 视听导航 - 学习语义无关且空间感知的表示 提升视觉-音频导航的泛化能力[7] - SoundSpaces 2.0仿真平台支持视觉-声学学习研究 提供多模态训练环境[8] - 对抗性音频-视觉导航研究声学干扰下的系统鲁棒性[8] - 动态声源的主动音频-视觉分离技术 实现移动环境下的声源定位[8] - Move2Hear系统通过主动移动实现声源分离 提升音频采集质量[8] - 语义音频-视觉导航结合语义理解与多模态感知[8] - 航路点设置学习框架优化音频-视觉导航路径规划[8] 对象目标导航 - DivScene基准测试评估LVLM在多样化场景中的对象导航能力[9] - MOPA模块化框架利用点目标智能体实现对象导航[9] - 自监督对象目标导航通过现场微调提升适应能力[9] - 协助请求学习框架优化具身视觉导航中的人机交互[9] - ProcTHOR程序化生成平台支持大规模具身AI训练[10] - 分层对象-区域图模型增强对象导航的空间推理能力[13] - 多对象导航基准MultiON评估语义地图记忆性能[14] - 对象导航重评估研究对智能体导航能力的标准化测试[16] 图像目标导航 - 实例感知的探索-验证-利用框架提升实例图像目标导航精度[17] - 可渲染神经辐射地图技术实现新型视觉导航表示[17] - 最后一公里具身视觉导航研究近距离精确定位问题[17] - 拓扑语义图记忆系统增强图像目标导航的环境理解[19] - 无强化学习导航方法探索免模拟训练新范式[19] - 视觉图记忆结合无监督表示学习提升导航效率[19] - 神经拓扑SLAM实现视觉导航中的地图构建与路径规划[19] 视觉语言导航 - SASRA智能体实现连续环境中的时空推理导航[22] - 语言对齐航路点监督方法提升连续环境导航精度[22] - 历史感知多模态Transformer融合时序与多模态信息[22] - Airbert领域内预训练模型专为视觉语言导航优化[26] - 航路点模型指导连续环境中的指令导航[26] - 环境随机混合技术增强视觉语言导航泛化能力[27] - 自激励通信智能体实现真实世界视觉对话导航[27] - 情景Transformer架构专为视觉语言导航设计[27] - Pathdreamer世界模型支持室内导航仿真预测[28]