Workflow
具身智能之心
icon
搜索文档
2.5w!英伟达推出机器人“最强大脑”:AI算力飙升750%配128GB大内存,宇树已经用上了
具身智能之心· 2025-08-26 04:45
产品发布与性能参数 - 英伟达发布全新机器人计算平台Jetson Thor 基于Blackwell GPU架构 AI算力达2070 TFLOPS 较上一代Jetson Orin提升7.5倍 能效提升3.5倍 [1] - 配备128GB LPDDR5X内存 显存带宽273GB/s 支持大型Transformer推理与高并发视频编解码 [2][16] - 支持FP4量化和推测解码技术 部分模型性能可再提升2倍 响应速度达200毫秒内生成首个token 每秒生成超25个token 满足实时人机对话需求 [14][15] 技术架构与兼容性 - 集成Blackwell架构GPU 最高2560个CUDA核及9个第五代Tensor Core 支持MIG技术实现多任务隔离与并行调度 [16] - 搭载14核Arm Neoverse V3AE CPU 针对实时控制与任务管理优化 性能显著提升 [16] - 原生支持NVIDIA Isaac仿真开发、Isaac GR00T人形机器人基础模型、Metropolis视觉AI及Holoscan传感器工作流 兼容主流生成式AI框架包括Qwen和DeepSeek [7][13] 应用场景与生态合作 - 首批合作企业包括联影医疗、万集科技、优必选等中国公司 以及波士顿动力(用于Atlas人形机器人)、Agility Robotics(用于第六代Digit物流机器人) [19][20][21] - 支持多传感器融合 通过Holoscan Sensor Bridge将摄像头、雷达、激光雷达数据低延迟直传GPU内存 [16][18] - 提供开发套件与量产模组(T5000完整版单价2999美元/千片 T4000精简版功耗75W) 适配移动平台至固定式机器人 功耗范围40-130W [9][10][11] 行业战略定位 - 被定位为物理AI与通用机器人时代的核心"大脑" 与训练AI的DGX系统、仿真测试的Omniverse平台构成三计算机协同体系 [22][24] - 强调仿真测试环节对机器人开发的关键性 可实现持续的训练-仿真-部署循环升级 [23][24]
基于大型VLM的VLA模型如何改一步一步推动机器人操作任务的发展?
具身智能之心· 2025-08-26 00:03
文章核心观点 - 大型视觉语言模型VLM正推动机器人操作从预定义任务向开放世界自主执行转变 通过视觉语言动作VLA模型整合感知 语言理解和动作生成 使机器人能理解自然语言指令并在动态环境中执行复杂任务[3][4][16] - 哈尔滨工业大学深圳团队发布首篇系统综述 提出VLA模型的单体与分层二元分类体系 梳理技术发展 核心特征及数据集 并指出未来研究方向如记忆机制和3D4D感知升级[5][9][10][74] VLA模型架构分类 - 单体模型整合感知 语言理解和动作生成于单一或双系统架构 无显式中间表示 包括单系统模型统一输入并自回归解码输出动作 以及双系统模型分离高层推理与低层动作生成以平衡精度与实时性[19][20][30] - 分层模型显式分离规划与执行 通过人类可解释中间表示如子任务 关键点或程序连接规划器与策略器 分为仅规划器生成中间表示依赖现成策略器 以及规划器加策略器端到端优化规划与执行[19][21][41][48] 单体模型技术进展 - 经典自回归解码范式将连续动作离散化为token序列 VLM自回归生成后解令牌为可执行动作 如RT-2以PaLM-E/PaLI-X为骨干训练互联网与机器人数据 将动作视为语言任务提升语义理解与泛化性[23][24] - 模型性能增强通过扩展感知模态如3D点云 4D时空线索和触觉听觉 提升推理能力如引入思维链和分层闭环控制 以及优化泛化性如统一动作空间和可逆训练 代表技术包括Leo Agent处理点云和CoT-VLA预测子目标[25][26] - 推理效率优化从架构 参数和解码策略三方面降低开销 如RoboMamba采用Mamba架构达Transformer三倍速度 BitVLA用1-bit权重压缩模型 以及PD-VLA并行解码加速动作生成[28][29] 分层模型技术进展 - 仅规划器方法生成程序 关键点或子任务等中间表示 依赖现成策略器执行 如基于程序的Chain-of-Modality生成Python代码控制机器人 基于关键点的MoManipVLA预测路点优化轨迹 以及基于子任务的PaLM-E统一VQA与指令生成[42][43][45][47] - 规划器加策略器端到端优化规划与执行 基于关键点方法如HAMSTER预测轨迹关键点指导策略 基于子任务方法如HiRobot分解开放指令为原子命令后执行 代表技术还有DexVLA结合VLM规划器与扩散策略器处理长程任务[49][50][51][52] 其他先进技术领域 - 基于强化学习方法通过在线交互或离线轨迹优化VLA策略 解决奖励稀疏和样本效率问题 如VLA-RL训练过程奖励模型 ReWiND以目标进度为奖励 以及ConRFT结合离线与在线训练[54][55][63] - 无训练方法通过架构或计算优化提升效率 如FlashVLA稳定场景跳过解码 EfficientVLA剪枝冗余语言层和过滤视觉令牌 以及PD-VLA并行不动点迭代加速[56][57][58] - 从人类视频学习利用人类与机器人交互结构相似性迁移任务知识 如UniVLA从无标注视频学习任务中心潜在动作 LAPA用VQ-VAE量化动作预训练 以及3D-VLA融合视频提升3D推理[59][60] - 基于世界模型整合预测环境动态的紧凑表示 通过模拟未来状态优化动作规划 如WorldVLA联合预测视觉结果与生成动作 World4Omni生成子目标图像指导策略 以及V-JEPA 2-AC通过模拟潜在状态做规划[61][62] 核心特征与能力 - 多模态融合通过共享嵌入空间减少语义偏移 令牌级整合捕捉跨模态依赖 以及全面模态兼容性无缝整合点云 触觉和音频等新模态 代表技术包括PointVLA加入点云编码器和VTLA融合触觉输入[64] - 指令遵循依托语义理解与推理实现灵活响应 包括语义指令定位动态解读模糊指令 任务分解与协作拆分子目标 以及思维链推理预测未来视觉状态提升可靠性 如ChatVLA-2理解白板数学问题[65] - 多维度泛化实现跨任务 跨领域和跨载体适配 如DexVLA无需调优完成多样操作 π₀通过异构数据联合训练在家庭环境成功率超90% 以及HAMSTER在七个泛化维度成功率比OpenVLA高20%[65] 数据集与基准测试 - 真实世界数据集捕捉环境复杂性支持语言与动作对齐 如OXE整合22个机器人平台的100万+多模态演示 RH20T支持147项任务单样本学习 以及DROID含564项自然场景远程操作演示[66][67] - 模拟数据集提供可扩展安全训练环境 如BEHAVIOR支持杂乱家庭环境多步骤控制 CALVIN支持无约束语言指令长期操作 以及SIMPLER通过校准环境减少模拟到现实差距[67][68] - 人类行为数据集提供语义丰富交互先验 如Ego4D含3000小时第一视角视频 EPIC-Kitchens提供细粒度烹饪任务视频 以及EgoDex含829小时3D手部追踪视频[68][69] - 具身数据集聚焦规划与推理能力评估 如OpenEQA评估功能与常识推理 LoTa-Bench验证LLM生成规划可执行性 以及MT-EQA支持多目标推理[69][70] 未来研究方向 - 需优化数据集与基准测试 结合大规模真实数据采集与复杂任务套件 引入多维度评估指标解决现实差距与任务单一问题 并开发记忆机制与长期规划转向目标驱动连贯动作[74][75] - 技术升级包括3D与4D感知整合深度与时间动态信息 移动操作整合自适应策略 多智能体协作构建共享世界模型 开放世界终身学习设计增量知识积累 以及模型效率提升通过动态令牌修剪和量化[75]
VLA和VLN技术交流群来啦!
具身智能之心· 2025-08-26 00:03
行业社群动态 - 具身智能之心建立多个VLA和VLN技术交流群 促进学术界与工业界讨论 [1] - 社群聚焦VLA和VLN领域技术发展 产品落地及行业动态交流 [1] - 入群需通过微信AIDriver005添加助理 备注VLA/VLN及昵称信息 [2]
加州大学最新!做什么?教VLA模型拒绝不可能的任务
具身智能之心· 2025-08-26 00:03
研究背景与问题定义 - 视觉-语言-动作(VLA)模型在多模态输入和语言指令下表现优异,但缺乏处理虚假前提指令(涉及环境中不存在物体或条件的命令)的机制 [4] - 虚假前提指令在开放真实环境中普遍存在,例如用户命令机器人抓取不存在的红色马克杯,现有研究仅关注指令正确时的执行成功率,未测试指令无法实现时的系统响应 [6] - 机器人领域尚未探索虚假前提指令的识别与纠正,而NLP和跨模态领域已有相关研究基础 [10] IVA框架核心创新 - 提出统一框架IVA(Instruct-Verify-and-Act),实现虚假前提检测、语言纠正和动作预测的端到端能力 [4] - 构建大规模上下文增强的半合成数据集,包含成对的真实前提指令与虚假前提指令,支撑模型训练 [4] - 采用端到端指令微调策略,冻结视觉编码器和语言编码器,仅微调自回归Transformer解码器,并使用LoRA适配器降低计算开销 [20][23] 实验设计与评估结果 - 在9个RLBench任务上评估,每个任务25个episode,物体位置随机变化,输入包含前视摄像头图像和前5个关节位置 [24] - IVA虚假前提检测准确率提升97.56%,虚假前提场景下的成功响应率提升50.78% [5] - 域内虚假前提检测准确率达100%,域外虚假前提检测准确率达97.78%,而基线模型LLARVA检测率均为0% [23][28] - 真实前提任务成功率IVA为42.67%±8.34%,LLARVA为38.67%±8.55%,统计上无显著差异 [28] 性能表现对比 - IVA在全部9个任务的整体成功率和虚假前提检测率均显著优于LLARVA,例如slide block任务整体成功率IVA达96%(LLARVA为44%),sweep to dustpan任务达94%(LLARVA为30%) [25] - 真实前提任务执行性能部分任务略低于基线(如open drawer任务IVA为32% vs LLARVA 40%),但差异可忽略 [25] 应用局限与挑战 - 数据集基于RLBench模拟环境,物体、场景和任务受限,虚假前提分布与真实人类-机器人交互存在差异 [26] - 未验证真实世界泛化性,视觉外观、传感器噪声和语言使用差异可能导致性能下降 [26] - 语言响应仅基于训练数据中的虚假前提类型,缺乏创造性替代方案,且无法处理多轮澄清对话 [26] - 依赖大型多模态模型,存在计算和内存负担,不适用于实时或资源受限的机器人应用 [27]
真实场景也能批量造「险」!VLM+扩散模型打造极限测试
具身智能之心· 2025-08-26 00:03
自动驾驶系统测试现状 - 懂车帝测试显示目前量产自动驾驶系统的NOA功能在黑夜施工工地、高速公路前方车辆事故及障碍物后突然驶出车辆等高危场景中均无法完全避免事故[2] - 此类安全关键场景在真实道路中发生率低但潜在危害大 可能导致严重交通事故[3] - 提升系统可靠性需在多样化高风险场景中进行广泛测试 但现实采集难度极高[4][5] 仿真测试技术挑战 - 现有模拟器画面真实度不足 难以直接用于真实域下端到端系统的极限测试[6] - 安全关键车辆选择依赖简单启发式规则(如选择最近车辆) 缺乏场景关系理解易导致选错目标车辆[9] - 多视角视频生成模型因训练数据缺乏极端场景 在碰撞或近距离互动时生成质量显著下降[9] SafeMVDrive技术创新 - 首创面向真实域的多视角安全关键驾驶视频生成框架 结合VLM关键车辆选择器与两阶段轨迹生成[7] - 采用GRPO微调视觉语言模型 从多视角画面推理交通关系精准识别对抗车辆[10] - 双阶段轨迹生成:先生成符合物理规律的碰撞轨迹 再转化为接近碰撞但成功规避的轨迹[10][22] - 通过三类损失函数(对抗损失/无碰损失/在路损失)确保轨迹合理性与威胁性[22] 系统性能表现 - 碰撞率指标显著优于基线:Sample-level CR达0.097(Origin方法仅0.001) Scene-level CR达0.207(Origin仅0.004)[29] - 视频真实感指标FID为20.626 远优于Naive方法的23.346 更接近真实视频质量[29] - VLM车辆选择器精准度超传统方法:F1-score达0.675(最近车辆法仅0.654 基于规则法仅0.600)[33] - 支持生成加塞/急刹/后方突然加速等危险行为 并呈现自车规避动作[12] 技术实现路径 - 采用UniMLVG作为骨干网络 支持显式控制车辆运动轨迹并保持长时视频稳定[26] - 通过自回归滚动生成方式 将规避轨迹编码为逐帧控制信号(3D边界框/高清地图/相机参数)[26] - 首阶段碰撞轨迹模拟通过test-time loss guidance引导车辆发生有效碰撞[22] - 次阶段仅更新自车轨迹 以无碰损失和在路损失引导实现自然规避[22] 行业应用价值 - 实现高保真多视角安全关键视频批量生成 显著提升极端场景覆盖率[11][28] - 为端到端自动驾驶系统提供兼具真实性及危险性的极限压测数据[11][30] - 研究成果由浙江大学与哈工大(深圳)联合发布 获论文/代码/数据集全方位开源支持[7][9]
加州大学最新!做什么?教VLA模型拒绝不可能的任务
具身智能之心· 2025-08-25 06:00
核心观点 - 提出IVA统一框架 使VLA模型能够识别虚假前提指令并生成语言纠正和替代方案 显著提升检测准确率和响应成功率 [4][9][10] - 构建上下文增强的半合成虚假前提数据集 包含域内和域外两种类型 支撑模型端到端训练 [4][18][20] - 实验证明IVA在9个RLBench任务中虚假前提检测准确率高达97.78%-100% 整体成功率提升显著 [5][23][28] 技术框架 - IVA基于LLARVA模型构建 整合视觉编码器 语言编码器和多模态解码器 输出动作序列和视觉轨迹 [13][17] - 采用LoRA适配器进行端到端微调 冻结视觉和语言编码器 仅训练自回归解码器 [20][23] - 输入包含RGB图像和结构化语言指令 输出8维关节速度序列和末端执行器2D轨迹 [17][24] 数据集构建 - 基于RLBench模拟环境构建数据集 包含65%域内虚假前提和20%域外虚假前提 [18][23] - 域内虚假前提涉及几何相似但不存在物体 域外涉及完全不可能存在的物体或场景 [18] - 每个任务包含800个episode 混合真实与虚假前提指令确保数据平衡 [23] 性能表现 - 虚假前提检测准确率提升97.56% 域内达到100% 域外达到97.78% [5][23][28] - 虚假前提场景成功响应率提升50.78% 整体成功率最高达96% [5][25] - 真实前提任务成功率42.67% 与基线38.67%无显著差异 未损害基础能力 [28] 任务评估 - 评估9个RLBench任务 包括打开抽屉 推动按钮 关闭罐子等 每个任务25个随机episode [24] - 采用三阶段评分:检测阶段分类指令可行性 执行阶段判断任务成功 整体计算平均得分 [22] - IVA在slide block任务真实前提成功率92% sweep to dustpan任务88% [25] 局限性 - 数据集基于模拟环境 物体和任务受限 与真实人类-机器人交互存在差距 [26] - 无法处理多轮澄清对话 语言响应缺乏创造性替代方案 [26] - 依赖大型多模态模型 存在计算和内存负担 不适用于实时机器人应用 [27]
VLA/强化学习/VLN方向1v1论文辅导~
具身智能之心· 2025-08-25 06:00
主要会议:CVPR、ICCV、ECCV、ICLR、CoRL、ICML、ICRA等; 辅导老师:积极活跃在具身学术领域,有idea。 感兴趣的同学可以添加微信oooops-life咨询,或者直接扫码,备注具身论文辅导咨询。 具身智能之心1v1论文辅导来啦!现在有3个vla、强化学习、sim2real方向的名额,主要面向A会和B会。 ...
Kitchen-R :高层任务规划与低层控制联合评估的移动操作机器人基准
具身智能之心· 2025-08-25 00:04
基准设计背景 - 当前具身AI基准存在显著割裂:高层语言指令遵循类基准假设低层执行完美,低层控制类基准仅依赖简单单步指令,导致无法全面评估任务规划与物理执行集成的系统[4] - Kitchen-R基准填补了该空白,通过仿真厨房环境统一评估任务规划与低层控制,为语言引导机器人代理提供更全面、更贴近真实场景的测试平台[6] 核心功能特点 - 基于Isaac Sim构建真实厨房的数字孪生环境,支持mobile ALOHA移动操作机器人[8][9] - 包含500+条复杂语言指令,覆盖移动操作任务[8][9] - 提供三种评估模式:独立评估规划模块、独立评估控制策略、全系统集成评估[8][9] - 已用于2024年AIJ竞赛具身AI赛道数据收集与验证,累计收集约2700条移动操作轨迹[9] 技术架构 - 任务规划子问题输入自然语言指令和场景俯视图,输出可执行任务计划(如"移动到水槽区→拾取杯子→移动到餐桌区→放置杯子")[19] - 移动操作子问题输入单步任务和双相机视觉信息,输出10维轨迹点序列(含底座速度、末端执行器位姿及夹爪开合度)[19] - 导航模块采用Theta*算法进行路径规划,低层控制器通过动态速度调整实现精准移动[31][37] - 操作模块基于RMPs运动控制和10阶段有限状态机,通过余弦混合运动插值确保动作平滑过渡[33][35] 评估指标体系 - 离线独立评估指标:任务规划采用精确匹配率(EM),移动操作采用均方误差(MSE),综合指标P融合两者性能[20][21][22] - 在线联合评估指标:实时执行任务时计算EM与成功率(SR),最终合并为指标M,高M值表示规划准确且执行可靠[23][26][29] - 单任务成功标准:导航任务要求机器人底座与目标距离≤10cm,操作任务要求物体与目标距离≤5cm,且需在120秒内完成[28] 基线方法性能 - VLM规划基线基于OmniFusion模型,通过添加上下文计划示例使EM指标从0提升至0.612,约束生成进一步优化至0.632[47][48] - 移动操作基线采用Diffusion Policy,融合双相机视觉特征和10维机器人状态,通过交叉注意力机制预测未来16步动作轨迹[49][52] - 执行效率对比:oracle政策单episode耗时约1分钟,而高推理时间政策最长需50分钟[57] 系统扩展性 - 支持场景/物体添加:通过配置USD文件路径实现新场景或物体导入[42] - 支持多模态数据收集:包括RGB-D图像和点云数据,传感器可通过模型配置灵活添加[42] - 任务创建基于"移动、拾取、放置"三个基础动作,通过配置文件定义关键点位和物体列表[42]
一文尽览!2025年多篇VLA与RL融合的突破方向
具身智能之心· 2025-08-25 00:04
视觉-语言-动作模型与强化学习融合研究进展 - 2025年机器人具身智能领域聚焦视觉-语言-动作模型与强化学习的融合 旨在解决真实场景中决策与执行精度问题 相关研究在ICLR、RSS、ICRA、CVPR等顶会集中收录[2] GRAPE模型创新 - 通过轨迹级VLA对齐和任务阶段分解提升模型泛化能力 解决行为克隆依赖导致的未见任务适应性问题[4][5] - 采用可定制时空约束的偏好建模 支持根据安全、效率等目标灵活调整策略[5] - 在现实世界与模拟环境中 域内操作任务成功率提升51.79% 未见任务成功率提升58.20% 安全性目标下碰撞率降低37.44% 效率目标下启动步长减少11.15%[7] VLA-RL框架突破 - 构建轨迹级强化学习表达式 将操作轨迹转化为多模态对话形式 优化在线数据利用[10][12] - 微调预训练视觉语言模型作为机器人过程奖励模型 解决稀疏奖励问题[12] - 在LIBERO平台40个任务中性能超越OpenVLA-7B基线 并显现推理扩展规律迹象[14] ReWiND框架优势 - 通过预训练语言基奖励函数和策略 实现少样本微调适配新任务 无需重复设计奖励或演示[17][18] - 奖励模型泛化能力达基准方法2.4倍 新任务适应效率在模拟环境中快2倍 真实世界场景下双手动策略性能提升5倍[20] ConRFT强化微调方法 - 采用离线行为克隆与Q学习结合在线一致性策略的两阶段训练 提升训练稳定性[23][25] - 在八项实际操作任务中平均成功率达96.3% 较监督学习方法提升144% 回合长度缩短1.9倍[28] RLDG数据优化策略 - 利用强化学习生成高质量训练数据微调通用策略 改善动作分布与状态覆盖[32][35] - 在精确操作任务中成功率最高提升40% 泛化能力优于人类演示训练策略[38] TGRPO在线优化方案 - 融合步骤级与轨迹级优势信号优化组级估计 增强在线强化学习训练适配性[38][41] - 在十个操作任务中性能超越监督微调与PPO基线 生成策略更稳健高效[43] iRe-VLAd迭代训练框架 - 通过强化学习与监督学习循环迭代解决训练不稳定与计算负担问题[44][46][48] - 在模拟基准和真实操作套件中验证有效性 实现交互场景下性能优化[50] RIPT-VLA后训练模式 - 基于稀疏二进制成功奖励进行交互式后训练 适配低数据环境[51][52][54] - 轻量级QueST模型成功率提升21.2% OpenVLA-OFT模型达97.5%成功率 仅需1次演示即可在15次迭代内实现97%成功率[56] 行业应用与趋势 - 研究聚焦机器人操控、导航中的策略泛化、动态环境适应及多模态信息对齐问题 覆盖家居家务、工业装配、机械臂操控等高频场景[57] - 部分研究开放项目代码 推动前沿技术落地应用[57]
3个月!完成你的具身大脑+小脑算法学习
具身智能之心· 2025-08-25 00:04
具身智能行业概述 - 具身智能强调智能体与物理环境的交互与适应 聚焦智能体在物理世界中感知环境、理解任务、执行动作并反馈学习的能力[1] - 具身智能的核心模块由大脑和小脑构成 大脑负责思考感知(语义理解和任务规划) 小脑负责执行(高精度运动执行)[1] 国内外产业布局 - 近2年具身明星团队陆续创业 成立星海图、银河通用、逐际动力等公司 推动具身本体和大小脑技术进步[3] - 华为2024年底启动"全球具身智能产业创新中心" 与乐聚机器人、大族机器人等企业合作建设具身智能大脑和小脑关键技术[5] - 京东自2025年5月以来连续投资智元机器人、千寻智能、逐际动力等公司 强化物流科技与家庭服务场景效率[5] - 腾讯、蚂蚁集团、小米等科技巨头通过战略投资与合作加快构建具身智能产业生态[5] - 国外Tesla/Figure AI推进工业与物流机器人应用 美国投资机构支持Wayve、Apptronik等公司落地自动驾驶与仓储机器人[5] - 国内企业以产业链投资与综合平台驱动具身智能落地 国外科技巨头侧重基础模型、模拟环境与类人机器人原型研发[5] 技术演进阶段 - 第一阶段聚焦抓取位姿检测 通过点云或图像预测末端执行器姿态实现静态物体抓取 但缺乏任务上下文和动作序列建模[6] - 第二阶段进入行为克隆阶段 借助专家演示数据学习从感知到控制的端到端映射 具备模仿人类完成复杂任务能力[6] - 第三阶段(2023年起)采用Diffusion Policy方法 通过扩散模型生成整个动作轨迹 提升策略稳定性与泛化能力[6] - 2024年进入Vision-Language-Action模型阶段 融合视觉感知、语言理解与动作生成模块 支持零样本或小样本快速泛化[6][7] - 第四阶段(2025年起)探索VLA模型与强化学习、世界模型、触觉感知等模块融合 提升长时任务试错能力与环境动态预测能力[8] 技术发展特征 - 从抓取位姿检测到行为克隆、扩散策略与VLA模型的演进 体现"低层感知->中层策略->高层理解"的能力补齐路径[9] - VLA+强化学习结合提升机器人试错能力与自我改进能力 VLA+世界模型引入环境动态预测 VLA+触觉信息拓展多模态融合感知边界[8] - 技术发展推动人形机器人、机械臂、四足机器人等产品落地 服务于工业、家居、餐饮、医疗康复等领域[9] 工程化需求 - 产业界推动具身智能从"论文"走向"部署" 对工程能力提出更高要求[12] - 需要在Mujoco/IsaacGym/Pybullet等平台完成策略训练与仿真测试[12] - 需要训练并部署Diffusion Policy/VLA/力触融合的VLA模型[12] - 需要实现强化学习在VLA后训练上的应用 支持机器人反馈微调[12] - 需要实现从世界建模预测→策略学习→物理执行的一体化具身智能架构[12]