具身智能之心

搜索文档
ICCV2025 | DexVLG:大规模灵巧视觉-语言-抓取模型
具身智能之心· 2025-07-07 09:20
核心观点 - 大型视觉-语言-抓取模型DexVLG能够根据语言指令和单视角RGBD输入预测灵巧抓取姿态,并在模拟和真实世界中表现出强大的零样本泛化能力,抓取成功率超过76% [4][8] - DexGraspNet 3 0数据集包含1 7亿个灵巧抓取姿态和174k个模拟目标,是目前最大的部分感知功能性灵巧抓取数据集 [4][10] - 该研究通过结合多个预训练基础模型和基于流匹配的去噪范式,构建了参数规模达数十亿的DexVLG模型 [8][23] 领域介绍 - 当前大型视觉-语言-动作模型主要局限于平行夹持器控制,缺乏灵巧手控制能力,主要原因是灵巧抓取数据不足 [5] - 现有灵巧抓取数据集要么规模有限,要么缺乏语义感知,无法支持功能性抓取任务 [5] - 该领域需要大规模、部分感知的数据集来提升模型容量和泛化能力 [5] 数据集构建 - DexGraspNet 3 0数据集包含来自Objaverse的174k个目标上的1 7亿个灵巧抓取姿态,每个姿态都经过物理模拟验证并配有语义标题 [10][12] - 使用SAMesh进行零样本几何部分分割,GPT-4o进行部分名称标记,确保数据集具有丰富的语义信息 [12] - 数据集构建采用部分感知的手姿态初始化策略和多个能量函数优化,确保抓取姿态的语义合理性 [13][15][17][18][19] 模型架构 - DexVLG采用预训练的Uni3D点云编码器和Florence-2语言基础模型,参数规模从2 32亿到7 71亿不等 [26][28] - 模型使用基于流匹配的去噪范式生成抓取姿态,通过最小化均方目标函数进行训练 [29] - 点云特征与语言embedding向量拼接后输入大型语言模型,与姿态预测头共享交叉注意力机制 [28] 实验结果 - 在模拟环境中,DexVLG实现了76 1%的抓取成功率和48 1%的部分抓取精度,显著优于基线模型 [32] - 模型展示了强大的零样本泛化能力,能够处理多种物体和语义部分的抓取任务 [30] - 真实世界实验验证了模型预测的抓取姿态与语言指令的良好对齐性 [8]
MuJoCo具身智能实战:从零基础到强化学习与Sim2Real
具身智能之心· 2025-07-07 09:20
具身智能技术发展 - 具身智能正在全面崛起 重新定义人类与机器的关系 从Tesla的Optimus到Boston Dynamics的Atlas 全球顶尖科技公司都在布局这一领域 [1] - 具身智能将彻底改变制造业、服务业、医疗健康、太空探索等行业 使机器人在复杂环境中灵活移动并做出智能决策 [1] MuJoCo技术优势 - MuJoCo是连接虚拟世界与现实世界的重要桥梁 提供高保真、高效率的机器人训练环境 支持高度并行化计算 可同时运行成千上万个仿真实例 [4][6] - MuJoCo采用先进接触动力学算法 精确模拟机器人与环境的交互 提供视觉、触觉、力觉等多种感知模态 具有出色稳定性和数值精度 [6] - MuJoCo已成为学术界和工业界标准工具 Google、OpenAI、DeepMind等科技巨头都在使用 [8] 具身智能实战教程 - 课程采用项目驱动学习方式 包含六个递进式实战项目 从机械臂控制到人形机器人行走 再到多智能体协作和Sim-to-Real迁移 [9][12][13] - 项目一:构建六自由度机械臂模型 实现正逆运动学求解和PID控制 [15][16] - 项目二:为机械臂添加视觉感知能力 实现基于视觉的物体检测和抓取 [17][18] - 项目三:训练智能体学会复杂运动技能 如机械臂抛接球或四足机器人奔跑 [19][20] - 项目四:实现模型预测控制算法 进行实时轨迹优化 [21][22][23] - 项目五:设计多机器人协作系统 共同完成复杂任务 [24][25] - 项目六:通过域随机化技术实现Sim-to-Real迁移 在真实机器人上验证 [26][27] 技术能力提升 - 学员将掌握MuJoCo各项功能 能够构建复杂机器人仿真环境 实现高保真物理交互 [29] - 深入理解强化学习核心算法 掌握机器人控制理论和实践技巧 实现精确运动控制和轨迹跟踪 [29] - 具备完整项目开发经验 熟悉现代AI开发工具链 培养良好工程习惯 [31] 职业发展路径 - 技术专家方向:机器人算法工程师年薪30-60万 一线城市可达80-150万 [33] - 产品经理方向:年薪30-80万 有机会发展为技术总监或创业者 [33]
代码+视频!国内首个足式机器人算法与实战(双足/四足/人形等)
具身智能之心· 2025-07-07 09:20
具身机器人步态控制的重要性 - 步态控制是具身智能机器人实现空间移动的核心技术 双足或四足机器人需模拟真实生物动作以应对复杂地形如废墟 火灾现场 太空探索等场景[1] - 足式机器人能跨越沟壑 攀爬楼梯 避开障碍物 在轮式/履带式设备无法到达的区域执行救援 科考任务 近20年工业界与学术界持续投入研发[1] - 真实场景应用需解决负重条件下的高难度动作 如跳跃 转向 奔跑 并在碎石 坑洼等复杂路面保持稳定性[1] 人形机器人动作学习的挑战 - 人类步态动作近万种 机器人需学习爬楼梯 跑步 跳舞等高难度动作 自主学习能力是行业痛点[2] - 深度学习加速了动作控制研究 但数十年发展仍未完全突破 相关成果正逐步转化到工业产品[2] 足式机器人的战略地位 - 被誉为"机器人领域下一座里程碑" 可像生物一样适应复杂地形 突破平坦环境限制[4] - 资本青睐巡检 安防 救援 工业自动化等场景 企业高薪争夺人才 当前是进入领域的最佳时机[4] - 技术栈涵盖运动学 动力学 多传感器融合 强化学习等 缺乏系统学习路径导致入门困难[4] 具身足式算法课程核心内容 - 国内首门系统教程 覆盖四足基础 双足进阶 高级算法 Sim2Real迁移 安全机制等全流程技术[5][6] - 采用Isaac Gym/Gazebo/MuJoCo仿真环境 实战案例包括平稳行走 动态平衡 多任务切换等[6][12] - 前沿技术深度解析 如波士顿动力跳跃算法 RMA策略 域随机化等[6][17] 课程实战与硬件部署 - 主流硬件平台分析:Unitree DeepRobotics等 包含碰撞检测 人体交互安全等部署策略[12][17] - 大作业设计多场景训练:斜坡 碎石路 障碍物 成果展示包括训练过程可视化与性能指标[12][17] 目标学员与技能提升 - 面向AI从业者 研究生 转行者等 需具备Python/PyTorch基础及线性代数知识[27] - 培养全栈技能:从运动学基础到强化学习算法 积累1-2年实战经验 掌握Sim2Real迁移能力[27][28] - 课程形式为离线视频+代码+答疑 配套源码与仿真练习 有效期1年[28]
具身智能论文速递 | VLA、3DGS、扩散模型等、RoboBrain~
具身智能之心· 2025-07-06 11:58
ArtGS框架 - 提出ArtGS框架,通过动态可微3D高斯溅射与视觉-物理闭环优化,显著提升关节目标建模与操作精度 [2] - 在7类100个关节目标上,关节轴平均误差(AE)降至4.27°~7.03°,比最优基线降低约5°,关节原点误差(OE)降至3.26~5.84 cm [2] - 在洗碗机、冰箱等任务中,操作成功率高达62.4%~90.3%,比最优基线GAMMA提升最高33.5% [2][10] - 整合静态3D高斯溅射重建与微调的视觉-语言模型,将物理建模注入视觉感知过程,实现对关节骨骼参数的交互式优化 [2] - 利用改进的Denavit-Hartenberg正向运动学将机器人转化为3DGS数字孪生,结合动态3DGS的时空一致性和可微分渲染,优化关节参数 [2] cVLA模型 - 提出轻量级cVLA模型,通过图像坐标系轨迹关键点预测实现训练效率提升10倍 [15] - 仿真成功率最高达54%(Objaverse-hard场景),单次模仿成功率70%(CLEVR-easy) [15] - 真实机器人任务零样本迁移成功(15种桌面操作任务) [15] - 基于PaliGemma架构,通过预测图像坐标系下的末端执行器关键位姿实现轨迹生成 [15] - 提出新的解码算法beam-search-NMS,通过非极大值抑制在光束搜索中寻找分布峰值 [15] RoboBrain 2.0 - 提出轻量级(7B)与全尺寸(32B)双模型架构,通过三阶段渐进训练策略解决具身AI的三大瓶颈 [21][23] - 在RefSpatial-Bench定位准确率达54%,超越GPT-4o 45个百分点 [21] - 多机器人规划任务平均分80.33%,在12个基准测试中6项达到SOTA [21] - 32B变体在多个基准上超越现有开源和专有模型,如BLINK、CV-Bench等 [23][27] - 构建大规模高质量训练数据,涵盖通用多模态理解、空间感知、时间建模三类 [23] SE(3)-等变扩散策略 - 提出SE(3)-等变扩散策略(Spherical Diffusion Policy),在3D场景中实现机器人操作的鲁棒泛化 [32][37] - 在20个模拟任务中平均成功率提升至49%(15°倾斜场景),在5个物理机器人任务中平均成功率提升至78% [32][41] - 通过将状态、动作和去噪过程嵌入球形傅里叶空间,实现对3D场景变换的轨迹自适应 [37] - 设计球形FiLM层,实现动作去噪过程对等变场景嵌入的条件约束 [37] - 提出球形去噪temporal U-net,在保证时空等变性的同时兼顾计算效率 [37]
全球AI失业大逃杀:25年已裁94000人!微软高管:被裁可用AI管理情绪
具身智能之心· 2025-07-06 11:54
行业裁员趋势 - 2025年上半年全美科技行业已有94000人被裁,裁员潮持续加剧[2][3][6] - 微软2025年累计裁员超15000人,涉及游戏、云计算、法律、工程等多部门[5][40][43] - 谷歌、Meta、亚马逊等巨头同步裁员,同时加大对AI项目的投入[41][46][48] 裁员驱动因素 - 企业调整劳动力结构,削减传统岗位以增加AI工程和基础设施支出[6][40][50] - AI工具直接替代人力:IBM用AskHR聊天机器人取代8000名HR员工,GitHub Copilot生成30%新代码减少工程师需求[43][53] - 业务战略转向:英特尔关闭自动驾驶业务聚焦AI芯片,Meta从元宇宙撤退转向AI功能开发[45][46] 高风险岗位清单 - 软件工程师(微软40%被裁开发者)、人力资源(IBM数千HR被裁)、客服(Chegg用户偏好AI客服)[53][54] - 内容创作(80%市场部门用AI生成文本)、数据分析(AI处理速度超越人类)、中层管理(英特尔裁撤绩效协调岗位)[55][56][57] 典型案例分析 - Xbox裁员9100人,理由为节省成本投入AI游戏开发,高管建议被裁员工用ChatGPT管理情绪[11][15][18] - 微软6年老员工Patrick Lyons两次被裁,虽重返Azure岗位仍因重组失业[30][33][36] - TikTok、迪士尼、Bumble等非传统科技公司也因AI调整裁员,Bumble全球裁员比例达30%[40][42] 行业财务与战略动向 - 微软2025Q1营收701亿美元(同比+13%),但同步推进裁员,显示AI可支撑增长与成本优化并行[58] - 企业明确将AI作为核心战略:Workday、Salesforce裁减非AI岗,持续招聘机器学习工程师[48] - 教育科技公司Chegg因学生转向ChatGPT裁员22%,反映C端AI替代效应[44]
怎么在仿真里面让人形机器人、四足机械狗跑起来?
具身智能之心· 2025-07-06 11:54
具身机器人步态控制的重要性 - 步态控制是具身智能机器人实现空间移动的核心技术,工业界和学术界已投入20年研究人形机器人步态以接近真实生物动作[1] - 足式机器人在复杂地形(地震废墟、火灾现场)具有不可替代性,能跨越障碍执行轮式/履带式机器人无法完成的任务[1] - 太空探索、极地科考等极端环境需要足式机器人适应崎岖地形,推动国家层面加速产品落地[1] 足式机器人的技术挑战 - 人类有近万种步态动作,机器人需学习爬楼梯、跑步、跳舞等高难度动作并实现自主学习进化[2] - 控制技术涉及运动学、动力学、多传感器融合、强化学习等10+方向,学习门槛高导致从业者易放弃[4] - 深度学习爆发后技术加速,但仿真与现实差距(Sim2Real)仍是核心难题,需域随机化、RMA等策略降低差异[16] 行业应用与市场前景 - 足式机器人被誉为"机器人领域下一座里程碑",巡检、安防、救援、工业自动化是主要落地场景[4] - 资本高度青睐,企业重金争夺人才,Unitree/DeepRobotics等硬件平台成为主流选择[11][16] - 波士顿动力已实现多姿态切换与跳跃算法,为行业提供前沿案例参考[6] 技术课程体系架构 基础模块 - 四足机器人关节布局、负载分析、步态规划,通过Isaac Gym/Gazebo仿真实现平稳行走[5][6] - 双足机器人动态平衡控制,应用PPO/SAC算法实现从行走到跳跃的进阶[6] 高阶算法 - 结合模仿学习(BC/GAIL)与终身学习(EWC),实现多任务自适应切换[14] - 多模态传感器融合(IMU/视觉/力觉),提升避障与崎岖地形行走性能[15] 实战部署 - 硬件平台特性分析与安全机制设计(碰撞检测/人体交互容错)[11] - 自定义大作业涵盖斜坡、碎石路等复杂场景,输出可视化训练指标[13] 目标人群与能力培养 - 面向AI从业者、研究生、转行者,需具备Python/PyTorch及线性代数基础[26] - 课程覆盖从四足到双足的全栈算法,通过仿真环境积累1-2年实战经验[26][27] - 采用离线视频+代码+答疑模式,配套源码与行业案例实现技术转化[29]
从坐标混乱到时空对齐!诺亚和复旦联合提出4D-VLA,提升机器人预训练效率和稳健性
具身智能之心· 2025-07-06 11:54
核心观点 - 4D-VLA通过引入3D空间坐标和历史帧信息,显著提升了视觉-语言-动作模型在复杂场景中的性能,解决了传统单帧RGB输入导致的坐标系混乱和状态模糊问题[4][8][10] - 实验证明4D-VLA在LIBERO评测中平均成功率高达88.6%,比现有最佳方法提升10.5个百分点[33] - 在真实机器人测试中,完整版4D-VLA模型平均成功率85.63%,比基线OpenVLA提升57.93个百分点[44] 现有范式的局限 - 主流方法如OpenVLA仅使用单帧RGB图像+文本指令,导致目标分布呈现高方差/非平滑特征[7] - 单帧输入导致坐标系混乱问题,在DROID数据集中约67%样本存在此问题[8] - 状态混乱问题:视觉相似观测可能对应完全不同的动作,导致局部不连续[8] 坐标系混乱影响 - 受控实验显示,无3D信息的纯RGB模型在Level 3混乱下成功率仅剩8%,而加入3D坐标编码的模型仍保持30%[17] - 坐标系漂移导致动作标签冲突,严重拖慢模型学习速度[18] 4D-VLA方法创新 - 通过深度图+相机外参将像素反投影到世界坐标,显式嵌入3D位置编码[10][21] - 采用滑动窗口和Memory Bank Sampling动态选取历史帧[25] - 引入可学习相对时间token处理非均匀采样间隔[27] 实验设置 - 预训练使用DROID数据集,包含76,000条轨迹,350小时交互,564个场景[29] - 下游评测使用LIBERO仿真套件,包含130个子任务[29] - 训练使用8张NVIDIA A6000 GPU,耗时约96小时[31] 性能表现 - 在MV-Bench跨视角评测中,4D-VLA成功率73.8%,比OpenVLA提升23.3个百分点[39] - 真实机器人测试显示,加入3D坐标编码使成功率从47%提升至63.67%[44] - 多视角实验中,4D-VLA在极端±45°视角偏移下仍保持40-55%成功率[58] 技术优势 - 3D坐标对齐使模型在不同摄像机坐标中共享统一世界坐标系[40] - 历史帧记忆帮助维持多步推理链,解决长程任务中的失败问题[48] - 时空提示带来视角不变性,使模型聚焦于物体间真实空间关系[40][41]
cVLA:面向高效相机空间VLA模型的关键位姿预测方法
具身智能之心· 2025-07-06 11:54
视觉-语言-动作(VLA)模型研究 - 提出一种新型VLA方法,利用视觉语言模型(VLMs)直接推断机器人末端执行器在图像帧坐标中的位姿,取代传统低级控制指令输出 [2] - 模型设计轻量但高效,采用next-token预测架构学习可执行机器人轨迹,并探索深度图像潜力及解码策略 [2] - 通过模拟数据集训练展现良好模拟到现实迁移能力,结合真实数据验证在机器人系统的有效性 [2] 技术挑战与解决方案 - VLA发展面临三大约束:高计算成本(需大量资源训练)、数据限制(高质量多模态数据集采集难)、评估基准依赖真实世界测试 [3] - 采用可控合成数据集训练轻量VLA系统,基于PaliGemma架构微调,任务定为末端执行器关键位姿单步预测以提升效率 [3][6] - 利用模拟训练构建含丰富相机视角和目标变化的数据集,通过增强设计实现模拟到现实迁移 [3][10] 模型架构与动作表示 - 基础模型基于PaliGemma2微调,输入格式为<实时图像>+<机器人状态>+<任务描述>→<预测轨迹> [6] - 动作表示借鉴RT-1,用离散化令牌编码6自由度夹爪位姿,扩展定位令牌预测深度,分割令牌编码方向 [6] - 深度图通过viridis色图转换为RGB,复用预训练图像编码器处理 [7] 数据集生成与评估 - 使用ManiSkill模拟器生成数据,含CLEVR几何形状和Objaverse真实目标两类3D资产,应用图像增强与随机化 [9][10] - 真实评估采用DROID数据集子集(DROID-hard含干扰目标,DROID-easy测试泛化性),计算预测与真实位姿的L1误差 [11] - 消融实验显示深度信息显著提升模拟成功率,多样化3D资产对泛化至Objaverse场景至关重要 [12] 实验性能与推理优化 - 单样本模仿实验中,CLEVR-easy训练模型在模拟成功率达70%,而hard版本在真实数据表现更优(轨迹L1误差11.56) [16][17] - 输入图像裁剪策略改善小目标定位性能,多预测生成采用beam-search-NMS解码策略优于贪婪搜索(Top-1误差33.42) [18][20][23] - 提出使用平均精度(mAP)评估轨迹分布,设定L1距离阈值反映操作准确性 [23]
具身什么时候可以交卷?哪些产品会率先落地?
具身智能之心· 2025-07-05 10:31
具身智能产业落地分析 - 人形机器人短期内难以实现稳定场景部署 主要受限于本体稳定性不足 摔倒风险高 维修成本高昂 责任归属不明确等问题[1] - 移动操作+机械臂方案更易落地 银河通用G1在服务领域 家居 超市等场景表现优异 智元远征A2-W在工业领域负载能力突出[1][2] - 数据层面亟需大规模基础模型预训练 真实场景数据采集效率和质量是关键 sim2real方案虽解决数据采集难题 但真实场景性能迁移仍需突破[4] 具身智能技术生态建设 - 社区汇聚近200家头部企业及高校 包括斯坦福 清华 优必选 小米等 覆盖40+开源项目 60+数据集及主流仿真平台[13] - 技术路线全面覆盖感知 交互 导航等16个领域 包括强化学习 VLA模型 Diffusion Policy等前沿方向[13][35][51][53] - 硬件生态整合零部件品牌 涉及芯片 激光雷达 ToF相机等 并提供移动+执行硬件方案快速搭建指南[25][29][63] 行业资源整合 - 汇总国内外40+具身智能公司 涉及教育 医疗 物流等细分赛道 30份行业研报持续追踪落地进展[18][20] - 建立完整学习体系 包含机器人动力学 路径规划等基础教材 以及触觉感知 多模态大模型等前沿领域专题[23][37][43][45][47] - 提供仿真平台横向对比 涵盖通用机器人仿真和真实场景仿真两类平台 加速开发流程[33] 人才发展支持 - 实时对接企业招聘需求 包含优必选 逐际动力等头部公司岗位 配套实习项目指导[11][16][70] - 构建项目孵化环境 支持Isaac Sim等仿真框架开发 提供机械臂抓取 四足机器人等实操案例[59][61] - 定期举办行业大咖直播 内容涵盖技术解析 职业规划等 支持录播回看[64][65]
秋招快要开启了!哪里可以找到具身相关的面经和题目啊?
具身智能之心· 2025-07-05 09:42
AutoRobo知识星球概述 - 国内首个专注于自动驾驶、具身智能、机器人方向的求职社区 已运营3年多 近1000名成员 [1][3] - 成员涵盖地平线、理想汽车、华为、小米汽车、momenta、元戎启行等企业社招人员及2024-2025届校招生 [3] - 提供面试题库、行业研报、谈薪技巧、内推资源、简历优化等全链条求职服务 [3][26] 核心资源分类 招聘信息 - 实时更新算法、开发、产品等岗位 覆盖校招、社招、实习 信息直接来自合作企业第一手发布 [5] 自动驾驶领域题库 - 毫米波视觉融合/3D&4D毫米波雷达量产/车道线检测算法/BEV感知等10+专项"一百问"题库 [10] - 规划控制、多传感器标定、端到端自动驾驶等实战技术面试题库 [10][13] 具身智能领域题库 - 多模态3D检测/Cuda-TensorRT部署/Nerf应用/Diffusion Policy等15+细分方向面试题库 [11][13] - 涵盖VLA视觉语言导航、VLN视觉语言导航等前沿技术面试要点 [13] 行业研究支持 - 收录《世界机器人报告》《中国人形机器人发展蓝皮书》等权威研报 [16][17] - 提供具身智能创投报告、技术路线分析、产业链深度研究等决策参考 [16][17] 面经案例库 - 分类整理社招/校招/实习面经 覆盖滴滴、英伟达、美团等企业从技术面到HR面全流程 [20] - 包含自动驾驶SLAM算法、决策规划控制等岗位的成败案例分析 [19][20] 职业发展辅助 - 汇总机器人/自动驾驶/AI领域专业书籍与技能树图谱 [23][24] - 提供转行经验、面试官建议、岗位复盘等职业规划内容 [24] - 专项谈薪技巧与HR面应答策略库 [22][25] 服务价值 - 日均成本0.3元 可获取企业直推岗位与千人行业社群资源 [26]