具身智能之心

搜索文档
浙大具身智能VLN+VLA统一框架:ODYSSEY
具身智能之心· 2025-08-25 00:04
ODYSSEY框架核心创新 - 提出分层视觉-语言规划器 将基于自我中心感知的长期指令分解为可执行动作 弥合自我中心感知与语言任务间差距 [4] - 设计首个适用于复杂地形的四足机器人全身控制策略 协调运动和操作 实现从模拟到现实的有效迁移 [4] - 构建首个长期移动操作基准测试 覆盖广泛现实世界室内外场景 提供语义推理/任务规划/导航/操作能力全面测试平台 [4] - 实现模拟到现实迁移 现实部署展现强大泛化能力和鲁棒性 验证非结构化环境部署可行性 [4] 研究背景与动机 - 移动操作在动态非结构化环境中至关重要 需结合移动性/操作/实时感知实现复杂任务如微妙调整位置抓取物体 [5] - 现有研究局限:大型语言模型多局限于桌面场景 未解决移动平台感知受限和执行器范围有限问题 [5] - 开放世界环境中操作策略泛化能力不足 非结构化环境中高平台机动性与精确末端执行器控制的双重需求研究不足 [5] - 研究动机为解决上述局限 提出统一移动操作框架实现四足机器人开放世界长期任务执行 [5] 技术架构设计 - 全身控制策略定义为单一网络 将观测向量映射到目标动作 观测包括运动指令/末端执行器目标/局部地面高度图/重力向量等 [9] - 输出动作为默认关节配置偏移量 通过PD控制器转换为扭矩 [9] - 全局规划器融合RGB和LiDAR流构建空-语义表示 利用预训练基础模型映射实例图 [10] - GPT-4.1分解自然语言指令为原子动作 输出粗略目标航路点 投影到2D占用图生成无碰撞目标姿态 [10] - Qwen2.5-VL-72B-Instruct根据RGB观测推断任务相关接触点 投影到深度图像恢复3D位置 根据几何约束确定末端执行器朝向 [10] 训练方法 - 采用两阶段训练:第一阶段固定机械臂关节训练静态负载运动 引入步态奖励和频率奖励改善探索效率 [11] - 第二阶段控制所有18个关节 扩展奖励函数包括末端执行器跟踪项 采用地形不变采样策略提高交互精度 [11] - 全程运用领域随机化增强不同负载适应性 [11] 基准测试构建 - 资产库包含50个刚体物体/15个容器/30个关节结构/10个可拖动物体 [20] - 10个真实场景涵盖室内家居/超市/餐厅/室外庭院等 [20] - 从物体布局/物理属性/环境条件/地形复杂性四维度引入变化确保泛化能力 [20] - 多阶段任务套件包括短期操作技能和长期移动操作任务 长期任务由2-3个子目标组成 共246个室内和58个室外变化 [20] - 模块化评估协议同时评估整体任务成功率和每个动作成功率 [20] 性能评估结果 - 短期任务评估显示在所有数据集实现显著改进 仅依赖单个自我中心摄像头下优于PerAct的精细操作能力 [17] - 在未见数据集上性能保持稳定 PerAct性能急剧下降 表明具备处理未见物体配置的泛化能力 [17] - 长期任务评估涵盖8个移动操作任务 整体成功率均达40%以上 原子技能成功率保持60%以上 [19][29] - 导航成功率表现优异:室内导航成功率97.4%-98.4% 室外导航成功率95.6% [19] - 抓取成功率72.7%-85.0% 放置成功率76.5%-96.8% 推/拉操作成功率71.0%-94.1% [19] 模拟到现实迁移 - 使用Unitree Go2四足机器人和Arx5机械臂构建平台 配备MID-360 LiDAR定位和D435i/D405 RealSense相机 [36] - 现实世界测试两个长期任务("导航到抓取"和"抓取和放置") 使用五种不同物体 [36] - 成功实现任务规划和执行从模拟到现实的迁移 [37] - 存在模拟到现实差距:抓取小物体时因末端执行器跟踪和视觉感知不准确导致失败 [37] 未来发展方向 - 将基准测试扩展为全面评估范式 评估视觉-语言模型和移动操作器的跨体现语义推理和运动-操作协调能力 [38] - 探索主动感知新兴能力 使动态场景理解和自适应运动协同作用 实现更有效现实世界交互 [38] - 解决杂乱非结构化环境中新行为 进一步弥合高层规划和低层控制间差距 [38]
具身智能之心人形机器人交流群成立啦~
具身智能之心· 2025-08-24 13:22
行业动态 - 具身智能领域正积极组建人形机器人技术交流群 旨在促进相关技术方向的专业交流与合作 [1] - 交流群重点关注人形运控 VLA模型 数据采集及硬件等核心技术创新领域 [1] - 行业通过专业社群形式整合技术资源 推动人形机器人产业链上下游协同发展 [1][2]
就在明天!英伟达具身机器人“新大脑”即将揭晓
具身智能之心· 2025-08-24 12:36
英伟达机器人技术发布 - 英伟达预告2025年8月25日发布机器人相关产品 配图为黑色礼盒和签名贺卡 [2] - 黄仁勋在预告视频中表示"致机器人:好好享受你的新大脑吧" 并展示人形机器人阅读贺卡场景 [4] 物理AI技术进展 - 英伟达在SIGGRAPH会议发布开源物理AI应用和视觉推理模型Cosmos Reason 使机器人能基于知识进行人类式推理并执行现实行动 [4] - 视觉推理模型案例:机器人手臂根据"面包+烤面包机"场景推断出需将面包放入烤面包机 并将逻辑转化为操作指令 [5] - 物理AI定义为使用运动技能理解并交互现实世界的模型 通常封装于机器人或自动驾驶汽车等自主机器中 [6] - 物理AI使自主机器能感知、理解并执行复杂现实世界操作 [6] 行业趋势与市场前景 - 英伟达高管称物理AI将撬动万亿美元级市场 [7] - 机器人产业在技术迭代、场景落地和行业标准方面取得进展 国内外迎来密集催化 [7] - 华为、字节、比亚迪、小米、广汽等国内企业加码具身智能 特斯拉、1X、Figure AI等海外企业加速商业化量产 [7] - 人形机器人进入工业场景成为国内外确定性较高的应用趋势 商业化落地可期 [7] 技术范式演进 - 黄仁勋提出AI经历三代范式转移:从意识AI到生成式AI 再到代理式AI 下一波浪潮将是物理AI(机器人时代) [6]
具身真实场景的机器人数据集汇总
具身智能之心· 2025-08-22 16:03
点击下方 卡片 ,关注" 具身智能 之心 "公众号 本文只做学术分享,如有侵权,联系删文 >> 点击进入→ 具身智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有你想要的。 最近很多同学问真机开源数据,今天也为大家汇总下具身真实场景的机器人数据集. BRMData: Empowering Embodied Manipulation: A Bimanual-Mobile Robot Manipulation Dataset for Household Tasks(2025) 项目链接:https://robotics-transformer-x.github.io/ DROID: A Large-Scale In‑The‑Wild Robot Manipulation Dataset(RSS 2024) 项目链接:https://droid-dataset.github.io/ RH20T: A Comprehensive Robotic Dataset for Learning Diverse Skills in One‑Shot(ICR ...
ICCV 2025 | 打造通用工具智能体的基石:北大提出ToolVQA数据集
具身智能之心· 2025-08-22 16:03
数据集概述 - 提出ToolVQA数据集 包含23,655条样本 专为多模态多步骤推理任务设计[2][3][7] - 覆盖10种多模态工具和7类任务领域 每条样本平均涉及2.78步工具调用[3][22] - 采用真实世界图像场景 包括新闻图片/电商场景/考试题图等多源类型[15] 技术创新 - 开发ToolEngine自动生成框架 通过深度优先搜索(DFS)模拟人类工具调用链条[17][18] - 引入动态上下文示例匹配机制(LCS) 实现非模板化的灵活路径组合[19] - 全自动生成流程无需人工标注 数据构建准确率达90.8%[15][20] 性能表现 - 微调后的LLaVA-7B模型在ToolVQA测试集上超越GPT-3.5-Turbo[24] - 在分布外数据集TextVQA准确率达47% 显著高于GPT-3.5-Turbo的36.3%[25] - 小样本学习实验中 10-shot设定下微调模型准确率达20.69%[26] 应用价值 - 支持文本与图像双模态输入输出 平均查询长度15.7词 答案长度2.7词[22] - 涵盖OCR/图像字幕生成/区域描述/绘图/计算器等10类工具[15][22] - 为多模态工具智能体研究提供系统性训练与评估基准[31] 局限性分析 - 参数预测错误率较高 如关键信息遗漏导致工具返回无关内容[27] - 答案整合存在缺陷 模型可能错误选择工具返回的正确信息[27] - 多步推理中存在误差累积效应 早期错误会导致后续连锁失败[27]
又帮到了一位同学拿到了VLA算法岗......
具身智能之心· 2025-08-22 16:03
具身智能行业发展趋势 - 具身智能行业处于早期发展阶段 对标自动驾驶行业2017-2018年阶段 仍存在窗口期机会 [83] - 技术发展重点从传统SLAM转向大模型和端到端方案 传统机器人从业者与具身感知技术派系分化明显 [83] - 行业平均薪资水平较高 初创公司1-2年工作经验人员总包可达70-80万 但稳定性较差 [83] 技术发展重点 - 视觉语言模型(VLA)和视觉语言动作模型(VLA)成为技术热点 应用涵盖机器人抓取与规划任务 [2][58] - 强化学习与VLA结合(VLA+RL)成为重要技术方向 [40][42] - 多模态大模型技术快速发展 涵盖理解与生成两大方向 包括Image+Text到Text等多种模态组合 [52][54] - 仿真技术(sim2real)和数据采集成为关键环节 存在real2sim2real等解决方案 [2][66] 人才需求与就业情况 - 企业招聘偏好有实习经验的候选人 机器人创业公司普遍要求实习经历 [81] - 自动驾驶领域人才向具身智能领域迁移 技术栈通用性较高 [80][83] - 算法岗位需求旺盛 VLA算法岗位薪资较高 某案例显示强化学习岗位薪资达(N+6000)*15水平 [1][81] 技术社区生态 - 具身智能之心知识星球为国内首个具身全栈技术社区 成员近2000人 目标2年内达到近万人规模 [1][16] - 社区汇聚40+开源项目 60+数据集 30+技术路线 覆盖感知、交互、导航等全方位技术领域 [16] - 社区成员来自斯坦福大学、清华大学等顶尖高校和智元机器人、优必选等头部企业 [16] - 建立企业内推机制 与多家具身公司合作提供岗位对接服务 [10] 技术资源体系 - 汇总国内外40+高校实验室资源 提供读研、申博参考 [18][20] - 汇总国内外具身机器人公司 涵盖教育、工业、医疗等多个应用方向 [21] - 整理机器人相关书籍 包括导航、动力学、运动学等基础学习资料 [26] - 汇集零部件制造厂商信息 涵盖芯片、激光雷达、相机等核心部件 [28] 技术应用方向 - 视觉语言导航成为自动驾驶与机器人的重要应用领域 [48] - 触觉感知为前沿应用方向 包括传感器应用和多模态算法集成 [50] - 机械臂技术涵盖抓取、位姿估计和策略学习等多个环节 [69] - 双足与四足机器人技术发展迅速 提供从零搭建机器人的完整方案 [71] 学习与培训体系 - 为入门者提供完整技术栈和学习路线 [11] - 为从业者提供产业体系和项目方案 [13] - 社区提供问答交流、直播分享等多元学习方式 [76][78] - 建立专家答疑机制 数十位产业界和工业界大佬提供技术支持 [2]
小模型也能超越GPT-4o!邱锡鹏团队WAP框架打造「世界感知」智能体
具身智能之心· 2025-08-22 00:04
核心观点 - 大规模视觉语言模型在具身规划任务中存在处理复杂场景的困难 但环境感知规划叙事增强框架通过四项认知能力注入全面环境理解 显著提升任务成功率 并在基准测试中超越专有系统 [2][6] 技术框架 - 环境感知规划叙事增强框架整合视觉外观建模 空间推理 功能抽象和语法接地四项认知能力 为模型提供全面环境理解 [2] - 仅通过课程学习使用原始视觉观测数据来开发和评估模型 不依赖与环境无关的模仿学习 [2] 性能表现 - 在EB-ALFRED基准测试中 Qwen2.5-VL实现60.7%的绝对任务成功率提升 [2] - 常识推理方面提升60.0% 长周期规划方面提升70.0% [2] - 增强后的开源模型大幅超越GPT-4o和Claude-3.5-Sonnet等专有系统 [2] 模型参数 - 框架将7B参数模型任务成功率提升60.7% [6] 应用领域 - 多模态模型在具身规划任务面临严峻挑战 该研究为具身规划带来新的可能 [6] - 研究涉及从视觉到行动的创新框架 突破多模态模型的具身规划瓶颈 [7]
3个月!搞透VLA/VLA+触觉/VLA+RL/具身世界模型等方向!
具身智能之心· 2025-08-22 00:04
具身智能技术演进 - 技术发展经历了四个阶段:从抓取位姿检测(单步决策缺乏任务上下文建模)到行为克隆(端到端模仿但泛化能力弱),再到2023年Diffusion Policy(扩散模型生成动作轨迹提升稳定性与泛化能力),最终进入2024年Vision-Language-Action模型阶段(多模态协同支持零样本泛化)[6][7] - 2025年技术探索聚焦VLA模型与强化学习、世界模型、触觉感知的融合,以弥补"只能理解不能反馈""只能关注当下不能看见未来""只能看不能触"的局限[8] - 技术演进路径体现从"低层感知->中层策略->高层理解"的能力补齐,逐步迈向通用任务和开放环境智能体时代[9] 产业生态与竞争格局 - 国内企业如华为2024年底启动"全球具身智能产业创新中心"并与乐聚机器人、大族机器人合作建设大脑与小脑关键技术;京东自2025年5月连续投资智元机器人、千寻智能、逐际动力以强化物流与家庭服务场景能力;腾讯、蚂蚁、小米等通过战略投资加快生态构建[5] - 国外企业如Tesla/Figure AI聚焦工业与物流机器人应用;美国投资机构支持Wayve、Apptronik等公司落地自动驾驶与仓储机器人[5] - 国内以产业链投资与综合平台驱动落地,国外侧重基础模型、模拟环境与类人机器人原型研发,双方进入关键竞赛阶段[5] 应用场景与商业化进展 - 技术发展推动人形机器人、机械臂、四足机器人等产品在工业、家居、餐饮、医疗康复等领域落地,相关产品和融资活动活跃[9] - 岗位需求呈现爆发式增长,吸引大量人员转入具身智能领域研究[9] 技术体系与学习框架 - 具身智能核心模块分为大脑(语义理解与任务规划)和小脑(高精度运动执行),需系统学习灵巧操作、移动操作、仿真框架、Diffusion Policy、VLA及融合技术[1][20] - 主流仿真框架包括Mujoco(生态系统架构与接口)、Isaac Gym(数据采集与可视化)、Pybullet(数据集与接口)[21] - 关键技术方法涵盖Diffusion Policy数学原理与3D点云融合、VLA模型(OpenVLA/PI0/SmolVLA架构与性能对比)、VLA+强化学习/触觉/世界模型的融合方案[21]
Cocos系统:让你的VLA模型实现了更快的收敛速度和更高的成功率
具身智能之心· 2025-08-22 00:04
核心观点 - 扩散策略训练中存在损失崩塌问题,导致训练效率低下和策略性能下降 [3] - 提出Cocos方法,通过将源分布修改为依赖于生成条件的分布来解决损失崩塌问题 [3] - Cocos方法显著提高训练收敛速度和任务成功率,且与现有扩散策略架构兼容 [3] 技术原理 - 流匹配方法通过求解常微分方程将简单源分布转化为复杂目标分布 [5] - 条件分布流匹配的优化目标为$$\mathcal{L}_{\text{CPMc}}(\theta):=\mathbb{E}_{t,q(x_{0}),q(x_{1},c),p_{t}(x|x_{1},x_{0})}\left\|v_{\theta}(t,x,c)-u_{t}(x|x_{1},x_{0})\right\|^{2}$$ [5] - 损失崩塌发生时神经网络难以区分生成条件,优化目标退化为对边际动作分布的建模 [6] - 梯度差异上界为$$\left\|\nabla_{\theta}{\mathcal{L}}_{\mathrm{CFMc}}(\theta,c_{1})-\nabla_{\theta}{\mathcal{L}}_{\mathrm{CFMc}}(\theta,c_{2})\right\|\;\leq\;2\left(M+K D\right)\epsilon$$ [6] 方法实现 - Cocos的优化目标定义为$$\mathcal{L}_{\mathrm{Cocos}}(\theta):=\mathbb{E}_{t_{\tau/(x_{0}|c)},q(x_{1},c),p_{t}}\left\|v_{\theta}-u_{t}\right\|^{2}$$ [9] - 源分布采用$$q(x_{0}|c)=\mathcal{N}(x_{0};\alpha F_{\phi}(\mathcal{E}(c)),\beta^{2}I)$$形式 [9] - 实验使用DiT架构插入交叉注意力层融入视觉和语言信息 [9] - 视觉编码使用Dinov2,语言编码使用T5 [9] 实验结果 - LIBERO基准测试中Cocos达到94.8平均成功率,对比基线86.5提升8.3个百分点 [23] - MetaWorld任务中Cocos在faucet-open任务取得100%成功率,较基线84.0提升16个百分点 [16] - 现实世界xArm机械臂任务Cocos获得93.3%成功率,较基线67.3%提升26个百分点 [16] - SO100机械臂任务Cocos达到74.8%成功率,较基线59.5%提升15.3个百分点 [16] 案例研究 - LIBERO任务中Cocos策略成功区分多视角相机,非Cocos策略出现相机注意力崩塌 [18] - 腕部相机意外脱手时,Cocos策略仍能通过外部相机定位目标 [18] - 余弦相似度显示Cocos对所有视角相机的区分能力均高于非Cocos策略 [18] 源分布设计 - 标准差0.2时LIBERO平均成功率94.8%,0.1时降至77.5% [23] - VAE训练源分布效果与手动设计0.2标准差相当,达到93.8%成功率 [23] - 同时训练源分布和扩散策略需配合EMA更新机制以保持稳定性 [24]
比H20还要强大!英伟达最新B30A芯片曝光
具身智能之心· 2025-08-21 00:03
英伟达新AI芯片开发 - 公司正在开发代号为B30A的新AI芯片,性能将超越H20型号 [2][3] - 芯片基于Blackwell架构,采用单芯片配置,原始算力约为B300 GPU双芯片配置的一半 [4][6] - 具备高带宽内存和NVLink技术,支持处理器间快速数据传输 [8][9] - 芯片生产速度预计比之前快7到30倍 [10] - 计划下月开始交付测试,规格尚未完全确定 [7] 芯片产品线扩展 - 公司同时开发另一款低成本AI芯片RTX6000D,基于Blackwell架构,专注于AI推理任务 [18][19] - RTX6000D采用GDDR内存,带宽达每秒1398GB,预计9月小批量交付客户 [20] - B30芯片首次支持多GPU扩展,可通过连接多组芯片构建高性能计算集群 [11] 市场表现与预期 - 公司股价年内上涨超30%,市值曾突破4万亿美元 [13] - 多家投行上调目标价,最高达240美元,因AI算力需求激增及Blackwell架构提速 [14][15] - 市场共识预期第二季度营收458亿美元,每股收益1美元 [15] - 近期高管通过8笔交易卖出15万股,套现2710万美元 [16] 技术架构与规划 - 新产品遵循Blackwell架构路线图,强调商业用途合规性 [11] - 芯片发布时机选择在财报前夕,可能影响市场情绪 [11]