具身智能之心
搜索文档
西湖大学最新!RobustVLA:面向VLA模型的鲁棒性感知强化后训练方法(优于SOTA方案)
具身智能之心· 2025-11-08 04:00
文章核心观点 - 视觉-语言-动作模型在机器人操作中展现出强大的通用性,但在存在环境扰动的分布外场景中泛化能力受限 [1][5] - RobustVLA是一种轻量级的在线强化学习后训练方法,通过引入双正则化策略,旨在明确增强VLA模型对环境不确定性的鲁棒性 [1][4] - 实验结果表明,RobustVLA在观测扰动、动作扰动及联合扰动场景下的平均成功率均显著优于其他先进方法,验证了其有效性 [20][21][23] 当前行业痛点 - 尽管VLA模型得益于大规模多模态预训练,但在部署时面临观测噪声、传感器误差或执行扰动等不可避免的干扰,导致其在分布外场景中无法可靠泛化 [1][5] - 现有的基于强化学习的后训练方法主要强调奖励最大化,但忽视了应对环境不确定性的鲁棒性,使得模型在真实环境中易因微小扰动出现性能大幅下降 [1][5] RobustVLA的设计逻辑与理论基础 - 方法针对环境不确定性,重点考虑了观测噪声和动作噪声及其联合效应 [4] - 通过系统的鲁棒性理论分析,确立了误差放大界限、回报漂移控制以及鲁棒稳定性保证,并由此推导出正则化优化目标 [4][11][13][18] - 核心设计包括双正则化策略:雅可比正则化用于降低模型对观测噪声的敏感性,平滑性正则化用于在动作扰动下稳定策略 [7][8] - 整体优化目标融合了PPO的优势优化以及两种正则化项,由超参数α和β分别控制其强度 [9][10] - 采用自适应噪声调度机制,基于模型的平滑成功率动态调整注入的噪声强度,避免训练初期不稳定并逐步提升抗扰动能力 [15] 核心实验结果 - 在观测扰动场景下,RobustVLA和RobustVLA-C的平均成功率分别达到82.5%和82.2%,显著优于OpenVLA-OFT的80.6%和RIPT-VLA的80.8% [20] - 在动作扰动场景下,RobustVLA和RobustVLA-C的平均成功率均约为54.7%,超过OpenVLA-OFT的53.5%和ARFM的50.1% [21][22] - 在联合扰动场景下,RobustVLA-C以82.1%的平均成功率大幅领先,显示出在线强化学习方法与双正则化策略的协同优势 [23] - 迁移学习实验显示,RobustVLA在“开抽屉”和“放碗”等任务中,相较于零样本迁移分别提升8.0%和16.0%,展现出更强的分布外适应能力 [25] - 消融实验证明,移除任一种正则化都会导致性能下降,双正则化是鲁棒性提升的关键;可视化分析表明RobustVLA的观测表征在扰动下更稳定 [27]
今晚重磅圆桌讨论:让你的本体轻松实现高质量数采!
具身智能之心· 2025-11-08 00:03
具身智能数据采集的挑战与现状 - 高质量具身数据获取的核心难题在于采集困难 [2] - 数据采集涉及如何教会机器理解世界的持续探索 [2] - 主要挑战包括遥操作作为核心数据来源的必然性、动捕系统在精度与自由度间的平衡难题 [2] 具身智能数据采集的技术路径 - ALOHA等标杆项目揭示了端到端数据闭环范式 [2] - 互联网视频、合成数据与真实机器人数据可构建金字塔式融合框架 [2] - 人机交互设计面临延迟、眩晕与意图识别等终极难题 [2] 行业活动与前沿议题 - 圆桌论坛将剖析具身智能数据采集的底层逻辑、技术瓶颈与创新解法 [2] - 活动将解构数据采集的内容、原因、方法及大规模采集方案 [2] - 近期行业热点包括1X Technologies的NEO、GEN-0和小鹏IRON等机器人产品 [22] 具身智能技术发展趋势 - 灵巧手是打通手-眼-脑感知闭环的关键技术 [22] - Agent技术在思想、学术与工程领域探寻好用真义 [22] - Spec-VLA是首个专为VLA推理加速设计的推测解码框架 [22] - 跨实体世界模型技术可助力小样本机器人学习 [22]
具身领域的图文+问答+路线+视频+研报来了!
具身智能之心· 2025-11-08 00:03
文章核心观点 - 文章旨在推广"具身智能之心"知识星球社区,该社区专注于具身智能领域的技术交流和资源整合 [2] - 社区已汇聚近2000名成员和200家相关公司与机构,提供学术研究、产业落地、求职内推等全方位服务 [20][90] - 社区内容覆盖具身智能全技术栈,包括算法、部署、硬件等多个模块,并汇总了大量开源项目、数据集和学习路线 [2][21] 行业资源汇总 - 汇总了国内外从事具身大脑和本体研发的公司,涉及教育、宠物、工业、救援、物流、交互、医疗等多个方向 [2][26] - 整理了国内外知名高校的具身智能实验室,包括斯坦福大学、加州大学、清华大学、上海交大等40多所机构 [20][23] - 汇总了机器人行业知名零部件制造厂商,涵盖芯片、激光雷达、相机、IMU、底盘等关键部件 [34] 技术研究内容 - 算法层面收拢了VLA(视觉语言动作)、VLN(视觉语言导航)、运控、仿真、触觉感知等多个研究方向 [10] - 部署层面主要集中在云端推理,边缘侧基于索尔的VLA模型方案已落地,小鹏等公司基于自研芯片完成VLM/VLA部署 [10] - 社区汇总了近40+开源项目、60+具身智能相关数据集以及行业主流仿真平台 [21] 硬件产品推荐 - 推荐SO-100系列机器人本体,可运行VA和VLA算法并实现常见功能 [3] - Openarm为双臂任务框架,缺乏移动能力但可完成叠衣服、pick and place等任务 [5] - XLerobot具备一定移动能力,适合入门科研和个人开发,可适配移动操作任务 [7] - 高成本开发平台包括方舟无限、星海图、宇树等品牌产品 [9] 社区服务内容 - 提供技术路线分享、直播、问答、求职、赛事等多个版块,形成产业、学术、求职的闭环生态 [10] - 与多家具身公司建立内推机制,可第一时间将简历送达心仪公司 [20] - 定期举办圆桌论坛和直播,分享从本体、数据到算法的行业动态 [14] - 汇总机器人导航、动力学、运动学等基础学科的PDF书籍资源 [32]
智源研究院智星计划:海外招聘(具身智能/多模态/类脑模型等)
具身智能之心· 2025-11-08 00:03
智星计划-海外招聘项目概述 - 项目是北京智源人工智能研究院面向全球顶尖高校应届毕业生的战略性人才招募项目 专注于引进培养海外高水平人工智能研究人才 [2] - 入选者将受邀赴北京开展6个月及以上的科研访问 与国际一流团队攻关前沿课题 并进入智源人才生态体系 [2] 项目核心优势 - 提供直通研究院全职录用机会 表现优异者可优先获得PI 研究员或博士后职位 [5] - 开放智源前沿课题与超算资源 与领域内领军研究者共同工作 [5] - 配备学术导师和行政导员 提供科研与生活全方位支持 包括长期学术发展与资源支持 [7] 福利待遇 - 提供国际旅费 科研补助 住宿 医疗和生活津贴等全方位保障 [8] 招募对象与要求 - 面向顶尖高校及实验室在读华人博士 博士后及正式科研人员 [9] - 研究方向涵盖类脑模型 智慧心脏 具身智能 多模态和AI4S等领域 [9] - 申请者需已在NeurIPS ICML ICLR CVPR ACL等顶会以第一作者发表论文≥3篇 或展现出卓越科研潜力 [9] 申请流程 - 全年接收申请 滚动评审 录满即止 [11] - 流程包括联合意向 材料准备 学术评估 面试评审和正式邀请等环节 [9][10] 项目愿景 - 旨在与入选者共同开展具有世界影响力的研究课题 在全球AI创新浪潮中成就卓越 [12] - 构建长期深入合作关系 与智源研究员共同制定实施研究计划 访学结束需提交研究成果报告 [12]
ICML 2026新规「避坑」指南:参会非必须、原稿将公开、互审设上限
具身智能之心· 2025-11-08 00:03
ICML 2026会议基本信息 - ICML 2026将于2026年7月7日至12日在韩国首尔举办,采用双盲审稿机制,录用论文将在大会展示 [4] - 提交网站开放日期为2026年1月8日,建议作者在此日期前完成OpenReview账户注册 [15] - 摘要提交截止日期为2026年1月23日,全文提交截止日期为2026年1月28日,均为严格截止,无任何延期 [15][16][17] 投稿格式与页数要求 - 投稿须以单个文件提交,正文部分最多8页,参考文献、影响声明和附录页数不限 [5][14] - 论文被录用后,作者可在最终版本中为正文部分额外增加1页 [6] - 补充材料不再设单独提交截止日期 [14] 政策变更:参会与论文公开 - 论文被接收后,作者可选择是否亲自到会现场报告,或仅将论文收录至会议论文集 [7] - 无论作者选择哪种方式,所有录用论文在论文集中的待遇相同,均有资格参与奖项评选 [8] - 对于所有被录用的论文,除最终定稿版本外,大会还将公开原始投稿版本、评审意见、元评审、rebuttal及评审讨论记录 [10] - 被拒稿的论文作者也可选择公开其原始投稿版本及相关评审材料 [10] 互审要求与作者责任 - 所有提交必须至少有一位作者同意担任ICML审稿人,且具备审稿资格 [23] - 新规要求一位作者最多只能在其本人的2篇提交中被指定为互审审稿人 [23] - 若某作者有4篇或以上投稿,则必须担任ICML评审员;若评审员短缺,此门槛可降至3篇 [23] - 未满足互评要求,或未按时/草率完成评审的评审员,其投稿可能被直接拒稿 [19][23] 评审伦理与AI使用规定 - 禁止双重/并行投稿,违规将导致稿件被拒或移出会议论文集 [20] - 允许使用生成式AI辅助写作或研究,但作者须对论文内容负全部责任,LLM不能署名为作者 [23] - 禁止任何形式的“提示注入”,违者直接拒稿 [23] - 评审过程中可能会使用AI工具辅助,但不会允许完全由AI执行评审 [23] 征稿主题与内容要求 - 征稿主题涵盖通用机器学习、深度学习、强化学习、机器学习理论、优化、可信机器学习及应用驱动型机器学习等多个领域 [15] - 论文应报告原创、严谨且对机器学习领域有重要意义的研究成果,所有论点必须以可复现实验或坚实的理论分析支持 [23] - 每篇论文须附带潜在社会影响说明,置于论文末尾独立部分,不计入页数限制 [25] - 被接收论文作者需提交简明易懂的通俗摘要,以便向公众传达研究意义 [26]
很多同学正在为科研平台发愁?我们却悄悄推出了一款好用的......
具身智能之心· 2025-11-07 10:01
产品定位与目标客群 - 产品为面向具身智能科研领域的轻量级高性价比机械臂Imeta-Y1 [1] - 目标客群为学生、教育工作者及机器人领域初学者,旨在帮助其低成本、高效率完成算法验证与项目开发 [2] 核心产品优势 - 提供全流程开源工具链与代码示例,覆盖从数据采集、模型训练到推理部署的全过程,支持视觉、力控等多模态数据融合 [3][17][32] - 兼容TensorFlow、PyTorch等主流AI框架,并已适配ALOHA ACT算法,可在GeForce RTX 4060显卡上进行训练与推理 [17][46] - 提供URDF模型,支持Gazebo等主流仿真环境与真机实时联动,实现算法仿真验证后一键部署至物理设备 [17][22] - 支持Python与C++双语言开发接口,并兼容ROS1与ROS2系统 [3][18][19] - 提供快速响应的售后与生态服务,承诺24小时内响应 [3][19] 机械臂核心性能参数 - 机械臂本体重量为4.2千克,额定负载为3千克,具备6个自由度 [8][19] - 工作半径为612.5毫米,重复定位精度达到±0.1毫米 [8][19] - 供电电压为24V,采用PC作为控制器,通讯方式为CAN [8][19] - 关节最大运动速度:J1、J2、J3关节为180°/秒,J4、J5、J6关节为220°/秒 [8][19] 配套工具与兼容性 - 提供完整的开源软件开发工具包,包含驱动程序、API接口及示例代码 [26] - 目前已适配Intel RealSense D435系列及奥比中光DCW2等型号相机 [46] - 在开源模型方面,目前已适配leRobot和ACT,并计划逐步适配RT-1、RT-2等模型 [46]
逆天了,马斯克万亿美元薪酬通过!和Optimus一起热舞庆祝~
具身智能之心· 2025-11-07 00:45
公司重大事件 - 特斯拉股东批准了埃隆·马斯克价值1万亿美元的薪酬方案 [1] - 股东授权比例为75% [1] - 马斯克需达成12项雄心勃勃的里程碑目标,包括市值目标、营收指标和盈利基准 [7] - 该事件在年度股东大会上引发热烈反响 [7]
银河通用&清华推出DexNDM,用神经动力学重塑灵巧操作
具身智能之心· 2025-11-07 00:05
文章核心观点 - 清华大学与北京大学研究团队提出名为DexNDM的新方法,旨在解决灵巧手在真实世界中执行复杂手内物体旋转任务的仿真与现实鸿沟难题 [2][4] - DexNDM通过创新的关节级神经动力学模型和全自动数据采集策略,实现了对各类物体在多种腕部姿态下的通用、稳定旋转,其能力远超现有工作 [5][7][12] - 基于DexNDM强大的原子技能,研究团队构建了一套高灵巧性、高鲁棒性的半自主遥操作系-统,能够完成使用螺丝刀、锤子等复杂工具操作以及长程家具装配任务 [5][21] 技术背景与挑战 - 高灵巧性复杂工具遥操作是机器人领域的核心挑战,传统直接映射方案仅能处理简单抓取任务,无法胜任精细指尖协调的复杂操控 [4] - 手内物体旋转是灵巧手“灵巧性”的集中体现,也是使用大多数工具的前提,但其涉及复杂且快速变化的接触动态,仿真与现实鸿沟巨大 [4] - 以往研究受限于特定场景,如简单物体几何形状、受限物体尺寸或特定手腕姿态,难以形成通用解决方案 [4] 技术亮点与性能突破 - **全场景物体覆盖**:首次实现在手掌朝下、侧向等挑战性腕部姿态下,对长条状物体沿长轴的持续稳定旋转,以及对微小物体沿多轴的灵巧转动 [7] - **极广物体覆盖**:使用通用的Leap Hand机械手,在旋转复杂几何体时性能相当甚至优于此前最佳工作Visual Dexterity所用的定制化D'Claw机械手 [12] - **全姿态精准操控**:对腕部姿态和旋转轴向具有强大适应性,无论机械手处于何种朝向,都能稳定、精确地完成指令 [17] - **高灵巧性遥操作系-统**:操作者仅需通过手臂控制机械臂位姿并下达简单指令,系统便能自适应规划并执行精细手指运动,完成如拧螺丝、切菜、锤钉子、写字等复杂工具使用任务 [21] - **高鲁棒性**:系统能够胜任对稳定性要求极高的长程装配任务,例如成功完成了为一张桌子安装全部四条桌腿的完整装配流程 [21] 核心技术方法 - **关节级神经动力学模型**:将复杂的交互动力学在每个关节进行分解,通过从单关节历史信息中独立预测其自身下一时刻状态,完成全手状态转移预测,此方法具有高数据利用效率和强泛化能力 [24][27] - **自动化数据采集系统(“混乱之盒”)**:将机器人手放入装有软球的容器中,以开环方式重放仿真基础策略动作,手与球的相互作用会施加丰富、随机化载荷,整个过程完全自动化且无需人工复位 [28] - **残差策略训练**:利用已学习的动力学训练一个残差策略网络,输出校正量以补偿基础策略的动作,从而弥合仿真和真实世界之间的动力学差距 [25][30] 行业意义与前景 - DexNDM在Sim-to-Real这一机器人学核心难题上迈出重要一步,解决了在灵巧操控中学习可靠真实世界动力学模型的难题 [31] - 该技术为真实世界中复杂的交互动力学建模提供了新思路,并为交互数据采集困难昂贵的问题提出了巧妙有效的解法 [25][31] - 研究成果展示了先进Sim-to-Real方法的潜力,为实现机器人在工厂拧螺丝、在家切菜做饭等复杂操作愿景提供了可行的技术路径 [2][5]
具身智能之心双十一优惠来啦!
具身智能之心· 2025-11-07 00:05
营销活动概览 - 公司于双十一期间推出具身智能相关产品与服务的大额优惠活动 活动时间为11月1日至11月11日 [1][2] - 优惠范围涵盖系列课程 知识星球会员 论文辅导服务以及机械臂等开发组件 [1][3] 课程产品优惠 - 具身智能系列课程提供优惠 单门课程价格为8 BT 三门课程组合价格为7 BT [2] - 为新用户提供7折优惠 为续费用户提供5折优惠 [3] 硬件产品优惠 - 科研平台机械臂产品在此次活动中提供最大优惠力度 [3] - 具身机械臂与开发组件等硬件产品参与促销 [1] 咨询与参与方式 - 公司提供指定联系方式AlDriver005供客户咨询更多活动详情 [3]
首个开源扩散VLA:Unified DVLA!实现SOTA性能+4倍加速
具身智能之心· 2025-11-07 00:05
核心观点 - 提出了一种名为UD-VLA的Diffusion Large Language Model (DLLM)模型 该模型是首个全面开源的Diffusion VLA模型 在性能上达到SOTA水平 同时相比自回归模型实现了四倍的加速 [3] - 模型的核心创新在于提出了联合离散去噪过程 (Joint Discrete Denoising Diffusion Process, JD3P) 将未来帧生成和动作预测统一在一个框架内 实现了图像生成和动作预测的相互裨益 [3] - 在主流基准测试CALVIN LIBERO SIMPLER上进行了全面评测 结果显示UD-VLA在多项任务中表现优异 例如在CALVIN基准的连续任务完成指标上达到4.64 优于其他对比模型 [15] 模型架构与方法 - 采用统一标记化 (Unified Tokenization) 将文本、图像和动作使用不同的标记器离散化为标记 并拼接成单一多模态序列 序列结构为[文本标记 ; 当前图像标记 ; 未来图像标记 ; 动作标记] [7] - 设计了混合注意力机制 (Hybrid Attention Mechanism) 保持不同模态间和文本模态内的因果性 而视觉和动作模态内保持双向 使动作在去噪过程中持续受益于图像的去噪过程 [7] - 提出了联合离散去噪过程 (JD3P) 动作与图像在同一个去噪步骤中并行生成 采用单步掩码预测目标 仅对被掩码位置计算交叉熵损失 [9] 训练与推理 - 训练分为两个阶段 第一阶段在大规模视频数据集上进行后训练以注入未来图像生成能力 第二阶段共同优化图像和动作生成 并将自回归解码重构为扩散过程 [10] - 推理时采用并行解码与自适应掩码 初始化所有位置为掩码并进行少量迭代 同时使用前缀KV缓存与预填充机制 复用前缀标记的KV缓存以引导去噪 [11][12] - 引入了基于置信度的解码机制 通过置信度对掩码位置进行排序 并使用温度化的Gumbel采样进行更新 以提升推理速度并保证动作质量 [13] 性能评测 - 在CALVIN基准的长周期机器人操作任务中 UD-VLA在连续完成5项任务的成功率上达到0.840 平均任务长度达到4.64 优于包括MODE MDT UP-VLA在内的多个先进模型 [15] - 在LIBERO基准测试中 UD-VLA在空间、物体、目标和长周期任务上的平均成功率为92.7% 与DreamVLA的92.6%相当 在长周期任务上达到89.6% [16] - 在具体任务如放置勺子、放置胡萝卜、堆叠积木和放置茄子中 UD-VLA的整体成功率为62.5% 高于F1模型的59.4%和To-FAST模型的48.3% [16]