Workflow
具身智能之心
icon
搜索文档
缺数据也能拿SOTA?清华&上海AI Lab破解机器人RL两大瓶颈
具身智能之心· 2025-09-27 01:33
文章核心观点 - 视觉-语言-动作模型是实现机器人复杂环境灵活操作的关键,但现有训练范式存在数据采集成本高和泛化能力不足等核心瓶颈 [2][3] - SimpleVLA-RL作为一种新型端到端在线训练方案,通过交互式轨迹采样、结果奖励建模和探索增强等设计,有效解决了VLA模型训练的三大瓶颈 [4][6][14] - 该框架在多项基准测试中刷新了性能纪录,显著提升了数据效率和模型泛化能力,并展现出自主探索新策略的现象,为VLA模型的高效训练开辟了新路径 [6][9][21] VLA模型训练面临的挑战 - 主流训练流程依赖大规模预训练和有监督微调,但高质量机器人操作轨迹的数据采集成本高昂,从根本上制约了模型的可扩展性 [11] - 有监督微调的学习过程高度依赖特定数据分布,导致模型在面对分布外任务、新环境或未见对象时性能显著下降,尤其在长时序依赖任务中更为明显 [12] - 将强化学习直接应用于VLA训练面临独特挑战,包括传统RL依赖难以扩展的人工设计过程奖励,以及VLA训练需要与物理环境进行多轮交互导致效率低下和成本高昂 [12] SimpleVLA-RL框架的核心设计 - 采用交互式轨迹采样机制,模型直接输出动作token的概率分布并通过随机采样生成多样轨迹,在闭环中不断更新视觉观测和机器人状态直至任务完成 [15] - 使用极简的二元结果奖励建模,将任务成功记为1、失败记为0的奖励均匀分摊到整个轨迹的动作token上,避免了过程奖励的不可迁移性和调参麻烦 [16] - 实施探索增强策略,通过动态采样保留部分成功和部分失败的轨迹组、扩大GRPO裁剪区间以及提高rollout采样温度,鼓励模型进行更多样化的探索 [17][18][19] - 对GRPO目标进行简化,移除了KL散度正则项并不再依赖参考模型,从而减少内存消耗并让新行为的探索不受束缚 [18] 基准测试性能表现 - 在LIBERO单臂操控基准测试中,SimpleVLA-RL将OpenVLA-OFT的平均成功率从91.0%提升至99.1%,其中长时序任务LIBERO-Long提升12.0个百分点至98.5% [23][24] - 在RoboTwin1.0双臂操控基准上,四个任务平均成功率从39.8%提升至70.4%,其中"Blocks Stack"任务提升33.1个百分点至40.2% [25][26] - 在覆盖短/中/长/超长时序12个任务的RoboTwin2.0高多样性双臂基准中,平均成功率从38.3%提升至68.8%,超越π₀和RDT等对比模型 [27][28] - 在"单轨迹SFT"场景下,应用SimpleVLA-RL后,OpenVLA-OFT的LIBERO平均成功率从48.9%提升至96.9%,长时序任务LIBERO-Long从17.3%提升至91.7% [6] 泛化能力与真实世界部署 - 在LIBERO的"9个已见任务训练+1个未见任务测试"实验中,SimpleVLA-RL所有未见任务成功率均提升,其中LIBERO-Object的"Unseen Task 2"提升36.5个百分点,证明RL能学习通用技能而非过拟合特定数据 [29] - 仅使用仿真数据训练,在真实机械臂测试中,SimpleVLA-RL将平均成功率从17.5%提升至38.5%,"Stack Bowls"任务提升32个百分点至70.0%,证明RL能增强仿真模型的真实环境适配性 [30][31] 自主探索与新策略涌现 - 在RoboTwin 2.0任务中,经过SimpleVLA-RL训练的模型能够自主探索并发现更高效的替代策略,例如直接通过"推"的方式将罐子移至目标位置,研究团队将这种现象定义为"Pushcut" [32] - "Pushcut"现象的特征是模型能够突破人类演示模式限制,利用奖励信号探索并采纳演示外的路径,其本质在于结果奖励不约束具体动作模式,而是允许模型自主选择最优行为路径 [33][34]
具身智能之心国庆&中秋双节福利来啦~
具身智能之心· 2025-09-27 01:33
促销活动概览 - 公司于9月24日至10月12日期间推出国庆和中秋优惠活动 [1] - 活动涵盖知识星球、具身课程、硬件、论文辅导及超级折扣卡等多个产品线 [1] 知识星球优惠 - 具身智能之心知识星球新人加入可享7折优惠 [1] - 知识星球老学员续费可享5折优惠 [1] 具身课程优惠 - 多门课程包括VLA、VLN、Diffusion Policy、强化学习、仿真等均提供8折优惠 [2] - 购买超级折扣卡后,1年内所有课程可享7折优惠 [4] 论文辅导优惠 - 1对1论文辅导提供1000元最多可抵扣5000元的优惠 [4] - 1对6的VLA论文辅导提供立减1000元的优惠 [4] 硬件产品优惠 - 硬件产品线包括强化学习平台、具身机械臂(舵机版)和具身机械臂(电机版) [4] - 具体硬件产品包括全栈教研平台黑武士001、足式/强化学习科研平台TRON1以及桌面级机械臂科研平台 [7] 其他福利信息 - 大模型星球售价为99元一年,内容涵盖技术、行业及求职 [6] - 超级折扣卡售价为299元,可享自驾课程一年期七折优惠 [7] - 节后课程价格将再次上涨 [6]
ImaginationPolicy:迈向通用、精确、可靠的机器人操作端到端策略
具身智能之心· 2025-09-27 01:33
文章核心观点 - 研究提出了一种名为“移动定向关键点链”的新型机器人端到端操作方案,该方案以“可用性”为核心,通过任务特定的定向关键点来具象化操作,旨在解决现有端到端方法在可靠性、精度和泛化能力上的不足,实现对不同形状尺寸物体的自然泛化,并达到亚厘米级精度,同时支持多阶段任务、多模态行为与可变形物体操作 [2] 核心背景与问题提出 - 传统模块化机器人操作流水线存在模块间信息损失和特征错位等局限,而现有端到端神经网络方法在实际部署中的性能和可靠性甚至逊色于传统方法,尤其是在面对未见物体或不同机器人平台时泛化能力短板突出 [2] - 研究旨在填补“泛化潜力”与“实际性能需求”之间的差距 [2] 相关工作梳理 - 机器人抓取检测研究广泛,但多局限于单一任务,而提出的方法将其纳入统一动作表示框架,使其成为整体公式的一个特例 [3] - 基于可用性的机器人操作传统研究多适用于特定任务且仅能处理刚性物体,提出的方法则具有通用性,可覆盖多种操作技能并能直接处理可变形物体 [4] - 机器人操作的端到端学习现有方法动作表示多局限于末端执行器位姿或关节角度,提出的方法采用以可用性为基础的定向关键点表示,在泛化性与精度间取得更好平衡 [5] 核心方法:基于可用性的动作表示 - 定义了三种机器人控制权限:对自身末端执行器拥有完全6自由度控制权限;对抓取的刚性物体拥有受物理约束限制的完全6自由度控制权限;对抓取的可变形物体可对抓取的局部区域进行6自由度控制 [6][8][11] - 基础动作表示公式以场景观测和任务描述为输入,输出包含被操作物体、任务相关可用性帧和目标动作帧三部分信息 [9][12] - 该方法具有通用性,当将被操作物体固定为夹爪、可用性帧固定为夹爪TCP帧时,公式即退化为传统的末端执行器位姿动作表示 [14] 方法扩展:覆盖复杂场景 - 多阶段任务扩展:可从全局任务描述自动生成子任务,并结合场景观测动态调整,无需手动设置每个子任务的描述 [15] - 多动作候选扩展:通过分数匹配网络建模动作分布,实现对不同被操作物体或同一物体的不同可用性-动作帧对的多个候选动作的生成 [16][18] - 轨迹动作扩展:将单一动作帧扩展为SE(3)轨迹序列,以支持需连续运动的任务,如切水果和绘画,轨迹类型分为稀疏轨迹和密集轨迹 [19][21] 神经网络架构与实现 - 整体架构分为任务规划网络和动作预测网络两部分,形成端到端流水线 [22] - 任务规划网络微调Groma视觉-语言模型,输入RGBD图像和全局任务描述,输出子任务列表及需关注的环境区域 [24] - 动作预测网络采用Transformer架构,输入场景点云和子任务特征,输出所有子任务的可用性帧与动作帧,核心设计融合了点云特征、任务特征,并采用扩散模型思想进行动作分布建模 [25][27] - 机器人轨迹生成采用两种方式:仿真实验中使用学习型策略,真实世界实验中使用传统任务-运动规划算法 [27] 实验验证与结果分析 - 实验硬件采用6自由度机械臂、平行夹爪和RGBD传感器,任务覆盖四类典型操作场景,需适配不同形状尺寸物体与动态环境 [27] - 动作分布分析结果显示:在稀疏动作分布任务中,挂杯子的平移误差为6.4毫米、旋转误差为5.91度,插电缆的平移误差为8.1毫米、旋转误差为6.53度;在密集动作分布任务中,抓取位姿检测的有效动作比例为86.7%,稳定放置的有效动作比例为83.5% [29][31] - 整体任务成功率:挂杯子任务为91/100,电缆插入任务为87/100,稳定放置任务为95/100 [32][36] - 主要失败模式源于任务规划网络检测失败和机械臂可达性限制 [33][35]
这个具身智能领域的黄埔军校,正在做这些事情......
具身智能之心· 2025-09-26 10:42
社区运营与近期动态 - 社区运营者长期在线处理用户问题,近期正推进硬件方案优化、具身产品测试开发及社区体系完善[1][2] - 计划在假期后呈现更好的社区内容,并已收到多所高校在具身方向的招生需求,提供RA、博士、博士后等职位内推服务[2] - 社区致力于打造超大具身与机器人社区,在求职、升学等关键节点提供帮助,并持续进行产品优化和更新[2] 社区内容与资源体系 - 社区已完成产业、学术、求职、问答交流等多个领域的闭环,提供前沿研究思路和求职岗位对接[5] - 内部梳理了超过30种技术路线,并邀请数十位一线产业界和工业界嘉宾进行答疑解惑[6] - 社区汇总了近40个开源项目、近60个具身智能相关数据集及行业主流仿真平台,并提供多种技术学习路线[13][14] 技术专题覆盖范围 - 数据采集专题涵盖遥操作算法与硬件、RoboTwin 2.0数据生成器等内容[7] - VLA模型专题包括交错图文指令的VLA框架、BridgeVLA方案真机性能提升32%等关键技术[7] - 机器人模型专题涵盖人型机器人运动智能、Reason-RFT具身推理强化微调框架等[7] - 具身世界模型与空间智能专题包括跨实体世界模型、首个具身4D世界模型EnerVerse等[7] 会员福利与专属资源 - 会员可第一时间掌握具身智能学术进展和工业落地应用,与行业大佬交流工作与求职问题[17] - 社区汇总了国内外具身智能高校和公司,涉及教育、宠物、工业、救援等多个方向[16][19] - 提供机器人相关书籍PDF、具身智能零部件品牌、开源项目、ToF与3D相机等资源汇总[25][27][29][31] - 包含数据采集与开源数据、具身智能仿真平台、强化学习/VLA+RL等专项内容汇总[33][37][56]
好用,高性价比!面向具身科研领域打造的轻量级机械臂
具身智能之心· 2025-09-26 02:24
产品定位与核心价值 - 专为教育、科研与轻工业场景设计的轻量级机械臂,旨在解决具身科研领域高性价比硬件需求 [1][2][3] - 产品定位为低成本、高质量,可满足大多数从业人员和科研工作者进行论文验证与科研场景开发的需求 [2] - 融合高精度运动控制、低功耗设计与开放软硬件架构,支持从仿真到真机的无缝联调 [3][4] 核心性能参数 - 机械臂本体重量为4.2千克,额定负载为3千克,具备6个自由度,工作半径为612.5毫米 [6][18] - 重复定位精度达到±0.1毫米,关节运动最大速度最高为220度/秒 [6][18] - 供电电压为24V,通讯方式采用CAN,控制方式支持轨迹跟踪、示教和API [6][18] 软件开发与生态支持 - 提供全流程开源SDK与工具链,支持Python、C++等开发语言,并兼容ROS1和ROS2 [16][17][18][23] - 支持Gazebo等主流仿真环境与真机实时联动,用户可在仿真中验证算法后一键部署至物理设备 [16][20] - 提供从数据采集、模型训练到推理部署的全流程工具链,兼容TensorFlow、PyTorch等主流框架 [16][29] 附加组件与服务 - 提供多种末端执行器选项,重量在631克至704克之间,行程为0-80毫米,定位精度为±0.5毫米 [8][11][13][19] - 交付周期为1-2周,提供及时的售后响应,非人为损坏质保半年 [37] - 支持批量采购优惠,并提供基于本产品的项目开发与教学培训等服务 [18]
VLA这个方向的论文产出,是真的多......
具身智能之心· 2025-09-26 00:04
行业技术趋势 - VLA及其相关衍生方向在机器人与AI顶会中占据近一半的具身产出,重点关注长程操作、泛化、少样本、VLA+RL和人形机器人等领域[1] - VLA技术打破传统单任务局限,使机器人能在多样化场景中自主决策并灵活应对未见环境,广泛应用于制造业、物流和家庭服务[3] - 该模型已成为研究热点,推动pi0、RT-2、OpenVLA、QUAR-VLA和HumanVLA等多个前沿项目发展,促进学术界与工业界合作[3] 产业动态与竞争格局 - 国内外具身智能领域处于蓬勃发展阶段,Unitree、智元、星海图、银河通用、逐际动力等团队正从实验室走向商业化[5] - 华为、京东、腾讯等科技巨头积极布局,与国外Tesla、Figure AI等公司共同推动领域发展[5] - VLA技术具有高度适应性,可应用于机械臂、四足机器人和人形机器人等多种平台,为各类智能机器人发展提供广泛潜力[3] 技术演进与核心挑战 - VLA范式技术演进包括从早期抓取位姿检测到行为克隆,再到近期Diffusion Policy和多模态基础模型[8] - 前沿模型如RT-2、OpenVLA和PI0实现从视觉输入和语言指令到机器人动作的端到端映射,应用于复杂任务规划和执行[9] - 领域面临核心挑战包括跨域泛化、长期规划与世界模型构建,需将大型语言模型推理能力与机器人控制系统结合[9] 前沿研究方向 - 重点关注多模态感知融合、触觉反馈整合、基于物理的推理以及社会互动能力等发展方向[9] - 研究如何突破"看得见但摸不着"、"只关注当下不能预测未来"等局限性,向通用机器人智能迈进[9] - 系统分析具身智能领域未解决难点,包括长期记忆、VLA+RL原子技能库构建、动作解码问题和多模态思维链等前沿方向[14]
RoboDexVLM:基于VLM分层架构的通用灵巧机器人操作
具身智能之心· 2025-09-26 00:04
技术框架概述 - RoboDexVLM是一个面向配备灵巧手的协作机械臂的创新性机器人任务规划与抓取检测框架 [2] - 该框架利用灵巧手抓取不同形状和尺寸物体的能力,并基于自然语言指令执行任务 [2] - 该框架是首个融合视觉语言模型的通用灵巧机器人操作框架,支持自然语言指令下的长序列任务规划与零样本抓取控制 [6] 核心技术组件 - 设计了一个具备任务级恢复机制的鲁棒任务规划器,利用视觉语言模型解析并执行开放词汇指令以完成长序列任务 [2] - 提出了一种基于机器人运动学和形式化方法的语言引导灵巧抓取感知算法,专为零样本灵巧操作而设计 [2] - 框架突破传统方法与端到端方法的局限,为具身智能与人机协作开辟新路径 [6] 功能特性与优势 - 支持语言即指令,让机器人听懂自然语言 [7] - 实现灵巧手操作,具备零样本抓取千奇百怪物体的能力 [7] - 利用视觉语言模型作为“大脑”,确保长程任务执行不迷路 [7] - 全面的实验结果验证了该框架在处理长时序场景和执行灵巧抓取方面的有效性、适应性和鲁棒性 [2] 应用与演示 - 框架展示了在复杂环境中运行的能力,以及在开放词汇灵巧操作方面的潜力 [2] - 直播将展示RoboDexVLM从理论到真实世界的实战表现 [7]
RoboSeek破解了长时程任务的核心难题,当操作任务遇上 “具身认知”
具身智能之心· 2025-09-26 00:04
点击下方 卡片 ,关注" 具身智能 之心 "公众号 Task 1 Task 2 Task 3 Task 4 Task 5 Task 6 Task 7 Task 8 正是在这一技术困境下, RoboSeek 框架 的提出带来了突破性思路,其创新核心源于对 "具身认知理论" 的深度落地 —— 该理论颠覆了 "认知孤立于交互" 的传 统认知,强调智能体的认知能力源于与物体、环境的动态交互。基于这一理念,RoboSeek 构建了 "交互驱动感知与动作联合优化" 的全新架构:通过动态进化的 "注意力空间" 捕捉任务关键信息,用强化学习驱动的具身执行器实现精准动作控制,再借助交叉熵方法迭代优化关键目标,最后通过 "从现实到仿真再到现 实"(real2sim2real)的迁移流程,破解仿真与现实脱节的难题。 这一创新设计的价值不言而喻:在 8 项长时程任务、2 类不同机器人平台的测试中,RoboSeek 实现了 79% 的平均成功率,远超传统基线方法(成功率均低于 50%),不仅为长时程机器人操作提供了稳定可靠的解决方案,更填补了 "具身认知理论" 到 "机器人实际操作" 的落地空白,为通用机器人在真实环境中的应用 开辟了 ...
首个代码世界模型引爆AI圈,能让智能体学会「真推理」,Meta开源
具身智能之心· 2025-09-26 00:04
文章核心观点 - Meta公司发布了一个名为Code World Model的新型代码生成大模型,其采用世界模型架构,旨在通过模拟代码执行过程来提升推理和规划能力,代表了与大语言模型不同的技术路径 [1][5][16] 模型架构与技术特点 - CWM是一个拥有320亿参数的稠密、仅解码器结构的大语言模型,支持长达131k tokens的上下文长度 [7][8] - 模型在Python解释器和智能体式Docker环境中使用了大量观测-动作轨迹进行中间训练,并进行了大规模多任务推理强化学习 [12] - 模型基于大量编码数据和定制的Python + Bash世界建模数据进行训练,使其能够模拟Python函数的执行以及Bash环境中的智能体交互 [22] 模型性能表现 - 在通用编程与数学任务上,CWM表现如下:SWE-bench Verified pass@1为65.8%,LiveCodeBench为68.6%,Math-500为96.6%,AIME 2024为76.0% [8][23] - 在Aider Polyglot基准测试中,采用整文件编辑格式时,CWM的准确率为35.1%,与Gemini 2.0 Pro exp-02-05的35.6%和Grok 3 Mini Beta的34.7%表现接近 [24] - 在Terminal-Bench上,CWM与Terminus 1智能体配合使用的准确率为26.3%,优于Gemini 2.5 Pro的25.3%和o4-mini的18.5% [28] - 在BigOBench复杂度任务中,CWM在时间复杂度预测与生成的全部指标上均超越基线模型,例如时间复杂度的Code Only pass@1达到76.1%,优于Qwen3-32B的70.0% [29][30] 研究意义与未来方向 - CWM提供了一个强大的测试平台,用于探索世界模型在改进代码生成推理与规划能力方面的潜力 [15][31] - 世界模型方法旨在弥合语言层面推理与可执行语义之间的鸿沟,使模型能够预测自身行为的后果,从而实现更有效的决策 [16][17][31] - 消融实验表明,世界建模数据、Python执行轨迹以及可执行的Docker环境能够直接提升下游任务表现 [31] - 该研究支持未来在零样本规划、具身的链式思维、以及稀疏且可验证奖励的强化学习等方向的研究 [31]
CoRL 2025最新工作!ControlVLA:机器人看10遍就会,“通智大脑”能力再升级!
具身智能之心· 2025-09-25 09:54
文章核心观点 - 北京通用人工智能研究院联合星尘智能提出物体中心表征微调框架ControlVLA,使机器人通过极少量(10-20次)人类示范即可掌握复杂任务,成功率超过75%,相较传统方法提升近4倍 [1] - ControlVLA框架结合预训练VLA模型与物体中心表示,通过ControlNet风格架构实现高效少样本微调,大幅缩短机器人训练时间和成本 [1][5][9] - 该技术在星尘智能AI机器人Astribot S1上验证,在8项现实世界任务中总体成功率达76.7%,长时序任务平均成功率达60%,展现出色泛化与执行能力 [1][15][19] 技术原理与方法 - ControlVLA工作流程分为三步:大规模VLA模型预训练、物体中心表示提取、ControlNet式微调适配 [12] - 通过零初始化投影层将预训练VLA模型与以对象为中心表示连接,在不覆盖先验知识情况下引入物体中心条件 [5][10] - 物体中心表示通过GroundingDINO和SAM2对任务相关物体进行分割与跟踪,提取几何特征与位置特征 [12] 实验成果与性能 - 在8个现实世界任务实验中,每个任务仅使用10-20条演示数据训练,ControlVLA总体成功率达到76.7%,远超传统方法20.8%的水平 [14][15] - 长时序任务(如多物体分类整理、抽屉物体替换)平均成功率达60%,约为现有最佳方法的3倍 [17][19] - 在OrganizeToy任务中,ControlVLA使用20条演示数据即可达到80%成功率,而其他方法即使使用100条演示也未能达到同等表现 [21] 泛化能力与鲁棒性 - 在未见过物体(面包、香蕉、橙子)与新背景下测试,ControlVLA仍保持60%-70%的任务成功率 [24][25] - 该方法提升了对复杂场景、长时序任务以及未见过物体与环境的鲁棒性与扩展性 [10][24] 硬件平台支持 - 研究成果基于星尘智能AI机器人Astribot S1完成,该产品采用绳驱传动技术,传动效率>90%,回驱性>80% [2] - 绳驱模仿人类肌腱运动方式,让机器人具备高表现力与高安全性,适合需要精细触觉反馈的AI任务 [2]