长时程精细操作
搜索文档
看到字节最新的GR-RL丝滑系鞋带,真的怕了......
具身智能之心· 2025-12-07 03:03
文章核心观点 - 字节跳动提出的GR-RL框架成功解决了机器人长时程精细操作的核心瓶颈,成为首个能自主完成多鞋孔系鞋带任务的学习型模型 [1] - GR-RL框架通过“数据提纯-能力增强-行为对齐”的三层逻辑闭环设计,将通用视觉-语言-动作模型转化为长时程精细操作专家 [9] - 该方案在系鞋带任务中实现了83.3%的成功率,显著优于基线模型,为通用模型向真实世界专精模型转化提供了可复用的范式 [18][22][28] 问题根源:长时程精细操作的三大核心矛盾 - **演示数据质量与任务精度的矛盾**:人类演示数据中存在“犹豫停顿”、“错误尝试”等次优行为,直接模仿这些含噪声的数据会导致模型学到低效或错误的动作模式 [4] - **训练与部署的行为mismatch矛盾**:部署时对模型输出动作进行“轨迹平滑”等优化,与训练阶段学习的原始动作存在差异,这种差异在精细操作中会被放大,导致性能下降 [5] - **泛化能力与任务特异性的矛盾**:通用模型缺乏对特定任务的针对性优化,无法利用机器人形态对称性提升鲁棒性,且难以应对长时程操作中的突发场景和误差累积 [6] 方案设计:GR-RL的三层逻辑闭环 - **第一层:数据提纯**:采用基于分布式评论家网络的任务进度评估器,通过TD3+BC离线强化学习算法,以任务成功/失败为稀疏奖励,并利用“重试关键帧标注”技术,其预测的Q值作为任务进度指标,用于筛选和剔除进度值下降超过阈值的次优演示数据 [10] - **第二层:能力增强**:利用双臂机器人的形态对称性设计数据增强策略,包括视觉层面水平翻转和交换摄像头画面、动作与状态层面的镜像对称转换、以及语言层面同步修改文本指令,无需额外采集数据即可提升模型“左右手通用”和“多视角适配”的操作能力 [10] - **第三层:行为对齐**:提出基于潜在空间探索的在线强化学习方案,在动作扩散模型的噪声输入空间引入轻量级噪声预测器进行引导,并施加分布约束,同时采用双缓冲池采样策略平衡稳定学习与环境适配,以弥合训练与部署的差异 [11][14] 落地支撑:硬件与模型架构的协同优化 - **ByteMini-v2机器人硬件优化**:肘部执行器峰值扭矩从17 Nm增至35 Nm,臂部最大负载从1.4 kg提升至3.15 kg;底盘投影面积缩小至450 mm×650 mm,优化空间机动性;并进行了人机交互与可靠性升级 [12][15] - **混合Transformer模型架构**:采用总参数量达50亿的混合Transformer架构,高效处理多模态信息;其中VLA策略网络以Qwen2.5-VL-3B-Instruct为骨干,通过动作扩散Transformer生成动作;分布式评论家网络采用因果Transformer结构,预测动作块的Q值分布以避免价值高估 [12][21] 验证逻辑:从整体性能到组件有效性的层层拆解 - **整体性能突破**:在系鞋带任务中,基础通用模型GR-3成功率仅45.7%,仅加入数据筛选后提升至61.6%,叠加形态对称增强后达72.7%,最终通过在线RL,成功率稳定在83.3%,在线训练后期一度超过90% [18][22] - **关键阶段性能提升**:数据筛选主要提升“穿入鞋孔”阶段的成功率,从46.4%升至63.8%;形态对称增强对所有阶段均有提升,如“拾取鞋带”阶段从58.7%升至76.5%;在线RL进一步降低“交接”、“拉紧”阶段的失败率,如“交接”阶段从45.7%升至83.3% [20][26] - **核心组件有效性验证**:通过消融实验对比,GR-RL采用的分布式评论家网络相比非分布式评论家,能避免在稀疏奖励场景下的价值高估问题,预测更稳健;相比回归型预测器,对“毫米级偏差”等细微失败更敏感,且能捕捉对任务有长期正向作用的操作 [24][27][30][31] 局限与未来方向 - **行为漂移问题**:在线RL阶段,稀疏噪声奖励可能导致模型行为不稳定,未来可通过动态调整噪声约束阈值或引入分层强化学习优化信用分配 [27] - **基础模型融合不足**:当前未将专精能力蒸馏回基础模型,导致模型难以兼顾“长时程精细操作”与“多任务泛化”,未来需探索专精知识蒸馏技术 [27] - **任务扩展性有限**:实验仅验证系鞋带任务,未来需在“精密零件装配”、“手术辅助”等更多长时程精细操作任务中测试,以进一步验证框架通用性 [27]