Workflow
Multi-robot Coordination
icon
搜索文档
《Science Robotics》封面:DeepMind发布RoboBallet,重新定义多机器人协同规划
机器人大讲堂· 2025-09-17 11:13
多机器人系统行业挑战 - 多机器人系统在现代工业制造中成为提升生产效率的关键技术 通过部署多个机械臂可在不显著增加成本和空间的前提下大幅缩短任务执行时间并提高整体产能[1] - 实际部署面临根本性挑战 即如何在共享且充满障碍物的环境中高效安全地协调多个机器人完成多项任务[1] - 多机器人协同需同时解决三个核心子问题 包括运动规划、任务调度和任务分配 每个问题单独求解已属计算难题 而三者的耦合关系更让传统方法难以突破[3] 传统解决方案局限性 - 传统基于采样的运动规划算法在低维度场景中表现尚可 但当机器人数量超过4个且障碍物复杂度提升时计算时间呈指数级增长[1] - 任务调度问题类似经典的旅行商问题 属于PSPACE完全问题 计算复杂度随任务量呈指数上升 即使采用近似解法也需预设大量规则且难以适配动态场景[3] - 任务分配问题中每个任务的成本并不是独立的 而是依赖于其他任务的分配和调度结果[3] - 传统方案通常将三者拆分迭代求解 先人工分配任务再规划调度顺序最后计算运动路径 这种模式不仅依赖数百甚至数千小时的人工经验 还常为了计算可行性牺牲解决方案的质量和完整性[4] RoboBallet技术创新 - RoboBallet是一种基于神经网络与强化学习的新范式 结合了图神经网络和强化学习 旨在自动化地解决多机器人的任务分配、调度和运动规划问题[4] - 核心创新在于其场景的图表示和基于GNN的策略网络 将整个协同场景抽象为动态图 其中节点表示每个机器人个体 边表示机器人之间的交互关系[5] - GNN能够高效处理这种结构化信息 无论图中增加了多少任务或障碍物 GNN的核心处理逻辑不变 学会了如何理解一对元素之间的关系 这种关系归纳偏差使得模型具备极强的泛化能力[5] - 采用强化学习框架训练策略网络 使用TD3算法 使模型能够生成多机械臂轨迹同时解决任务分配、调度和运动规划等子问题 将昂贵的在线计算转移到离线训练阶段[7] - 设计了包含任务完成奖励和碰撞惩罚的奖励机制函数 任务完成奖励基于已解决任务比例的变化 碰撞惩罚则对可能导致碰撞的动作施加负奖励[7] - 采用HER技术通过在失败回合中重新标记目标来生成额外的训练数据 从而提供更丰富的学习信号[7] - 在程序化生成的随机环境中对模型进行训练 每一轮训练开始时系统会随机生成机器人的位置、长方体障碍物的布局和任务目标位姿 通过数百万次随机环境交互使模型学会协调多个机器人高效无碰撞地完成所有任务[7] 性能表现与效率 - 在计算效率方面表现突出 在NVIDIA A100 GPU上即使是8个机器人40个任务30个障碍物的最大配置每个规划步骤仅需约0.3毫秒 在CPU上运行也能实现3倍于实时的规划速度[8] - 这种高效性使得RoboBallet可用于实时重新规划、动态响应环境变化等需要快速决策的场景[9] - 增加机器人数量能够显著提高任务执行效率 在优化布局的条件下机器人从4台增至8台平均执行时间从7.5秒减少到4.5秒降幅达40%[12] 实验验证结果 - 评估围绕两个关键指标展开 包括整体轨迹执行时间和轨迹质量[11] - 在缩减规模的问题设置中进行对比实验 比较对象为基于RRT-Connect和穷举调度的基准算法[11] - 实验结果表明尽管基于强化学习的方法并不具备理论上的完备性 但其所得轨迹在成本方面与基线方法相当甚至在多数情况下表现更优 而基线方法则需要消耗数量级更多的计算资源且依赖较强的简化假设[11] - RoboBallet在训练和推理阶段均展现出良好的可扩展性 训练所需步数并未随机器人或任务数量的增加呈指数增长 推理时间则与机器人数量的平方、任务及障碍物的数量成线性关系[11] - 能够将从小规模训练中学到的协作模式推广到更大规模场景[15]