模仿学习
搜索文档
机器人系列报告之二十七:控制器提供具身智能基座,数据飞轮驱动模型迭代
申万宏源证券· 2025-05-15 15:20
报告行业投资评级 - 看好 [3] 报告的核心观点 - 目前人形机器人硬件成熟度高于软件,软件是走向商业化的关键,研究相对空白 [3][5] - 算法是具身智能的核心,数据是算法学习的基础,控制系统是具身智能的基座 [3][5] - 软件是机器人下一步商业化落地的投入重心,相关产业链标的值得关注 [3][4] 根据相关目录分别进行总结 算法:具身智能的核心 - 算法框架分为上层“大脑”与下层“小脑”两大层级,上层聚焦任务级规划与决策,下层负责实时运动规划与关节控制 [3] - 下层控制算法从传统向现代算法渗透,未来需解决多模态集成等瓶颈 [3] - 上层控制重点讨论VLA架构,其具备端到端和泛化等特点,在自动驾驶场景广泛应用,但面临数据稀缺等挑战 [36][40][71] 数据:算法学习的基础 - 数据来源分为真实数据、合成数据及网络数据,真实数据是主要来源,合成数据可解决数据短缺问题 [3] - 真实数据采集方式包括遥操作、动作捕捉技术等,合成数据通过仿真平台生成 [3] 控制系统:具身智能的基座 - 产业界对人形机器人“大小脑”未形成统一共识,通常人为区分,大脑负责复杂任务,小脑负责运动控制 [110] - 硬件主要由SoC芯片构成,软件部分包括底层操作系统、中间件和上层软件,芯片是核心,多数公司采用英伟达方案 [3] - 未来产业格局走势有望类比于自动驾驶,出现产业分工趋势 [5] 结论和风险 - 相关产业链标的包括控制器环节、运控技术同源、芯片、数据采集装备等企业 [3][4]
边学边练,推理觉醒:LUFFY让强化学习即学即用!
机器之心· 2025-05-05 03:40
核心观点 - 上海AI实验室联合西湖大学、南京大学和香港中文大学的研究团队提出了一种全新的强化学习范式LUFFY,旨在解决AI模型训练中“只学不练”和“只练不学”的两难困境 [1][2] - LUFFY通过混合使用在线推理和离线示范轨迹,实现“边学边练”的目标,在多个数学推理任务中平均提升7.0分,并在分布外任务上展现出显著泛化能力 [2][4][24] - 该方法在Hugging Face社区和alphaXiv学术论坛引起广泛关注 [5] 模仿学习与强化学习的两难困境 - 模仿学习(SFT)通过参考专家解题轨迹快速学习已知方法,但遇到新题时缺乏自主能力 [8] - 强化学习(Zero-RL)通过试错获得奖励反馈并优化策略,具备泛化能力但容易陷入局部最优 [10] - 两种方法分别存在“泛化差”和“效率低”的问题 [1] LUFFY的直觉与机制 - 关键思想是在强化学习过程中引入“离策略指导”,混合使用模型自身生成的在线推理过程和来自更强模型的离线示范轨迹 [14] - 通过“策略塑形”机制,在模型自身推理失败时从专家示范中学习关键步骤,表现优异时保持独立探索 [16] - 该机制引导模型聚焦低概率但关键的行动,实现推理能力的持续进化与泛化 [16] 技术亮点 - 混合策略训练:同时利用在线轨迹和离线示范,引导模型向高奖励动作靠拢并保留有效尝试 [18] - 策略塑形函数:通过非线性加权机制强化对关键步骤的学习,防止过早收敛并保持持续探索 [18][20] - 基于GRPO算法框架实现,提升对罕见但重要行为的梯度响应 [18][21] 实验结果 - 在AIME 2024、AIME 2025、AMC、MATH-500、Minerva Math和OlympiadBench六个基准测试中平均准确率达49.6%,较Zero-RL方法提升+7.0分 [4][24] - 在Qwen2.5-Math-1.5B小模型上表现显著优于基线,平均得分从34.8提升至42.1 [27] - 推理路径长度优于SFT,能用更短过程达成正确答案,且在增加探索强度时性能保持稳定 [28][31] 应用前景 - 可扩展至代码生成、科学问答、自动规划等需要复杂推理的AI任务 [33] - 项目已在GitHub开源,具备复现和拓展潜力 [34]
这些大专生,教出人形机器人
盐财经· 2025-03-25 10:39
人形机器人行业数据采集需求爆发 - 近期中国人形机器人赛道动态频繁,众擎机器人完成全球首例前空翻,宇树科技机器人实现720度回旋踢,智元机器人发布灵犀X2,具备走路、跑步、玩滑板车、骑自行车等功能[2] - 机器人数据采集员成为新出现的工种,在Boss直聘、实习僧等平台招聘,学历要求大专以上[2] 机器人数据采集员岗位特征 - 工作内容包括负责机器人数据采集、控制机器人移动、保护机器人安全等[4] - 岗位对身高体重有具体要求,例如男生身高170-175厘米体重65公斤以内,女生160-168厘米体重55公斤内,要求不戴眼镜、没有高度近视、不能有小肚子、身体协调性好[4] - 薪资水平为100元-240元/天,多为临时性岗位,数据需求大时招聘,工作周期一两个月[5][12][13] - 特斯拉为Optimus人形机器人招募数据采集操作员,时薪25-48美元(约人民币180-342元),要求身高170-180厘米,每天沿测试路线行走7小时以上,携带最多30磅(13.61千克)重物[7][8] 数据采集的技术与方法 - 机器人训练运用与游戏3D相似的动作捕捉技术,通过人类穿戴设备测量记录运动轨迹,得到三维空间坐标数据[7] - 智元机器人在上海建立3000平方米数采工厂,模拟家庭、零售、服务业、餐饮、工厂五个场景,投入使用两个多月采集超百万量级真机数据集,计划不久后拥有超千万条数据[8][9][10] - 数据采集员需穿戴动捕服和VR设备,重复执行特定动作,例如为训练机器人拿矿泉水需反复完成该动作,数据需求大时可能一周重复一个动作[13] 真实数据对机器人发展的重要性 - 人形机器人要求精度更高的人体运动数据,真实数据可兼容更多随机性和意外,例如人在崎岖地面能自适应调节,而机器人易摔倒[16][17] - 人类采集的数据反映真实世界复杂性,业界共识是"人类老师"对机器人能力增长必不可少,通过仿真数据预训练后,再用人类高质量数据精调,确保部署到真实世界的性能[19] - 真实数据是形成机器人智能的关键,依赖大量高质量数据训练AI算法,但当前数据采集成本高,标注精度不够,高质量数据缺失成为制约机器人发展的主要卡点[27][30] 机器人技术路径与挑战 - 机器人行业最大难点是上肢力量,训练上肢比下肢难得多,上肢训练在仿真环境下通过强化学习效果较差,需通过动作捕捉、遥操作等模仿学习方式让机器人观察人类演示后执行任务[21][23] - 机器人控制端需面对复杂物理场景,例如机械臂因重力存在抖动,仿真环境存在系统误差,真实数据采集虽成本最高但训练大模型效果最好,更容易进行参数调优[24] - 人形机器人至少有三十四十个自由度的数据输出,数据集需求巨大,相比自动驾驶只需控制加速、减速、转向等少数变量,机器人数据要求高得多[27] 行业发展趋势与生态建设 - 机器人行业追求泛化性,让机器人同时完成多种任务适用于多种场景,需拥有认知物理世界的"智慧"大脑[29] - 行业形成开放共建生态共识,智元机器人携手上海人工智能实验室等发布全球百万真机数据集开源项目AgiBot World,傅里叶开源全尺寸人形机器人数据集Fourier ActionNet,推动数据共享[30][31] - 真实人类动作数据被视为机器人行业的"石油",企业依靠数据采集员完成简单人类行为,等待行业爆发[32]