强化学习
搜索文档
单条演示即可抓取一切:北大团队突破通用抓取,适配所有灵巧手本体
量子位· 2025-10-29 05:11
核心观点 - 北京大学及BeingBeyond团队提出DemoGrasp框架,通过将多步马尔可夫决策过程重构为基于轨迹编辑的“单步MDP”,解决了灵巧手通用抓取中传统强化学习面临的探索效率低、奖励函数设计复杂等挑战 [1][2][4] 技术原理与核心创新 - 核心创新在于用单条成功演示轨迹替代从零开始的探索,将高维抓取任务转化为演示编辑任务,再通过单步强化学习优化编辑参数 [4][6][7] - 方法以一次成功的抓取演示轨迹为起点,通过对轨迹中的机器人动作进行编辑以适应不同物体与姿态,包括改变腕部位姿以确定抓取位置,调整手指关节角度以确定抓取方式 [4][9][16] - 在紧凑动作空间的单步MDP问题上,使用单张RTX 4090显卡训练24小时即可收敛到成功率大于90% [12] 仿真训练与性能表现 - 在仿真环境中利用IsaacGym创建数千个并行世界进行训练,策略网络根据初始观测输出手腕和手指编辑参数,通过海量试错学会根据不同形状物体输出合适参数 [10][11] - 在权威数据集DexGraspNet(3.4K物体)上,视觉策略成功率达到92%,训练集到测试集的泛化差距仅为1% [17] - 性能显著优于现有方法:在基于状态的设定下,DemoGrasp在训练集、测试集(可见类别)和测试集(未见类别)的成功率分别为95.2%、95.5%和94.4%;在基于视觉的设定下,成功率分别为92.2%、92.3%和90.1% [18] 跨本体扩展与泛化能力 - 无需调整任何训练超参数,成功适配6种不同形态的机器人(五指、四指灵巧手,三指夹爪和平行夹爪),在175个物体上训练后,在多个未见过的物体数据集上达到84.6%的平均成功率 [19][20] - 具备强大的空间泛化能力,可适应大范围的物体初始位置随机化(50cm×50cm) [17] 虚实迁移与真机应用 - 通过视觉模仿学习将策略蒸馏成与真机对齐的RGB策略,实现从仿真到真机的直接迁移 [13][14] - 在真实机器人测试中,使用Franka机械臂和因时灵巧手,成功抓取了110个未见过的物体 [21] - 对于常规大小的物体,抓取成功率均达到90%以上;对于扁平物体和小物体等困难抓取任务,成功率达到70% [22][24] - 支持在杂乱多物体摆放的场景下实现用语言指令引导抓取,真机单次抓取成功率达到84% [24] 技术实现细节 - 采用流匹配生成模型的方法学习从图像观测和机器人本体感知预测动作,训练时使用预训练的ViT提取图像特征并进行充分的域随机化以缩小仿真到真机的视觉差异 [23] - 适配单目/双目、RGB/深度相机等多种相机观测,实验表明双目RGB相机组合效果最佳,能更好地抓取小而薄的物体 [23]
AlphaGo之父找到创造强化学习算法新方法:让AI自己设计
机器之心· 2025-10-28 04:31
研究核心观点 - 谷歌DeepMind团队开发出一种名为DiscoRL的新方法,能够通过元学习自主发现性能达到SOTA水平的强化学习规则 [1] - 该方法发现的规则在经典Atari基准测试上超越了所有现有方法,并在多个高难度基准测试上优于多种SOTA强化学习算法 [4] - 研究结果表明,未来实现高级AI所需的强化学习算法可能不再依赖人工设计,而是能够从智能体自身经验中自动涌现与进化 [5] 研究方法 - 发现方法涉及智能体优化和元优化两种类型的优化,智能体参数通过更新策略和预测至强化学习规则产生的目标进行优化 [7] - 团队定义了没有预定义语义、富有表现力的预测空间,通过元网络进行元学习来找出智能体需要优化的内容 [9] - 元网络作为函数决定智能体应将其预测和策略更新至的目标,其输入输出选择保留了手工设计RL规则的理想特性 [12][14][15][16][17] - 智能体参数被更新以最小化其预测和策略与元网络目标之间的距离,使用KL散度作为距离函数 [19] - 元优化目标是发现一个RL规则,使智能体在各种训练环境中最大化奖励,通过梯度上升优化元参数 [22][23] 实验结果 - 在57款Atari游戏基准测试中,Disco57取得13.86的IQM分数,超越了所有现有RL规则,运行效率远高于当前最先进的MuZero [26][27][29] - Disco57在ProcGen基准上优于所有已发表方法,包括MuZero和PPO,尽管在发现期间从未与ProcGen环境交互过 [33] - Disco57在Crafter上取得有竞争力表现,在NetHack NeurIPS 2021挑战赛中获得第3名,且未使用任何领域特定知识 [34][35] - 使用103个更具多样性环境发现的Disco103规则,在Atari基准表现相似,同时在多个基准上提高了分数,在Crafter上达到人类水平表现 [37] - 最佳规则是在每个Atari游戏约6亿步内发现的,相当于在57个Atari游戏上仅进行3次实验,比手动发现RL规则更有效率 [40] 技术分析 - 定性分析显示,被发现的预测在收到奖励或策略熵发生变化等显著事件前会出现峰值 [45] - 信息分析表明,与策略和价值相比,被发现的预测包含更多关于即将到来的高额奖励和未来策略熵的信息 [46] - 研究发现DiscoRL使用引导机制的证据,未来的预测被用来构建当前预测的目标,这种机制对性能至关重要 [47] - 使用价值函数可极大改善发现过程,而在预定义预测外发现新预测语义也至关重要 [41][42]
为什么RL在人形/四足/机械臂等本体上依然还有很多工作可以做?
具身智能之心· 2025-10-28 04:00
强化学习行业应用现状 - 强化学习在机器人领域应用广泛,是人形机器人(如宇树、智元)和四足机器人实现爬楼梯、跑步、跳舞等高难度动作的关键技术[2] - 机械臂的视觉语言动作模型与强化学习结合方案在学术领域越来越受欢迎,能提升机器人执行任务的效率与流畅度[3][8] - 强化学习技术是迈向通用具身智能必须攻克的难关,使机器人能适应救援、测量等危险环境场景[2] 课程核心内容与结构 - 课程周期为14周核心在线辅导加8周维护答疑,采用1v6小班模式,每周包含1次直播课、课程录播和专属微信群答疑[7][9][15] - 课程设置三轨并跑,学员可在四足、人形、机械臂三个方向中任选其一作为研究主线[15] - 课程基于最新的IsaacLab仿真环境,提供SAC/PPO/BC/Diffusion Policy等基线代码,涵盖从仿真训练到真机部署的完整流程[15][16][20] 课程产出与目标 - 课程目标明确为产出一篇符合RAL/ICRA/IROS/CoRL等顶级会议或期刊投稿要求的论文初稿[7][9][23] - 课程提供6个以上可创新的研究想法,涵盖四足、人形、机械臂、VLA+RL四大方向,即使学员没有成熟想法也能在提供的基线上迭代出论文初稿[14][16][24] - 课程包含结构化论文模板、统一图表体例、投稿与审稿回复辅导,结营后提供8周论文维护支持补实验、改图和润色[16][21][23] 师资与学员要求 - 授课导师为来自美国顶尖高校的博士后研究员,在RSS、ICRA、IROS、RAL等顶级机器人会议期刊有发表经验并担任审稿人[21] - 学员需具备一定的Python编程和Linux基础,并配备Nvidia GPU(建议12G以上),拥有Unitree/Franka等硬件设备者可优先参与实机环节[25] - 课程选拔需要简单面试,评估学员背景、选题意向和时间投入,每期限额6人[31]
刚刚,Thinking Machines Lab博客提出在策略蒸馏,Qwen被cue 38次
36氪· 2025-10-28 02:00
文章核心观点 - Thinking Machines Lab (TML) 发布了一项名为“在策略蒸馏”的新训练方法,该方法将强化学习的纠错相关性与监督微调的奖励密度相结合 [1] - 该方法能以极低的成本超越其他训练方法,尤其适用于小模型,可使其具备强大的领域性能和持续学习能力 [1][17] - TML明确表示其新成果受到Qwen团队研究的启发,并在实验过程中大量使用了Qwen3系列模型 [3] 技术方法概述 - 在策略蒸馏的核心思想是从学生模型中采样轨迹,并使用高性能教师模型为每个轨迹的每一个token评分,从而结合在策略训练的优势和密集奖励信号 [15] - 该方法使用反向KL散度作为损失函数,促使学生在自身所处的每种状态下近似教师行为,且该奖励是“不可破解的”和“寻找众数”的 [19][20] - 实现过程包括初始化教师客户端、从学生模型采样轨迹、计算教师模型对采样token的对数概率以计算反向KL奖励,并利用强化学习的训练框架进行模型更新 [25][26][27][28] 性能与成本优势 - 在数学推理任务上,从40万SFT检查点开始,在策略蒸馏仅用约150步就在AIME'24基准上达到70%的分数,而离策略蒸馏估计需要200万个提示才能达到相似性能 [32][35] - 与强化学习相比,在策略蒸馏以十分之一的成本在AIME'24上取得了74.4%的更高分数,而强化学习需要17,920个GPU小时才达到67.6% [34] - 在计算效率上,当SFT数据集是现成或可摊销时,在策略蒸馏比基线成本降低9倍;若无现成数据集,总成本可降低约30倍 [40][41] - 从相同初始化开始,在策略蒸馏学习强化学习训练策略所需的梯度步数少7-10倍,对应50-100倍的计算效率提升 [58] 应用案例:数学推理 - 使用Qwen3-8B-Base作为学生模型,Qwen3-32B作为教师模型进行在策略蒸馏,在AIME'24数学基准上取得显著提升 [30][34][35] - 仅使用单个提示连续训练20步,在策略蒸馏也能达到与教师模型相当的性能,展示了极高的数据重用效率 [61] 应用案例:个性化与持续学习 - 在公司内部助手训练中,中训练新知识会降低模型原有的指令遵循能力,混入30%聊天数据仍无法维持IF-eval上的原始性能 [45][47] - 在策略蒸馏能有效恢复指令遵循能力,在对内部文档微调后,几乎完全恢复IF-eval性能至83%,且未损失知识,内部QA评估分数从36%提升至41% [53][54] - 该方法适用于持续学习,可交替进行“在新数据上微调”和“蒸馏以恢复行为”的阶段,使模型能持续学习并保持知识最新状态 [53][66] 方法比较与行业意义 - 后训练方法主要包括离策略蒸馏、强化学习以及在策略蒸馏,三者在采样方式和奖励信号密度上存在差异 [18] - 在策略蒸馏结合了在策略训练的可靠性能和密集奖励信号的成本效益,是达到前沿模型能力的关键部分 [70] - 该方法为从业者提供了一种廉价而强大的工具,用于训练具备专家级性能的小型模型,并支持持续学习和个性化 [17][70]
Thinking Machine新研究刷屏!结合RL+微调优势,小模型训练更具性价比了
量子位· 2025-10-28 01:18
文章核心观点 - Thinking Machine提出一种名为“在线策略蒸馏”的新型大语言模型后训练方法,该方法通过结合在线策略的自主探索与离线策略的密集监督,显著提升了小模型在专业领域的学习效率和性能 [1][8] - 该方法在数学能力迁移和企业AI助理应用两个实验中展现出巨大优势,训练效率提升高达50-100倍,并能有效解决模型“灾难性遗忘”问题 [4][18][26] 方法原理与创新 - 在线策略蒸馏的核心创新在于融合了实战演戏(在线策略)和请家教(离线策略)两种传统训练模式的优点,如同一位“天才教练”在AI自主解题时提供即时指导 [3][4] - 该方法使用KL散度作为评估学生模型与教师模型分歧的指标,学生模型通过最小化逆向KL散度来模仿教师模型,该指标具备防作弊和使学习过程更稳定的优秀特性 [12][15][17] 实验验证与效果 - 在数学能力迁移实验中,使用在线策略蒸馏方法,仅需约150个训练步骤就将8B学生模型在AIME'24基准上的性能从60%提升至70%,计算成本相比传统监督微调方法降低了9-30倍 [19][21][22] - 在企业AI助理应用中,该方法成功解决了灾难性遗忘问题,使模型在内部知识评估得分从36%提升至41%的同时,通用聊天能力也从79%恢复至83% [23][25][26] 行业影响与团队背景 - 该方法的高效性(效率提升50-100倍)使得资源受限的个人或小公司也能训练出在特定领域具备竞争力的专业小模型,降低了AI应用门槛 [4][5] - 该研究由前OpenAI员工Kevin Lu领导,其曾在OpenAI负责4o-mini发布并参与o1-mini、o3发布,研究背景与强化学习、小模型和合成数据密切相关 [27][28][29]
刚刚,Thinking Machines Lab博客提出在策略蒸馏,Qwen被cue 38次
机器之心· 2025-10-28 00:41
文章核心观点 - Thinking Machines Lab发布了一项名为“在策略蒸馏”的新训练方法,该方法将强化学习的纠错相关性与监督微调的奖励密度相结合 [1] - 在策略蒸馏能以极低成本超越其他方法,尤其适用于小模型,可使其具备强大的领域性能和持续学习能力 [1] - 该方法在数学推理和内部聊天助手等任务上表现出色,其成本仅为强化学习的一小部分,例如在AIME'24基准测试上达到70%分数所需成本比离策略蒸馏低9-30倍 [27][47][52][53] 训练方法分类与比较 - 后训练学生模型的方法主要分为在策略训练和离策略训练两类 [7] - 在策略训练从学生模型自身采样轨迹并分配奖励,优势在于学生能更直接学会避免错误 [8][12] - 离策略训练依赖于外部来源的目标输出进行模仿学习,常用监督微调完成,但可能导致复合错误 [9][16][17] - 在策略蒸馏结合两者优点,从学生采样轨迹并使用高性能教师模型为每个token评分,提供密集奖励信号 [23][24][28] 在策略蒸馏的技术实现 - 核心使用逐token的反向KL散度作为损失函数,促使学生在每种状态下近似教师行为 [31] - 该方法计算效率高,仅需小型模型进行一次前向传播,且可使用短轨迹训练 [32] - 伪代码实现包括初始化教师客户端、采样轨迹、计算奖励和使用强化学习进行训练四个步骤 [38][43] 数学推理能力训练成果 - 使用Qwen3-32B作为教师模型对Qwen3-8B-Base进行在策略蒸馏,在AIME'24基准测试上达到70%分数 [41][48] - 相比强化学习需要17,920 GPU小时达到67.6%分数,在策略蒸馏仅需1,800 GPU小时即达到74.4%分数 [46][47] - 在策略蒸馏达到相同性能所需的梯度步数比强化学习少7-10倍,对应50-100倍计算效率提升 [76] 个性化与持续学习应用 - 在策略蒸馏可有效用于模型个性化训练,如在公司内部文档上微调后恢复指令遵循能力 [55][69] - 实验显示,在对内部文档进行70-30混合数据微调后,在策略蒸馏几乎完全恢复了IF-eval 85%的原始性能 [69][70] - 该方法支持持续学习,可交替进行“新数据微调”和“蒸馏恢复行为”阶段,使模型保持知识最新状态 [69][85] 数据效率与搜索机制 - 在策略蒸馏可重复使用单个提示进行训练,学习教师完整分布而非记忆单个答案,提高数据效率 [79][80] - 与强化学习在语义策略空间进行搜索不同,在策略蒸馏是学习已发现策略的捷径,无需对中间策略建模 [82][84] - 在策略蒸馏每个回合教授O(N)比特信息(N为token数量),而强化学习仅教授O(1)比特,信息密度显著更高 [71]
无人机也能打排球吗?清华团队用强化学习探了探路
具身智能之心· 2025-10-28 00:02
研究背景与任务创新 - 清华大学团队提出“无人机打排球”新任务,将机器人运动挑战从地面推向三维空间,要求无人机集群在高机动性精确控制基础上实现团队合作与策略对抗 [1][2] - 该任务融合了混合博弈、回合制交互和复杂物理约束等难题,旨在验证具身智能在真实物理空间中的策略推理与高精度控制能力 [2][4] - 相关研究成果已被NeurIPS 2025与CoRL 2025国际顶会收录,标志着人工智能从虚拟博弈走向真实世界的关键进展 [1] VolleyBots测试平台 - 团队基于NVIDIA Isaac Sim高保真物理引擎构建了VolleyBots测试平台,精确模拟无人机动力学、气动力及碰撞反弹等真实物理效果 [6] - 平台模仿人类学习排球技能过程,设计了从单机基本技能到多机合作对抗的多层级任务体系,包括单机颠球、多机传球及3v3/6v6比赛等形式 [7][9] - 平台内置并测试了PPO、TD3、MAPPO、HAPPO等多种强化学习与博弈算法,为“空中对抗”研究提供了标准化仿真环境 [9][19] 分层协同自博弈算法(HCSP) - HCSP算法将复杂对抗任务拆分为负责团队战术的高层策略和负责精细飞行的低层技能,通过三阶段训练流程实现策略与技能的协同进化 [12][14] - 在对抗测试中,HCSP训练的策略以平均82.9%的胜率击败多种基线算法,对抗最强基于规则策略时仍保持71.5%的胜率 [15] - 算法使无人机队伍形成明确分工与协作,并自发演化出“二传吊球”等人类球赛中常见的临场战术,展现出高级策略推理能力 [15] 真实世界部署与性能突破 - 团队提出JuggleRL系统,首次实现四旋翼无人机基于强化学习的真实物理交互,通过系统辨识、域随机化和零样本部署完成“Real2Sim2Real”闭环 [16] - 在未经真实数据微调的情况下,真机连续颠球最高达462次(平均311次),较传统分层方法(最高14次)提升一个数量级 [18] - 该成果标志着具身强化学习从“虚拟对抗”走向“真实物理交互”的关键突破,为无人机在动态环境中的实时控制提供了技术验证 [16][19]
正式结课!工业界大佬带队三个月搞定端到端自动驾驶
自动驾驶之心· 2025-10-27 00:03
端到端自动驾驶技术发展现状 - 2023年是端到端量产的元年,2025年将是端到端量产的大年,目前头部新势力和主机厂端到端技术均已实现量产[1] - 工业界存在一段式和两段式两种主要技术范式,一段式代表UniAD直接从传感器输入建模自车轨迹输出,二段式基于感知结果进一步输出自车和他车轨迹[1] - 2024年以来一段式端到端快速发展,衍生出基于感知、世界模型、扩散模型和VLA等多种一段式方法[3] 端到端自动驾驶技术体系 - 端到端与VLA技术涉及BEV感知、视觉语言模型VLM、扩散模型、强化学习等核心内容[5] - 主流自动驾驶企业包括智驾方案供应商和车企都在发力端到端自动驾驶的自研量产[3] - 技术栈涵盖学术界和工业界最前沿的方法,二段式端到端与一段式端到端前沿算法都是工业界和学术界的Baseline[5] 端到端自动驾驶课程内容 - 课程第一章介绍端到端发展历史、技术范式演变及优缺点,分析学术界和工业界研究方向[9] - 第二章重点讲解端到端背景知识,包括VLA涉及的大语言模型、扩散模型、强化学习,以及一段式端到端涉及的BEV感知[9] - 第三章聚焦二段式端到端,讲解经典算法PLUTO、CVPR'25的CarPlanner和最新工作Plan-R1[10] - 第四章涵盖一段式端到端子领域:基于感知的UniAD、基于世界模型、基于扩散模型和基于VLA的方法[12] - 课程大作业选择RLHF微调实战,涵盖预训练模块搭建、强化学习模块搭建和实验实施[13] 端到端自动驾驶技术细节 - 基于感知的方法讲解UniAD和地平线VAD,以及CVPR'24的PARA-Drive[14] - 基于世界模型的方法介绍AAAI'25的Drive-OccWorld和复旦团队的OccLLaMA,探讨世界模型在场景生成、端到端和闭环仿真中的应用[14] - 基于扩散模型的方法讲解DiffusionDrive、Diffusion Planner和吉大DiffE2E,配套Diffusion Planner实战[14] - 基于VLA的方法选取小米ORION、慕尼黑工大OpenDriveVLA和最新ReCogDrive,以ORION作为实战案例[14] 端到端自动驾驶学习目标 - 课程是首个面向端到端自动驾驶的进阶实战教程,旨在推动端到端在工业界落地[15] - 学员学完后能达到1年左右端到端自动驾驶算法工程师水平,掌握端到端技术框架和关键技术[19] - 学习成果包括可复现扩散模型、VLA等主流算法框架,并能将所学应用到实际项目中[19]
HuggingFace联合牛津大学新教程开源SOTA资源库!
具身智能之心· 2025-10-27 00:02
行业技术范式转变 - 机器人学正经历从经典显式建模到现代隐式学习的根本性变革,基于学习的方法成为现代机器人学的中流砥柱[3] - 传统机器人技术依赖模块化流水线,而基于学习的方法通过统一高层控制器直接处理高维感知-运动信息,简化了从感知到动作的过程[15][33] - 基于学习的方法优势在于紧密整合感知和控制、减少专家建模干预,并能随着数据规模扩大而提升性能[26][33] 核心学习方法与技术 - 强化学习通过试错法让机器人自主学习最优策略,但面临安全、效率和高昂试错成本的瓶颈[28][34] - 教程介绍了通过模拟器训练结合域随机化技术来规避物理风险,并利用离线到在线强化学习框架提升样本效率和安全性[34][36] - 模仿学习通过行为克隆复现专家操作,规避了复杂的奖励函数设计,但面临复合误差和多模态行为挑战[41] - 先进模仿学习方法如ACT和Diffusion Policy利用生成模型有效建模多模态数据,后者仅需50-150个演示即可完成训练[42][43][45] 通用机器人策略与开源生态 - 构建跨任务、跨设备的通用机器人策略是未来方向,得益于大规模开放机器人数据集和视觉-语言模型的发展[52][53] - 前沿VLA模型如π₀和SmolVLA采用混合专家架构,π₀基于超过1000万条轨迹数据集预训练,展现强大泛化能力[53][54] - SmolVLA作为开源模型,参数量仅为π₀的约七分之一,内存消耗降低6倍,显著降低了应用门槛[56][58] - HuggingFace与牛津大学提供的LeRobot开源库包含预训练模型、数据集和模拟环境,用户无需实体机器人即可上手[6][7][8] 教程价值与内容覆盖 - 教程从经典机器人学概念出发,逐步介绍强化学习、模仿学习、生成模型理念以及通用机器人策略[4][11] - 教程附带了基于PyTorch的开源数据集、模型、工具和代码库LeRobot,收录了许多当前SOTA方法[6][10] - 该教程是踏入机器人学习领域的一份有价值的起点,全面探索了现代机器人学习的全景[3][12]
手把手带你入门机器人学习,HuggingFace联合牛津大学新教程开源SOTA资源库
机器之心· 2025-10-26 07:00
文章核心观点 - 现代机器人学习领域正经历从经典显式建模到基于学习的隐式建模的范式转变,强化学习、模仿学习及视觉-语言-动作模型是主要驱动力 [2] - HuggingFace与牛津大学联合发布了一份全面的机器人学习教程,并配套开源了数据集、模型和代码库LeRobot,旨在降低该领域的学习和应用门槛 [3][6][10] - 教程系统性地介绍了从经典机器人学到前沿通用机器人策略的技术演进,重点涵盖了强化学习、模仿学习及VLA模型等关键方法 [4][11][52] 教程内容概述 - 教程从经典机器人学概念入手,阐述了其从依赖正向/逆向运动学的显式建模,向基于深度强化学习和专家示范的隐式建模的演化过程 [14][15] - 经典模块化流水线存在感知与控制整合不紧密、可扩展性差、物理模型简化过度及忽视数据规模趋势等多方面局限 [16][26][30] 机器人强化学习 - 强化学习通过试错法让机器人自主学习最优策略,但其在现实世界中面临安全效率问题和高昂试错成本等瓶颈 [28][34] - 采用模拟器训练结合域随机化技术可提升对环境动态的鲁棒性,离线到在线强化学习框架利用专家数据引导学习,显著提升样本效率和安全性 [35][36] - HIL-SERL方法通过引入人类监督,使机器人能在1-2小时内掌握复杂真实世界操作任务,成功率接近100% [36][39] 机器人模仿学习 - 模仿学习通过行为克隆复现专家操作,规避了复杂奖励函数设计并确保训练安全,但面临复合误差和难以处理多模态行为的挑战 [41] - 基于生成模型的先进方法如ACT和Diffusion Policy能有效建模多模态数据,后者仅需50-150个演示即可完成训练 [42][43][45] - Diffusion Policy架构利用扩散模型生成动作序列,仅需T=10步去噪即可获得完整动作块,并通过异步推理优化部署效率 [47][48][50] 通用机器人策略 - 通用机器人策略是构建跨任务、跨设备的机器人基础模型,其发展得益于大规模开放机器人数据集和视觉-语言模型的进步 [52][53] - π₀模型利用Flow Matching技术,基于超过1000万条轨迹的数据集预训练,展现出强大的少样本和零样本泛化能力 [53][54][56] - SmolVLA作为完全开源的紧凑型混合专家模型,参数量仅为π₀的约七分之一(4.5亿参数 vs 33亿),内存消耗降低6倍,大幅降低了应用门槛 [56][58] 资源与工具 - LeRobot是Hugging Face开发的开源端到端机器人库,提供预训练模型、人工采集数据集及模拟环境,支持真实世界机器人设备的低级控制和高级推理优化 [6][8][10] - 教程附带了基于PyTorch的开源数据集、模型、工具和代码库,收录了许多在模仿学习和强化学习方向上展示良好真实机器人迁移能力的SOTA方法 [6]