Workflow
强化学习
icon
搜索文档
无人机也能打排球吗?清华团队用强化学习探了探路
具身智能之心· 2025-10-28 00:02
研究背景与任务创新 - 清华大学团队提出“无人机打排球”新任务,将机器人运动挑战从地面推向三维空间,要求无人机集群在高机动性精确控制基础上实现团队合作与策略对抗 [1][2] - 该任务融合了混合博弈、回合制交互和复杂物理约束等难题,旨在验证具身智能在真实物理空间中的策略推理与高精度控制能力 [2][4] - 相关研究成果已被NeurIPS 2025与CoRL 2025国际顶会收录,标志着人工智能从虚拟博弈走向真实世界的关键进展 [1] VolleyBots测试平台 - 团队基于NVIDIA Isaac Sim高保真物理引擎构建了VolleyBots测试平台,精确模拟无人机动力学、气动力及碰撞反弹等真实物理效果 [6] - 平台模仿人类学习排球技能过程,设计了从单机基本技能到多机合作对抗的多层级任务体系,包括单机颠球、多机传球及3v3/6v6比赛等形式 [7][9] - 平台内置并测试了PPO、TD3、MAPPO、HAPPO等多种强化学习与博弈算法,为“空中对抗”研究提供了标准化仿真环境 [9][19] 分层协同自博弈算法(HCSP) - HCSP算法将复杂对抗任务拆分为负责团队战术的高层策略和负责精细飞行的低层技能,通过三阶段训练流程实现策略与技能的协同进化 [12][14] - 在对抗测试中,HCSP训练的策略以平均82.9%的胜率击败多种基线算法,对抗最强基于规则策略时仍保持71.5%的胜率 [15] - 算法使无人机队伍形成明确分工与协作,并自发演化出“二传吊球”等人类球赛中常见的临场战术,展现出高级策略推理能力 [15] 真实世界部署与性能突破 - 团队提出JuggleRL系统,首次实现四旋翼无人机基于强化学习的真实物理交互,通过系统辨识、域随机化和零样本部署完成“Real2Sim2Real”闭环 [16] - 在未经真实数据微调的情况下,真机连续颠球最高达462次(平均311次),较传统分层方法(最高14次)提升一个数量级 [18] - 该成果标志着具身强化学习从“虚拟对抗”走向“真实物理交互”的关键突破,为无人机在动态环境中的实时控制提供了技术验证 [16][19]
正式结课!工业界大佬带队三个月搞定端到端自动驾驶
自动驾驶之心· 2025-10-27 00:03
端到端自动驾驶技术发展现状 - 2023年是端到端量产的元年,2025年将是端到端量产的大年,目前头部新势力和主机厂端到端技术均已实现量产[1] - 工业界存在一段式和两段式两种主要技术范式,一段式代表UniAD直接从传感器输入建模自车轨迹输出,二段式基于感知结果进一步输出自车和他车轨迹[1] - 2024年以来一段式端到端快速发展,衍生出基于感知、世界模型、扩散模型和VLA等多种一段式方法[3] 端到端自动驾驶技术体系 - 端到端与VLA技术涉及BEV感知、视觉语言模型VLM、扩散模型、强化学习等核心内容[5] - 主流自动驾驶企业包括智驾方案供应商和车企都在发力端到端自动驾驶的自研量产[3] - 技术栈涵盖学术界和工业界最前沿的方法,二段式端到端与一段式端到端前沿算法都是工业界和学术界的Baseline[5] 端到端自动驾驶课程内容 - 课程第一章介绍端到端发展历史、技术范式演变及优缺点,分析学术界和工业界研究方向[9] - 第二章重点讲解端到端背景知识,包括VLA涉及的大语言模型、扩散模型、强化学习,以及一段式端到端涉及的BEV感知[9] - 第三章聚焦二段式端到端,讲解经典算法PLUTO、CVPR'25的CarPlanner和最新工作Plan-R1[10] - 第四章涵盖一段式端到端子领域:基于感知的UniAD、基于世界模型、基于扩散模型和基于VLA的方法[12] - 课程大作业选择RLHF微调实战,涵盖预训练模块搭建、强化学习模块搭建和实验实施[13] 端到端自动驾驶技术细节 - 基于感知的方法讲解UniAD和地平线VAD,以及CVPR'24的PARA-Drive[14] - 基于世界模型的方法介绍AAAI'25的Drive-OccWorld和复旦团队的OccLLaMA,探讨世界模型在场景生成、端到端和闭环仿真中的应用[14] - 基于扩散模型的方法讲解DiffusionDrive、Diffusion Planner和吉大DiffE2E,配套Diffusion Planner实战[14] - 基于VLA的方法选取小米ORION、慕尼黑工大OpenDriveVLA和最新ReCogDrive,以ORION作为实战案例[14] 端到端自动驾驶学习目标 - 课程是首个面向端到端自动驾驶的进阶实战教程,旨在推动端到端在工业界落地[15] - 学员学完后能达到1年左右端到端自动驾驶算法工程师水平,掌握端到端技术框架和关键技术[19] - 学习成果包括可复现扩散模型、VLA等主流算法框架,并能将所学应用到实际项目中[19]
HuggingFace联合牛津大学新教程开源SOTA资源库!
具身智能之心· 2025-10-27 00:02
行业技术范式转变 - 机器人学正经历从经典显式建模到现代隐式学习的根本性变革,基于学习的方法成为现代机器人学的中流砥柱[3] - 传统机器人技术依赖模块化流水线,而基于学习的方法通过统一高层控制器直接处理高维感知-运动信息,简化了从感知到动作的过程[15][33] - 基于学习的方法优势在于紧密整合感知和控制、减少专家建模干预,并能随着数据规模扩大而提升性能[26][33] 核心学习方法与技术 - 强化学习通过试错法让机器人自主学习最优策略,但面临安全、效率和高昂试错成本的瓶颈[28][34] - 教程介绍了通过模拟器训练结合域随机化技术来规避物理风险,并利用离线到在线强化学习框架提升样本效率和安全性[34][36] - 模仿学习通过行为克隆复现专家操作,规避了复杂的奖励函数设计,但面临复合误差和多模态行为挑战[41] - 先进模仿学习方法如ACT和Diffusion Policy利用生成模型有效建模多模态数据,后者仅需50-150个演示即可完成训练[42][43][45] 通用机器人策略与开源生态 - 构建跨任务、跨设备的通用机器人策略是未来方向,得益于大规模开放机器人数据集和视觉-语言模型的发展[52][53] - 前沿VLA模型如π₀和SmolVLA采用混合专家架构,π₀基于超过1000万条轨迹数据集预训练,展现强大泛化能力[53][54] - SmolVLA作为开源模型,参数量仅为π₀的约七分之一,内存消耗降低6倍,显著降低了应用门槛[56][58] - HuggingFace与牛津大学提供的LeRobot开源库包含预训练模型、数据集和模拟环境,用户无需实体机器人即可上手[6][7][8] 教程价值与内容覆盖 - 教程从经典机器人学概念出发,逐步介绍强化学习、模仿学习、生成模型理念以及通用机器人策略[4][11] - 教程附带了基于PyTorch的开源数据集、模型、工具和代码库LeRobot,收录了许多当前SOTA方法[6][10] - 该教程是踏入机器人学习领域的一份有价值的起点,全面探索了现代机器人学习的全景[3][12]
手把手带你入门机器人学习,HuggingFace联合牛津大学新教程开源SOTA资源库
机器之心· 2025-10-26 07:00
文章核心观点 - 现代机器人学习领域正经历从经典显式建模到基于学习的隐式建模的范式转变,强化学习、模仿学习及视觉-语言-动作模型是主要驱动力 [2] - HuggingFace与牛津大学联合发布了一份全面的机器人学习教程,并配套开源了数据集、模型和代码库LeRobot,旨在降低该领域的学习和应用门槛 [3][6][10] - 教程系统性地介绍了从经典机器人学到前沿通用机器人策略的技术演进,重点涵盖了强化学习、模仿学习及VLA模型等关键方法 [4][11][52] 教程内容概述 - 教程从经典机器人学概念入手,阐述了其从依赖正向/逆向运动学的显式建模,向基于深度强化学习和专家示范的隐式建模的演化过程 [14][15] - 经典模块化流水线存在感知与控制整合不紧密、可扩展性差、物理模型简化过度及忽视数据规模趋势等多方面局限 [16][26][30] 机器人强化学习 - 强化学习通过试错法让机器人自主学习最优策略,但其在现实世界中面临安全效率问题和高昂试错成本等瓶颈 [28][34] - 采用模拟器训练结合域随机化技术可提升对环境动态的鲁棒性,离线到在线强化学习框架利用专家数据引导学习,显著提升样本效率和安全性 [35][36] - HIL-SERL方法通过引入人类监督,使机器人能在1-2小时内掌握复杂真实世界操作任务,成功率接近100% [36][39] 机器人模仿学习 - 模仿学习通过行为克隆复现专家操作,规避了复杂奖励函数设计并确保训练安全,但面临复合误差和难以处理多模态行为的挑战 [41] - 基于生成模型的先进方法如ACT和Diffusion Policy能有效建模多模态数据,后者仅需50-150个演示即可完成训练 [42][43][45] - Diffusion Policy架构利用扩散模型生成动作序列,仅需T=10步去噪即可获得完整动作块,并通过异步推理优化部署效率 [47][48][50] 通用机器人策略 - 通用机器人策略是构建跨任务、跨设备的机器人基础模型,其发展得益于大规模开放机器人数据集和视觉-语言模型的进步 [52][53] - π₀模型利用Flow Matching技术,基于超过1000万条轨迹的数据集预训练,展现出强大的少样本和零样本泛化能力 [53][54][56] - SmolVLA作为完全开源的紧凑型混合专家模型,参数量仅为π₀的约七分之一(4.5亿参数 vs 33亿),内存消耗降低6倍,大幅降低了应用门槛 [56][58] 资源与工具 - LeRobot是Hugging Face开发的开源端到端机器人库,提供预训练模型、人工采集数据集及模拟环境,支持真实世界机器人设备的低级控制和高级推理优化 [6][8][10] - 教程附带了基于PyTorch的开源数据集、模型、工具和代码库,收录了许多在模仿学习和强化学习方向上展示良好真实机器人迁移能力的SOTA方法 [6]
从世界模型到VLA再到强化,具身大小脑算法原来是这样的!
具身智能之心· 2025-10-26 04:02
具身智能技术框架 - 行业将具身智能技术框架类比为人类的大脑和小脑,大脑负责思考感知(语义理解和任务规划),小脑负责执行(高精度的运动执行)[3] - 细分领域包含仿真、VLA、Diffusion Policy、VLN、世界模型、强化学习等多个子模块[5] - VLA和世界模型目前是自动驾驶和具身智能领域的两大技术路线[5] 核心技术演进路径 - 第一阶段技术研究聚焦于抓取位姿检测,通过点云或图像预测末端执行器姿态,但策略多为单步决策,缺乏对任务上下文和动作序列的建模[7] - 第二阶段进入行为克隆阶段,机器人借助专家演示数据学习端到端映射,但暴露出泛化能力弱、误差累积等问题[7] - 第三阶段以2023年兴起的Diffusion Policy为代表,通过扩散模型生成整个动作轨迹,提升策略稳定性与泛化能力;2024年进入VLA模型阶段,融合视觉、语言与动作生成,支持零样本或小样本快速泛化[8] - 第四阶段自2025年以来,行业探索VLA与强化学习、世界模型、触觉感知等模块的融合,以弥补现有模型在反馈、预测和多模态感知方面的局限[9] 当前技术热点与方向 - VLA目前主要研究热点为端到端和分层两种方案,并分别基于大模型和Diffusion技术拓展,VLA+RL方案正成为学者探索方向[5] - Diffusion Policy作为动作模块,负责学习具体动作和执行,主要方向包括状态扩散、动作空间扩散、三维空间扩散等[6] - 仿真技术关注sim2real和real2sim2real,以解决真机泛化差的问题,该方案已获多家具身公司认可[6] - VLN更关注目标导航,与移动操作相关联,map-free方案利于任务泛化[6] - VLA与强化学习结合提升机器人在长时任务中的试错与自我改进能力;与世界模型结合引入环境动态预测,使机器人具备“想象未来”的能力;与触觉信息结合拓展多模态融合的感知边界[10] 行业应用与市场前景 - 技术发展推动人形机器人、机械臂、四足机器人等产品落地,服务于工业、家居、餐饮、医疗康复等领域[10] - 相关产品和融资络绎不绝,岗位呈现爆发式增长,吸引大量人员转入具身智能领域[10] - 随着产业界重视,行业从“论文”走向“部署”,对工程与系统能力需求激增[14]
摇人!寻找散落在各地的自动驾驶热爱者(产品/4D标注/世界模型等)
自动驾驶之心· 2025-10-25 16:03
业务拓展方向 - 公司计划在自动驾驶领域的企业培训和求职辅导等方向进行业务拓展 [2] - 合作领域包括技术服务、培训、课程开发与科研辅导等多个方面 [2] - 主要面向自动驾驶产品经理、4D标注/数据闭环、世界模型、VLA、自动驾驶大模型、强化学习、端到端等多个技术方向 [4] 目标客户与岗位说明 - 培训合作业务B端主要面向企业和高校、研究院所 [5] - 培训合作业务C端面向较多学生和求职类人群 [5] - 岗位职责包括自动驾驶培训合作、课程开发和原创文章创作 [5] 合作与资源 - 公司面向全球自动驾驶领域从业者发出合作邀请 [2] - 公司将提供高额的酬金与丰富的行业资源以吸引合作伙伴 [3] - 感兴趣的从业者可通过指定微信联系方式进行进一步咨询 [6]
快手Klear团队提出CE-GPPO:通过梯度保留协调熵,解决强化学习中的熵不稳定问题
机器之心· 2025-10-25 01:03
研究背景与动机 - 强化学习已成为推动语言模型在复杂推理与思维链能力上实现智能跃升的关键技术环节,相比传统的监督微调,RL通过奖励信号直接优化模型行为[2] - 行业在大规模RL实践中普遍面临模型熵失衡的核心挑战,即探索与利用的不协调,这导致模型训练不稳定和性能难以提升[3] - 策略熵的平衡是优化大模型处理复杂推理任务的核心挑战,熵坍缩会使模型输出单一化丧失探索能力,而熵爆炸会导致模型过度探索难以收敛[6] 算法创新:CE-GPPO - 公司提出CE-GPPO算法,以熵为核心视角重新审视RL中梯度裁剪机制的影响,并提出梯度保留策略,在保证训练稳定的前提下利用裁剪区间外的梯度[3] - 算法核心思想是不丢弃被裁剪token的梯度,而是有控制地保留和缩放它们,使其成为平衡探索与利用的"阀门"[11] - 通过stop gradient解耦机制对超出clip区间的token在反向传播时恢复梯度传导,并通过双系数β₁和β₂对梯度进行缩放,实现精细调控[15] - 梯度表达式显示,裁剪区间外的梯度被限制在β₁(1-ɛ)或β₂(1+ɛ)范围内,其中β₁和β₂通常接近1,从而维持训练稳定[16][17] 实验结果与性能 - 在多个数学推理基准上的实验结果显示,CE-GPPO在所有基准上均超越强基线方法,在AIME25和HMMT25等高难度任务上提升最显著[20][21] - 在1.5B模型上,CE-GPPO最佳配置平均得分达54.9,显著高于基线的45.2;在7B模型上,最佳配置平均得分达67.5,高于基线的60.8[20] - 模型规模越大,CE-GPPO带来的收益越明显,表明该方法具备扩展到更大规模模型的潜力[21] - 训练动态显示,CE-GPPO能保持稳定且中等偏高的熵水平,全程无震荡,最终收敛性能更高[21] 算法机制分析 - 超参数实验验证了CE-GPPO的可控熵调节机制:β₁较大时模型更偏向利用熵下降更快,β₂较大时模型倾向于探索熵保持在较高水平[24] - 维持相对高且稳定的熵有利于训练过程中的持续性能提升,给予PA&LP tokens更大梯度权重β₂同时给予NA&LP tokens更小权重β₁有助于维持探索能力[33] - 与CISPO和GSPO等近期RL算法相比,CE-GPPO在不同基准上取得最好结果,因其对clip区间外梯度的管理更加细粒度且样本利用率更高[35][36] - 相比传统的熵正则化和DAPO的clip-higher策略,CE-GPPO能保持平稳的熵曲线,避免性能崩溃或过度探索的问题[37]
强化学习是怎么赋能人形/四足/机械臂等本体的?学术界是怎么展开的?
具身智能之心· 2025-10-24 10:00
强化学习行业应用现状 - 强化学习在学术和工业界持续受到重视,在顶会上相关研究出现较多 [1] - 强化学习是具身智能机器人(如人形、四足机器人)实现步态控制等复杂任务的核心技术,应用于爬楼梯、跑步、跳舞等高难度动作 [2] - 机械臂的视觉语言动作模型与强化学习结合方案在学术领域越来越受欢迎,能提升执行效率与流畅度 [3][8] 课程核心服务与目标 - 课程旨在解决强化学习入门难、论文产出难的问题,通过14周核心辅导加8周维护期,帮助学员产出可投向RAL/ICRA/IROS/CoRL等顶级会议或期刊的论文初稿 [6][9][15] - 课程采用1对6小班教学模式,配备专属助教,提供每周一次直播课及录播视频 [7][15] - 课程产出导向明确,确保结营时完成论文初稿,并提供投稿与审稿回复支持 [15][21] 课程内容与结构 - 课程内容覆盖强化学习基础、仿真环境、Sim2Real技术、四足/人形/机械臂的专项应用以及VLA+RL等前沿方向 [9][16][18][19][20] - 课程基于最新的IsaacLab仿真环境,提供SAC/PPO/BC/Diffusion Policy等基线代码,并包含真机部署参考 [15][16] - 教学采用“三轨并跑”模式,学员可根据兴趣选择四足、人形或机械臂作为主线研究方向 [15] 师资与特色 - 授课导师Jack为美国顶尖高校博士后,在RSS、ICRA、IROS、RAL等顶级会议期刊发表过论文并担任审稿人 [21] - 课程特色包括科研全流程陪跑、每周设定量化指标、提供6个以上可创新的研究想法以及结营后8周的论文维护支持 [14][15][16][21] - 课程强调从方法、工程、评测到写作、投稿的完整科研闭环,与普通训练营形成差异化 [30]
有的同学还没入门具身,有的已经CCF-A!?
具身智能之心· 2025-10-24 10:00
公司服务概述 - 公司提供具身智能领域的论文辅导服务,覆盖多模态大模型、视觉语言导航、机器人仿真等前沿研究方向[1] - 服务采用1对1定制化辅导模式,辅导范围涵盖从CCF-A到CCF-C级别的会议以及SCI一区到四区的期刊[1] - 公司导师团队由来自国内外名校的博士及头部企业研究员组成,拥有ICML、NeurIPS、CVPR等顶级会议的投稿和审稿经验[1] 公司服务流程与优势 - 公司提供全流程闭环辅导,包括选题创新点挖掘、实验设计、代码调试、论文写作和投稿策略等环节[1] - 公司服务兼具工业界和学术界双视角,不仅关注论文发表,更注重研究成果的落地价值[2] - 公司为前10名咨询者提供免费匹配专属导师的机会,可进行深度会议并获得个性化的会议期刊选投建议[3]
现在,最会赚钱的AI是Qwen3,全球六大模型厮杀,Top 2来自中国
36氪· 2025-10-23 12:49
比赛结果与排名 - Qwen3 Max以14,438美元账户价值位列第一,收益为4,438美元,回报率+44.38% [1][9][11] - DeepSeek V3.1以12,092美元账户价值排名第二,收益为2,092美元,回报率+20.92% [9][11] - Claude 4.5 Sonnet账户价值8,780美元,亏损1,220美元,回报率-12.2% [10][11] - Grok 4账户价值8,301美元,亏损1,699美元,回报率-16.99% [10][11] - Gemini 2.5 Pro账户价值3,946美元,亏损6,054美元,回报率-60.54% [10][11] - GPT-5账户价值2,852美元,亏损7,148美元,回报率-71.48% [10][11] 比赛进程与表现 - 10月21日所有模型经历暴涨,22日凌晨集体大跌 [3] - Qwen3 Max在22日下午先后超越Grok 4和DeepSeek V3.1,首次升至第一 [7] - 23日上午Qwen3 Max再次反超DeepSeek V3.1,优势持续扩大 [3][8] - Qwen3 Max采用稳健的"快准狠"操盘策略实现逆袭 [8] - Gemini 2.5 Pro和GPT-5从比赛第二天开始持续亏损,表现稳定 [24] 交易行为分析 - Gemini 2.5 Pro交易次数达102次,GPT-5为42次,属于高频交易 [26] - Qwen3 Max交易22次,Claude 4.5 Sonnet交易12次,Grok 4交易10次,DeepSeek V3.1仅交易9次 [26] - Gemini 2.5 Pro在交易中表现出情绪化特征,类似人类交易行为 [15] 比赛规则与设置 - Alpha Arena由Nof1实验室组织,为六大模型各提供1万美元初始资金 [18] - 所有模型在Hyperliquid交易所使用相同提示词和输入数据进行交易 [20] - 模型需根据实时价格、MACD、RSI等技术指标自主做出交易决策 [20] - 比赛目标为"最大化风险调整后的收益",要求模型独立生成Alpha、决定仓位、把握时机和管理风险 [20] 行业意义与影响 - 金融市场被视为AI能力的终极试金石,是比游戏更复杂的训练环境 [29][30] - 市场环境会随AI能力提升而同步增加难度,考验模型在不确定性中的生存能力 [30] - Qwen3 Max的胜利体现了国产大模型在高风险动态金融环境中的领先实力 [32][33] - 这次比赛结果被视为AI在真实世界中生存能力的重要里程碑 [32]