强化学习

搜索文档
VLA+强化学习,会催生更强大的系统!
具身智能之心· 2025-07-31 00:04
机器人基础模型发展 - RT-2作为首个机器人VLA模型,通过将机器人控制问题构建为视觉问答任务实现基础功能,基于PaLI-X和PaLM-E预训练模型开发[5][7] - RT-X跨具身数据集整合34个实验室、22种机器人数据,通用模型性能比单一场景专业模型平均提升50%,分布外指令处理能力提升3倍[10][11] - 第二代VLA模型采用连续动作分布设计(如扩散模型/流匹配模型),支持高频率精细控制,动作生成跨度达50个时间步[15][17][19] PI公司技术迭代 - π0模型基于30亿参数Polyglot-LLM开发,集成动作专家模块,输入包含1-3张图像+语言指令,可控制多样化机器人形态[18][19] - π0训练数据集达10,000小时,融合RT-X数据后实现复杂任务微调,如折叠盒子(成功率66%)和衣物(抗干扰恢复能力突出)[21][23][26] - π0.5版本新增分层推理架构,支持长期任务(如卧室清洁),仅3%移动操作数据但实现真实场景迁移应用[28][30][32] 技术融合方向 - 当前VLA模型依赖模仿学习,未来将通过强化学习(RLPD算法)优化任务成功率与鲁棒性,采用稀疏奖励+人工干预机制[35][39][43] - RLDG方法尝试将强化学习专家数据整合至VLA,已实现连接器插入等技能泛化,但端到端训练流程仍需突破[45][46] - 视觉编码器+图像分类奖励机制提升强化学习效率,动态任务如煎蛋翻面、家具组装验证技术互补潜力[42][43]
买来的足式机器人,调了好久不work......
具身智能之心· 2025-07-31 00:04
足式机器人开发挑战 - 初学者开发足式机器人面临巨大困难,需实现爬楼梯、跑步、跳舞等高难度动作,但缺乏系统指导导致难以入门[1] - 复杂地形(石子路、坑洼路面)要求机器人具备稳定动作执行能力,僵硬驱动难以行走超过20米[1] - 完整开发流程需掌握运动学、动力学、多传感器融合、强化学习等8项核心技术,学习门槛高[1] 足式机器人行业价值 - 足式机器人(四足/双足)被视为机器人领域里程碑,能仿生应对复杂地形突破平坦环境限制[2] - 资本高度关注,在巡检、安防、救援等场景有广阔应用前景,企业正高薪争夺相关人才[2] - 当前是进入领域最佳时机,但缺乏系统学习路径导致学习者易踩坑放弃[2] 课程技术体系 - 国内首门覆盖四足到双足的全栈算法课程,包含基础运动控制、高级强化学习、Sim2Real迁移三大模块[2][3] - 核心技术包含:关节负载分析(运动学)、IMU/视觉多模态融合、双足动态平衡控制、PPO/SAC算法应用[3] - 前沿技术整合:波士顿动力跳跃算法解析、域随机化策略、RMA等提升仿真到现实的迁移成功率[4][7] 实战训练设计 - 仿真平台覆盖Isaac Gym/Gazebo/MuJoCo,实现行走/跳跃/攀爬等多任务切换训练[3][9] - 硬件部署涉及Unitree、DeepRobotics等主流平台,包含噪声注入、物理参数抖动等鲁棒性增强手段[7][11] - 大作业设置复杂地形跑酷、人机协作等场景,要求学员完成从设计到性能评估的全流程[7][16] 目标人群与能力培养 - 面向AI从业者、机器人专业学生、转行者三类人群,需具备Python/PyTorch及线性代数基础[16] - 培养能力包含:全栈技术掌握(运动控制到强化学习)、四足/双足系统思维、1-2年等效项目经验[16] - 课程形式为离线视频+代码+线上答疑,配套源码与行业案例,有效期1年[17]
PI联合创始人,机器人大神!详解VLA+强化学习,催生更强大的系统
具身智能之心· 2025-07-30 06:03
机器人基础模型发展 - 首个机器人基础模型RT-2基于语言模型开发,通过视觉问答形式实现机器人控制,将电机指令编码为问题答案[7][8] - RT-2基于PaLI-X和PaLM-E预训练视觉语言模型构建,能处理基础语言指令[10] - 跨具身数据集RT-X整合34个实验室数据,覆盖22种机器人类型,通用模型性能比专用模型高50%,分布外指令处理能力提升3倍[12][13] 模型架构迭代 - 第一代VLA模型采用离散Token生成动作,第二代升级为连续动作分布,支持扩散模型生成多步动作片段[19] - 第二代VLA模型π0基于30亿参数Polyglot-LLM开发,增加动作专家模块,输入1-3张图像+语言指令,输出50时间步高维动作[22][24] - π0.5新增分层推理能力,可分解长期任务(如打扫卧室)为子步骤执行,移动操作数据仅占训练集3%但能泛化至新场景[36][38][40] 应用与性能表现 - π0完成复杂任务如折叠盒子(成功率66%)和衣物,具备抗干扰恢复能力[26][29][33] - π0.5在未训练过的真实厨房环境中执行叠毛巾、清洁等任务[41] - 模型组合多任务流程,例如从烘干机取衣→搬运→折叠的全流程操作[34] 未来技术方向 - 当前模型依赖模仿学习,未来将通过强化学习优化任务成功率与鲁棒性[44][45] - 强化学习采用RLPD算法,结合稀疏奖励和人工干预提升效率[49][53] - RLDG方法尝试将专家策略知识蒸馏至VLA,已实现连接器插入等复杂任务泛化[59] - 行业需解决VLA与强化学习的端到端训练流程整合问题[60]
SPIRAL:零和游戏自对弈成为语言模型推理训练的「免费午餐」
机器之心· 2025-07-30 05:13
核心观点 - 研究团队提出SPIRAL框架,通过零和游戏自对弈提升语言模型的推理能力,摆脱对人工监督的依赖[3] - 游戏作为推理训练场,通过输赢结果提供廉价可验证的奖励,无需人工标注[6] - 仅通过库恩扑克训练,模型数学推理能力平均提升8.7%,在Minerva Math基准测试上跃升18.1个百分点[7] - SPIRAL框架让竞争驱动智能涌现,通过多回合零和游戏自主发现并强化可泛化的推理模式[10] 游戏选择与训练效果 - 选择三种具有不同认知需求的游戏:井字棋(空间模式识别)、库恩扑克(概率计算)、简单谈判(多步规划)[12] - 自对弈保持50-52%胜率,确认对手与学习者同步进化[13] - 训练阶段胜率变化:Step 16(0% vs Gemini,52.3%自对弈),Step 128(37.5%,51.7%),Step 384(62.5%,50.9%)[14] 推理模式迁移 - 发现三种核心推理模式:期望值计算(使用率从15%增长到78%)、逐案分析(出现率72%)、模式识别(使用率35%到45%)[16][18][19] - 不同游戏培养专门化能力:井字棋专家在空间游戏Snake上56%胜率,扑克大师在概率游戏Pig Dice上91.7%胜率[20] - 多游戏训练产生协同效应:Liar's Dice上单一专家12-25%胜率,多游戏模型达51.4%[21][22] 技术创新 - 开发分布式在线多智能体强化学习系统,实现全参数更新的在线自对弈[24] - 角色条件优势估计(RAE)防止思维崩溃,保持稳定梯度和推理生成[26][27][28] - 在DeepSeek-R1-Distill-Qwen-7B上应用SPIRAL,性能从59.7%提升到61.7%,AIME 2025分数跃升10个百分点[30] 实践意义与局限 - 提供全新思路:无需高质量推理数据,只需设计合适游戏环境[35] - 验证关键假设:强化学习筛选预训练模型中的可泛化思维链[35] - 当前局限:游戏环境依赖、计算资源需求(8块H100 GPU运行25小时)、性能瓶颈[38] - 评估局限:主要集中在学术基准测试,需进一步验证现实任务影响[39]
大模型发展情况及展望:海内外大模型梳理
2025-07-30 02:32
行业与公司关键要点总结 **人工智能行业整体发展** - 人工智能投资经历三轮浪潮 当前浪潮持续时间更长 上涨力度更强 资本开支投入力度和商业化回报潜力更高[1][4] - 人工智能发展三阶段:符号主义 专家系统 深度学习 当前处于深度学习阶段 核心技术为深度神经网络[5] - 模型智能水平提升三规律:算力增长 效率提升(训练成本逐年下降) 范式转变(如强化学习引入)[23] - 推理算力需求爆发式增长 占当前算力使用80%-90% 谷歌Gemini流量TOKEN达480T(2025年4月) 两个月后翻倍至900T[25][32] **大模型技术进展** - **深度学习应用**:Transformer架构通过思维树增强逻辑能力 提升问答速度和问题解决表现[1][6] - **强化学习突破**:进入post-training scaling law阶段 少量反馈数据即可提升逻辑推理能力 减少对外部语料依赖[8][9] - **训练范式演变**:未来重点为延长强化学习时间 增加算力投入 引入MID training阶段(专家标注高质量数据)[13][17] - **成本趋势**:训练成本逐年下降 GPT-4训练成本前年较高 2024年下降 2025年进一步降低[22] **海外大模型动态** - **OpenAI**:GPT-4.5发布延迟 GPT-5预计在逻辑思维 动态处理 图形界面操作跨代提升 O3模型文本/视觉推理突出[10][11] - **GROX系列**:GROX4强化学习算力与预训练相当 表现惊人 提供未来训练范式参考(算力与时间大幅增加)[13] - **谷歌Gemini**:均衡性强 性价比 推理速度 绝对能力突出 API调用市场份额45%[14][30] - **GOROCK4**:使用20万块H100训练 性能强劲 测试成绩刷新 与头部模型差异小[12] - **Isotropic Cloud 4**:编程优化模型 推理速度快 价格低 第三方调用量巨大 估值攀升[15] **国内大模型进展** - **技术差距**:中美模型差距约3-6个月 无显著技术壁垒 国内模型可能在下一次迭代后冲击SOTA[18][33] - **代表模型**: - 豆包1.6:支持深度推理 多模态理解(图片 视频)及界面操作[19] - Kimi K2:DPC V3架构 总参数量1万亿 非推理领域领先[19] - 千问三:具备长短COT能力 混合推理 quarter版本编程性价比超Claude 4[19] - **编程领域**:国内模型能力接近海外顶尖(如Claude 4) 性价比更高 此前被低估[20] - **算力需求**:国内模型需更多算力支持 短期悲观但基座表现优异 三季度或有大版本发布[21] **商业化与市场表现** - **谷歌AI Overview**:覆盖全球后 每月激活频次1470亿次(占搜索35%-50%) 月度吞吐量290T TOKEN[26] - **API市场格局**:谷歌45% Sora(编程能力强)第二 Deepseek第三 OpenAI份额低[30] - **AGI进展**:技术无显著障碍 强化学习与合成数据解决数据短缺 应用闭环(搜索 编程 多模态生成)[31] - **投资机会**:关注计算资源与应用标的 强化学习迭代推动性能跃升 类比AlphaGo股价效应[33] **潜在风险与挑战** - **深度推理模型**:简单问题反应过慢 混合推理为发展方向(如Claude 3.7动态激活深度推理)[16] - **算力波动**:短期事件冲击(如DeepSick影响英伟达股价)但非长期趋势[24] - **商业化渗透率**:AI搜索主导 虚拟试衣等新应用渗透率低 增长空间大[27][28] (注:部分文档内容重复或交叉引用 已合并关键数据与观点)
具身领域LLM结合强化学习与世界模型工作汇总
具身智能之心· 2025-07-30 00:02
具身智能领域最新研究进展 1 UniSim通用现实世界交互模拟器 - 通过生成式建模整合多源数据(图像/机器人/导航数据)实现高层级指令和低层级控制的视觉结果模拟 [3] - 应用场景覆盖游戏/电影内容生成和具身智能体纯模拟训练(零样本迁移至现实)[3] - 实验证明可同时训练视觉语言策略和强化学习策略 [3] 2 因果世界模型与鲁棒智能体 - 首次证实最优智能体必须学习真实因果模型以实现跨领域泛化 [5] - 研究结论对迁移学习和因果推断领域产生深远影响 [5] 3 MAMBA元强化学习框架 - 结合模型方法与元强化学习技术实现15倍样本效率提升 [8] - 在高维任务场景验证有效性,推动现实世界泛化能力突破 [8] 4 EMMA多模态具身智能体 - 通过文本世界LLM指导视觉世界VLM训练(DAgger-DPO算法)[10] - ALFWorld基准测试成功率提升20%-70% [10] 5 Text2Reward自动奖励生成 - 基于LLM生成可执行密集奖励代码(无需真实数据)[13] - 17项操作任务中13项超越专家编写奖励 [14] 6 在线持续学习智能体 - 提出Behavior-IL/Environment-IL框架解决现实场景持续学习问题 [17] - CAMA机制无需任务边界信息即实现参数更新 [18] 7 AMAGO情境强化学习 - 通过并行化Transformer训练解决长期记忆和元学习挑战 [21] - 可攻克开放世界多指令完成难题 [21] 8 LLM世界模型构建 - 创新性采用PDDL构建显式世界模型(支持40+动作生成)[22] - 在Household领域成功求解48项复杂规划任务 [23]
干货 | 基于深度强化学习的轨迹规划(附代码解读)
自动驾驶之心· 2025-07-29 23:32
自动驾驶技术中的强化学习应用 核心观点 - 强化学习在自动驾驶领域从机器人早期阶段已有应用,但受限于训练效率低和复杂度高,工业界普及度有限 随着AlphaGo、ChatGPT RLHF和DeepSeek-O1等技术的突破,强化学习在时序决策任务(如轨迹规划)中展现出潜力 [3][7] - 自动驾驶的强化学习需结合模仿学习、逆强化学习等技术,通过动态reward设计(安全性/舒适性指标)和闭环训练解决环境交互问题 [8][62] 技术范式分类 1 基础学习概念 - **监督式学习**:用于感知任务(目标检测),通过固定训练集优化模型输出与监督信号的均方误差 [5] - **模仿学习**:以专家动作为监督信号,扩展至短时序轨迹生成,是端到端自动驾驶的主流方法 [6] - **强化学习**:通过环境交互的延迟反馈(如轨迹规划中的碰撞避免)优化策略,依赖动态reward信号 [7] - **逆强化学习**:从专家数据中学习reward-model,解决自然语言或驾驶舒适性等难以定义的奖励问题 [8] 2 核心算法框架 - **值优化方法**:包括动态规划、蒙特卡洛(统计大数原理)、时序差分(SARSA/Q-Learning)及混合算法(GAE) [29][30][33][44] - **策略优化方法**: - **REINFORCE**:蒙特卡洛估计策略梯度 [50] - **Actor-Critic**:结合策略网络与价值函数拟合 [51] - **PPO**:通过clip函数简化TRPO的约束条件,提升训练稳定性 [57] - **GRPO**:DeepSeek提出的轻量化算法,利用在线group样本替代value-model [59] 自动驾驶场景关键技术 - **预训练**:策略网络与价值网络通过模仿学习初始化,提升训练收敛性 [60] - **概率建模**:自回归/Diffusion模型对action多步rollout,通过环境反馈优化策略 [61] - **闭环训练**:需建模多智能体博弈(他车动态响应),避免静态环境导致的策略偏差 [62] - **端到端融合**:结合NeRF/3DGS生成动态环境感知数据,实时更新传感器输入 [63] 行业应用趋势 - 技术社区活跃度显著提升,涉及大模型、VLA、BEV感知等30+技术栈,近4000人参与交流,300+企业与科研机构加入 [65]
自动驾驶Agent来了!DriveAgent-R1:智能思维和主动感知Agent(上海期智&理想)
自动驾驶之心· 2025-07-29 23:32
DriveAgent-R1核心创新 - 首创基于强化学习的混合思维架构,使智能体能在纯文本推理和工具辅助推理间自适应切换[12][14] - 引入主动感知机制,配备包含高分辨率视图获取、关键区域检查等功能的视觉工具箱[15][18] - 采用三阶段渐进式训练策略(DM-SFT→FCM-RL→AMS-RL),显著提升模型性能[16][19][24] - 在SUP-AD数据集上实现SOTA性能,首帧联合准确率达70.11%,超越Claude Sonnet 4等主流模型[12][26] 技术架构与性能 - 基于Qwen2.5-VL-3B模型构建,输入包含6路环视摄像头数据,输出8秒驾驶意图决策序列[11] - 创新MP-GRPO算法强化双模式能力,模式选择准确率达65.93%[24][28] - 工具使用使序列平均准确率提升15.9%,推理质量提升11.7%[26][27] - 消融实验显示完整训练策略使首帧准确率较基线提升44.8个百分点[28] 行业突破性 - 首次实现自动驾驶智能体的长时程决策能力(8秒连贯规划)[3][11] - 解决现有VLM短视决策(单步预测)和被动感知两大核心痛点[6][12] - 验证视觉工具对SOTA模型的普适增强效应(如Claude推理质量+26.1%)[26] - 建立首个评估体系量化安全性、舒适性等多维度表现[24]
2025人工智能十大趋势
搜狐财经· 2025-07-29 16:39
基础模型的跃迁 - 强化学习从人类反馈强化学习转向基于可验证奖励的强化学习,显著提升AI推理能力,推动AI从语言生成器向任务执行者转变,例如DeepSeek-R1-Zero通过纯强化学习展现强大推理能力,应用于工业机器人路径优化和复杂物流网络调度等领域 [2][17][34] - 原生多模态生成技术构建统一跨模态表征空间,实现图像、语音和文本深度融合,OpenAI的GPT-4o和Sora模型实现文本、图像和音频无缝交互,拓展创意产业、教育和娱乐应用边界 [2][17][49] - 语音合成技术从机械化文本朗读转向基于语境理解的情感化表达,ElevenLabs V3支持70多种语言零样本学习,Hume Octave基于万亿级token训练提升用户偏好率71.6%,音乐生成技术从片段创作迈向完整作品生成,Suno V4.5最大生成时长8分钟且音质达广播级别 [2][65][67] 智能行动者的崛起 - AI Agent分化为编排类和端到端两大技术路线,编排类Agent通过预定义代码路径编排LLM与外部工具交互,适合企业级工作流自动化和多工具集成复杂任务,端到端Agent模型通过强化学习将推理、规划和工具使用能力内化到模型中,适合深度推理专业任务 [3][75][79] - LifeOS概念通过整合用户多模态数据构建数字自我,ChatGPT Memory功能跨会话保留用户写作风格和长期目标,OpenAI创始人Sam Altman提出LifeOS愿景,AI具备终身记忆和个性化推理能力,成为用户生活和工作的人生合伙人 [3][83][84] - 游戏智能体从简单工具转变为玩家智慧伙伴,腾讯王者荣耀AI Coaching系统和暗区突围AI队友系统提供个性化训练方案和战术建议,通过深度强化学习和多模态感知技术理解玩家意图和预判战局,提升游戏体验并为元宇宙奠定基础 [3][7] AI走向物理世界 - 具身智能迎来GPT-2时刻,基础模型向多模态进化,视觉-语言-动作大模型成为机器人实现高阶认知与执行能力核心,腾讯和英伟达构建机器人模拟和训练平台,Tesla Optimus、1X Neo和Agility Digit等厂商计划量产约1000台具身智能机器人,应用于工业、物流、仓储和零售等领域 [4][6][8] - 空间智能从处理二维信息迈向处理三维空间,World Labs展示一张图生成3D世界原型模型,实现单幅图像或一句话生成可交互三维场景,为自动驾驶、机器人制造和XR混合现实等领域带来新机遇,并为AI走向通用人工智能提供物理常识和因果推理能力 [4][9][20] - 具身智能机器人从实验室走向产业化,运动系统、感知系统和基础设施系统逐步定型,协调和协作能力不断提升,为未来劳动力市场提供有力补充,各大厂商加大在工业、物流、仓储和零售等领域试点力度,基于反馈持续迭代优化硬件配置 [6][8][20] 技术应用与产业影响 - 腾讯混元大模型加速迭代,开放Hunyuan-A13B开源版本,腾讯云智能体开发平台和腾讯元器平台构建全链路智能体开发能力,支持多模态输入和多智能体协同,在制造行业打造产线AI质检智能体,政务领域打造数字政务助手,实现跨系统信息调度和政策答疑 [28][29][58] - 多模态闭环生成技术实现所见即所得实时体验,腾讯混元图像2.0将图像生成时间从3~5秒压缩至300~500毫秒,应用于个性化电商实时生成穿搭推荐图,XR领域结合眼动追踪和手势识别实现虚拟商品交互体验,游戏行业引入即时生成交互体验,腾讯混元游戏视觉生成平台实现实时画布和AI 2D美术功能 [58][59][60] - 智力即服务推动企业从算力驱动迈向智力驱动,RAG技术打破部门数据壁垒,微软365 Copilot构建可信答案工作流,一汽丰田通过大语言模型和RAG架构将客服独立解决率从37%提升至84%,Salesforce构建Agentforce平台嵌入Agent节点完成CRM流程多步推理与任务代理 [97][100][101]
开启RL Scaling新纪元,siiRL开源:完全分布式强化学习框架,支持超千卡规模高效训练
机器之心· 2025-07-29 07:44
强化学习扩展性瓶颈与趋势 - 当前顶尖基础模型(DeepSeek-R1、o3-pro、Gemini 2.5-pro、Claude-4)的卓越推理能力依赖大规模强化学习,RL Scaling成为大模型领域"军备竞赛"核心[1] - xAI发布的Grok 4在200,000块GPU集群上运行强化学习,推动后训练规模达到新高度[1] - 解决RL扩展性瓶颈是解锁下一代AI高级推理能力的关键战略[2] siiRL框架创新设计 - 采用多控制器范式和全分布式架构,将数据加载/计算/流转任务均匀分散到工作节点,消除单一控制器瓶颈[3][11] - 核心组件:DAG Planner(逻辑工作流分解)、DAG Worker(GPU绑定执行)、Data Coordinator(数据生命周期管理)[13][14][15] - 支持华为昇腾NPU,实现跨硬件平台兼容[3] 性能优势验证 - 在1024 GPU规模下实现近乎线性扩展,512卡时保持80.5%线性扩展效率[3][21] - PPO/GRPO算法训练中最高实现2.62倍吞吐提升,72B模型训练时基线框架出现OOM而siiRL稳定运行[19] - 数据密集型任务(64k长上下文)中性能优势从1.48倍扩大至2.03倍[26] 技术突破点 - 端到端训练吞吐最高提升7倍(VLM任务)[21][25] - 动态数据缓冲机制自动调整数据分片(数据并行度变化时)[17] - 收敛性验证显示在保持与基线相同精度的前提下大幅减少训练耗时[28] 行业应用前景 - DAG设计为多智能体系统奠定基础,未来将重点拓展MARL算法兼容性和复杂交互机制[29] - 全链路开源框架(代码100%开放)支持国产硬件,目标实现"大模型跑在中国芯"[33] - 产学研团队背景涵盖万卡集群建设者、CUDA开发者、芯片优化专家等[33]