强化学习

搜索文档
从方法范式和应用场景上看强化与VLA/Flow Matching/机器人控制算法
具身智能之心· 2025-08-19 01:54
方法范式 - 传统强化学习(RL)和模仿学习结合Sim2Real技术,方法包括DQN/PPO/SAC/D4PG/GRPO等,主流仿真环境有Mujoco、Gazebo、Bullet、IssacSim/IssacGym [5] - Diffusion Policy和VLA模型与传统RL的根本区别在于用训练数据分布描述任务目标,而非依赖reward function,适合复杂任务如叠衣服、收拾桌面等 [4] - OpenVLA模型整合多模态输入,基于7B参数的Llama 2语言模型,结合DINOv2和SigLIP视觉编码器 [7] - RDT(Robotic Decision Transformer)采用Goal-Conditioned设计,在AGIBot百万真机数据集上训练 [9] - pi-0引入动作抽象层,将不同机器人关节空间映射到统一潜空间,缓解本体差异问题 [13] - 流匹配(Flow Matching)建模从标准正态分布到复杂目标数据分布的映射,用于生成机器人动作序列 [15][17][18] 技术实现 - 基础运动控制(如人形/四足机器人)以RL+sim2real为主,模型较小,算力消耗低,但全场景丝滑动作仍有差距 [22] - 复杂/长程操作任务采用预训练ViT编码器+LLM,使用diffusion/流匹配/transformer decoder输出动作,通过预训练+微调实现跨机器人泛化 [23] - 宇树官方demo基于IssacGym和PPO算法 [24] - 北京亦庄人形机器人中心开源强化学习运动控制,基于IssacLab融合人体运动数据与AMP奖励,实现天工Ultra机器人21公里奔跑 [24] - pi0预训练阶段利用10,000小时多机器人数据,微调阶段需1-5小时到上百小时任务数据,模型规格为33亿参数 [25] - Google Gemini Robotics采用云端VLA骨干(160毫秒延迟)和本地动作解码器的快慢架构 [25][26] 数据集 - Open X-Embodiment数据集包含1M+ trajectories、500+ skills、22种机器人类型,统一为RLDS格式 [21] - AGIBot数据集为智元机器人开源的百万真机数据集 [9][24] - EgoDex数据集包含829小时人类操作视频,338K轨迹/194任务 [24] 应用场景 - 基础运动控制依赖仿真器、机器人模型和domain randomization设计,reward shaping和sim2real技术 [35] - 复杂长程任务依赖VLA和Diffusion/FM,用训练数据分布描述任务目标,语言索引任务分布 [35] - 任务过程和目标定义方面,强化学习通过reward函数,VLA用数据分布描述,未来可能通过多模态输入预测任务目标 [35] - 底层控制任务适合RL+sim2real,上层复杂任务适合VLA+数据,如叠衣服、收拾桌面等需要理解人类意图的任务 [40]
4o-mini华人领队也离职了,这次不怪小扎
量子位· 2025-08-19 01:17
核心人才流动 - OpenAI核心研究员Kevin Lu离职 加入Thinking Machine Lab [1][2][3] - Kevin Lu曾领导OpenAI 4o-mini项目开发 并参与o1-mini和o3模型研发 [7][9] - Thinking Machine Lab已集结多位OpenAI前核心成员 包括John Schulman、Barrett Zoph等 [4][22] 技术研究方向 - Kevin Lu专长强化学习和小模型 其论文《决策Transformer》引用量达2254次 [10][11] - 研究观点认为互联网数据比Transformer架构更重要 强调序列数据预测价值 [13][14] - 提出强化学习未来方向在于新数据源和奖励机制创新 [15] 初创公司动态 - Thinking Machine Lab完成20亿美元种子轮融资 估值达120亿美元 [17][19] - 公司由OpenAI前CTO Mira Murati创立 团队覆盖AI主要研究方向 [18][22] - 在硅谷人才争夺中保持团队稳定 拒绝10亿美元薪酬挖角 [20] 产品与技术成果 - 4o-mini为多模态推理小模型 支持图文输入和长上下文 具有高效低成本特点 [7] - Kevin Lu参与开发的o1-mini和o3模型体现其小模型专长 [9] - Thinking Machine Lab尚未公开技术成果 引发行业期待 [21]
诺奖得主谈「AGI试金石」:AI自创游戏并相互教学
36氪· 2025-08-19 00:00
Genie 3 世界模型 - Genie 3 是 DeepMind 多个研究分支融合的成果,核心目标是构建“世界模型”,让 AI 理解物理世界的规律,包括物理结构、材料特性、液体流动、生物行为等 [3] - 通过 3D 游戏引擎等模拟环境生成大量数据,让 AI 在虚拟场景中学习现实规律,能生成具有一致性的世界,用户返回虚拟场景时状态与离开时保持一致 [4] - 已用于内部训练,游戏 agent SIMA 可直接操控电脑游戏,Genie 3 实时生成对应的环境变化,形成“AI 生成世界、另一个 AI 探索”的闭环,为机器人技术和 AGI 系统创建无限训练数据 [4] - 在互动娱乐领域有潜在价值,可能催生介于电影与游戏之间的新型娱乐形式,与视频模型共同为探索现实本质提供新维度 [5] Game Arena 评估平台 - Google DeepMind 与 Kaggle 合作推出 Game Arena,作为评估 AGI 进展的新测试平台,让模型玩各种游戏并测试能力 [6] - 游戏是非常纯粹的测试场所,通过 Elos 等级分客观衡量性能,没有主观性,不需要人类进行 A/B 测试 [9] - 随着 AI 系统能力提升,游戏难度可自动调整,系统在比赛中相互较量,能力增强则测试自动升级 [9] - 未来支持 AI 自创游戏并相互教学,避免训练数据过度拟合,更真实检验通用学习能力 [10] - 将与其他新型评估工具共同作用,确保 AI 系统在认知能力的各个维度得到全面检验 [11] AI 系统现状与挑战 - 当前 AI 系统存在能力不均衡现象,能在 IMO 中获得金牌,却可能在高中数学、简单逻辑问题或特定游戏中犯低级错误 [7] - 现有评估基准存在局限性,很多 benchmark 开始变得饱和,例如数学领域 AIME 的正确率已达 99.2%,进入回报非常有限的阶段 [7] - 需要更难、更广泛的 benchmark,涵盖物理世界理解、直觉物理、物理智能及安全特性等维度 [8] Thinking 模型与工具使用 - Thinking 模型演进是重要方向,以 Deep Think 为代表的系统延续 AlphaGo 等早期游戏 AI 的 agent 系统思路,强调思考、规划与推理能力 [12] - 可进行深度思考和并行规划,在数学、编程、科学问题等领域通过反复推演优化结果,而非直接输出初始结论 [12] - 工具使用成为 AI 能力扩展的新维度,在推理过程中可调用搜索功能、数学程序、编码工具等,更新规划方案 [12] AI 系统架构转变 - AI 正从权重模型向完整系统转变,早期模型输入输出模式较简单,如今系统能结合工具使用、规划与思考能力,实现更复杂功能 [13] - 产品设计需具备前瞻性,预判一年后技术水平,允许底层引擎定期更新,周期可能短至三到六个月,以适应技术快速迭代 [13]
李建忠:关于AI时代人机交互和智能体生态的研究和思考
AI科技大本营· 2025-08-18 09:50
大模型推理范式转换 - 主流模型从训练模型转向推理模型,OpenAI o1通过强化学习实现推理能力大幅提升,DeepSeek R1成为全球首个开源推理模型[9] - 推理模型具备"讲逻辑"的慢思考能力,强化学习推动AI进入"经验数据时代",突破人类知识边界[11][13] - 强化学习在测试时和强化学习阶段的Scaling Law叠加,推动模型性能持续攀升[14] - 主流SOTA模型内置Agent和Tool Use能力训练,向智能体模型迭代[16][18] 应用开发范式转换 - 软件开发从AI辅助编程(AI Copilot)转向非专业人士使用的"氛围编程"(Vibe Coding)[22] - 氛围编程将开创"可塑软件"新市场,允许用户通过自然语言对软件底座进行个性化定制[24][26][27] - 上下文工程取代提示词工程成为发挥推理模型能力的关键,需提供全面准确的上下文信息[29][32] 人机交互范式转换 - 自然语言对话界面将成为AI时代的主要交互入口,涵盖智能眼镜、汽车语音等多种形态[36][38][39] - 传统GUI应用将演变为API服务,由Agent直接调用,打破孤立App壁垒[43][45][47] - 生成式UI(GenUI)将取代传统GUI,专注于图形化呈现结果而非交互和数据收集[54] - 交互设备可能进入"多元设备"时代,不同场景使用不同专用设备而非单一中心化设备[59] 智能体生态演进 - 智能体平台需要规划、工具、协作、记忆、行动五大能力矩阵[64][66][67] - MCP协议成为智能时代HTTP协议,标准化智能体与传统软件的交互[66] - A2A协议支持智能体间拟人化协作,构建去中心化智能体网络[66][70] - 智能体执行时长将从秒级扩展到数小时甚至数年,采用伴随式异步交互模式[73][75] - 互联网将从"信息网络"重构为"行动网络",网站主要访问者变为智能体[67]
智驾或超过人驾,别克高端新能源至境L7首搭Momenta R6飞轮大模型
凤凰网· 2025-08-18 08:34
公司合作 - 上汽通用汽车与Momenta签署战略合作协议 双方将在辅助驾驶领域展开深度合作[1] - 别克高端新能源子品牌"至境"首款智能豪华轿车别克至境L7将搭载Momenta R6飞轮大模型[1] 技术应用 - 基于强化学习的Momenta R6飞轮大模型可在模拟环境中探索新驾驶行为[1] - 系统能从成功和失败中吸取经验实现自我快速成长[1] - 该技术可使驾驶安全安心能力有机会超过甚至大幅超过人类水平[1]
VLA/强化学习/VLN方向的论文辅导招募!
具身智能之心· 2025-08-18 06:00
具身智能论文辅导服务 - 提供1v1论文辅导服务 目前开放3个名额 方向包括vla 强化学习 sim2real [1] - 目标会议涵盖CVPR ICCV ECCV ICLR CoRL ICML ICRA等顶级学术会议 [1] - 辅导老师具备具身学术领域活跃研究经验 能够提供创新性研究思路 [1] 服务咨询方式 - 可通过添加微信oooops-life进行咨询 [2] - 支持扫码直接联系 需备注"具身论文辅导咨询" [2]
VLA+RL还是纯强化?从200多篇工作中看强化学习的发展路线
具身智能之心· 2025-08-18 00:07
视觉强化学习综述 核心观点 - 该综述对视觉强化学习(VRL)领域进行系统性梳理,整合200+篇研究成果,提出四大主题支柱:多模态大型语言模型、视觉生成、统一模型框架和视觉-语言-动作模型,并分析算法设计、奖励工程及评估协议 [5] - 强调强化学习在视觉任务中的关键作用,包括跨模态对齐、长序列优化及可验证奖励设计,同时指出开放挑战如推理效率、长视野信用分配等 [47] 研究框架 强化学习范式 - **RLHF(基于人类反馈的强化学习)**:通过三元组偏好数据训练奖励模型,结合PPO优化策略,三阶段流程(监督预训练→奖励建模→策略优化)成为主流 [10] - **DPO(直接偏好优化)**:绕过奖励建模环节,直接通过封闭式监督目标优化策略,降低计算成本 [11] - **RLVR(带可验证奖励的强化学习)**:用确定性验证信号(如代码测试结果)替代人类偏好,提升客观性 [12] 策略优化算法 - **PPO(近端策略优化)**:通过重要性采样和广义优势估计实现稳定策略更新,依赖精确奖励模型 [15] - **GRPO(群体相对策略优化)**:利用群体归一化优势信号替代价值网络,降低内存消耗并提升训练稳定性 [16] 应用领域 多模态大型语言模型 - **传统方法**:通过GRPO/PPO将视觉-语言模型与可验证奖励对齐,如RePIC、GoalLadder等 [17] - **空间感知**:2D任务(目标检测、分割)和3D任务(布局推理)均采用规则驱动奖励和KL正则化微调 [18] - **视频推理**:分层奖励设计(如VQ-Insight)和时间衰减回报(如TW-GRPO)解决长序列挑战 [20] 视觉生成 - **图像生成**:DiffPPO等结合扩散模型与感知奖励(如ImageReward),提升生成质量 [21] - **3D生成**:DreamCS等通过渲染-比较循环优化几何结构,强化学习实现标准方法难以达到的保真度 [24] 视觉-语言-动作模型 - **GUI自动化**:规则驱动奖励(如GUI-R1)和群体归一化更新(如UIShift)推动跨平台交互 [28] - **视觉导航**:OctoNav-R1等结合第一人称视觉与低级动作控制,通过混合强化学习管道提升泛化性 [29] 评估体系 - **多模态模型**:结合外部基准(如MME)、人类偏好奖励和KL散度监控 [35] - **视觉生成**:FID/CLIP Score等传统指标与去噪轨迹诊断结合 [36] - **GUI任务**:在线成功率与逐步奖励设计(如Mind2web)平衡稀疏信号问题 [39] 未来方向 - **自适应推理**:通过终止评论者动态平衡深度与效率 [43] - **长视野优化**:子目标发现与对比视觉-语言评论者缓解稀疏奖励问题 [44] - **奖励模型设计**:需开发抗攻击、跨模态且用户可定制的综合奖励函数 [46]
首届机器人“奥运会”结束:宇树狂揽径赛金牌,障碍赛75%队伍未完赛
第一财经· 2025-08-17 14:58
人形机器人大会赛事表现 - 宇树在1500米、400米、4×100米径赛中均获得金牌,其H1型号平均速度达3.8米/秒,采用遥控器以最大化性能压榨[3] - 天工Ultra凭借自主导航策略(激光雷达+环视摄像头+算法)赢得100米金牌,其环境复杂度涉及30多个关节控制,难度高于智能驾驶[3] - 魔法原子通过强化学习优化MagicBot Z1跑步姿态,2-3周内极限速度提升1米/秒至复赛水平[5] - 宇树包揽100米障碍赛金银铜牌,其子公司灵翌科技以38.36秒完赛,对比第二名PNDbotics的7分22秒,凸显技术领先优势[6][8] 行业技术瓶颈与突破 - 障碍赛75%未完赛率反映行业普遍痛点:算法鲁棒性、执行稳定性、感知运动协调性不足,宇树运动控制算法获同行认可[8][10] - 仅3/20+队伍实现全自主任务完成,优理奇在酒店清理赛夺冠,传统编程仍为主流,暴露感知泛化能力缺陷(如无法区分可乐品牌)[10][11] - 天轶2.0在物料搬运赛中展示全自主能力获亚军,显示场景化应用的技术分化[10] 技术演进方向 - 自主导航与强化学习成为性能突破关键:天工Ultra的激光雷达融合方案、魔法原子的奖励函数优化案例显示算法迭代路径[3][5] - 从"演示级"到"应用级"需跨越三大门槛:算法泛化能力、环境感知精度、自适应学习效率[11] - 赛事结果揭示真实进度:运动控制(宇树)和场景理解(优理奇)构成当前技术双主线[6][10][11]
松延动力小顽童队立定跳远夺冠,姜哲源:优化了机器人跳远算法
贝壳财经· 2025-08-17 06:41
比赛结果 - 松延动力小顽童队以1.25米的成绩获得立定跳远项目冠军 [1] - 宇树科技队以1.20米的成绩获得亚军 [1] - 灵翌科技队以1.13米的成绩获得季军 [1] 松延动力参赛策略 - 公司准备多套方案并派出两支队伍参赛 [4] - "小顽童"使用N2机器人 [4] - "旋风小子"使用K1机器人 [4] - 部署了可以跳得更远的算法 [4] 机器人跳远技术难点 - 硬件层面需要足够大的空间扭矩和相对较好的构型 [4] - 算法层面重新调试了一套算法 [4] - 在仿真环境中对机器人身体简化后再建模 [4] - 通过强化学习调试出最优策略 [4] 公司发展规划 - 预计年底发布一款全尺寸人形机器人产品 [4]
从MIDI乐谱到“类人灵魂”:机器人鼓手用90%+精准度复刻人类演奏魅力
机器人大讲堂· 2025-08-17 05:43
类人机器人音乐演奏研究 - 研究团队开发出能精准演奏鼓乐的人形机器人"RobotDrummer",其演奏由强化学习算法支持,能习得类人行为如动态切换鼓槌、交叉双臂击打等[2][8] - 项目灵感源于机器人能否在音乐领域发挥作用的讨论,击鼓因其节奏感强、肢体动作丰富被选为理想领域[3] 技术实现路径 - 采用MIDI作为音乐语言,提取鼓声道信息映射到物理鼓组,形成"数字化乐谱"[6] - 开发"节奏接触链"系统,明确每次击鼓的时间、位置和手部动作,通过强化学习在模拟环境中训练[8] - 采用"时间分解"策略将长曲目拆分为片段并行训练,最终实现完整演奏流畅性[8] 性能测试结果 - 测试覆盖30首多风格曲目如《In the End》《Take Five》,节奏精准度超90%,复杂曲目F1分数保持高水平[9][10] - 机器人自主产生类人演奏策略如预判击打时机、交叉手臂动作,这些行为未经预先编程[10] 应用前景展望 - 未来或实现机器人为现场乐队伴奏,并拓展至音乐外精准计时技能教学领域[11] - 下一步计划将技能迁移至实体硬件,并开发即兴演奏能力,使机器人能动态调整节奏[11] 行业相关企业 - 人形机器人领域涉及优必选科技、宇树科技、傅利叶智能等18家企业[18] - 核心零部件企业包括绿的谐波、思岚科技、鑫精诚传感器等25家[20]