Workflow
强化学习(RL)
icon
搜索文档
一堂「强化学习」大师课 | 42章经
42章经· 2025-04-13 12:01AI Processing
文章核心观点 文章围绕强化学习(RL)展开,介绍其与传统机器学习的区别、与大语言模型(LLM)的结合应用、行业发展现状与方向,还提及人才稀缺原因及人生与RL的关联等内容 强化学习概念 - RL是机器学习下用于解决多步决策问题的算法框架,与传统机器学习不同,无标准答案,有反馈机制评判结果,逻辑接近真实生活解决问题方式 [2][7] - 传统机器学习本质是记住大量标注过正确答案的数据对,用于解决单一步骤、有明确标准答案的分类问题,如人脸识别等 [3][4] RL与LLM结合 - 最初RL和LLM无关联,LLM本质是预测下一个词,存在不遵从指令缺陷,OpenAI在InstructGPT中将二者结合解决该问题 [8][9][11] - 为定义模型输出与指令需求的一致性,用人为定义数据训练出奖励模型,衍生出RLHF概念,其主要价值是让LLM好用,与RL不同,RL可让LLM更聪明 [11][12][13] - OpenAI发现让LLM“多吐点字”实现“慢思考”可使其更聪明,该过程叫推理时间缩放,训练时用有标准答案问题训练推理能力,还需用文科训练平衡模型 [13][16][19] 行业发展现状与方向 - 国内部分团队如豆包和DeepSeek在探索新可能,海外团队有不同理念,OpenAI的RL已进化到Agent范式,实现多轮交互和与虚拟世界互动 [21][22] - RL和LLM缺一不可,二者结合实现智能,目前最好的Agent模型按此整合,但范式和算法有发展空间 [25][29] - 预训练的规模定律收益变小,发展方向包括合成高质量图文混合数据和蒸馏小规模但能力同等的模型 [29][30] - RL的规模定律处于初始阶段,决策能力会提升,不同大模型公司在RL+LLM路径上会分化,主要分支有编程、Agent、通用泛化能力 [31][32][33] 用户感知与训练过程 - 用户可通过准确率和多轮交互体验判断强化学习效果,准确率可通过基准测试或体感验证,多轮交互体验好的模型如Claude [34] - 强化学习训练中基建最重要,决定迭代效率,其次是数据,最后是算法,训练效果受多种因素耦合影响,存在不确定性 [34][35] 组织架构与人才问题 - 大模型团队组织架构中预训练和后训练团队最好不分开,成员需有破圈意识,可按目标分工,如多模态、RLHF分支等 [36] - RL人才稀缺因门槛高、工业界应用少、对工程要求高,吴翼回国做开源工作,联合蚂蚁研究院发布开源框架AReaL - boba [39][40][42] - 公司招或培养RL人才,建议注重“动手能力”和“不给自己设限” [45] 人生与RL关联 - 人生类似强化学习过程,需探索自己的奖励函数,很多人可能找错奖励函数,应追求“熵值最大化”生活方式,勇敢试错 [8][47][48] - 传统RL难中途改变奖励函数,但在多智能体强化学习和人机交互中,AI需主动探索正确奖励函数,人生也需主动探索找到自己的奖励函数 [48][49][50]
一堂「强化学习」大师课 | 42章经
42章经· 2025-04-13 12:01
强化学习(RL)基础概念 - 强化学习是机器学习中解决多步决策问题的算法框架 其特点在于没有标准答案 通过最终反馈机制评判结果好坏[6] - 与传统监督学习不同 RL不需要标注数据 而是通过环境交互获得奖励信号 更接近人类解决问题的逻辑[6][7] - 典型应用场景包括游戏(如乒乓球)和复杂任务(如行程规划) 每个决策步骤会影响最终结果[6] RL与LLM的结合发展 - OpenAI首次在InstructGPT中将RL与LLM结合 解决大模型指令遵从问题 衍生出RLHF技术[10][11] - RLHF通过人工标注数据训练奖励模型 使LLM输出更符合人类需求 但本质是对齐而非增强模型能力[12][13] - RL实现"慢思考"机制 通过延长推理过程(token量增加)提升LLM准确性 形成inference time scaling范式[14][15] 行业技术路径分化 - OpenAI聚焦Agent范式 实现多轮交互和虚拟世界操作 完成从单轮到多轮的跃迁[20][21] - Anthropic专注编程能力 在简单问题快速响应与复杂问题深度思考间取得平衡[17][30] - DeepSeek探索通用泛化能力 通过理科训练与文科调校结合实现平衡输出[18][31] 技术实现关键要素 - 基建框架决定迭代效率 7B模型训练周期从7天缩短至2天可提升3倍试错机会[33] - 数据质量比数量更重要 针对性训练数据可显著提升模型性能[33] - 理解能力依赖LLM预训练 决策能力依赖RL 二者形成乘法效应缺一不可[23][24] 行业应用与人才现状 - RL人才稀缺源于技术门槛高 论文引用量比NLP/CV少一个数量级 工业级应用场景有限[39][40] - 开源框架AReaL-boba实现7B模型SOTA性能 推动RL技术普及[43] - 创业公司需把握技术窗口期 在终局到来前快速验证产品 而非追求长期技术优势[37][38] 企业组织架构建议 - 预训练与后训练团队需紧密协作 成员需具备跨领域知识避免能力盲区[36] - 按目标划分专业团队(多模态/RLHF等) 同时保持技术路线的灵活性[36] - Agent公司需储备RL人才 尽管当前技术门槛较高但未来可能成为标配能力[37]
业界突破多模态泛化推理能力,OPPO研究院&港科广提出OThink-MR1技术
量子位· 2025-03-30 02:37
多模态大模型技术突破 - OThink-MR1技术通过动态强化学习框架显著提升多模态语言模型的泛化推理能力,突破传统方法的局限性[1][7][29] - 传统监督微调(SFT)方法在特定任务表现良好但缺乏通用推理能力,而强化学习(RL)存在训练约束导致次优瓶颈的问题[4][5] 核心技术机制 - 动态KL散度策略(GRPO-D)动态调整探索与利用的平衡,避免模型陷入局部最优解[8][10][11][12] - 双奖励模型设计包含验证准确性奖励和格式奖励,通过多维度反馈提升模型学习效率[13][14][15] 实验验证结果 - 同任务评估中GRPO-D表现超越监督微调方法,在视觉计数和几何推理任务成绩提升显著[17][18][28] - 跨任务评估显示GRPO-D模型在完全不同的任务类型间展现强泛化能力,成绩较未训练模型大幅提高[21][22][23][24] - 格式奖励权重非零时模型表现更优,KL散度权重需适中调节以取得最佳效果[17][18] 行业影响 - 该技术为多模态语言模型发展开辟新路径,展现动态强化学习在提升推理与泛化能力方面的潜力[29] - 技术由OPPO研究院与香港科技大学(广州)联合研发,论文已公开发表于arXiv平台[30]
01年实习生被曝负责字节RL核心算法!系字节LLM攻坚小组成员
量子位· 2025-03-20 10:56
衡宇 发自 凹非寺 量子位 | 公众号 QbitAI 一个超越DeepSeek GRPO的关键RL算法 出现了! 用上该算法后,Qwen2.5-32B模型只经过RL训练,不引入蒸馏等其他技术,在AIME 2024基准上拿下50分,优于相同setting下使用GRPO 算法的DeepSeek-R1-Zero-Qwen,且DAPO使用的训练步数还减少了50%。 这个算法名为DAPO,字节、清华AIR联合实验室SIA Lab出品,现 已开源 。 论文通讯作者和开源项目负责人都是一个叫Qiying Yu的人 。 我们还从知情人士处得知了禹棋赢的另一重身份—— 在字节大模型团队内部负责打造"能力显著提升的下一代语言模型"的攻坚小组中,禹棋赢是唯一的实习生。 虽然是实习生,但在这个大神云集的小组里, 禹棋赢被委以重任,直接负责RL方向的研究 。 凭什么? 事情要从去年夏天说起。 去年10月,他在字节第一个跑出aha moment 去年5月,字节启动「Top Seed人才计划」,最终录取多名应届和在读博士组成史无前例的AI研究团队,禹棋赢就在其中。 为期2个月的warm up landing (类似可自由探索的适应期) 后 ...
国产人形机器人破全球纪录!连续空翻一镜到底,量产3.99w起售
量子位· 2025-03-14 11:22
文章核心观点 国产人形机器人取得进展,NOETIX Robotics松延动力的N2机器人实现连续空翻且价格亲民,其背后是硬件、算法和工程化的创新,清华创业团队展现出强大的技术和产品化能力,推动行业发展 [1][7][33] 分组1:N2机器人亮点 - 全球首个在「室内外多场景」连续空翻一镜到底的机器人,动作稳定流畅,落地后能站稳 [1][2][3] - 身高1.2米,体重30公斤,小巧灵活,具备大步行走、奔跑、单双脚跳跃及舞蹈等多种运动能力,奔跑速度实测最快可达每秒3.5米 [3] - 全身有18个自由度,单腿各有5个自由度,单臂各有4个自由度,能完成高难度动作 [9] - 单脚跳跃稳健,抗干扰能力强,摔倒后能迅速恢复正常运行 [10][11][12] - 已将量产提上日程,3.99万起售,标配二次开发接口,有三种颜色可选 [13][14] - 机身集成多个外置硬件接口,方便开发者进行二次开发,可用于科研、安防巡检等领域 [15] 分组2:N2实现连续空翻的技术路径 - 硬件架构:采用自由度精简策略,主打轻量化和抗摔性能,减少非核心自由度,选用球轴承和高强铝合金 [19][21][23] - 算法融合:实现模型预测控制(MPC)与强化学习(RL)的协同,采用课程学习技术分阶段训练 [24] - 工程化实践:以抗摔设计驱动迭代效率,采用成本导向的可靠性设计,零部件高度国产化,结构易于生产装配 [25][26][28] 分组3:清华创业团队情况 - 准00后创业团队,核心成员来自清华、浙大、南加大等高校,创始人姜哲源本科清华电子系,研究方向为深度强化学习足式机器人运动控制 [30] - 成立一年多完成三大产品布局,包括运动员N2、通用型人形机器人E1、仿生机器人Hobbs,技术和应用场景各有侧重 [31] - 一年多收获5轮2亿融资,团队能力、技术水平和产品化能力获资本认可 [32] 分组4:行业发展情况 - 春节以来国产人形机器人持续有新动作,体现「硬件 - 算法 - 场景」三角闭环下的产业技术升级 [33] - 更多本土化年轻团队崭露头角,成为行业发展主力军 [34] - N2之后团队还将推出升级版新品E1系列 [36]
昨夜3件事,加强中国AI科技叙事?
华尔街见闻· 2025-03-06 11:11
阿里通义开源RL新模型 - 阿里通义开源了QwQ-32B RL新模型 性能比肩满血DeepSeek R1 在AIME24数学测试和LiveCodeBench代码评估中表现优异 [1] - 该模型采用创新训练方法 通过校验生成答案正确性提供反馈 相比传统奖励模型训练时间大幅缩短 [2] - 公司预告将在Qwen Chat平台发布QwQ-Max-Preview模型 并承诺持续开源更多RL模型 [3][4][5] 大模型本地化部署进展 - 高性能大模型本地部署门槛显著降低 仅需NVIDIA 4090显卡或24G内存以上Mac mini即可实现 成本控制在4位数人民币 [6] - 苹果Mac Studio搭载M3 Ultra芯片(32核CPU/80核GPU)可实现满血DeepSeek-R1本地化运行 速度达20token/s 价格从70万降至7万人民币 [8][9] - 512GB内存配置的Mac Studio可支持更强大本地AI运算能力 [11][12] AI行业发展趋势 - RL技术突破将显著提升智能硬件性能 推动应用需求爆发 利好Agent技术发展 [7] - Manus AI等Agent产品引发市场关注 提升应用端对AI能力的期待 将带动算力需求增长 [13][14] - 中国科技公司在RL大规模强化学习领域取得突破 行业估值逻辑面临重塑 [14]