Workflow
强化学习(RL)
icon
搜索文档
OpenAI揭秘Deep Research实现始末
锦秋集· 2025-04-30 07:09
Deep Research的起源与目标 - OpenAI团队放弃交易型赛道如订汉堡、订花 转而攻克知识整合 认为这是AGI必备前置技能 且"纯读取"比"直接下单"更安全 [3] - 产品愿景是打造"Slack同事式"统一智能体 能自主判断工具调用 保持状态与记忆贯穿始终 [3] - 选择研究型任务而非交易型任务因三方面考量:知识工作需求大 符合AGI科学发现目标 只读任务安全性更可控 [5][6] 开发方法论与数据策略 - 数据质量优先于数量 采用"小而准"策略 邀请专家手工标注高价值样例 强化学习让模型自寻最优策略 [3] - 每新增工具必配套数据集 训练模型调用组合回溯能力 人类专业知识在数据创建中起关键作用 [8][11] - 开发过程经历多次迭代 初期演示版仅用提示工程 后续才引入模型训练与工具开发 团队获数月不受干扰的专注期 [7] 强化学习微调实践 - 强化学习微调(RFT)适用场景:提示工程无效时 或10-15%性能差距对业务至关重要时 [3][9] - 数学编码等专项训练能泛化到写作等领域 但针对性训练效果更优 基因测序等超分布任务需优先考虑RFT [9] - RL算法数据效率高 但高质量数据策划工程量大 需与强大预训练基座模型协同 [12] 智能体架构设计 - 当前工具集包括文本浏览器和Python分析工具 未来将扩展工具集 需同步创建训练数据集 [8] - 记忆功能对复杂任务至关重要 避免用户重复输入 未来需解决长任务上下文窗口耗尽问题 [15][17] - 初期需显式确认建立信任 后期可逐步开放自主操作 安全护栏设置与能力提升需同步 [16] 性能表现与用户场景 - 医学研究和代码搜索等专业领域表现获专家认可 数据分析能力继承自基础模型o3的强大多任务训练 [25][26] - 擅长处理多约束条件查询 如特定商品搜索 能生成超长全面报告 实时信息补充价值显著 [27] - 训练中展现智能规划行为 如自主选择搜索词 但也存在不可预测错误 改进空间大 [28][31] 行业趋势与未来展望 - AGI路径因强化学习复兴更清晰 但需解决工具调用评估 数据精度等挑战 [12] - 未来一年可能推出通用智能体 编码与旅行规划等多任务统一处理 改进速度将超预期 [22] - 终极目标是执行API操作 访问私有数据 形成基础模型与微调能力的正向循环 [23][24]
一堂「强化学习」大师课 | 42章经
42章经· 2025-04-13 12:02
技术原理 - 强化学习(RL)是用于解决多步决策问题的算法框架,与传统机器学习不同,无标准答案但有反馈机制评判结果[3][7] - 大语言模型(LLM)本质是预测下一个词,存在不遵从指令的缺陷,通过与 RL 结合解决该问题[8][9][10] 行业应用 - RL+LLM 应用广泛,海外 OpenAI 的 RL 已从纯推理进化到 Agent 范式,实现多轮交互和上网互动[21] - 国内豆包和 DeepSeek 等团队在探索 RL+LLM 的新可能性,不同公司在该路径上出现编程、Agent、通用泛化能力等分支[21][26][27][28] 发展趋势 - 预训练的规模法则收益变小,但仍有数据和模型小型化两个发展方向;RL 的规模法则处于初始阶段,决策能力将持续提升[26] 人才与基建 - RL 人才稀缺,因门槛高、工业界应用少、对工程要求高;开源工作可降低使用门槛,如 AReaL - boba 框架[33][34][35][36] 训练与评估 - RL 训练中基建最重要,其次是数据和算法;评估可看准确率和多轮交互体验[29] 组织架构 - 大模型团队最好将 LLM 和 RL 两条线融合,至少设预训练和后训练团队,再按目标细分[31]
一堂「强化学习」大师课 | 42章经
42章经· 2025-04-13 12:01AI 处理中...
文章核心观点 文章围绕强化学习(RL)展开,介绍其与传统机器学习的区别、与大语言模型(LLM)的结合应用、行业发展现状与方向,还提及人才稀缺原因及人生与RL的关联等内容 强化学习概念 - RL是机器学习下用于解决多步决策问题的算法框架,与传统机器学习不同,无标准答案,有反馈机制评判结果,逻辑接近真实生活解决问题方式 [2][7] - 传统机器学习本质是记住大量标注过正确答案的数据对,用于解决单一步骤、有明确标准答案的分类问题,如人脸识别等 [3][4] RL与LLM结合 - 最初RL和LLM无关联,LLM本质是预测下一个词,存在不遵从指令缺陷,OpenAI在InstructGPT中将二者结合解决该问题 [8][9][11] - 为定义模型输出与指令需求的一致性,用人为定义数据训练出奖励模型,衍生出RLHF概念,其主要价值是让LLM好用,与RL不同,RL可让LLM更聪明 [11][12][13] - OpenAI发现让LLM“多吐点字”实现“慢思考”可使其更聪明,该过程叫推理时间缩放,训练时用有标准答案问题训练推理能力,还需用文科训练平衡模型 [13][16][19] 行业发展现状与方向 - 国内部分团队如豆包和DeepSeek在探索新可能,海外团队有不同理念,OpenAI的RL已进化到Agent范式,实现多轮交互和与虚拟世界互动 [21][22] - RL和LLM缺一不可,二者结合实现智能,目前最好的Agent模型按此整合,但范式和算法有发展空间 [25][29] - 预训练的规模定律收益变小,发展方向包括合成高质量图文混合数据和蒸馏小规模但能力同等的模型 [29][30] - RL的规模定律处于初始阶段,决策能力会提升,不同大模型公司在RL+LLM路径上会分化,主要分支有编程、Agent、通用泛化能力 [31][32][33] 用户感知与训练过程 - 用户可通过准确率和多轮交互体验判断强化学习效果,准确率可通过基准测试或体感验证,多轮交互体验好的模型如Claude [34] - 强化学习训练中基建最重要,决定迭代效率,其次是数据,最后是算法,训练效果受多种因素耦合影响,存在不确定性 [34][35] 组织架构与人才问题 - 大模型团队组织架构中预训练和后训练团队最好不分开,成员需有破圈意识,可按目标分工,如多模态、RLHF分支等 [36] - RL人才稀缺因门槛高、工业界应用少、对工程要求高,吴翼回国做开源工作,联合蚂蚁研究院发布开源框架AReaL - boba [39][40][42] - 公司招或培养RL人才,建议注重“动手能力”和“不给自己设限” [45] 人生与RL关联 - 人生类似强化学习过程,需探索自己的奖励函数,很多人可能找错奖励函数,应追求“熵值最大化”生活方式,勇敢试错 [8][47][48] - 传统RL难中途改变奖励函数,但在多智能体强化学习和人机交互中,AI需主动探索正确奖励函数,人生也需主动探索找到自己的奖励函数 [48][49][50]
一堂「强化学习」大师课 | 42章经
42章经· 2025-04-13 12:01
强化学习(RL)基础概念 - 强化学习是机器学习中解决多步决策问题的算法框架 其特点在于没有标准答案 通过最终反馈机制评判结果好坏[6] - 与传统监督学习不同 RL不需要标注数据 而是通过环境交互获得奖励信号 更接近人类解决问题的逻辑[6][7] - 典型应用场景包括游戏(如乒乓球)和复杂任务(如行程规划) 每个决策步骤会影响最终结果[6] RL与LLM的结合发展 - OpenAI首次在InstructGPT中将RL与LLM结合 解决大模型指令遵从问题 衍生出RLHF技术[10][11] - RLHF通过人工标注数据训练奖励模型 使LLM输出更符合人类需求 但本质是对齐而非增强模型能力[12][13] - RL实现"慢思考"机制 通过延长推理过程(token量增加)提升LLM准确性 形成inference time scaling范式[14][15] 行业技术路径分化 - OpenAI聚焦Agent范式 实现多轮交互和虚拟世界操作 完成从单轮到多轮的跃迁[20][21] - Anthropic专注编程能力 在简单问题快速响应与复杂问题深度思考间取得平衡[17][30] - DeepSeek探索通用泛化能力 通过理科训练与文科调校结合实现平衡输出[18][31] 技术实现关键要素 - 基建框架决定迭代效率 7B模型训练周期从7天缩短至2天可提升3倍试错机会[33] - 数据质量比数量更重要 针对性训练数据可显著提升模型性能[33] - 理解能力依赖LLM预训练 决策能力依赖RL 二者形成乘法效应缺一不可[23][24] 行业应用与人才现状 - RL人才稀缺源于技术门槛高 论文引用量比NLP/CV少一个数量级 工业级应用场景有限[39][40] - 开源框架AReaL-boba实现7B模型SOTA性能 推动RL技术普及[43] - 创业公司需把握技术窗口期 在终局到来前快速验证产品 而非追求长期技术优势[37][38] 企业组织架构建议 - 预训练与后训练团队需紧密协作 成员需具备跨领域知识避免能力盲区[36] - 按目标划分专业团队(多模态/RLHF等) 同时保持技术路线的灵活性[36] - Agent公司需储备RL人才 尽管当前技术门槛较高但未来可能成为标配能力[37]
业界突破多模态泛化推理能力,OPPO研究院&港科广提出OThink-MR1技术
量子位· 2025-03-30 02:37
多模态大模型技术突破 - OThink-MR1技术通过动态强化学习框架显著提升多模态语言模型的泛化推理能力,突破传统方法的局限性[1][7][29] - 传统监督微调(SFT)方法在特定任务表现良好但缺乏通用推理能力,而强化学习(RL)存在训练约束导致次优瓶颈的问题[4][5] 核心技术机制 - 动态KL散度策略(GRPO-D)动态调整探索与利用的平衡,避免模型陷入局部最优解[8][10][11][12] - 双奖励模型设计包含验证准确性奖励和格式奖励,通过多维度反馈提升模型学习效率[13][14][15] 实验验证结果 - 同任务评估中GRPO-D表现超越监督微调方法,在视觉计数和几何推理任务成绩提升显著[17][18][28] - 跨任务评估显示GRPO-D模型在完全不同的任务类型间展现强泛化能力,成绩较未训练模型大幅提高[21][22][23][24] - 格式奖励权重非零时模型表现更优,KL散度权重需适中调节以取得最佳效果[17][18] 行业影响 - 该技术为多模态语言模型发展开辟新路径,展现动态强化学习在提升推理与泛化能力方面的潜力[29] - 技术由OPPO研究院与香港科技大学(广州)联合研发,论文已公开发表于arXiv平台[30]
01年实习生被曝负责字节RL核心算法!系字节LLM攻坚小组成员
量子位· 2025-03-20 10:56
算法突破 - 一种名为DAPO的新型强化学习算法出现,在相同设置下,其性能超越了DeepSeek的GRPO算法 [1] - 使用DAPO算法后,Qwen2.5-32B模型仅经过RL训练,在AIME 2024基准上获得50分,优于使用GRPO的DeepSeek-R1-Zero-Qwen模型,且训练步数减少了50% [1] - 该算法由字节跳动与清华大学AIR联合实验室SIA Lab共同研发,目前已经开源 [2] 核心人物背景 - 算法论文通讯作者及开源项目负责人是禹棋赢(Qiying Yu)[3] - 禹棋赢出生于2001年,本科毕业于哈尔滨工业大学,后直博进入清华大学AIR,目前博士三年级在读 [4] - 他于2023年年中以研究实习生身份加入字节跳动的“Top Seed人才计划” [4] - 在字节大模型团队内部负责打造下一代语言模型的攻坚小组中,禹棋赢是唯一的实习生,并被委以重任,直接负责强化学习方向的研究 [6][7] 技术探索历程 - 2023年5月,禹棋赢通过“Top Seed人才计划”加入字节,经过2个月适应期后,锚定大语言模型推理为研究方向 [9] - 他观察到“采样更多,弱模型准确率也可以很高”的现象后,坚定选择使用强化学习技术路径 [9] - 基于对OpenAI o1模型的分析,禹棋赢团队判断其基于结果监督训练,从而确立了使用基于结果的奖励进行强化学习的技术路线,这与当时主流思路不同 [12][13] - 使用内部小模型和开源数据集进行迭代后,成功将小模型的数学能力提升几十分,超过了内部最大最强的模型,并观察到模型不断涌现新能力 [14][15] - 2023年10月中旬,团队观察到模型在遇到复杂数学问题时能进行反思并转换思路,这被认为是所追求能力的雏形,也是其内部的“Aha Moment” [20][21] 行业人才趋势 - 大模型行业经验不再是唯一筹码,好奇心与执行力成为通行证 [53] - 行业更看重实际解决问题的能力而非资历,这一逻辑正在重塑AI产业的人才坐标系 [50] - 年轻人虽然经验相对缺乏,但不受既有范式束缚,拥有对技术直觉的信任、极高的热情与好奇心,以及对试错成本的高耐受度,这些特质对探索AGI非常珍贵 [55] - 学界和工业界都认可这一趋势,工业界如字节跳动的“Top Seed”项目为年轻人提供充分算力资源、顶级待遇和探索空间 [58] 公司战略与项目 - 字节跳动的“Top Seed人才计划”旨在招募顶尖应届和在读博士组成AI研究团队,禹棋赢是首批成员之一 [9][31] - 与禹棋赢同期的Top Seed实习生包括两届国际数学奥林匹克竞赛满分选手、LLaDA一作、Buffer of Thoughts一作等顶尖人才 [32] - 字节跳动对禹棋赢的重用,体现了顶尖大模型团队对“解决前沿问题能力”的极致追求 [48] - 2024年,字节跳动将继续推进Top Seed项目,并由原谷歌DeepMind副总裁、现负责豆包大模型AI基础研究探索的吴永辉亲自带队 [61][62]
国产人形机器人破全球纪录!连续空翻一镜到底,量产3.99w起售
量子位· 2025-03-14 11:22
文章核心观点 国产人形机器人取得进展,NOETIX Robotics松延动力的N2机器人实现连续空翻且价格亲民,其背后是硬件、算法和工程化的创新,清华创业团队展现出强大的技术和产品化能力,推动行业发展 [1][7][33] 分组1:N2机器人亮点 - 全球首个在「室内外多场景」连续空翻一镜到底的机器人,动作稳定流畅,落地后能站稳 [1][2][3] - 身高1.2米,体重30公斤,小巧灵活,具备大步行走、奔跑、单双脚跳跃及舞蹈等多种运动能力,奔跑速度实测最快可达每秒3.5米 [3] - 全身有18个自由度,单腿各有5个自由度,单臂各有4个自由度,能完成高难度动作 [9] - 单脚跳跃稳健,抗干扰能力强,摔倒后能迅速恢复正常运行 [10][11][12] - 已将量产提上日程,3.99万起售,标配二次开发接口,有三种颜色可选 [13][14] - 机身集成多个外置硬件接口,方便开发者进行二次开发,可用于科研、安防巡检等领域 [15] 分组2:N2实现连续空翻的技术路径 - 硬件架构:采用自由度精简策略,主打轻量化和抗摔性能,减少非核心自由度,选用球轴承和高强铝合金 [19][21][23] - 算法融合:实现模型预测控制(MPC)与强化学习(RL)的协同,采用课程学习技术分阶段训练 [24] - 工程化实践:以抗摔设计驱动迭代效率,采用成本导向的可靠性设计,零部件高度国产化,结构易于生产装配 [25][26][28] 分组3:清华创业团队情况 - 准00后创业团队,核心成员来自清华、浙大、南加大等高校,创始人姜哲源本科清华电子系,研究方向为深度强化学习足式机器人运动控制 [30] - 成立一年多完成三大产品布局,包括运动员N2、通用型人形机器人E1、仿生机器人Hobbs,技术和应用场景各有侧重 [31] - 一年多收获5轮2亿融资,团队能力、技术水平和产品化能力获资本认可 [32] 分组4:行业发展情况 - 春节以来国产人形机器人持续有新动作,体现「硬件 - 算法 - 场景」三角闭环下的产业技术升级 [33] - 更多本土化年轻团队崭露头角,成为行业发展主力军 [34] - N2之后团队还将推出升级版新品E1系列 [36]
昨夜3件事,加强中国AI科技叙事?
华尔街见闻· 2025-03-06 11:11
阿里通义开源RL新模型 - 阿里通义开源了QwQ-32B RL新模型 性能比肩满血DeepSeek R1 在AIME24数学测试和LiveCodeBench代码评估中表现优异 [1] - 该模型采用创新训练方法 通过校验生成答案正确性提供反馈 相比传统奖励模型训练时间大幅缩短 [2] - 公司预告将在Qwen Chat平台发布QwQ-Max-Preview模型 并承诺持续开源更多RL模型 [3][4][5] 大模型本地化部署进展 - 高性能大模型本地部署门槛显著降低 仅需NVIDIA 4090显卡或24G内存以上Mac mini即可实现 成本控制在4位数人民币 [6] - 苹果Mac Studio搭载M3 Ultra芯片(32核CPU/80核GPU)可实现满血DeepSeek-R1本地化运行 速度达20token/s 价格从70万降至7万人民币 [8][9] - 512GB内存配置的Mac Studio可支持更强大本地AI运算能力 [11][12] AI行业发展趋势 - RL技术突破将显著提升智能硬件性能 推动应用需求爆发 利好Agent技术发展 [7] - Manus AI等Agent产品引发市场关注 提升应用端对AI能力的期待 将带动算力需求增长 [13][14] - 中国科技公司在RL大规模强化学习领域取得突破 行业估值逻辑面临重塑 [14]