Workflow
蚂蚁清华联手放大招!彻底开源RL框架AReaL-boba,人人可复现QwQ
AI科技大本营·2025-04-03 02:16

开源强化学习框架AReaL boba发布 - 蚂蚁与清华大学联合推出开源强化学习框架AReaL boba里程碑版本 致力于普惠AI开发社区 开放模型、代码、数据及实现细节 提供详细教程实现"人人可手搓顶尖大模型"愿景 [1] - 框架全面拥抱xAI公司高性能推理框架SGLang 通过工程优化使7B模型训练速度提升1.5倍 端到端训练性能提升73% [4] - 团队开源训练数据AReaL-boba-106k 监督微调仅用200条精选数据成功复现QwQ-32B在AIME 2024上的推理性能(78.8分 vs 原版78.9分) [10][15] 技术性能表现 - AReaL-boba-RL-7B在数学推理能力达同尺寸模型SOTA水平:AIME 2024得分61.9 AIME 2025得分48.3 超越基础模型及同类开源模型 [15] - 不同配置下训练时间对比显示模型性能优势:R1-Distill-Qwen-7B在GPQA-Diamond测试中耗时47.1小时 而AReaL-boba-RL-7B仅需47.6小时 [9] 未来发展计划 - 研发重点包括系统与算法优化 将引入基于编码问题的强化学习训练、异步生成与RL训练 探索视觉-语言模型强化学习 [11] - 计划完善32B规模模型训练方案 研发多任务RL算法 提升MoE模型稳定训练能力 保持每周更新频率 [11] 行业活动与专家分享 - 清华大学吴翼教授将在2025机器学习技术大会解读AReaL系统应对强化学习挑战的技术方案 包括降低训练门槛、提升效率等突破 [13][18] - 360智脑算法专家邹昊晟将分享Light-R1系列开源经验 该系列在14B模型实现GRPO强化学习显著提升 评测超越DeepSeek-R1-Distill-32B [22][24]