蚂蚁清华联手放大招！彻底开源RL框架AReaL-boba，人人可复现QwQ

开源强化学习框架AReaL boba发布 - 蚂蚁与清华大学联合推出开源强化学习框架AReaL boba里程碑版本致力于普惠AI开发社区开放模型、代码、数据及实现细节提供详细教程实现"人人可手搓顶尖大模型"愿景 [1] - 框架全面拥抱xAI公司高性能推理框架SGLang 通过工程优化使7B模型训练速度提升1.5倍端到端训练性能提升73% [4] - 团队开源训练数据AReaL-boba-106k 监督微调仅用200条精选数据成功复现QwQ-32B在AIME 2024上的推理性能(78.8分 vs 原版78.9分) [10][15] 技术性能表现 - AReaL-boba-RL-7B在数学推理能力达同尺寸模型SOTA水平：AIME 2024得分61.9 AIME 2025得分48.3 超越基础模型及同类开源模型 [15] - 不同配置下训练时间对比显示模型性能优势：R1-Distill-Qwen-7B在GPQA-Diamond测试中耗时47.1小时而AReaL-boba-RL-7B仅需47.6小时 [9] 未来发展计划 - 研发重点包括系统与算法优化将引入基于编码问题的强化学习训练、异步生成与RL训练探索视觉-语言模型强化学习 [11] - 计划完善32B规模模型训练方案研发多任务RL算法提升MoE模型稳定训练能力保持每周更新频率 [11] 行业活动与专家分享 - 清华大学吴翼教授将在2025机器学习技术大会解读AReaL系统应对强化学习挑战的技术方案包括降低训练门槛、提升效率等突破 [13][18] - 360智脑算法专家邹昊晟将分享Light-R1系列开源经验该系列在14B模型实现GRPO强化学习显著提升评测超越DeepSeek-R1-Distill-32B [22][24]