Workflow
全异步 RL(Fully Async RL)
icon
搜索文档
清华叉院教授手把手教你写强化学习
机器之心· 2025-08-05 04:09
分享主题 - 分享主题为清华叉院教授手把手教你写强化学习 [7] 分享内容 - 核心例子为多轮反馈的数学解题(multi-turn math reasoning)[10] - AReaL-lite框架特点包括: a 全异步RL实现极速训练 [10] b 适配各种开源生态 [10] c 用户仅需改动极少文件实现复杂算法 [10] - 手把手教学multi-turn math RL [10] 嘉宾信息 - 吴翼:清华大学交叉信息院助理教授,博士生导师,蚂蚁强化学习实验室AReaL团队首席科学家 [10] - 傅炜:清华大学交叉信息院博士生,字节奖学金得主,AReaL项目核心成员 [10] - 梅知雨:蚂蚁强化学习实验室研究员,清华大学交叉信息院博士,AReaL项目核心成员 [10] 直播信息 - 直播时间为北京时间8月7日19:30-20:30 [8] - 建议准备4卡GPU服务器 [8] - 设有QA环节并可加群交流 [9] 主办方信息 - 机动组聚焦学术研究、工程实践与产业应用 [11] - 不定期组织学术研讨、技术交流与实战分享 [11]