全异步 RL（Fully Async RL） - 财报，业绩电话会，研报，新闻 - Reportify

全异步 RL（Fully Async RL）

搜索文档

清华叉院教授手把手教你写强化学习

机器之心· 2025-08-05 04:09

分享主题 - 分享主题为清华叉院教授手把手教你写强化学习 [7] 分享内容 - 核心例子为多轮反馈的数学解题（multi-turn math reasoning）[10] - AReaL-lite框架特点包括： a 全异步RL实现极速训练 [10] b 适配各种开源生态 [10] c 用户仅需改动极少文件实现复杂算法 [10] - 手把手教学multi-turn math RL [10] 嘉宾信息 - 吴翼：清华大学交叉信息院助理教授，博士生导师，蚂蚁强化学习实验室AReaL团队首席科学家 [10] - 傅炜：清华大学交叉信息院博士生，字节奖学金得主，AReaL项目核心成员 [10] - 梅知雨：蚂蚁强化学习实验室研究员，清华大学交叉信息院博士，AReaL项目核心成员 [10] 直播信息 - 直播时间为北京时间8月7日19:30-20:30 [8] - 建议准备4卡GPU服务器 [8] - 设有QA环节并可加群交流 [9] 主办方信息 - 机动组聚焦学术研究、工程实践与产业应用 [11] - 不定期组织学术研讨、技术交流与实战分享 [11]

多轮数学解题（multi - turn math reasoning）

全异步 RL（Fully Async RL）

多轮数学解题（multi - turn math reasoning）

全异步 RL（Fully Async RL）