交互扩展时代来临:创智复旦字节重磅发布AgentGym-RL,昇腾加持,开创智能体训练新范式
机器之心·2025-09-11 04:53
机器之心报道 机器之心编辑部 强化学习之父、2024 年 ACM 图灵奖得主 Richard Sutton 曾指出,人工智能正在迈入「经验时代」—— 在这个时代,真正的智能不再仅仅依赖大量标注数据的监督 学习,而是来源于在真实环境中主动探索、不断积累经验的能力。正如人类通过实践理解世界、优化行为一样,智能体也必须在交互中积累经验、改进策略,才 能掌握长期决策的能力。 无独有偶,特斯拉前 AI 负责人,OpenAI 联合创始人 Andrej Karpathy 进一步指出,环境的多样性与真实性,是智能体获得泛化能力、应对复杂任务的关键前提。 缺乏丰富的环境,智能体就无法充分暴露于多样化情境,也难以从经验中形成稳健的决策策略。 在这一背景下, 复旦 、创智 、字节 的研究者们 基于智能体自我进化框架 AgentGym,全新打造了 多环境强化学习智能体训练框架 AgentGym-RL 。 本文的第一作者为复旦大学自然语言处理实验室博士生奚志恒,通讯作者为复旦大学自然语言处理实验室的桂韬教授和张奇教授。 这一框架是首个无需监督微调、具备统一端到端架构、支持交互式多轮训练,且在多类真实场景中验证有效的 LLM 智能体强化 ...