理想基座模型负责人近期很满意的工作: RuscaRL
RuscaRL是理想面对大语言模型强化学习探索瓶颈恶性循环,无法探索的内容便无法被有效学习给出 的一套解决方案。 核心思路是将教育心理学的脚手架理论AI化,脚手架的核心思想是学习者的能力不足时,通过结构 化的外部支持(例如逐步引导)帮助其逐步掌握新技能,并随着能力的提升逐渐减少支持,从而促进 独立学习。 无论是MindGPT还是MindVLA,一个面向数字世界,一个面向物理世界,未来的强化学习路线都有 机会因RuscaRL而获益,基于此理想基座模型负责人陈伟觉得这是最近他自己很满意的一个工作。 理想基座模型团队近期在思考的一部分问题与判断是: 认为强化学习是大模型智能提升的关键前提下,如何让模型和更广泛的环境交互,获取高质量的反 馈? 判断RLHF(人类反馈强化学习)、RLAIF(AI反馈强化学习)、RLVR(可验证奖励强化学习)等强化学习 技术路线,认为"如何 让模型面对更广泛的问题实现能力泛化?"是关键问题,对这个关键问题的拆 接事奖励函数是否在更多非客观且结果可准确量化的场景。 其中业界认可 强化学习是大模型智能提升的关键来自OpnAI o1,李想在o1推出前几个月下了同样的 判断。 "AI之后关键的问 ...