公司与技术进展 - 清华大学与蚂蚁集团合作,于2025年5月开源首个异步强化学习训练框架AReaL-lite,旨在提升AI训练效率并减少GPU浪费[1] - 团队负责人吴翼强调创业心态,主张快速迭代、不怕踩坑,并认为从0到1的本质是创造资源而非等待条件完备[1][25] - AReaL团队采用极简组织形态,目前核心成员为6人,并通过算法与基础设施团队融合的全栈模式提升创新效率与战斗力[52][54][57] 技术方向与核心观点 - 强化学习被视为提升AI智能水平的关键,其特点是让AI在实践中自主学习,培养探索能力,优于需要人工持续指导的监督学习[6][33][34] - 智能体的未来发展方向是能够理解人类模糊意图、完成长程任务,并最终从数字世界走向物理世界,成为具身智能的“大脑”[4][12][41] - 实现具身智能需结合负责底层运动控制(如机器狗跑跳)的强化学习与负责长程推理规划、基于大模型预训练的强化学习,形成“大脑”与“小脑”的分层协作体系[36][38][42] 产品与市场展望 - AI产品将出现从用户主动驱动到AI提前预测并满足需求的根本性变化,最终形态可能是一个能服务“懒人”需求的全新产品[12] - 在AI时代,产品开发和组织形态可极度简化,小型团队借助AI工具可完成过去需多人协作的任务,并可能催生新的产品机会[50][51][52] - 多智能体系统可通过协作提升效率,例如在数字世界中由主智能体进行规划,其他智能体执行;在物理世界中多个机器人可沟通协作完成复杂任务如打扫房间[17][18][20] 研发方法论 - 创新不能依靠多点布局“赌一把”,而应基于深度思考与长期坚持,创业需要对所做的事情有坚信[4][26] - 强化学习训练框架的成功要素包括高质量的提示词、有效的搜索探索机制以及奖励模型,其中创造大量高质量的提示词被视为当前最重要的挑战[35] - 技术研发应避免算法与基础设施团队的严格分工,主张两者共同设计、协同演进,以保持对技术底层的感知和创新的自驱力[54][56][57]
最爱喝奶茶的AI科学家,要做最能懂你的“智能体”
36氪·2025-11-24 08:02