下一代推荐系统长这样,Meta最新研究RecoWorld,从「猜你喜欢」到「听你指令」
大家每天都在和推荐系统打交道。无论是刷短视频、逛电商、听音乐还是看新闻,背后都有一套「聪明」的算法在猜测你可能喜欢什么。但你是不是偶尔觉得推 荐内容千篇一律?这其实暴露了传统推荐系统的一个核心问题:它们大多数是基于过去数据来预测,被动的「猜你喜欢」,而缺乏和你真正的互动。 最近,Meta 推荐系统团队提出了一个全新的思路 —— RecoWorld 。 RecoWorld的独特之处在于其双视图架构:模拟用户和智能体推荐系统 进行多轮交互,旨在最大化用户留存率 。 用户模拟器会查看推荐商品,更新其思维模式,并在察觉到用户可能脱离互动时生成反思性指令。智能体 推荐系统则通过整合这些用户指令和推理轨迹,调整其 推荐内容,形成一个主动吸引用户的动态反馈循环。这一过程利用了大语言模型出色的推理能力。 研究者探索了模拟器中的多样内容表示形式,包括基于文本、 多模态和语义ID建模,并讨论了多轮强化学习如何使推荐系统通过迭代交互来不断完善其策略。 RecoWorld还支持多智能体模拟,允许创作者模拟目标用户群体的响应。它标志着向一个新的推荐系统迈出了重要的第一步,在这个系统中,用户和智能体共同塑 造个性化的信息流。他们设想了一 ...