推荐系统
搜索文档
NeurIPS 2025 | Language Ranker:从推荐系统的视角反思并优化大模型解码过程
机器之心· 2025-11-30 03:19
核心观点 - 提出一种全新的大语言模型解码视角,将其类比为推荐系统的排序阶段,并据此开发了名为Language Ranker的轻量级重排序框架,旨在以极低计算成本显著提升模型输出质量[2][6][33] 重新理解LLM:从“生成”到“推荐” - 大语言模型可被视为特殊推荐系统,将输入视为“用户信息”,在庞大候选响应空间中挑选最合适响应[3] - 模型关键组件与推荐系统一一对应:模型骨架对应特征工程,语言头对应召回层,解码方法对应排序层[4][6][11] - 现有主流解码方法如贪婪解码、束搜索等依赖固定规则缺乏学习能力,而基于奖励模型的重排序方法存在特征提取冗余和计算成本高昂的问题[6] Language Ranker框架 - 核心思想是直接复用主模型已提取的隐藏层特征,通过极小学习模块完成候选响应重排序,避免重复特征工程[8][14] - 框架包含三步:候选召回、特征提取(从模型底部约60%层提取最后一个token的隐藏状态)、候选排序(通过轻量Transformer或MLP计算相关性)[10] - 该模块参数极少,仅包含不到0.5M参数,比GPT-2小200多倍[9] - 具备极低训练与推理开销、即插即用、模块可分性等优势,支持CPU级别训练与部署,主模型可与Ranker在不同设备上独立运行[16][22] 实验结果 - 在多项任务中,仅需不到0.5M参数的Language Ranker达到或超越大规模奖励模型性能,例如在Qwen2.5-7B-Instruct模型上,ListRanker在MATH任务准确率达74.8%,优于GPT-2奖励模型的71.9%[19] - 训练效率极高,在MBPP任务上使用CPU仅需67秒即可完成训练,而GPT-2级别奖励模型需超过1小时[21][23] - 展现出优秀的跨任务与跨模型迁移泛化能力,在MATH内部七类子任务间迁移时性能下降均小于2%[24][26] - 遵循Ranker Scaling Law,随着候选响应数量从1增加至100,模型性能持续提升,例如在MATH任务中准确率从25%稳步上升至56%[31][34] 总结与展望 - 该框架通过共享主模型隐藏层特征,以极小参数实现与数千倍规模奖励模型相当性能,无需额外训练主模型且显著降低推理与部署门槛[33] - 天然支持个性化扩展,同一主模型可搭配不同Ranker以满足多样化场景需求,是迈向个性化智能体的重要一步[15][33]
当推荐系统真正「懂你」:快手团队在NeurIPS 2025提出新成果TagCF
机器之心· 2025-11-27 04:09
文章核心观点 - 快手团队提出TagCF框架,旨在让推荐系统从仅理解用户兴趣内容,升级到理解用户社会角色和特性,实现从“会猜”到“懂你”的跨越 [2] - 该方法通过引入用户角色建模,为推荐系统带来更强的可解释性和逻辑推理能力,并能显式地建模和突破用户信息茧房 [6][28] - 该研究成果已被NeurIPS 2025接收,相关代码与实验框架已全面开源 [3] 研究背景与动机 - 当前推荐系统算法主要聚焦于“内容层”理解,擅长识别用户喜欢哪类视频,但缺乏对“用户是谁”的深度理解 [2] - 用户角色是隐藏在内容关联背后的“混杂因素”,例如“耳机-交响乐手-小提琴”的关联实则源于“交响乐手”这一用户角色 [6] - 引入用户角色视角使推荐系统能更清晰地理解用户,迈向显式的可解释推荐,并在逻辑上具备更强的通用性与表达能力 [6][7] 提出的新任务 - 用户角色识别:建模用户的特征、个性、社会角色和需求,其中特征包含但不限于用户直接提供的特征值(如性别和年龄) [9] - 用户行为逻辑建模:建模用户角色和物品主题之间的逻辑关联图,可细分为I2U(物料适合分发给什么用户)和U2I(用户希望看到什么物料)两个子任务 [10][13] TagCF框架模块设计 - 基于MLLM的视频内容理解中台:利用MLLM模型对每日新增视频提取多模态内容,通过预设提示词自动生成物品标签与用户标签,并实时更新标签库 [16] - 基于LLM的行为逻辑图探索中台:在得到标签集合后,构建标签间逻辑图,使用LLM根据起始标签生成对侧的目标标签,形成U2I和I2U逻辑图 [18] - 赋能下游推荐系统:下游推荐系统可使用中台信息进行模型增强,提出了针对物品标签空间或用户标签空间增强的方案TagCF-it和TagCF-ut [22] 工程挑战与解决方案 - 面临无限制生成导致标签集合无序扩张、视频覆盖率长尾分布等挑战 [23] - 构建弱重叠高频标签子集作为覆盖集,经验上覆盖集规模为7k-20k,能在30天内收敛,在工业场景下具有足够稳定性和通用性 [24][25] - 用户标签全集规模为2,976,845,覆盖集大小为7,633且已收敛;物品标签全集规模为50,208,782,覆盖集大小为20,956且每日仍有数百扩张 [41] 实验效果与性能提升 - 在快手工业离线数据集上,TagCF-ut在NDCG@10指标上达到0.0201,相比基线最佳模型提升8.06%;TagCF-it在Cover@20指标上达到0.5440,提升14.21% [34] - 在Books数据集上,TagCF-ut在NDCG@10指标上达到0.1881,提升10.3%;在MRR@10指标上达到0.1560,提升13.60% [34] - 线上实验表明,TagCF-util策略相比基线提升交互次数0.946%,TagCF-expl策略提升多样性0.102%,并能有效提升用户长期留存指标0.037% [39][40] 技术优势与行业意义 - 用户角色相比兴趣点是更加稳定的特征,用户标签集合比物品标签集合具有更强的稳定性和表达能力,体现为更小的集合大小和更快的收敛速度 [40][41] - TagCF框架在符号与统计两种范式之间搭起桥梁,其tag-logic内容理解中台具备可迁移能力,未来可扩展至召回、电商、搜索等多业务场景 [44][45] - 该方法标志着推荐系统从“懂内容”到“懂人”的技术跃迁,使系统有能力从用户信息茧房出发进行有逻辑的语义探索,平衡准确性与多样性 [45]
2018 - 2020,抖音超越快手的关键三年|42章经
42章经· 2025-11-16 12:59
抖音发展历程与关键节点 - 抖音于2016年正式立项,2017年七八月份开始起量 [3] - 2017年下半年经历第一波较大增长,借助“百万英雄”直播答题活动吸引高校年轻用户 [8] - 2017年至2018年春节,因偶然获得春晚资源位,流量翻倍,DAU增速显著,内部首次认识到其增长潜力 [9] - 到2018年底、2019年年初,抖音DAU反超快手 [11] - 2020年之后,业务重点转向电商、本地生活等商业化方向 [15] 字节跳动的战略思考与产品定位 - 公司决定做短视频是基于对内容时长的分析,认为0到1分钟的短内容存在巨大市场空间 [16] - 抖音最初在内部资源较少,预期天花板为600万至1200万DAU,远低于后来实际达到的8亿DAU [20][23] - 产品定位为“无脑”的娱乐消费产品,其最大竞争对手是游戏,满足了用户无需动脑的放松需求 [85][86] - 推荐系统在分发此类内容上具有天然优势,用户打开频次高、停留时间长,能积累更多消费数据以优化算法 [87] 抖音崛起的关键成功因素 - 坚持不从头条导流用户,选择难而正确的独立起量路径 [46] - 建立独特的品牌调性,采用全黑UI等年轻化、高审美的品牌元素 [46] - 在内容池不足的早期阶段,依靠强大的内容运营和“精选标签”手动筛选优质内容,引导社区调性 [47][48] - 目标用户为年轻人,其兴趣广泛易于泛化,为后续内容扩展奠定基础 [66][67] - 采用单列分发器,相比双列具有极高的分发效率和内容泛化效率 [69][70][71] 关键业务决策与竞争战役 - 2018年至2020年,公司将社交视为战略重点,旨在增强用户长期留存和加速泛化,但最终未达预期 [24][25][27] - 2019年推出抖音极速版,对标快手极速版,两周内迅速增长至几千万DAU [87] - 2019年底至2020年初,将火山App更名为“抖音火山版” [87] - 2020年春节,为应对快手独家冠名春晚的竞争,公司发动集团力量,通过“集卡”红包活动为抖音导流,当晚DAU峰值达到4.7亿 [87] - 公司风格追求极致,在关键决策上投入巨大,如考虑将春节红包预算从20亿提升至100亿 [90] 组织文化与人才管理 - 公司文化高度扁平化,弱化层级头衔,鼓励基层员工与高层直接交流,创造了“祛魅”的环境 [101][102][103][104] - 早期非常信任年轻人,抖音团队中一半左右为校招生,为年轻人提供了巨大成长空间 [6][50][52][106] - 核心组织文化是公司早期竞争力的关键,但随着规模扩大,外部人才的引入稀释了原有文化内核 [108] - 公司强调“极致”的思维方式,不仅在行动上不顾一切解决问题,更在战略思考上追求倍增效应,逼问“如何增长五倍”以推动创新 [114][116][118][120] 行业观察与创业思考 - 移动互联网红利期后,给年轻人的高速成长机会减少,AI的出现被视为新的行业机遇 [59][60][63] - 创业成功需要完成从解决具体问题到进行战略选择和资源配置的认知转变 [126] - 创业应聚焦于“难而正确”的事,如产品定义、关键人才招募和资金规划,而非陷入事务性工作的“思维惰性” [130][134][135] - 应对大厂竞争的关键在于想清楚创业项目的长期价值、当前时间窗口以及如何快速验证产品市场匹配度 [138][139][140]
小红书RecSys 2025最佳论文提名背后:破解视频时长预测难题
机器之心· 2025-10-20 04:50
小红书推荐系统技术实力获得国际认可 - 小红书推荐算法团队的论文在推荐系统顶会RecSys 2025上获得“最佳论文提名”,该奖项全球仅五篇,标志着其研究成果获得国际学术界与工业界的高度认可[4][6] - 会议期间,小红书展台异常火爆,许多来自北美等地的推荐系统专家用户对其推荐系统给出“业内领先”的高度评价[8][9] - 参会专家分享实际体验,从美国飞抵布拉格后,小红书APP能迅速推送精准的本地内容及同会议参与者的帖子,展现了其精准捕捉用户即时场景与身份的强大能力[9] 论文解决的行业核心难题与创新方案 - 论文瞄准推荐系统中至关重要的基础指标——用户观看时长进行建模,该指标与日活跃用户数高度相关,其信号在小红书视频场景中的覆盖率达100%[23][30] - 小红书业务规模庞大,月活跃用户数从2015年的5000万增长至2024年的3.5亿以上,推荐模型的微小改进会被放大为显著的体验和业务收益[22] - 团队提出的指数-高斯混合网络模型回归问题本质,首次系统性剖析并解决了用户观看行为分布中“粗粒度的偏态性”和“细粒度的多样性”两大长期存在的行业难题[30][31][36] EGMN模型的技术细节与优势 - EGMN模型核心是预测观看时长的完整概率分布参数,而非单一数值,其公式结合了捕捉“快速划走”行为的指数分布和刻画多样化观看模式的高斯混合分布[33][34][35] - 模型采用包含极大似然估计、熵正则化和回归损失的三目标联合优化策略,确保训练稳定且预测精准,被专家盛赞“有一种传统机器学习的美”[34][36] - 论文审稿人给出“Strong Accept”的整体评价,认为论文已非常出色,技术执行可靠,实验验证尤其在线A/B测试结果极具说服力[36][37] EGMN模型的实验验证与实际效果 - 在四个离线数据集上的实验表明,EGMN模型平均绝对误差相对降低14.11%,排序一致性指标相对提升7.76%,全面超越现有最优方法[39] - 在线A/B测试覆盖1500万用户,为期7天,结果显示平均绝对误差降低2.030%,排序一致性指标提升1.260%,关键指标KL散度大幅下降19.94%[40][41] - 消融实验验证了指数分量、高斯分量及各损失函数的有效性,例如移除指数分量会导致平均绝对误差增加3.06%,移除高斯分量则增加2.47%[42] 技术成果的业务影响与公司文化 - EGMN模型的有效性表明,引入合理的先验分布信息可提升现有目标的拟合精度,此通用思路可拓展至电商成交价格预估、广告GMV预估等多种业务场景[45] - 此次顶会成果体现了公司“回归本质”、“务实求真”的技术文化,即不盲从技术热点,而是以分析用户和场景的真实问题为锚点来设计技术演进路径[47] - 公司推荐算法团队正基于此次成功广纳贤才,共同探索推荐算法领域的前沿技术,标志着其技术探索之旅的新开始[47]
ICML spotlight | 一种会「进化」的合成数据!无需上传隐私,也能生成高质量垂域数据
机器之心· 2025-07-11 09:22
数据短缺问题 - 公共数据产生速度预计到2028年将赶不上大模型训练的消耗速度而被耗尽[1] - 医疗、工业制造等特殊领域可用数据原本就少,数据短缺问题更严重[1] 现有解决方案的局限性 - 垂直领域中小企业倾向于使用现成大模型API,但无法直接合成垂域数据[4][5] - 大模型生成的数据与垂域实际数据存在巨大差距,无法满足垂域特性需求[7][8] - 垂域数据因隐私、知识产权等原因不能上传,增加了prompt工程难度[9] PCEvolve框架核心创新 - 只需少量标注样本即可在保护隐私同时进化出整个数据集[2] - 采用类似达尔文进化论的迭代进化框架:生成候选数据→选择淘汰→下一轮进化[11] - 设计基于指数机制的新型隐私保护方法,适配垂域少样本场景[11] 技术实现细节 - 利用开源Encoder基座模型将数据映射到特征空间计算距离[16] - 通过寻找聚类中心代表标签所有私有数据来降低计算成本[16] - 提出相似度度量h(d_s^c,D_p)来优化合成数据与垂域数据的绝对距离[18] 实验验证结果 - 在COVIDx数据集上精度达64.04%,相比初始49.34%提升显著[23] - 在Came17数据集上精度达69.10%,相比初始50.47%提升显著[23] - 在KVASIR-f和MVAD-l数据集上也分别达到50.95%和59.26%的精度[23]
特想聊聊快手这次的变化
虎嗅· 2025-06-25 00:48
快手AI大模型推荐系统OneRec - 公司成为全球首个将AI大模型驱动的生成式推荐系统全量上线到产品的企业[1] - 系统采用端到端生成架构替代传统多阶段流水线模式,实现范式级创新[16] - 技术架构包含用户建模(Encoder)、推荐生成(Decoder)和强化学习奖励机制三大核心模块[17][18][19] 传统推荐系统痛点 - 分层筛选架构导致各环节目标冲突,系统一致性和效率持续恶化[9] - 算力利用率低下,精排模型在旗舰GPU上训练/推理利用率仅4.6%/11.2%[11] - 难以捕捉用户长期兴趣变化,容易陷入短期行为反馈循环[26][27] OneRec技术创新点 - 引入多模态语义分词器,实现对视频内容的多维度立体解析[21][22] - 通过深度神经网络统一建模用户静态特征与长短期行为,形成完整兴趣序列[28][30] - 采用MoE架构解码器动态生成推荐序列,专家网络协同提升模型容量与效率[34][36] - 强化学习全链路贯穿,通过偏好/格式/工业场景三类奖励机制优化推荐质量[40][41][42] 系统实测表现 - AB测试显示用户停留时长提升0.54%-1.24%,7日生命周期增长0.05%-0.08%[46] - 已承接短视频推荐主场景25%流量请求,交互指标全面改善[47] - 本地生活场景GMV提升21%,核心指标实现两位数增长并完成100%流量切换[48] 行业影响 - 标志着推荐系统进入大模型驱动的新阶段,解决传统架构与AI进展脱节问题[49] - 为行业提供首个工业级生成式推荐解决方案,确立技术领先地位[1][15] - 展示多模态理解与强化学习在复杂业务场景的落地可能性[20][38]
打破推荐系统「信息孤岛」!中科大与华为提出首个生成式多阶段统一框架,性能全面超越 SOTA
机器之心· 2025-06-20 10:37
传统推荐范式的痛点 - 传统推荐系统采用多阶段范式(召回、排序),导致阶段间信息损失、偏差累积和协作困难 [3] - 独立训练的各个阶段难以完整传递信息,潜在兴趣点被过早过滤 [3] 生成式AI的解决方案 - UniGRF框架将召回和排序整合到单一生成模型中,实现信息充分共享 [4][6] - 通过序列生成任务统一处理两大核心任务,保持模型通用性和可扩展性 [6][8] UniGRF的核心优势 - 参数共享减少信息损失,提升任务协作效率 [7] - 支持与主流生成模型架构(如HSTU、Llama)无缝集成 [8] - 单一模型在训练和推理上可能比独立模型更高效 [9] 关键技术模块 - 排序驱动的增强器:利用排序阶段高精度输出来优化召回阶段 [10][11] - 梯度引导的自适应加权器:动态调整任务权重实现同步优化 [12] 实验验证结果 - 在MovieLens-1M、MovieLens-20M、Amazon-Books数据集上性能显著超越SOTA基线 [14][18] - 排序阶段性能提升尤为明显,直接影响最终推荐质量 [18] - 模型参数扩展时符合Scaling Law,展现良好可扩展性 [18] 未来发展方向 - 计划扩展至更多推荐阶段(如预排序、重排) [16][17] - 探索工业场景大规模应用的可行性 [17]
推荐大模型来了?OneRec论文解读:端到端训练如何同时吃掉效果与成本
机器之心· 2025-06-19 09:30
核心观点 - 推荐系统正经历由大型语言模型(LLM)驱动的生成式革命,端到端架构成为解决传统级联架构瓶颈的关键[2] - 快手提出的OneRec系统首次实现端到端生成式推荐全链路重构,在效果与成本上实现双赢[2][8] - OneRec已在快手双端应用,承接25% QPS,提升停留时长0.54%/1.24%,LT7显著增长[2][33] 技术架构创新 - **架构设计**:采用Encoder-Decoder框架,将推荐转化为序列生成任务,Encoder压缩用户行为序列,MoE架构Decoder实现参数扩展[6][11] - **多模态分词**:首创协同感知方案,融合视频标题、标签、语音转文字等多维信息,分层语义编码(RQ-Kmeans三层ID)[13][14] - **强化学习整合**:通过P-Score奖励模型(个性化融合目标预测值)和ECPO优化算法,提升用户停留时长而不损失曝光量[19][22][25] 性能与效率突破 - **算力利用率**:训练/推理MFU提升至23.7%/28.8%,较传统精排模型(4.6%/11.2%)提升3-5倍[27][31] - **成本优化**:OPEX降至传统方案的10.6%,关键算子数量压缩92%至1,200个[27][31] - **训练加速**:自研SKAI系统优化Embedding训练,UGMMU减少kernel数量,时间加权LFU算法提升缓存效率[36] 实验效果 - **短视频场景**:AB测试显示停留时长提升0.54%/1.24%,LT7增长0.05%/0.08%,交互指标全面正向[33] - **本地生活场景**:GMV增长21.01%,订单量提升17.89%,新客获取效率提高23.02%,已100%全量上线[34] - **Scaling Law验证**:参数规模从0.015B增至2.633B时,训练损失显著下降,符合大模型扩展规律[15] 未来方向 - **多模态桥接**:需构建用户行为与LLM/VLM的原生融合架构[38] - **奖励系统完善**:当前设计较初级,需强化对用户偏好和业务需求的引导[38] - **推理能力提升**:Infer阶段Scaling能力不足,需进一步优化[38]
特征工程、模型结构、AIGC——大模型在推荐系统中的3大落地方向|文末赠书
AI前线· 2025-05-10 05:48
大模型在推荐系统中的应用 核心观点 - 大模型已在推荐系统领域实现实质性应用,头部公司获得显著收益,主要从知识学习、模型结构、内容生成三个层面改造推荐系统 [1][3] 大模型影响推荐系统的三个层次 知识学习方式变革 - 大模型通过开放式学习整合开放世界多模态知识(文本/图片/视频/音频),突破传统推荐系统依赖封闭式人工特征工程的局限 [4][7] - 大模型知识与传统推荐系统用户行为数据形成互补,结合后提升效果上限 [6][7] - 相比知识图谱方案(如RippleNet/KGAT),大模型在知识总量和Embedding质量上具备降维打击优势 [8] 推荐模型结构改造 - 生成式模型结构(如Transformer)替代传统分类/排序模型,Meta的GR方案使核心指标提升12.4% [24] - 新范式将推荐问题重构为"预测用户next token",快手KuaiFormer等方案应用于召回层改造 [26] - 工业级落地需算法-工程联合优化,如GR通过单次inference生成所有候选结果提升效率 [24] 个性化内容生成革命 - AIGC技术直接生成推荐内容(如广告创意/数字人视频),打破传统"检索-排序"流程 [28][37][39] - 当前阶段依赖人类Prompt输入(如Stable Diffusion框架),未来或实现全自动个性化生成 [31][41] - 个性化案例包括PMG模型生成用户偏好电影海报,但商业化仍需探索 [41] 技术方案细节 知识输入实现路径 - 开源模型(如LLaMA)作为多模态Encoder生成Embedding输入推荐系统 [10] - 闭源模型(如ChatGPT)通过API生成Token序列作为知识媒介 [10] - 快手EM3等方案融合多模态Embedding与ID特征,保留信息互补性 [15][18] 生成式推荐框架 - 早期玩具方案(如PALR)通过Prompt描述用户历史行为生成推荐,但工程指标落后 [20][22] - 成熟方案(如GR/KuaiFormer)将推荐任务转化为序列预测问题,复用LLM训练范式 [24][26] 行业趋势与建议 - 搜广推行业持续进化,大模型时代需聚焦算法-工程-模型联合创新 [45][46] - 突破点在于将大模型能力与现有业务深度结合,而非完全切换赛道 [45]
在“推荐就是一切”的时代
虎嗅· 2025-05-08 09:54
推荐系统行业现状 - 推荐系统已成为全球数字经济主要驱动力 类似蒸汽机推动工业革命[6] - Netflix将"一切皆为推荐"作为核心设计理念 所有内容展示均为算法个性化推荐[2] - TikTok推荐算法入选2021年MIT十大突破性技术 通过协同过滤实现精准推送[6][7] - 英伟达CEO黄仁勋称推荐系统是当代最重要AI系统 支撑搜索/广告/电商/内容等核心业务[6] 推荐算法技术特征 - 主要评价指标包括精准度/多样性/新颖性/惊喜性/可解释性/公平性[8] - TikTok算法突破在于打破"从众效应" 能挖掘用户小众兴趣领域[7] - 协同过滤和基于内容的推荐是主流技术路径 结合用户行为数据进行优化[7] - 系统通过用户历史行为/内容标签/互动指标等数据进行训练[7][12] 行业实践案例 - Netflix优化算法避免"热点偏差" 增加小众题材和多元文化内容[14] - Spotify推出"Fresh Finds"播放列表 专门扶持独立音乐人[14] - YouTube增加推荐解释功能 允许用户标记"不感兴趣"[14] - LinkedIn减少性别偏见 提供职位推荐原因说明[14] 行业挑战与解决方案 - 存在热点偏差问题 流行内容过度挤压小众创作者空间[11] - 可能强化性别/种族/地域等刻板印象 如女性被推荐低薪岗位[10] - 解决方案包括增加公平性约束/多样性平衡/透明度提升[12] - 2018年提出"负责任推荐"概念 建立FAccT(公平/问责/透明)原则[12][13] 未来发展趋势 - 从推荐引擎向自我发现引擎演进 促进用户自我认知[15][16] - 系统设计需融合三个要素:可靠选择/用户赋能/自我洞察[15][16][17] - 最终目标是通过机器协同实现"认识你的机器"的认知升级[18]