Advertising and Recommendation
搜索文档
Scaling Law 仍然成立,企业搜广推怎么做才能少踩“坑”?
AI前线· 2025-12-09 06:26
文章核心观点 - 大模型正推动搜索、广告与推荐系统进行全链路智能重构,但当前行业距离端到端的统一pipeline仍有较大差距,更多工作集中在pipeline的单点与大模型结合[4] - 搜广推场景中的scaling law依然成立且处于快速上升阶段,但需在模型规模、收益与算力/时延成本间找到平衡[4][17] - 落地策略应务实,低价值场景用小模型覆盖,高价值场景用大模型争取额外收益,技术革命是逐步积累的过程[4][19] 大模型对搜广推的改变 - **特征工程变革**:大模型(尤其是大语言模型)为特征构建提供了更丰富的补充,能生成标签化或向量化的语义特征,减少线上模型对统计类、交叉类特征的依赖,提升推理效率[6] - **数据与样本构建的系统化转向**:从传统特征工程转向更系统化的数据与样本构建,需要大量基础性工作(如数据清洗、高质量思维链样本构建、多模态语义对齐)来确保大模型发挥价值[8] - **能力聚焦于语义理解与推理**:大模型的核心价值在于强语义理解和一定程度的推理能力,适合传统算法语义理解弱或逻辑链路长的任务(如电商从兴趣到决策的长链路),而非毫秒级短反馈链路[10] 系统架构的演进路径 - **渐进式叠加而非全面重构**:由于全面重构pipeline成本高且收益难量化,行业普遍采取在现有pipeline环节(如特征工程、召回、重排)逐步叠加或替代大模型能力的渐进策略[9] - **端到端方案当前收益有限**:期望大模型端到端输出推荐/搜索结果的做法在多数场景中无收益甚至负向,因此需系统性拆解问题,在各环节单独验证收益[10] - **当前处于“多点突破”阶段**:行业与学界均未实现一体化推荐链路,更多工作是在pipeline的单点与大模型结合,属于多点突破而非全链路重构[12] 搜广推场景中的Scaling Law - **Scaling Law明确成立且未达上限**:搜广推领域的模型同样存在scaling law,且边际效益远未触及上限,尚未像大语言模型那样出现明显边际递减[13] - **有效参数规模比总参数规模更关键**:研究发现,小模型能力不足常因有效参数比例低,当有效参与推理的参数规模扩大时,性能提升趋势明显[15][16] - **存在通用规律但受约束限制**:推荐领域可以研究通用的scaling规律(如提出的P-law),但线上推理受实时性(如300毫秒预算)、算力与工程成本约束,限制了模型规模的线上释放[14][15][17] - **放宽约束后效果显著提升**:实验表明,若放宽实时限制(如允许3-30秒推理)并使用更大规模模型(如200B–300B),或放宽输入限制(纳入丰富描述),模型效果有显著提升[16] 模型规模、收益与成本的平衡 - **分层策略**:低价值场景使用小模型或通用小模型覆盖;高价值场景(如开屏、信息流、搜索核心位)在ROI能覆盖成本时,才使用更大规模模型争取额外收益[18][19][20] - **优化小模型能力**:通过模型蒸馏、分层剪枝、MoE机制减少激活参数量来降低线上成本[18];或利用大模型生成更高质量的训练数据,帮助小模型突破性能瓶颈[19] - **ROI是核心决策依据**:模型是否合格取决于在特定场景中能否达到目标效果,关键在于资源的最优分配,而非一味追求更大规模[19][20] 工程挑战与应对经验 - **实时数据与模型快速迭代的难题**:搜广推高度依赖用户实时数据,传统模型可分钟/小时级更新,但大模型训练推理在线下,同步更新困难,需设计高效数据流pipeline并探索部分参数冻结等增量更新方式[21][22] - **离在线不对齐与新模型上线难**:离线表现良好的新模型,因在线模型长期积累历史数据,或线上环境存在结构性误差,常难以在短期内打败旧模型[22][34] - **模型适配与线上Serving的高成本**:开源模型与业务数据、训练平台、线上serving的时延资源要求存在巨大适配gap,且模型结构微调常需重写线上serving图,迭代成本高[23] - **解决方案探索**:开发多智能体强化学习模拟器构建沙箱环境,让新旧模型在模拟中对比以获得更客观评价;对于新旧模型差距,需判断新模型的scaling潜力,或通过AB实验检验其随时间收敛的能力[24][25][35] 生成式能力的应用与未来展望 - **当前应用集中于内容理解与生成**:生成式技术在多模态广告/营销素材自动生成、创意文案、会议纪要生成等辅助任务上已大规模应用[27][28][29] - **向核心业务环节渗透**:正在探索生成式推荐承担全流程线上推断的可能性,以简化工程体系并提升效果;也在尝试用于item筛选、广告策略规划等更核心任务[27][29] - **未来期待高度灵活的智能体**:当前智能体多基于人工预设workflow,未来期待具备自主规划与研究能力,能在更少人工干预下完成复杂任务[30] 大模型时代搜广推系统的生态与团队影响 - **特征工程可能被知识工程取代**:模型可能直接基于用户原始行为语料构建,并通过大模型构建的知识库等增量知识补充信息,以应对冷启动等问题[30] - **智能体将扮演更重要角色**:特征工程或模型训练流程可能以智能体编排方式推进,算法工程师角色可能向“跑模工程师”演变[31] - **需明确基础模型与任务定义**:需厘清搜广推基础模型的决策机制(如如何处理离散ID),并形式化定义任务边界与结构,才能使智能体有效工作[31] - **业务场景定义差异大**:不同环节(召回/粗排 vs 精排/重排)所需辅助信息不同,涉及item关系、用户兴趣变化、多样性指标及多模态信息等[32] 实践中的认知转变与建议 - **认知转变:序列建模成为核心方向**:曾认为语言Token建模不完全适用于推荐,但HSTU等序列模型的出现展示了处理用户长行为序列的潜力,成为推荐领域的核心方向[36][37] - **数据是决定性因素**:业界共识是“有多少人工,就有多少智能”,高质量数据是工业场景中发挥模型能力的基础,需沉淀专业化的知识工程体系[38] - **重新思考推荐系统解决的用户问题**:推荐系统需根据用户不同意图状态(如随意浏览、明确搜索、深度对比)调整策略,利用大模型的推理能力辅助用户决策[38] - **给从业者的建议**:拆解业务链路,找到与大模型结合的合适切入点,不必过度关注短期效果爆发,重视逐步积累[39];不设过强边界,所有核心业务问题最终都需被解决[41];思考自身场景的优势与差异化能力,构建产品力与生态价值[40]
特征工程、模型结构、AIGC——大模型在推荐系统中的3大落地方向|文末赠书
AI前线· 2025-05-10 05:48
大模型在推荐系统中的应用 核心观点 - 大模型已在推荐系统领域实现实质性应用,头部公司获得显著收益,主要从知识学习、模型结构、内容生成三个层面改造推荐系统 [1][3] 大模型影响推荐系统的三个层次 知识学习方式变革 - 大模型通过开放式学习整合开放世界多模态知识(文本/图片/视频/音频),突破传统推荐系统依赖封闭式人工特征工程的局限 [4][7] - 大模型知识与传统推荐系统用户行为数据形成互补,结合后提升效果上限 [6][7] - 相比知识图谱方案(如RippleNet/KGAT),大模型在知识总量和Embedding质量上具备降维打击优势 [8] 推荐模型结构改造 - 生成式模型结构(如Transformer)替代传统分类/排序模型,Meta的GR方案使核心指标提升12.4% [24] - 新范式将推荐问题重构为"预测用户next token",快手KuaiFormer等方案应用于召回层改造 [26] - 工业级落地需算法-工程联合优化,如GR通过单次inference生成所有候选结果提升效率 [24] 个性化内容生成革命 - AIGC技术直接生成推荐内容(如广告创意/数字人视频),打破传统"检索-排序"流程 [28][37][39] - 当前阶段依赖人类Prompt输入(如Stable Diffusion框架),未来或实现全自动个性化生成 [31][41] - 个性化案例包括PMG模型生成用户偏好电影海报,但商业化仍需探索 [41] 技术方案细节 知识输入实现路径 - 开源模型(如LLaMA)作为多模态Encoder生成Embedding输入推荐系统 [10] - 闭源模型(如ChatGPT)通过API生成Token序列作为知识媒介 [10] - 快手EM3等方案融合多模态Embedding与ID特征,保留信息互补性 [15][18] 生成式推荐框架 - 早期玩具方案(如PALR)通过Prompt描述用户历史行为生成推荐,但工程指标落后 [20][22] - 成熟方案(如GR/KuaiFormer)将推荐任务转化为序列预测问题,复用LLM训练范式 [24][26] 行业趋势与建议 - 搜广推行业持续进化,大模型时代需聚焦算法-工程-模型联合创新 [45][46] - 突破点在于将大模型能力与现有业务深度结合,而非完全切换赛道 [45]