Scaling Law 仍然成立,企业搜广推怎么做才能少踩“坑”?
AI前线·2025-12-09 06:26

文章核心观点 - 大模型正推动搜索、广告与推荐系统进行全链路智能重构,但当前行业距离端到端的统一pipeline仍有较大差距,更多工作集中在pipeline的单点与大模型结合[4] - 搜广推场景中的scaling law依然成立且处于快速上升阶段,但需在模型规模、收益与算力/时延成本间找到平衡[4][17] - 落地策略应务实,低价值场景用小模型覆盖,高价值场景用大模型争取额外收益,技术革命是逐步积累的过程[4][19] 大模型对搜广推的改变 - 特征工程变革:大模型(尤其是大语言模型)为特征构建提供了更丰富的补充,能生成标签化或向量化的语义特征,减少线上模型对统计类、交叉类特征的依赖,提升推理效率[6] - 数据与样本构建的系统化转向:从传统特征工程转向更系统化的数据与样本构建,需要大量基础性工作(如数据清洗、高质量思维链样本构建、多模态语义对齐)来确保大模型发挥价值[8] - 能力聚焦于语义理解与推理:大模型的核心价值在于强语义理解和一定程度的推理能力,适合传统算法语义理解弱或逻辑链路长的任务(如电商从兴趣到决策的长链路),而非毫秒级短反馈链路[10] 系统架构的演进路径 - 渐进式叠加而非全面重构:由于全面重构pipeline成本高且收益难量化,行业普遍采取在现有pipeline环节(如特征工程、召回、重排)逐步叠加或替代大模型能力的渐进策略[9] - 端到端方案当前收益有限:期望大模型端到端输出推荐/搜索结果的做法在多数场景中无收益甚至负向,因此需系统性拆解问题,在各环节单独验证收益[10] - 当前处于“多点突破”阶段:行业与学界均未实现一体化推荐链路,更多工作是在pipeline的单点与大模型结合,属于多点突破而非全链路重构[12] 搜广推场景中的Scaling Law - Scaling Law明确成立且未达上限:搜广推领域的模型同样存在scaling law,且边际效益远未触及上限,尚未像大语言模型那样出现明显边际递减[13] - 有效参数规模比总参数规模更关键:研究发现,小模型能力不足常因有效参数比例低,当有效参与推理的参数规模扩大时,性能提升趋势明显[15][16] - 存在通用规律但受约束限制:推荐领域可以研究通用的scaling规律(如提出的P-law),但线上推理受实时性(如300毫秒预算)、算力与工程成本约束,限制了模型规模的线上释放[14][15][17] - 放宽约束后效果显著提升:实验表明,若放宽实时限制(如允许3-30秒推理)并使用更大规模模型(如200B–300B),或放宽输入限制(纳入丰富描述),模型效果有显著提升[16] 模型规模、收益与成本的平衡 - 分层策略:低价值场景使用小模型或通用小模型覆盖;高价值场景(如开屏、信息流、搜索核心位)在ROI能覆盖成本时,才使用更大规模模型争取额外收益[18][19][20] - 优化小模型能力:通过模型蒸馏、分层剪枝、MoE机制减少激活参数量来降低线上成本[18];或利用大模型生成更高质量的训练数据,帮助小模型突破性能瓶颈[19] - ROI是核心决策依据:模型是否合格取决于在特定场景中能否达到目标效果,关键在于资源的最优分配,而非一味追求更大规模[19][20] 工程挑战与应对经验 - 实时数据与模型快速迭代的难题:搜广推高度依赖用户实时数据,传统模型可分钟/小时级更新,但大模型训练推理在线下,同步更新困难,需设计高效数据流pipeline并探索部分参数冻结等增量更新方式[21][22] - 离在线不对齐与新模型上线难:离线表现良好的新模型,因在线模型长期积累历史数据,或线上环境存在结构性误差,常难以在短期内打败旧模型[22][34] - 模型适配与线上Serving的高成本:开源模型与业务数据、训练平台、线上serving的时延资源要求存在巨大适配gap,且模型结构微调常需重写线上serving图,迭代成本高[23] - 解决方案探索:开发多智能体强化学习模拟器构建沙箱环境,让新旧模型在模拟中对比以获得更客观评价;对于新旧模型差距,需判断新模型的scaling潜力,或通过AB实验检验其随时间收敛的能力[24][25][35] 生成式能力的应用与未来展望 - 当前应用集中于内容理解与生成:生成式技术在多模态广告/营销素材自动生成、创意文案、会议纪要生成等辅助任务上已大规模应用[27][28][29] - 向核心业务环节渗透:正在探索生成式推荐承担全流程线上推断的可能性,以简化工程体系并提升效果;也在尝试用于item筛选、广告策略规划等更核心任务[27][29] - 未来期待高度灵活的智能体:当前智能体多基于人工预设workflow,未来期待具备自主规划与研究能力,能在更少人工干预下完成复杂任务[30] 大模型时代搜广推系统的生态与团队影响 - 特征工程可能被知识工程取代:模型可能直接基于用户原始行为语料构建,并通过大模型构建的知识库等增量知识补充信息,以应对冷启动等问题[30] - 智能体将扮演更重要角色:特征工程或模型训练流程可能以智能体编排方式推进,算法工程师角色可能向“跑模工程师”演变[31] - 需明确基础模型与任务定义:需厘清搜广推基础模型的决策机制(如如何处理离散ID),并形式化定义任务边界与结构,才能使智能体有效工作[31] - 业务场景定义差异大:不同环节(召回/粗排 vs 精排/重排)所需辅助信息不同,涉及item关系、用户兴趣变化、多样性指标及多模态信息等[32] 实践中的认知转变与建议 - 认知转变:序列建模成为核心方向:曾认为语言Token建模不完全适用于推荐,但HSTU等序列模型的出现展示了处理用户长行为序列的潜力,成为推荐领域的核心方向[36][37] - 数据是决定性因素:业界共识是“有多少人工,就有多少智能”,高质量数据是工业场景中发挥模型能力的基础,需沉淀专业化的知识工程体系[38] - 重新思考推荐系统解决的用户问题:推荐系统需根据用户不同意图状态(如随意浏览、明确搜索、深度对比)调整策略,利用大模型的推理能力辅助用户决策[38] - 给从业者的建议:拆解业务链路,找到与大模型结合的合适切入点,不必过度关注短期效果爆发,重视逐步积累[39];不设过强边界,所有核心业务问题最终都需被解决[41];思考自身场景的优势与差异化能力,构建产品力与生态价值[40]