Scaling Law 仍然成立，企业搜广推怎么做才能少踩“坑”？

文章核心观点 - 大模型正推动搜索、广告与推荐系统进行全链路智能重构，但当前行业距离端到端的统一pipeline仍有较大差距，更多工作集中在pipeline的单点与大模型结合[4] - 搜广推场景中的scaling law依然成立且处于快速上升阶段，但需在模型规模、收益与算力/时延成本间找到平衡[4][17] - 落地策略应务实，低价值场景用小模型覆盖，高价值场景用大模型争取额外收益，技术革命是逐步积累的过程[4][19] 大模型对搜广推的改变 - 特征工程变革：大模型（尤其是大语言模型）为特征构建提供了更丰富的补充，能生成标签化或向量化的语义特征，减少线上模型对统计类、交叉类特征的依赖，提升推理效率[6] - 数据与样本构建的系统化转向：从传统特征工程转向更系统化的数据与样本构建，需要大量基础性工作（如数据清洗、高质量思维链样本构建、多模态语义对齐）来确保大模型发挥价值[8] - 能力聚焦于语义理解与推理：大模型的核心价值在于强语义理解和一定程度的推理能力，适合传统算法语义理解弱或逻辑链路长的任务（如电商从兴趣到决策的长链路），而非毫秒级短反馈链路[10] 系统架构的演进路径 - 渐进式叠加而非全面重构：由于全面重构pipeline成本高且收益难量化，行业普遍采取在现有pipeline环节（如特征工程、召回、重排）逐步叠加或替代大模型能力的渐进策略[9] - 端到端方案当前收益有限：期望大模型端到端输出推荐/搜索结果的做法在多数场景中无收益甚至负向，因此需系统性拆解问题，在各环节单独验证收益[10] - 当前处于“多点突破”阶段：行业与学界均未实现一体化推荐链路，更多工作是在pipeline的单点与大模型结合，属于多点突破而非全链路重构[12] 搜广推场景中的Scaling Law - Scaling Law明确成立且未达上限：搜广推领域的模型同样存在scaling law，且边际效益远未触及上限，尚未像大语言模型那样出现明显边际递减[13] - 有效参数规模比总参数规模更关键：研究发现，小模型能力不足常因有效参数比例低，当有效参与推理的参数规模扩大时，性能提升趋势明显[15][16] - 存在通用规律但受约束限制：推荐领域可以研究通用的scaling规律（如提出的P-law），但线上推理受实时性（如300毫秒预算）、算力与工程成本约束，限制了模型规模的线上释放[14][15][17] - 放宽约束后效果显著提升：实验表明，若放宽实时限制（如允许3-30秒推理）并使用更大规模模型（如200B–300B），或放宽输入限制（纳入丰富描述），模型效果有显著提升[16] 模型规模、收益与成本的平衡 - 分层策略：低价值场景使用小模型或通用小模型覆盖；高价值场景（如开屏、信息流、搜索核心位）在ROI能覆盖成本时，才使用更大规模模型争取额外收益[18][19][20] - 优化小模型能力：通过模型蒸馏、分层剪枝、MoE机制减少激活参数量来降低线上成本[18]；或利用大模型生成更高质量的训练数据，帮助小模型突破性能瓶颈[19] - ROI是核心决策依据：模型是否合格取决于在特定场景中能否达到目标效果，关键在于资源的最优分配，而非一味追求更大规模[19][20] 工程挑战与应对经验 - 实时数据与模型快速迭代的难题：搜广推高度依赖用户实时数据，传统模型可分钟/小时级更新，但大模型训练推理在线下，同步更新困难，需设计高效数据流pipeline并探索部分参数冻结等增量更新方式[21][22] - 离在线不对齐与新模型上线难：离线表现良好的新模型，因在线模型长期积累历史数据，或线上环境存在结构性误差，常难以在短期内打败旧模型[22][34] - 模型适配与线上Serving的高成本：开源模型与业务数据、训练平台、线上serving的时延资源要求存在巨大适配gap，且模型结构微调常需重写线上serving图，迭代成本高[23] - 解决方案探索：开发多智能体强化学习模拟器构建沙箱环境，让新旧模型在模拟中对比以获得更客观评价；对于新旧模型差距，需判断新模型的scaling潜力，或通过AB实验检验其随时间收敛的能力[24][25][35] 生成式能力的应用与未来展望 - 当前应用集中于内容理解与生成：生成式技术在多模态广告/营销素材自动生成、创意文案、会议纪要生成等辅助任务上已大规模应用[27][28][29] - 向核心业务环节渗透：正在探索生成式推荐承担全流程线上推断的可能性，以简化工程体系并提升效果；也在尝试用于item筛选、广告策略规划等更核心任务[27][29] - 未来期待高度灵活的智能体：当前智能体多基于人工预设workflow，未来期待具备自主规划与研究能力，能在更少人工干预下完成复杂任务[30] 大模型时代搜广推系统的生态与团队影响 - 特征工程可能被知识工程取代：模型可能直接基于用户原始行为语料构建，并通过大模型构建的知识库等增量知识补充信息，以应对冷启动等问题[30] - 智能体将扮演更重要角色：特征工程或模型训练流程可能以智能体编排方式推进，算法工程师角色可能向“跑模工程师”演变[31] - 需明确基础模型与任务定义：需厘清搜广推基础模型的决策机制（如如何处理离散ID），并形式化定义任务边界与结构，才能使智能体有效工作[31] - 业务场景定义差异大：不同环节（召回/粗排 vs 精排/重排）所需辅助信息不同，涉及item关系、用户兴趣变化、多样性指标及多模态信息等[32] 实践中的认知转变与建议 - 认知转变：序列建模成为核心方向：曾认为语言Token建模不完全适用于推荐，但HSTU等序列模型的出现展示了处理用户长行为序列的潜力，成为推荐领域的核心方向[36][37] - 数据是决定性因素：业界共识是“有多少人工，就有多少智能”，高质量数据是工业场景中发挥模型能力的基础，需沉淀专业化的知识工程体系[38] - 重新思考推荐系统解决的用户问题：推荐系统需根据用户不同意图状态（如随意浏览、明确搜索、深度对比）调整策略，利用大模型的推理能力辅助用户决策[38] - 给从业者的建议：拆解业务链路，找到与大模型结合的合适切入点，不必过度关注短期效果爆发，重视逐步积累[39]；不设过强边界，所有核心业务问题最终都需被解决[41]；思考自身场景的优势与差异化能力，构建产品力与生态价值[40]