GAVE算法

搜索文档
生成式强化学习在广告自动出价场景的技术实践
AI前线· 2025-09-28 05:48
来源 | 快手技术 在实时竞价(RTB)广告系统中,广告出价模块作为连接广告主需求与流量匹配的核心枢纽,需要将广告主的营销目标(如转化率、ROI)转化为动态 竞价决策。作为竞价机制的中枢神经,广告出价不仅直接影响广告主的投放效果,也是广告排序分的关键组成模块,进而影响平台侧的流量分配效率。 广告出价的面临的核心挑战可以概括为以下三点: 图 1:实时出价系统示意图 快手的出价算法经历了从 PID、MPC 到强化学习(RL)的三代演进。若将这一过程比喻为汽车工业的发展: 既要花钱,又要省着花:广告主既需控制单日花费不超预算,又需尽可能降低每次转化(如购买、下载等)的成本。 未来难以预测:系统无法预知即将到来的流量状况和竞争对手行为,必须依据实时花费与成本等数据动态调整出价。 牵一发而动全身:每次出价会影响广告展示与消耗,改变账户状态(如剩余预算),进而影响后续出价,构成连续而复杂的序列决策问题。 第一代(PID) :类似于定速巡航。它只能根据当前速度和设定速度的差异来调整油门,反应直接但比较"笨",难以应对复杂多变的竞价环境。 第二代(MPC) :类似于更高级的适应巡航。通过预测未来短时间内的路况以调整车速,但其 ...