Workflow
生成式强化学习
icon
搜索文档
生成式强化学习在广告自动出价场景的技术实践
AI前线· 2025-09-28 05:48
来源 | 快手技术 在实时竞价(RTB)广告系统中,广告出价模块作为连接广告主需求与流量匹配的核心枢纽,需要将广告主的营销目标(如转化率、ROI)转化为动态 竞价决策。作为竞价机制的中枢神经,广告出价不仅直接影响广告主的投放效果,也是广告排序分的关键组成模块,进而影响平台侧的流量分配效率。 广告出价的面临的核心挑战可以概括为以下三点: 图 1:实时出价系统示意图 快手的出价算法经历了从 PID、MPC 到强化学习(RL)的三代演进。若将这一过程比喻为汽车工业的发展: 既要花钱,又要省着花:广告主既需控制单日花费不超预算,又需尽可能降低每次转化(如购买、下载等)的成本。 未来难以预测:系统无法预知即将到来的流量状况和竞争对手行为,必须依据实时花费与成本等数据动态调整出价。 牵一发而动全身:每次出价会影响广告展示与消耗,改变账户状态(如剩余预算),进而影响后续出价,构成连续而复杂的序列决策问题。 第一代(PID) :类似于定速巡航。它只能根据当前速度和设定速度的差异来调整油门,反应直接但比较"笨",难以应对复杂多变的竞价环境。 第二代(MPC) :类似于更高级的适应巡航。通过预测未来短时间内的路况以调整车速,但其 ...
快手解密「AI印钞机」,首提生成式强化学习出价技术,为平台实现超过3%的广告收入提升
机器之心· 2025-09-23 04:08
行业趋势与公司表现 - 谷歌母公司Alphabet市值突破3万亿美元 成为第四家达到这一门槛的公司[1] - 谷歌通过将生成式AI融入搜索和广告投放 提升用户意图理解和广告匹配效率 稳住了广告基本盘[1] - 快手Q2线上营销服务收入198亿元 同比增长12.8% 大模型在投放出价和营销推荐方面取得显著进展[2] - AI技术正在从根本上驱动广告行业的收入增长[2] 技术演进路径 - 实时竞价广告系统的大规模广告自动出价技术经历了经典控制、规划求解、强化学习、生成模型等数代演化[2] - 快手出价算法从PID、MPC到强化学习的三代演化 现已进入第四代生成式强化学习阶段[12] - 生成式强化学习融合生成模型与强化学习 实现多维思考 更充分利用历史出价序列信息[13][14] - 该技术为平台实现超过3%的广告收入提升 同时保持广告主成本目标不劣化[3][47] 核心算法突破 - GAVE算法通过价值引导探索解决Decision Transformer的两大挑战:多目标适配和数据集依赖[22][24][25] - GAVE在AuctionNet基准上取得最优效果 相比DT提升4.74%(100%预算场景)[31][32] - 线上A/B测试显示GAVE在Nobid场景转化率提升8% Costcap场景转化率提升3.6%[33] - CBD算法通过扩散式补全器-对齐器解决状态序列一致性和偏好对齐问题[35][37][38] - CBD在离线实验中竞得的总转化价值最高提升41.4%(AuctionNet-sparse 50%预算场景)[41] - 线上测试显示CBD使广告主平均转化率提升2% 额外6ms延迟在可接受范围内[42] 技术团队实力 - 快手商业化算法团队获得NeurIPS 2024自动出价竞赛双料冠军 从1500多支队伍中脱颖而出[44][47] - 团队在KDD、ICLR、ICML等顶会发表研究成果 获CIKM最佳论文等荣誉[47] - 技术成果已应用于快手广告系统 驱动业务实际增长[47] 未来发展方向 - 出价基座大模型:基于多场景出价历史序列数据训练通用基础出价模型[50] - 出价推理大模型:引入大语言模型推理机制 增强可解释性与决策思维能力[50] - 技术决策理念从单步状态决策转向基于历史序列决策 已实现收入提升仅是开端[49]