Workflow
RankMixer模型
icon
搜索文档
抖音全新推荐大模型RankMixer,参数翻70倍,推理成本不涨
量子位· 2025-08-01 09:05
核心观点 - 字节跳动算法团队提出全新推荐排序模型架构RankMixer,通过软硬件协同设计实现模型效果与计算效率的最佳平衡 [2][40] - RankMixer-1B模型将抖音推荐精排模型的Dense参数量从16M扩大至1B量级,同时保持推理成本不变 [4][26] - 该模型在抖音主feed推荐场景全量生效,带来超过0.3%的LT30收益和超过1%的用户时长收益 [4][35] 模型架构创新 - 采用TokenMixing模块实现无参的跨特征信息交互,计算效率优于Self-Attention [17][19][20] - 引入Per-Token SparseMoE结构,通过门控机制动态激活专家网络,提升参数容量 [21][24] - 采用ReLU路由和DTSI训练策略解决MoE专家训练不均衡问题 [25] 性能优化 - 模型MFU从4.47%提升至44.57%,SM Activity从30%提升到80% [4][31] - 通过大矩阵乘法设计、算子融合、混合精度推理等手段实现FLOPs增加20倍下推理成本不变 [29][31] - 图外H2D优化降低3ms延迟,提升MFU [31] 业务效果 - 离线测试显示RankMixer-1B对比纯DNN累积AUC提升超过0.9%,UAUC超过1% [32] - 线上A/B测试显示用户日活跃天数提升0.3%,人均单日使用时长提升超过1% [35] - 低活用户群体效果提升更显著,日活跃天数最高提升1.74%,使用时长提升3.64% [37] 技术理念 - 验证推荐系统存在Scaling Law,通过扩大模型规模持续提升效果 [5][40] - 实现算法与基础设施的协同设计,充分释放GPU算力 [43] - 模型迭代从"雕花"式优化转向可扩展的架构升级 [42]