RedOne 2.0
搜索文档
小红书提出社交大模型RedOne 2.0:兼听、敏行
量子位· 2025-11-18 00:59
文章核心观点 - 小红书NLP团队推出RedOne 2 0大模型 该模型面向社交网络服务场景 以强化学习为核心并结合轻量级监督微调 旨在解决传统方法在领域适配与通用能力平衡上的困境[1] - RedOne 2 0在显著压缩数据需求的前提下 实现了小模型对下游任务的快速适配 并同步保障模型的通用能力 提供高性价比、强泛化的LLM部署基座[7] - 模型在社交领域评测SNS-Bench上保持领先 同时在通用能力评测General-Bench上也有提升 尤其在指令跟随、科学推理、多语言等维度表现突出[1][2] 模型训练框架与技术创新 - 采用以RL主导的三阶段渐进式训练方法 包括主动探索、靶向微调和持续优化 从根本上缓解SFT训练导致的性能失衡问题[6][8] - 主动探索阶段利用RL的探索特性 让模型在SNS任务空间中自主学习并暴露能力短板 实现初步的领域迁移适配[10][11] - 靶向微调阶段基于识别到的困难样本构建靶向训练数据 并通过混合通用任务数据进行SFT 对能力缺口进行精确校准[13][14] - 持续优化阶段再次启用RL进行全局优化 深化模型与平台安全、用户体验等高级目标的对齐 得到行为更稳定、泛化能力更强的模型[16][17] 模型性能表现 - RedOne 2 0-4B模型在SNS-Bench上以67 57的平均分远超同量级开源模型 如Qwen3-4B的51 81分 并在General-Bench上从69 80提升至70 80[20][21] - RedOne 2 0 30B-A3B模型以极小的激活参数 在通用任务上的表现接近百亿参数模型 其General-Bench得分为75 17 接近部分超大模型[20] - 在SNS-TransBench翻译能力评测中 RedOne 2 0系列达到同尺寸模型顶尖水平 例如4B模型得分为47 67 显著高于Qwen3-4B的38 22[20][21] - 消融实验证明 相比不同尺寸的基座模型 RedOne 2 0训练框架在社交领域和社交翻译任务上均带来显著的能力增强[20] 实际应用效果与商业价值 - 在线实验显示 基于RedOne 2 0的笔记标题个性化重写使核心业务指标广告主价值提升了0 43%[27][28] - 内容质量得到全面优化 模糊标题比例减少11 9% 而实用性、真实性和互动性标题比例分别提升7 1%、12 9%与25 8%[27][28] - 实例研究表明 RedOne 2 0生成的标题更具感染力和互动性 例如使用生动描述增强情感共鸣 有效激发用户好奇心和点击意愿[32][33][34] 未来发展方向 - 团队计划进一步拓展RedOne 2 0在SNS中的多模态与多语言能力 探索其在图文交错内容、视频内容理解、跨文化沟通等复杂场景的应用潜力[35] - 旨在将这一以强化学习为主的渐进式训练框架推广至金融、医疗、教育等更多垂直领域 解决专业场景中领域适应与通用能力平衡的挑战[35] - 将持续优化训练效率 推动轻量化模型在边缘设备上的部署 为实现更普惠、可信、高效的人工智能服务提供技术基础[36]