Workflow
社交大模型
icon
搜索文档
小红书提出社交大模型RedOne 2.0:兼听、敏行
量子位· 2025-11-18 00:59
文章核心观点 - 小红书NLP团队推出RedOne 2 0大模型 该模型面向社交网络服务场景 以强化学习为核心并结合轻量级监督微调 旨在解决传统方法在领域适配与通用能力平衡上的困境[1] - RedOne 2 0在显著压缩数据需求的前提下 实现了小模型对下游任务的快速适配 并同步保障模型的通用能力 提供高性价比、强泛化的LLM部署基座[7] - 模型在社交领域评测SNS-Bench上保持领先 同时在通用能力评测General-Bench上也有提升 尤其在指令跟随、科学推理、多语言等维度表现突出[1][2] 模型训练框架与技术创新 - 采用以RL主导的三阶段渐进式训练方法 包括主动探索、靶向微调和持续优化 从根本上缓解SFT训练导致的性能失衡问题[6][8] - 主动探索阶段利用RL的探索特性 让模型在SNS任务空间中自主学习并暴露能力短板 实现初步的领域迁移适配[10][11] - 靶向微调阶段基于识别到的困难样本构建靶向训练数据 并通过混合通用任务数据进行SFT 对能力缺口进行精确校准[13][14] - 持续优化阶段再次启用RL进行全局优化 深化模型与平台安全、用户体验等高级目标的对齐 得到行为更稳定、泛化能力更强的模型[16][17] 模型性能表现 - RedOne 2 0-4B模型在SNS-Bench上以67 57的平均分远超同量级开源模型 如Qwen3-4B的51 81分 并在General-Bench上从69 80提升至70 80[20][21] - RedOne 2 0 30B-A3B模型以极小的激活参数 在通用任务上的表现接近百亿参数模型 其General-Bench得分为75 17 接近部分超大模型[20] - 在SNS-TransBench翻译能力评测中 RedOne 2 0系列达到同尺寸模型顶尖水平 例如4B模型得分为47 67 显著高于Qwen3-4B的38 22[20][21] - 消融实验证明 相比不同尺寸的基座模型 RedOne 2 0训练框架在社交领域和社交翻译任务上均带来显著的能力增强[20] 实际应用效果与商业价值 - 在线实验显示 基于RedOne 2 0的笔记标题个性化重写使核心业务指标广告主价值提升了0 43%[27][28] - 内容质量得到全面优化 模糊标题比例减少11 9% 而实用性、真实性和互动性标题比例分别提升7 1%、12 9%与25 8%[27][28] - 实例研究表明 RedOne 2 0生成的标题更具感染力和互动性 例如使用生动描述增强情感共鸣 有效激发用户好奇心和点击意愿[32][33][34] 未来发展方向 - 团队计划进一步拓展RedOne 2 0在SNS中的多模态与多语言能力 探索其在图文交错内容、视频内容理解、跨文化沟通等复杂场景的应用潜力[35] - 旨在将这一以强化学习为主的渐进式训练框架推广至金融、医疗、教育等更多垂直领域 解决专业场景中领域适应与通用能力平衡的挑战[35] - 将持续优化训练效率 推动轻量化模型在边缘设备上的部署 为实现更普惠、可信、高效的人工智能服务提供技术基础[36]
小红书宣布推出首个社交大模型“RedOne”
智通财经· 2025-08-01 01:56
公司产品发布 - 小红书推出首个面向社交网络服务领域的定制化大语言模型"RedOne" [1] - 该模型旨在突破单一任务基线模型的性能瓶颈,构建全面覆盖社交网络服务任务的基座模型 [1] 模型性能提升 - 相较于基础模型,RedOne在八个主要的社交网络服务任务上平均性能提升14.02% [1] - 在社交网络服务双语评测基准上,模型性能提升7.56% [1] - 在线测试中,相较于单任务微调的基线模型,RedOne将有害内容检测的曝光率降低11.23% [1] - 在线测试中,模型将浏览后搜索场景中的点击页面率提升14.95% [1]
小红书提出首个社交大模型:八大社交任务平均提升14.02%
量子位· 2025-08-01 00:46
核心观点 - 小红书推出行业首个社交大模型RedOne,专为SNS领域定制,突破单一任务基线模型的性能瓶颈,构建全面覆盖SNS任务的基座模型 [1] - RedOne在8个主要SNS任务上平均提升14.02%,在SNS双语评测基准上提升7.56% [1] - 线上测试显示RedOne将有害内容检测曝光率降低11.23%,浏览后搜索点击页面率提升14.95% [1] - RedOne采用三阶段训练策略(CPT→SFT→PO),实现"懂社交、懂规则、懂用户"的目标 [5] 模型性能 - RedOne在通用任务中保持优异表现,部分任务超越基座模型Qwen2.5 [26] - 在SNS领域任务上,RedOne平均提升14.02%,双语评测提升7.56% [1] - 与基础模型对比,RedOne在QueryCorr任务上提升12.63%,MRC任务提升2.76% [27] - 基于RedOne的微调模型在所有数据集上均超过基于Qwen2.5的微调模型 [28] 训练框架 - 采用三阶段训练策略:继续预训练(CPT)、监督微调(SFT)、偏好优化(PO) [5] - CPT阶段构建超千亿tokens数据集,最终筛选出200亿tokens高质量数据 [9][11] - SFT阶段整合六项核心能力:内容理解、信息提取、语义匹配、用户行为建模、对话和角色模拟、翻译能力 [16] - PO阶段采用直接偏好优化(DPO)算法,构建主观和客观任务的偏好数据集 [20][21] 数据特点 - SNS数据具有高度非规范化、强上下文依赖、显著情绪化特征 [3] - 数据收集包括通用高质量数据和SNS领域数据,后者涵盖多种社交沟通模式 [8] - 数据筛选采用规则筛选和基于小型LLM的筛选,确保数据质量 [10] - 最终构建包含200亿tokens的高质量数据集 [11] 线上应用 - 有害内容检测中违规笔记曝光率降低11.23% [32] - 浏览后搜索用户点击页面率提升14.95% [32] - 案例研究显示RedOne能精准锁定用户需求关键词 [36] 技术优势 - 三阶段训练呈现"层层递进、相互增强"效果,通用性能几乎无损 [31] - 引入通用领域数据显著提升模型在OOD任务上的泛化能力 [35] - 模型规模增加时性能持续提升,表现巨大潜力 [26] 行业意义 - 首个全面覆盖SNS领域的定制化LLM [5] - 为后续专用垂域LLM落地提供参考 [37] - 助力社交媒体内容治理与高质量互动 [37]