Workflow
MUSE
icon
搜索文档
阿里妈妈发布MUSE:用多模态搞定十万级超长行为序列,并开源Taobao-MM数据集
机器之心· 2025-12-16 04:11
文章核心观点 - 阿里妈妈与武汉大学团队提出了一种名为MUSE的新型多模态搜索框架,旨在解决推荐系统对用户超长历史行为序列(如10万至百万级)建模能力不足的问题,通过利用图像和文本等多模态信息,系统性提升终身用户兴趣建模的质量与可用长度 [1][4][6] - MUSE框架已在阿里妈妈展示广告精排模型中全量上线,实现了对10万长度用户原始行为序列的建模能力,并在线上A/B实验中带来了显著的CTR提升(+12.6%)和业务收益(RPM +5.1%, ROI +11.4%) [6][36] - 该工作不仅提出了创新的算法与工程协同设计,还开源了首个包含“长行为序列+高质量多模态embedding”的大规模公开数据集Taobao-MM,以推动业界和学界在相关方向的研究 [1][6][41] 技术背景与问题 - 当前主流CTR建模,特别是以SIM/TWIN为代表的两阶段长期行为建模框架,虽将可用历史行为长度扩展至万级别,但收益边际提升已变得困难,尤其在检索精度受限时,序列从万级往上扩展效果提升会明显趋缓 [2] - 用户行为序列极长(在淘宝中轻松达到百万级),但受限于在线延迟、存储和算力,实际部署模型通常只能使用最近几千条行为,或进行粗粒度截断 [3] - 现有ID-based建模方法存在局限:长尾和过期item的ID embedding质量不佳,而它们在“终身历史”中占比很高;模型主要学习“ID共现关系”,而非用户真实的内容兴趣 [3][15] MUSE框架核心洞察与设计 - **核心设计原则**:GSU(通用搜索单元)应保持“简单”,而ESU(精确搜索单元)需要“丰富+融合” [12] - **对GSU的洞察**:在有高质量多模态embedding的前提下,GSU只需要一个轻量的余弦(cosine)相似度检索就足够好,复杂的检索结构收益低且不具性价比 [17] - **对ESU的洞察**:多模态序列建模与ID融合非常关键,ESU对多模态embedding的质量极其敏感,远高于GSU [18][19] - **表征预训练**:底层采用SCL多模态预训练,通过结合用户真实“搜索-购买”行为进行对比学习,使得到的embedding同时具备内容语义和行为相关性 [23] MUSE框架技术详解 - **多模态GSU**:使用SCL embedding进行简单的余弦相似度计算和Top-K检索,从用户10⁵~10⁶级历史行为中筛选出最相关的几十条,过程高效且无复杂Attention [24][26] - **多模态增强ESU**:采用SimTier与SA-TA双路并行建模 [25] - **SimTier路径**:将目标item与历史行为的多模态相似度序列压缩为一个“相似度直方图”,形成紧凑的语义兴趣分布向量,计算开销极小 [26][33] - **SA-TA路径**:在标准的ID-based Target Attention基础上,融合多模态余弦相似度及其与ID打分的交互项,形成最终的attention score,以缓解长尾item打分失真问题 [27][28][30] - **最终输出**:SimTier输出的多模态兴趣向量与SA-TA输出的ID兴趣向量拼接,作为“终身兴趣表示”输入给上层CTR模型 [30] 工程落地与性能 - **延迟控制关键**:将GSU从Ranking关键路径中剥离,进行异步预取,其延迟被Matching阶段遮蔽,从而在引入10万行为序列和多模态信息的同时不增加在线延迟 [32][35] - **具体两阶段设计**: 1. Pre-fetching阶段:与Matching并行,从远端存储拉取用户100K行为的多模态embedding并缓存至GPU显存 [36][42] 2. 相似度计算与Top-K选择阶段:在Ranking前快速计算相似度,得到Top-K行为ID和相似度序列供ESU使用,计算量小且可与特征处理并行 [36][42] - **效果验证**:线上A/B实验显示,相比仅使用5K长度行为的ID-only基线(SIM),MUSE(行为长度100K)带来CTR提升12.6%、RPM提升5.1%、ROI提升11.4% [36] - **离线消融实验**:序列越长,MUSE带来的收益越大;多模态增强ESU在所有长度上都显著优于ID-only ESU,且长度越长优势越明显 [36] 对业界的启发与可复制经验 - **GSU优化**:优先学习高质量的item图文embedding,并用多模态余弦检索替代GSU的ID-only检索,这是性价比最高的第一步,无需在GSU阶段设计复杂结构 [38] - **ESU增强**:将多模态信息引入ESU是关键,可逐步推进:引入轻量的“相似度直方图”模块(如SimTier);在现有DIN/TWIN的attention中融入多模态相似度作为辅助打分(类似SA-TA) [38] - **工程架构**:解决超长序列和多模态引入的I/O瓶颈是重点,可借鉴MUSE模板:将GSU抽成独立服务与Matching异步并行;将embedding就近缓存;确保Ranking阶段计算轻量 [39] - **落地路线**:对于拥有长行为日志(>> 万条)、丰富内容特征且ID-only模型收益见顶的业务,可先提升表征质量,用多模态支撑GSU检索,再在ESU中融合多模态信号,作为“轻量版MUSE”的起点 [46] 开源数据集Taobao-MM - **数据集价值**:这是首个同时具备“长行为序列+高质量多模态embedding”的大规模公开数据集,旨在支持“长序列 × 多模态”方向的研究,减少业界和学界自建数据的成本 [41][44] - **主要特点**:用户行为序列最长1K(开源版,内部实验支持100K);提供128维SCL多模态embedding;数据规模约1亿样本、近900万用户、3500万级item [43]
AI牛马实现“干中学”!上海AI Lab联合推出智能体自我进化新框架
量子位· 2025-10-21 23:50
MUSE框架核心创新 - 提出全新的智能体框架MUSE,旨在解决现有LLM智能体在处理现实世界长程任务时无法积累经验和持续自我进化的核心挑战[1] - 核心理念是为LLM智能体构建经验驱动、自我演化的闭环系统,通过测试时学习范式解决静态参数、无法进化、长程任务三大痛点[5] - 框架围绕分层记忆模块展开,实现规划→执行→反思→提取经验的四步闭环循环,使智能体性能随经验积累持续提高[13][15] 分层记忆模块设计 - 引入分层记忆模块作为大脑中枢,组织不同层级经验以解决传统LLM智能体缺乏长期记忆的问题[7] - Strategic Memory保存困境-策略对,全局加载到系统提示指导宏观行为范式[7] - Procedural Memory按应用→SOP索引→详细步骤三级组织,将成功子任务轨迹实时沉淀为自然语言标准作业程序[7] - Tool Memory包含静态描述和动态指令双组件,为每个基础工具提供肌肉记忆并在使用后立即更新[8] 自主反思机制 - 在每完成一个子任务后,智能体会自主对执行轨迹进行反思,评估任务成功或失败[10] - 将原始执行轨迹自动转化为结构化经验,成功时提炼高效操作序列作为新SOP[11] - 具备第二次机会机制,第一次尝试失败可重试一次,再次失败才触发重新规划[12] 实验性能表现 - 在专为长期生产力任务设计的TAC基准测试上取得SOTA性能,指标首次突破50%大关达到51.78%[16] - 仅使用轻量级Gemini-2.5 Flash模型就击败了使用更大模型Claude Sonnet 4的现有SOTA方法[16] - 面对重复任务时表现持续改进,展示出熟能生巧的能力[19] 泛化与迁移能力 - 积累的经验具备强大泛化特性,在全新未见任务上能实现零样本改进[21] - 经验可迁移性显著,将闭源模型经验迁移到开源模型DeepSeek-V3后,使其在一众开源模型中成为SOTA[22] - DeepSeek-V3使用MUSE带记忆框架后,检查点通过率从34.12%提升至50.59%[23] 实际应用演示 - 在模拟人类项目经理管理公司项目issue的演示中,MUSE能在包括GitLab、Plane在内的多个软件平台来回跳转操作,无需人类介入完成复杂任务[3] - 智能体可创建多人聊天群组,同时向三位同事询问信息,显著简化信息收集流程[24] - 能够跨越多个平台依次与同事沟通,执行超过100个步骤圆满完成复杂任务[26] 技术开源与未来方向 - MUSE的论文与代码已经完成开源[4] - 未来研究方向包括引入人类反馈和人类示范集成到记忆系统中,加速AI智能体学习效率[29] - 需要优化经验检索效率,确保新旧知识无缝整合,实现真正的终身持续学习[30] - 需创建更全面的长期任务评估基准,多维度考察智能体记忆保留能力、技能迁移能力和主动决策能力[31]
同行评审濒临崩溃,一篇审稿报告450美元?科学家不再愿意「用爱发电」
36氪· 2025-09-01 07:54
同行评审系统面临的挑战 - 学术论文和项目申请数量激增,导致评审专家不堪重负,系统压力巨大 [5][8] - 系统压力导致研究质量下滑,低劣甚至错误的研究得以发表,同时创新想法可能被埋没 [5] - 同行评审制度本身长期被批评效率低下、存在小团体主义和偏见 [5] 同行评审制度的历史与现状 - 现代同行评审模式在20世纪60至70年代才普及,此前评审方式不规范 [10] - 随着政府科研投入增加,论文数量激增,促使期刊编辑转向外部评审 [10] - 当前系统面临稿件太多而审稿人太少的危机,2024年调查显示约一半受访者过去三年收到的审稿邀请变多 [10] 激励评审专家的尝试 - 非金钱激励措施包括公开展示审稿周期、为高产审稿人设奖,但效果有限或有反作用 [14] - Springer Nature调查显示70%的科学家希望同行评审工作被纳入业绩评估,但目前仅50%的机构这样做 [14] - 付费审稿引发持续辩论,支持方认为是对劳动价值的公平体现,2020年全球审稿人无偿工作超1亿小时,价值数十亿美元 [15] - 反对方警告付费可能带来利益冲突和不良激励,且审稿本被视为带薪工作的一部分 [15] 付费审稿的实验结果 - 《重症监护医学》期刊每份审稿报告支付250美元,邀请接受率从48%微升至53%,审稿周期从12天略缩短至11天,但缺乏资金长期维持 [21] - 《生物学开放》期刊每份审稿报告支付220英镑,要求4天内回复,稿件平均处理周期从38天大幅缩短至4.6个工作日,审稿质量得到保证 [22][24][25] - 德国大众基金会为评审专家提供近1000欧元/天的报酬,但仍难以找到合适的评审人 [27][28] 评审模式的创新改革 - 欧洲南方天文台采用“申请者互评”模式,将评审工作下放给申请者,以解决劳动力短缺问题 [3] - 英国资助机构试验显示,分布式同行评审模式可将评审速度比传统流程快一倍,并通过分组设计避免利益冲突 [30] - 联合评审模式让资深学者与青年研究人员结对,既能引入新力量又能培训新人 [34][35] 提升评审质量与效率的方法 - 结构化同行评审要求评审人回答具体问题,爱思唯尔试点显示评审人一致性从31%提升至41%,并有助于暴露评审人知识短板 [38][40] - 提升透明度措施包括公布评审报告和鼓励评审人署名,支持者认为此举可提升评审报告地位和质量 [41][42] - 根本解决方案在于扩大评审专家队伍,打破资深学术专家小圈子的局限 [31][33]