表征学习

搜索文档
AI4S新势力齐聚「SAIS Talk上智院星辰之夜」:五大前沿分享,等你来听
机器之心· 2025-09-24 07:48
上海科学智能研究院(上智院)概况 - 全球首个专注科学智能领域的研究院 成立于2023年9月 [2] - 使命是用人工智能驱动科学研究范式变革 赋能千行百业 [2] - 牵头研发伏羲气象大模型 燧人物质大模型 女娲生命大模型 星河启智科学智能开放平台等关键成果 [2] SAIS Talk活动信息 - 上智院主办的前沿技术分享会 已成功举行15期 [3] - 汇聚共性技术 物质科学 生命科学 地球科学等方向的青年研究员 [3] - 活动包含5-10分钟交流环节 涵盖表征学习 催化反应预测 生物分子动态模拟 单细胞图谱 全球天气预报等多个领域 [3] 表征学习研究进展 - 提出层级化时空表征与跨尺度隐式自回归建模框架 显著提升长期预测精度与稳定性 [5] - 在气候建模 流体力学及分子动力学等复杂系统展现重要应用潜力 [5] - 融合扩散模型与层级表征 提高复杂场景图像生成质量 实现零成本语义重采样控制 [5] 催化反应预测框架 - 开发RXNGraphormer统一预训练反应预测框架 弥合数值回归与序列生成的方法差异 [9] - 实现对化学反应活性 选择性和单步正向/逆向合成的精准预测 [10] - 模型能自发学习化学键变化规律 在多项预测任务中达到领先水平 [10] 生物分子动力学研究 - 基于4D扩散模型的生成框架实现蛋白质动力学轨迹生成或长时间尺度构象生成 [13] - 为阐释蛋白质功能与加速药物设计提供全新计算范式 [13] 单细胞调控关系识别 - 开发单细胞基因调控关系预测框架SCRIPT 长程调控预测性能较当前最优方法提升逾两倍 [17] - 在阿尔兹海默症和精神分裂症中发现未揭示的分子遗传学机制 [17] - 有望在复杂疾病的遗传诊断和药物靶点发现上发挥重要作用 [17] 全球天气预报系统 - FuXi-Weather为完全基于机器学习的全球天气预报系统 具备多源卫星观测资料同化能力 [21] - 实现循环资料同化与一体化预报 使用观测资料远少于传统数值预报系统 [21] - 能生成未来10天高精度天气预报 在观测稀疏区域预报表现优于欧洲中期天气预报中心HRES系统 [21]
何恺明改进了谢赛宁的REPA:极大简化但性能依旧强悍
机器之心· 2025-06-12 09:57
扩散生成模型与表征学习 - 扩散生成模型在建模复杂数据分布方面表现出色,但与表征学习领域关联不大[2] - 扩散模型训练目标包含重构回归项,但缺乏为生成学习表征的显式正则化项,与图像识别领域以表征学习为核心的范式差异明显[3] - 自监督学习中对比学习通过样本对学习表征,已有效解决分类、检测等识别任务,但尚未在生成模型中探索应用[4][5] REPA方法的局限性 - 谢赛宁团队提出表征对齐(REPA)方法,利用预训练表征模型能力实现生成模型内部表征与外部预训练表征对齐[6] - REPA依赖额外预训练、额外模型参数和外部数据访问,操作复杂且不够独立极简[7][8] 分散损失(Dispersive Loss)创新 - MIT团队提出分散损失作为即插即用正则化器,将自监督学习集成到扩散生成模型,无需预训练、额外参数或外部数据[9][10] - 分散损失核心思想是在标准回归损失外增加正则化内部表征的目标,鼓励隐藏空间表征分散[10][13] - 该方法行为类似"没有正例对的对比损失",无需双视图采样、数据增强或额外编码器,仅需增加可忽略计算开销的正则化损失[13] 分散损失技术实现 - 目标函数由标准扩散损失L_Diff和批次依赖的分散损失L_Disp组成,加权系数λ控制正则化强度[14] - 直接应用于中间表示层,不增加额外可学习参数或修改原始L_Diff实现[15][16] - 通过适当移除正例项可从现有对比损失推导分散损失,形成鼓励表征分散的通用目标类别[18] 分散损失变体与性能 - 开发基于InfoNCE、Hinge和Covariance的三种分散损失变体,均比对应对比损失更简洁[19][24][26] - 实验显示采用ℓ₂距离的InfoNCE变体表现最佳,使FID分数降低11.35%[31][34] - 在DiT和SiT模型上分散损失均优于基线,对更强模型改进更显著,验证其正则化作用[36][37] 方法优势与应用 - 相比REPA无需DINOv2等预训练模型(11B参数/1.42亿图像训练),实现完全独立[41][42][43] - 可泛化应用于一步式扩散模型,在MeanFlow上实现持续改进并达到SOTA性能[44][45]
2025年中国多模态大模型行业核心技术现状 关键在表征、翻译、对齐、融合、协同技术【组图】
前瞻网· 2025-06-03 05:12
多模态大模型核心技术-表征 - 表征学习是多模态任务的基础,涉及处理异质数据结合、不同噪声等级处理及模态缺失问题 [1] - Transformer出现前,CV领域主要使用CNN,NLP领域主要使用LSTM,多模态工作多采用异质网络单独提取特征后联合训练 [1] - Transformer统一多模态任务成为可能,2019年后基于Transformer的多模态预训练模型大量涌现 [1] 多模态大模型核心技术-翻译 - 跨模态翻译旨在将源模态映射到目标模态,如图像生成描述或文本生成图像 [2] - 基于语法模板的方法通过预设模板插入检测结果完成翻译,如图像描述中的who/what/whom/place插槽 [2] - 编码-解码器结构将源模态编码为隐特征后解码生成目标模态,如图像描述中CNN+RNN组合 [2] - 连续性生成针对时间严格对齐的流数据任务,如文本合成语音采用CNN并行预测+CTC loss [3] 多模态大模型核心技术-对齐 - 对齐用于发现不同模态子元素间关联性,如visual grounding任务 [7] - 显式对齐通过动态时间扭曲(DTW)、CCA等方法衡量相似性,深度学习方法逐渐流行 [7] - 隐式对齐通过注意力机制等解决潜在表示问题,降低对编码器的要求 [8] - 当前多模态对齐处于初期阶段,侧重人类指令对齐但忽略高层次价值整合 [8] 多模态大模型核心技术-融合 - 融合通过结合多模态数据增强性能,应用领域包括语音识别、情感识别和医学图像分析 [11] - 早期融合在特征层面合并模态,晚期融合在决策层面结合结果,混合融合综合两者优势 [11] - 神经网络成为主流融合方式,但图形模型和多核学习在数据有限或需可解释性时仍适用 [12] 多模态大模型核心技术-协同 - 协同学习利用一种模态数据训练另一种模态模型,分为并行、非并行和混合三类 [14] - 并行学习要求模态数据直接关联(如音视频同源),非并行学习通过类别重叠实现 [14][15] - 混合协同通过共享模态连接数据,已在视觉分类、动作识别和语义相似度估计中应用 [15]