自监督学习
搜索文档
DeepTiming:日内信息与相似度学习驱动择时
民生证券· 2025-07-31 09:02
量化模型与构建方式 1. **模型名称:民生金工深度学习股票收益预测模型** - **模型构建思路**:基于民生金工历史研究框架,结合日频和分钟频输入数据,通过深度学习预测股票收益,并利用滚动阈值生成交易信号[1][10]。 - **模型具体构建过程**: 1. **输入端**: - 日频特征:51个技术面/情绪面日频特征 + 7个日频基础量价指标 + 10个强化风格因子(通过PPO强化学习生成)[12][22]。 - 分钟频特征:52个分钟频特征(合成至日频)[22]。 2. **基分类器**: - 使用2个GRU分别对日频和分钟频特征解码[22]。 3. **市场信息嵌入**: - 指数量价数据 + 强化风格偏好生成权重嵌入[22]。 4. **损失函数**: - 多期股票收益作为预测目标,多期MSE均值作为损失函数: $$ \text{MSE} = \frac{1}{n} \sum_{i=1}^{n} (y_i - \hat{y}_i)^2 $$ 其中,\( y_i \)为实际收益,\( \hat{y}_i \)为预测收益[22][26]。 5. **信号生成**: - 预测值滚动阈值:过去一年预测值的70%分位数作为买入信号,30%分位数作为卖出信号,至少持有10个交易日[30]。 - **模型评价**:模型信号分布集中于0轴附近,右偏且尾部极窄,适合波段择时[27][29]。 2. **模型名称:SimStock股票相似度模型** - **模型构建思路**:通过自监督学习预测股票相似度,结合静态(行业/风格)和动态(量价规律)相关性,生成股票属性向量[47][52]。 - **模型具体构建过程**: 1. **输入数据**: - 个股过去40日量价数据 + Barra风格因子 + 资金流指标(形状为\( N \times 40 \times 20 \))[52]。 2. **样本构建**: - 正样本:\( X_{\text{正}} = 0.75X + 0.25X_{\text{随机}} \) - 负样本:随机抽取不相关特征[52]。 3. **训练目标**: - 最大化正样本相似度,最小化负样本相似度,使用余弦相似度衡量: $$ \text{相似度} = \frac{\mathbf{v}_i \cdot \mathbf{v}_j}{\|\mathbf{v}_i\| \|\mathbf{v}_j\|} $$ 其中,\( \mathbf{v}_i \)为股票属性向量[52][53]。 4. **输出**:个股属性向量用于初始化GRU隐状态,提升收益预测稳定性[57][59]。 - **模型评价**:相似度预测更关注行业而非市值,动态性更强[56]。 3. **复合模型:改进后的收益预测模型** - **构建思路**:将SimStock输出的股票属性向量初始化GRU隐状态,结合原有日频和分钟频输入[57][59]。 - **评价**:改进后模型显著提升预测稳定性,尤其在高波行业中效果突出[60][64]。 --- 模型的回测效果 1. **民生金工深度学习模型**: - 全A股平均年化收益:27%,累积超额收益77%(2019-2025)[33]。 - 沪深300成分股:年化收益17.2%,夏普比率1.24,最大回撤8%[38][41]。 - 中证500成分股:年化收益18.8%,夏普比率1.58,最大回撤10.3%[41][43]。 - 中证1000成分股:年化收益18.1%,夏普比率1.24,最大回撤21.3%[43][46]。 2. **改进后模型(加入SimStock)**: - 全A股平均年化收益:30%,累积超额收益109%[60]。 - 沪深300成分股:年化收益20.7%,夏普比率1.88,最大回撤8.5%[64][67]。 - 中证500成分股:年化收益23.4%,夏普比率1.97,最大回撤10.8%[68][71]。 - 中证1000成分股:年化收益22.5%,夏普比率1.56,最大回撤20.5%[71][73]。 3. **指数择时效果**: - 沪深300:年化收益5.1%,超额收益5.6%[79]。 - 中证500:年化收益12.4%,超额收益12.2%[82]。 - 中证1000:年化收益15.1%,超额收益14.9%[84]。 - 电力设备及新能源行业:年化收益36%,超额收益31.1%[101][103]。 --- 量化因子与构建方式 1. **因子名称:分钟频因子** - **构建思路**:从日内分钟级数据中提取量价相关性、波动率、动量等特征[109]。 - **具体因子示例**: - 分钟收益率与成交量相关系数 - 尾盘半小时动量 - 下行波动率占比 - 开盘成交占比[109]。 --- 因子的回测效果 1. **择时因子RankIC**:周度平均RankIC 4.5%,双周调仓多头年化收益23.2%(费后)[36]。 2. **改进后因子RankIC**:周度平均RankIC 4.2%,年化收益21.7%[74][75]。
何恺明改进了谢赛宁的REPA:极大简化但性能依旧强悍
机器之心· 2025-06-12 09:57
扩散生成模型与表征学习 - 扩散生成模型在建模复杂数据分布方面表现出色,但与表征学习领域关联不大[2] - 扩散模型训练目标包含重构回归项,但缺乏为生成学习表征的显式正则化项,与图像识别领域以表征学习为核心的范式差异明显[3] - 自监督学习中对比学习通过样本对学习表征,已有效解决分类、检测等识别任务,但尚未在生成模型中探索应用[4][5] REPA方法的局限性 - 谢赛宁团队提出表征对齐(REPA)方法,利用预训练表征模型能力实现生成模型内部表征与外部预训练表征对齐[6] - REPA依赖额外预训练、额外模型参数和外部数据访问,操作复杂且不够独立极简[7][8] 分散损失(Dispersive Loss)创新 - MIT团队提出分散损失作为即插即用正则化器,将自监督学习集成到扩散生成模型,无需预训练、额外参数或外部数据[9][10] - 分散损失核心思想是在标准回归损失外增加正则化内部表征的目标,鼓励隐藏空间表征分散[10][13] - 该方法行为类似"没有正例对的对比损失",无需双视图采样、数据增强或额外编码器,仅需增加可忽略计算开销的正则化损失[13] 分散损失技术实现 - 目标函数由标准扩散损失L_Diff和批次依赖的分散损失L_Disp组成,加权系数λ控制正则化强度[14] - 直接应用于中间表示层,不增加额外可学习参数或修改原始L_Diff实现[15][16] - 通过适当移除正例项可从现有对比损失推导分散损失,形成鼓励表征分散的通用目标类别[18] 分散损失变体与性能 - 开发基于InfoNCE、Hinge和Covariance的三种分散损失变体,均比对应对比损失更简洁[19][24][26] - 实验显示采用ℓ₂距离的InfoNCE变体表现最佳,使FID分数降低11.35%[31][34] - 在DiT和SiT模型上分散损失均优于基线,对更强模型改进更显著,验证其正则化作用[36][37] 方法优势与应用 - 相比REPA无需DINOv2等预训练模型(11B参数/1.42亿图像训练),实现完全独立[41][42][43] - 可泛化应用于一步式扩散模型,在MeanFlow上实现持续改进并达到SOTA性能[44][45]
AI“化学侦探”快速解析未知分子结构
科技日报· 2025-05-28 23:43
技术突破 - 捷克技术大学领衔的国际团队研发出名为DreaMS的AI分子解码器,能快速解析未知分子结构 [1] - DreaMS采用自监督学习模式,模仿人类婴儿学习语言的过程,无需预先灌输化学规则 [1] - 通过"阅读"数千万份质谱图,自主构建分子结构认知体系,发现传统方法难以捕捉的深层关联 [1] 应用领域 - 有望应用于药物研发与太空生命探测等领域 [1] - 可解析隐藏在植物、土壤甚至外星环境中的神秘分子,可能蕴藏治疗顽疾的新药配方、环保农药分子蓝图 [1] - 具备氟元素检测能力,突破现代药物和农药中氟原子难以通过质谱法识别的瓶颈 [2] 技术原理 - 每个分子有独特的"指纹"质谱图,现代光谱仪能捕获图谱但解读难度大 [1] - DreaMS能解读由数百万数据点构成的质谱图并揭示确切分子结构 [1] - 特训后掌握氟元素检测法,解决学界多年检测难题 [2] 研究成果 - 相关研究发表于《自然·生物技术》杂志 [1] - 发现杀虫剂、食物与人类皮肤之间的分子相似性,推测某些杀虫剂可能与牛皮癣等自身免疫疾病存在关联 [1]
软件所提出小批量数据采样策略
经济观察网· 2025-05-27 07:50
自监督学习技术突破 - 中国科学院软件研究所科研团队提出小批量数据采样策略,可消除不可观测变量语义对表征学习的干扰,提升自监督学习模型的分布外泛化能力 [1] - 分布外泛化能力指模型在"未见过"数据分布上保持与训练数据相当的性能,但此前模型易受无关变量语义干扰而削弱该能力 [1] - 新策略通过因果效应估计和隐变量模型,计算不可观测变量的平衡分数,将相同分数样本划分为同批次以消除虚假关联 [1] 实验验证与性能提升 - 在ImageNet100和ImageNet分类任务中,新策略使Top1和Top5准确率超越自监督方法SOTA水平 [2] - 半监督分类任务中Top1和Top5准确率分别提升超3%和2%,目标检测与实例分割任务平均精度获稳定增益 [2] - 少样本转移学习任务(Omniglot/miniImageNet/CIFARFS)性能提升超5%,所有实验仅调整批次生成机制无需改动模型架构 [2] 学术影响力 - 研究成果被人工智能顶级会议ICML-25(CCF-A类)接收,证实方法论的前沿性 [2]
港大马毅团队等开源新作:用编码率正则化重构视觉自监督学习范式,“少即是多”
量子位· 2025-03-08 03:35
视觉预训练模型创新 - SimDINO和SimDINOv2是马毅团队、微软研究院、UC伯克利等联合开发的最新视觉预训练模型,通过编码率正则化简化DINO系列训练流程 [1] - 模型核心创新在于去除DINO系列复杂的后处理步骤(如输出层高维投影、教师网络中心化-锐化操作等),同时性能反而提升 [5][6][12] - 简化设计理念体现"简单即是美",马毅团队强调这是对视觉表示学习本质规律的重新发现 [7][17] 技术突破与优势 - 引入编码率正则化替代原有复杂设计,显式度量模型表征质量,防止特征崩溃 [14][16][17] - 训练流程显著简化:移除权重归一化线性层、温度调度等超参数,改用欧几里得距离/余弦相似度直接比较特征 [18][19] - 实验显示模型对超参数和数据变化更稳健,训练稳定性提升且计算效率优于DINO系列 [21][23][32] 性能验证结果 - ImageNet-1K评估:SimDINOv2(ViT-B/16)线性评估达36.9% mIoU,优于DINOv2同架构的32.5% [30] - COCO目标检测:SimDINOv2在AP50/AP75/AP指标上全面超越DINOv2 [27][28] - 视频分割任务:SimDINOv2(ViT-L/16)在DAVIS-2017的(J&F)m指标达62.6%,展现更强语义表达能力 [30][31] 行业应用与影响 - DINOv2已被Meta首席AI科学家杨立昆团队用于世界模型构建,并是多模态大模型视觉编码器标配 [3][10] - 简化框架降低工程实现门槛,有利于研究人员改进模型架构或适配新领域 [11][18][39] - 开源生态建设完善,项目提供论文、GitHub代码和主页,潜在改进方向包括探索无自蒸馏优化目标 [43][45]