时序数据增强

搜索文档
【广发金工】面向通用模型的时序数据增强方法
广发金融工程研究· 2025-07-31 03:11
时序数据增强技术概述 - 时序数据增强通过平移、缩放、扰动、裁剪、合成等策略提升模型泛化能力,适用于金融场景中低信噪比数据的信号提取[1][4] - 技术可无缝嵌入传统机器学习、深度学习及强化学习系统,拓展量化策略表达能力[1][4] - 方法分类包括随机变换、特征混合和生成模型三大类,其中随机变换涵盖幅值域、时域和频域三个维度的操作[9][39][47] 随机变换增强方法 幅值域变换 - **抖动(Jittering)**:添加高斯噪声(σ=0.03)提升模型抗扰动能力,缓解数据漂移问题[11][13][14] - **旋转(Rotation)**:多变量序列中应用随机旋转矩阵,但可能破坏经济含义的结构关系[15][17] - **缩放(Scaling)**:采用α∈[0.8,1.2]的随机系数统一调整幅度,模拟不同波动强度[19] - **幅度扭曲(Magnitude Warping)**:通过控制节点(μ=1,σ=0.2)生成平滑调节曲线实现局部调制[20][24] 时域变换 - **切片(Slicing)**:截取长度W的子序列(W=20)保留局部时间结构[25][27] - **片段重排(Permutation)**:将序列切分为N段(N=3)后随机打乱顺序,仅适用于时序不敏感任务[28][30] - **时间扭曲(Time Warping)**:采用三次样条插值构建非线性映射曲线,模拟市场异常波动[31][35] 频域变换 - **频率扭曲(Frequency Warping)**:通过VTLP方法重构梅尔滤波器组频率分布[36] - **傅里叶变换方法**:在幅度谱和相位谱中注入噪声拓展频谱形态[37] - **频谱增强(Spectrogram Augmentation)**:直接对频谱图实施时间/频率掩蔽操作[38] 特征混合增强方法 - **幅值域混合**:采用SMOTE算法在同类序列间线性插值(β=0.5)生成新样本[40][41] - **时域混合**:基于DTW对齐"教师-学生"序列时间结构,保留原始能量分布[43][44] - **频域混合**:EMDA方法选择性增强特定频带(如5-10Hz),创造新听觉特征[45] - **多域混合**:SPAWNER方法引入随机路径约束,构建多样化时间变形路径[46] 生成模型增强方法 - **统计生成模型**:LGT模型结合全局趋势与局部波动,提升LSTM预测性能[48][49] - **神经网络生成模型**:LSTM-GAN在ECG数据增强中效果优于传统方法,F1-score提升12%[56][57] GRU模型实证结果 训练策略对比 - **固定概率(p=0.5)**:jittering因子RankIC胜率提升1.2%,scaling因子多头年化收益达18.05%[64][68] - **线性衰减概率(p:1→0)**:等权合成因子RankIC均值提升1.2%,多空年化收益达56.38%[71][75] 因子表现 - **最佳增强方式**:jittering在线性衰减模式下RankIC达13.3%,多空收益55.35%[75] - **最差增强方式**:rotation在固定模式下RankICIR降至0.88,多空收益仅30.44%[68] - **相关性分析**:jittering/scaling与原始数据相关系数1.0,rotation仅0.02[61] 应用前景 - 技术可适配不同数据类型(量价/基本面)、频率(日频/分钟频)及模型架构(Transformer/TCN)[112] - 在生物信号处理、语音识别等领域已验证有效性,金融时序增强尚处探索阶段[24][38]