机器学习系列之一:mHC对Barra机器学习因子的改进

量化模型与构建方式 1. Barra机器学习因子模型 * 模型名称:Barra MLP因子模型[30] * 模型构建思路:突破传统线性多因子模型的限制,利用多层感知机(MLP)强大的非线性拟合能力,深度挖掘Barra风格因子与个股未来残差收益之间复杂、非线性的映射关系,以捕捉线性模型无法触及的高阶Alpha信息[30][31]。 * 模型具体构建过程: 1. 长期风险模型构建与残差收益剥离:以Barra CNE6框架为蓝本,构建包含1个国家因子、31个一级行业因子和15个长期风格因子的风险模型[36]。通过横截面回归将个股收益分解为共同因子解释部分和特质收益部分,回归残差即为剔除了市场、行业及主流风格影响后的特质收益,作为机器学习模型的预测目标[40]。 2. 机器学习模型滚动训练:特征集为15个长期风格因子的当期暴露度,标签为下一期的个股残差收益率[41]。采用多周期滚动训练,窗口长度分别为72个月、36个月和24个月,每月月末利用最新数据对三个模型进行全量参数更新[41]。 3. 多周期预测信号合成:每月末,三个独立训练的MLP模型分别输出预测值。对三个预测向量分别进行截面Z-Score标准化,然后采用等权平均或基于历史IC的加权平均,合成单一的初步机器学习因子[42][43]。 4. 因子正交化处理:将合成因子作为因变量,对15个长期风格因子进行横截面回归,提取回归残差。此步骤确保新因子与现有Barra风格因子体系保持正交,提供纯粹的增量信息[44]。 5. 纯因子收益率计算与检验:将正交化后的机器学习因子纳入增强的Barra风险模型(包含国家、行业、长期及短期风格因子)进行横截面回归,其回归系数即为“纯因子收益率”,用于量化该因子的实际贡献[45]。 2. mHC-MLP改进模型 * 模型名称:mHC-MLP模型(流形约束超连接多层感知机)[4] * 模型构建思路:针对金融数据低信噪比、非平稳的特性,在传统MLP基础上引入流形约束超连接(mHC)结构,从模型拓扑与几何约束两方面提升数值稳定性与抗外推能力,以抑制对噪声的过拟合,获得更稳健的因子信号[1][13]。 * 模型具体构建过程: 1. 核心架构替换:在Barra机器学习因子构建流程中,将步骤3.2的核心计算模块(传统MLP)替换为mHC架构,保持输入特征、目标变量及训练框架完全一致[48]。 2. 动态路由机制:mHC层将单一特征流扩展为n个并行的子流(Sub-streams)。设输入特征维度为C,扩展率为n,则每一层l的状态更新公式为: Xl+1=HresXl+HpostTF(HpreXl,Wl)X_{l+1} = H_{res} * X_l + H_{post}^T * F(H_{pre} * X_l, W_l) 其中,H_res为残差连接矩阵,负责在n个子流间进行线性信息交换;H_pre为扇入映射,将n个子流信息压缩聚合;F为标准MLP块(Linear -> ReLU -> Linear),负责非线性特征提取;H_post为扇出映射,将提取的特征广播回n个子流[49][50]。 3. 流形约束:对残差连接矩阵H_res施加双随机矩阵(Doubly Stochastic Matrix)约束,即要求矩阵元素非负,且每一行和与每一列和均为1[22][53]。此约束通过Sinkhorn-Knopp迭代算法在训练过程中实时投影实现[23][54]。该约束限制了矩阵的谱范数(≤1),保证了信号传播的非扩张性,提升了数值稳定性[23][55]。 4. 非负映射:要求扇入映射H_pre和扇出映射H_post的参数保持非负,通常使用Sigmoid函数映射到(0,1)区间,确保特征聚合是基于“加权累加”而非“差分抵消”,使输出位于输入凸包内,抑制过度外推[24]。 5. 参数初始化与深度堆叠:采用冷启动策略,将门控因子α初始化为0.01,使网络初期接近恒等映射[25][26]。得益于流形约束带来的稳定性,网络深度可从传统Barra MLP的3层扩展至6层,以学习更高阶的因子交互关系[56][57]。 * 模型评价:mHC结构有效抑制了因子输出的尖峰-肥尾特性,使分布更接近正态,并表现出更高的长期稳定性[2]。其平滑与守恒特性有助于降低换手率、提升稳健性,但在由短期资金面博弈驱动的行情中,可能弱化对瞬时套利信号的响应,表现可能落后于更激进的无约束模型[2][75]。 模型的回测效果 1. Barra MLP因子模型,纯因子累计收益率超过15%[46],t统计量达到2.8[46],IC_IR指标为0.45[46]。 2. mHC-MLP改进模型,纯因子累计收益率为49%[75](对比基准Barra MLP的56%[75])。 量化因子与构建方式 1. Barra长期风格因子集 * 因子名称:Size(规模)、Beta(贝塔)、Momentum(动量)、Residual Volatility(残差波动)、Non-linear Size(非线性规模)、Value(估值)、Growth(成长)、Liquidity(流动性)、Leverage(杠杆)、DivYild(股息率)、Profit(盈利)、EarnVar(盈利波动)、InvSqlty(投资质量)、EarnQlty(盈利质量)、LTRevrsl(长期反转)[38][40]。 * 因子构建思路:涵盖市值、风险、动量、估值、成长性、流动性、财务质量等多个核心维度,用于构建长期风险模型并解释股票收益[36][40]。 * 因子具体构建过程:作为Barra CNE6风险模型的标准组成部分,具体构建方法遵循MSCI Barra的规范[36][40]。 因子的回测效果 注:报告未提供Barra单个长期风格因子的独立测试结果取值。