分位数随机森林
搜索文档
ETF策略系列:基于QRF分布预测的科技类ETF轮动策略
银河证券· 2025-12-22 09:36
量化模型与构建方式 1. **模型名称:基于分位数随机森林(QRF)分布预测的科技类ETF轮动策略**[1] * **模型构建思路**:针对科技类指数波动大、尾部风险高的特点,采用分位数随机森林模型预测指数未来周度收益率的完整分布,以更精确地刻画短期风险[28]。基于预测分布构建多维度评价体系筛选潜力指数,并结合仓位控制与组合优化方法,构建ETF轮动策略,旨在控制下行风险的同时获取超额收益[1][68]。 * **模型具体构建过程**: * **步骤1:指数分布预测**。使用分位数随机森林模型,以Fama-French五因子的周度收益率作为自变量,预测各科技大类行业指数未来一周收益率的分位数[52]。回归窗口为近104周数据[85]。通过预测得到的一系列分位数(如以5%为间隔),采用在相邻分位数间填充均匀分布的方法,近似得到指数的完整收益率分布,并可进行模拟抽样[42][43]。 * **步骤2:指数综合评价与初选**。基于步骤1得到的预测分布(或模拟样本),为每个指数计算7个指标并标准化,然后加权复合得到综合评分[61][66][67]。7个指标及其权重为:50%分位数(1倍)、75%分位数(1倍)、平均收益率(1倍)、Sharpe比率(2倍)、Sortino比率(1倍)、Omega比率(1倍)、胜率(1倍)[68]。选取综合评分最高的5支指数,并确保所选指数覆盖的最小行业层级最多出现一次,以防止行业过度集中[85]。 * **步骤3:ETF标的选取**。为步骤2选出的每支指数,选取追踪该指数、且过去21个交易日日均成交额最大的ETF作为投资标的[85]。 * **步骤4:组合权重优化**。对步骤3选出的5支ETF,采用结合指数收益率分布预测的二阶随机占优方法进行权重优化,以控制组合尾部风险[75]。具体流程包括:利用指数近8周日频收益率序列拟合GARCH模型,得到标准化残差序列并构建协方差矩阵[75][76];生成多维正态分布样本,并映射到由QRF预测的分位数所构建的实际边际分布中,得到预测的联合分布模拟样本[79];以该模拟样本为基础,以二阶随机占优条件作为约束,求解ETF最优持仓权重,并约束每支ETF权重不低于科技大类持仓总权重的5%[77][78][80][82]。 * **步骤5:整体仓位控制**。在每次调仓日,计算科技大类行业指数的平均收盘价序列的MACD指标,若出现“死叉”,则将总ETF持仓权重设为50%[71][72]。若未出现“死叉”,则计算市场波动率(基于上述指数滚动标准差均值)在过去252个交易日中的分位点,若该分位点大于50%,则总ETF持仓权重设为50%,否则设为(1-分位点)[72]。此步骤用于规避系统性下行风险[68]。 * **步骤6:最终持仓确定**。将步骤4得到的5支ETF优化权重,等比例缩放至步骤5确定的总ETF持仓权重,剩余仓位全部配置华安黄金ETF(518880.SH)以进行风险对冲[85][71]。 模型的回测效果 1. **基于QRF分布预测的科技类ETF轮动策略**(回测区间:2020年1月2日至2025年12月12日)[86] * 年化收益率:24.19%[86][88] * 年化波动率:20.58%[88] * Sharpe比率:1.1560[88] * Calmar比率:0.9061[88] * 最大回撤:-26.70%[88] * 累计收益率:245.45%(相较于科创50指数超额累计156.10%)[86][89] 量化因子与构建方式 1. **因子名称:Fama-French五因子**[44] * **因子构建思路**:作为资产定价模型,用于解释股票回报率的差异,包含市场、市值、价值、盈利和投资五个维度的系统性风险因子[44][46]。在本报告中,其周度收益率被用作分位数随机森林模型的自变量,以预测指数收益率分布[52]。 * **因子具体构建过程**:采用简易计算方法,日频计算,具体如下[46][49]: * **MKT(市场因子)**:每个交易日,在A股成分股中剔除风险警示板股票及最近报告期每股净利润为负的股票,以前一交易日总市值加权计算当日市场收益率,减去当日银行间同业拆借加权利率[49]。 * **SMB(市值因子)**:以上述股票池为样本,按前一交易日总市值从小到大均分为10组,做多第1组(最小市值),做空第10组(最大市值),以前一交易日总市值加权计算当日因子收益率[49]。 * **HML(价值因子)**:以上述股票池为样本,按前一交易日最近财年市净率(PB-LF)从大到小均分为10组,做多第1组(高市净率,价值股),做空第10组(低市净率,成长股),以前一交易日总市值加权计算当日因子收益率[49]。 * **RMW(盈利因子)**:以上述股票池为样本,按最近报告期营业利润从大到小均分为10组,做多第1组(高盈利),做空第10组(低盈利),以前一交易日总市值加权计算当日因子收益率[49]。 * **CMA(投资因子)**:以上述股票池为样本,按最近报告期净资产收益率(ROE)从小到大均分为10组,做多第1组(低ROE,投资保守),做空第10组(高ROE,投资激进),以前一交易日总市值加权计算当日因子收益率[49]。 2. **因子名称:基于QRF分布预测的指数轮动复合因子**[56][66] * **因子构建思路**:从预测的指数收益率分布中提取多个有效信号,综合收益率、风险调整后收益及胜率三个维度,构建一个用于指数轮动的综合评分因子[56]。 * **因子具体构建过程**: * **步骤1:计算基础指标**。利用QRF预测的分布(或生成的模拟样本),为每个指数计算以下7个指标[61][63][64]: * **收益率指标**:50%分位数(中位数)、75%分位数、平均收益率(通过模拟样本计算)[61]。 * **风险调整后收益指标**:Sharpe比率(无风险利率设为0)、Sortino比率(下行标准差)、Omega比率[63]。 * **胜率指标**:模拟样本中收益率大于0的样本频率[64]。 * **步骤2:指标标准化**。对每个指标进行截面标准化,以消除量纲影响[66]。公式为: $$X_{i j}={\frac{x_{i j}-{\overline{{x_{i}}}}}{S_{i}}}$$ 其中,$x_{ij}$为第$j$个指数第$i$个指标的实际值,$X_{ij}$为标准化后的值,$\overline{x_i}$为第$i$个指标的截面均值,$S_i$为截面样本标准差[67]。 * **步骤3:指标复合**。将标准化后的各指标按既定方向和权重加权求和,得到每个指数的最终复合评分[67]。公式为: $$S c o r e_{j}=\sum_{i=1}^{M}D_{i}\;W_{i}X_{i}$$ 其中,$Score_j$为第$j$个指数的总复合指标值,$D_i$为第$i$个指标的方向(全部为正向),$W_i$为第$i$个指标的权重[67][68]。 因子的回测效果 1. **50%分位数因子**,平均斯皮尔曼IC值:0.0642[62] 2. **75%分位数因子**,平均斯皮尔曼IC值:0.0582[62] 3. **平均收益率因子**,平均斯皮尔曼IC值:0.0719[62] 4. **Sharpe比率因子**,平均斯皮尔曼IC值:0.0616[64] 5. **Sortino比率因子**,平均斯皮尔曼IC值:0.0581[64] 6. **Omega比率因子**,平均斯皮尔曼IC值:0.0602[64] 7. **胜率因子**,平均斯皮尔曼IC值:0.0586[64] *(注:以上IC值为各指标与对应指数下一周真实收益率的斯皮尔曼秩相关系数在2020年至2025年12月12日期间的周度平均值)[61][63][64]*