2022年遗传规划专题研究报告.docx
2022年遗传规划专题研究报告1.遗传规划研究回顾遗传规划是一种启发式的公式演化技术,通过模拟自然界中遗传进化的过程来逐渐生成契 合特定目标的公式群体,适合进行因子挖掘。在华泰金工人工智能系列前期报告中,有三 篇遗传规划因子挖掘相关的报告,涉及量价因子挖掘、适应度改进、交叉验证等内容。本 文中,我们将把遗传规划运用于分析师一致预期因子的挖掘。遗传规划从随机生成的公式群体开始,通过模拟自然界 中遗传进化的过程来逐渐生成契合特定目标的公式群体。我们对遗传规划程序包 gplearn 进行深度改进,实现了遗传规划在因子挖掘上的应用。关于遗传规划的详细原理,可参见 报告人工智能 23:基于遗传规划选股因子挖掘(2019.6.10)。2.分析师一致预期数据的特点和处理方法一致预期数据的特点和形式分析师一致预期数据归纳总结了市场上卖方分析师报告对个股的财务指标预测、评级以及 关注情况,是除公司财报数据、交易数据以外重要的第三方数据,蕴含丰富的信息。且分 析师一致预期数据可达到日频更新的水平,一定程度上能反映基本面的高频变化,具有深 度挖掘的价值。每日每只股票的一致预期数据个数可能是不同的,一般包含 2-3 个未来年份(通常有卖方持 续覆盖的情况下,不论是否披露财报,均有 3 年预测期数据,财报更新后没有卖方持续跟 踪的,有 2 年预测期数据)。当某年的财务报表披露后,该年的一致预期数据就不再出现, 所以一致预期数据的预测年份是在变化的。如下图,在 2021 年 2 月 2 日,股票 000002 有 三年的一致预期数据,而股票 000001 则只有两年的一致预期数据,这是由于股票 000001 的 2020 年财报已披露,最小预测年份就会变成 2021 年,而股票 000002 的 2020 年财报 尚未披露,故最小预测年份是 2020 年。针对遗传规划需求的一致预期数据处理方法在使用遗传规划进行量价因子挖掘时,因子计算过程是在二维(第一维是股票,第二维是交 易日)的量价数据上进行矩阵预算。而在进行一致预期因子挖掘时,情况变得更加复杂了一 些,每日每只股票通常包括未来 2-3 个年份的预期数据,此时需要一个三维数据结构来存 储数据,第一维是股票,第二维是交易日,第三维是预测年份,我们把原 始一致预期个股数据表中的数据依次填入到三维数组中。此外针对每只股票,每个交易日都使用最小预测年份的一致预期数据,因此还需要构建一 个二维数组存储股票在各个交易日的最小预测年份。在构造好以上数据结构后,我们将通过一个简单的案例展示因子的计算方式。如图表 6 所 示,以因子表达式 ts_mean(CON_EPS,5)为例,计算过程为:1. 首先对交易日进行遍历,在存储最小预测年份的二维数组中找到每只股票当日的最小预 测的年份。如 2021 年 2 月 2 日,股票 000001 和股票 000002 的最小预测年份分别为 2021 年和 2020 年。2. 针对每只股票在三维数组中查找过去 5 个交易日相同预测年份的数据,如股票 000001 需要找到(000001,2021/1/27-2021/2/2,2021)的数据,而股票 000002 则需要找到 (000002,2021/1/27-2021/2/2,2020)的数据。3. 基于每只股票的窗口数据,即可以计算 ts_mean(CON_EPS,5)的运算值,该日运算完 成后,再进行 2021 年 2 月 3 日的计算,最后将所有交易日的运算值合并则可以得到最 终的运算结果。4. 一致预期数据中,可能会出现 ENTRYDATE(入库日期)晚于 TDATE(预测日期)的情形, 我们针对此也进行了处理,避免使用未来信息。3.遗传规划一致预期因子挖掘的测试流程测试流程包含下列步骤:1. 数据获取和特征提取: 1) 股票池:全 A 股中具有分析师一致预期数据的股票,剔除 ST、PT 股票,剔除每个截 面期下一交易日涨停和停牌的股票。 2) 回测区间:2012/4/272022/3/31。时间排前 80%的截面为训练集,后 20%的截面为 验证集。 3) 原始因子。 4) 预测目标:个股 20 个交易日后的收益率。2. 使用图表 7 中的因子和图表 8 中的函数集,生成大量公式,按照遗传规划的流程进行公 式的进化和筛选。公式适应度的计算:假设有公式 F,得出该公式在截面 t 上对所有个股的 因子向量?后,进行行业市值中性化,并计算因子的 IC 均值为适应度。3. 对遗传规划挖掘出的因子进行 IC 测试、分层测试和相关性分析。4.遗传规划所得一致预期因子的单因子测试单因子测试方法简介IC 值分析法因子的 IC 值是指因子在第 T 期的暴露度向量与 T+1 期的股票收益向量的相关系数,即? = corr(? ?+1 , ? ? )上式中因子暴露度向量? ?一般不会直接采用原始因子值,而是经过去极值、中性化等手段 处理之后的因子值。在实际计算中,使用 Pearson 相关系数可能受因子极端值影响较大, 使用 Spearman 秩相关系数则更稳健一些,这种方式下计算出来的 IC 一般称为 Rank IC。IC 值分析模型构建方法如下: 1 股票池:沪深 300 成分股、中证 500 成分股、全 A 股,剔除 ST、PT 股票,剔除每个 截面期下一交易日停牌的股票。 2 回溯区间:2012/4/272022/3/31。 3 截面期:每个交易日作为截面期计算因子值,与该截面期之后 20 个交易日内个股收益 进行计算。 4 先将因子暴露度向量进行去极值、行业市值中性化,再计算处理后的 T 期因子暴露度向 量和 T+1 期股票收益向量的 Spearman 秩相关系数,作为 T 期因子 Rank IC 值。 5 因子评价方法: a) Rank IC 值序列均值因子显著性; b) Rank IC 值序列标准差因子稳定性; c) IC_IR(Rank IC 值序列均值与标准差的比值)因子有效性; d) Rank IC 值序列大于零的占比因子作用方向是否稳定。分层回测法依照因子值对股票进行打分,构建投资组合回测,是最直观的衡量因子优劣的手段。分层 测试法与 IC 值分析相比,能够发掘因子对收益预测的非线性规律。也即,若存在一个因子 分层测试结果显示,其 Top 组和 Bottom 组的绩效长期稳定地差于 Middle 组,则该因子对 收益预测存在稳定的非线性规律,但在 IC 值分析过程中很可能被判定为无效因子。分层测试模型构建方法如下: 1. 股票池、回溯区间与 IC 值分析法相同。 2. 换仓:每隔 20 个交易日换仓,在每个换仓截面期核算因子值,构建分层组合,在截面 期下一个交易日按当日收盘价换仓,交易费用为单边 0.2%。 3. 分层方法:先将因子暴露度向量进行一定预处理(下文中会指明处理方式),将股票池内 所有个股按处理后的因子值从大到小进行排序,等分 N 层,每层内部的个股等权重配 置。当个股总数目无法被 N 整除时采用任一种近似方法处理均可,实际上对分层组合 的回测结果影响很小。分层测试中的基准组合为股票池内所有股票的等权组合。 4. 多空组合收益计算方法:用 Top 组每天的收益减去 Bottom 组每天的收益,得到每日多 空收益序列?1 , ?2 , , ?,则多空组合在第 n 天的净值等于(1+ ?1)(1 + ?2) (1+ ?)。 5. 评价方法:全部 N 层组合年化收益率(观察是否单调变化),多空组合的年化收益率、夏 普比率、最大回撤等。因子汇总说明因子表达式和说明 通过所列因子的表达式可知:1. 上表的因子中,计算变化率的函数 ts_return 出现次数最多,说明一致预期数据的变化 率是一类常见的因子构建逻辑。这与一致预期数据的内涵相符,分析师对于上市公司 的预期产生变化,往往表明公司的基本面发生变化,可能对公司未来的股价产生影响。2. 上表的一致预期复合因子中,主要为数据之间的乘除,说明这两种运算是构建一致预 期复合因子的有效方式。3. 除了一致预期数据之间构建复合因子,一致预期数据也可以和真实的基本面数据构建 复合因子。例如,Alpha11 是一致预期 EP 和 EP 的复合因子,可将其视为基于一致预 期 EP 的超预期因子。4. 改进的一致预期因子中,多出现除以分析师预测标准差(DEGREE)的运算。根据文献1 的研究,2020 年新冠疫情以来,会发生意料之外的地区流动限制,从而增加分析师对 疫情地区公司预测的离散度。由下图可知,2020 年以来分析师预测标准差的中位数相 比前几年明显上升。分析师预测标准差越小,一致预期分歧越小,因此在一致预期因 子的计算中除以分析师预测标准差是一种改进因子的方法。因子相关性分析,因子 IC 测试和分层回测结果汇总Alpha1Alpha4 之间的相关性较高,实 际上它们都是一致预期盈利变化相关的因子,其他因子间的相关性则较低。因子详细测试结果Alpha1 的详细测试结果:Alpha1 = ts_return(CON_EPS, 60),因子含义是一致预期 EPS 在过去 60 个交易日的变化 率。由于该因子逻辑简明,已经被广泛使用,但仍有一定改进空间,改进后的因子为 Alpha2。Alpha2 的详细测试结果:Alpha2 = div(ts_return(CON_EPS, 60),ts_decay_linear(DEGREE, 60),因子含义是一致 预期 EPS 在过去 60 个交易日的变化率除以过去 60 个交易日分析师预测标准差(DEGREE) 的线性衰减加权值。该因子在 Alpha1 的基础上,引入分析师预测标准差来进行调整,标准 差越小,一致预期分歧越小,对因子取值有正向贡献。从 RankIC 均值、IC_IR 和多空组合表现来看,Alpha2 相比 Alpha1 在中证 500 成分 股和全 A 股表现更好。Alpha3 的详细测试结果: Alpha3 = div(ts_return(CON_ROE, 60),ts_decay_linear(DEGREE, 60),因子含义是一致 预期 ROE在过去 60 个交易日的变化率除以过去 60 个交易日分析师预测标准差的线性衰减 加权值,该因子形式上与 Alpha2 一致,属于改进的一致预期 ROE 变化率因子。Alpha4 的详细测试结果:Alpha4 = sub(CON_ROE, ts_min(CON_ROE, 60),因子含义是当前的一致预期 ROE 值与 过去 60 个交易日一致预期 ROE 最小值之差。Alpha5 的详细测试结果:Alpha5 = -rank_div(ts_return(inv(CON_EP), 60),ts_decay_linear(DEGREE, 60),因子先 计算一致预期 PE 过去 60 个交易日的变化率和过去 60 个交易日分析师预测标准差的线性 衰减加权值,再将二者的排序数相除并取相反数,本质上是一个改进的一致预期 PE 变化率 因子。Alpha6 的详细测试结果:Alpha6 = div(ts_return(CON_GPE, 40),ts_mean(DEGREE, 40),因子含义是一致预期 GPE 在过去 40 个交易日的变化率除以过去 40 个交易日分析师预测标准差的线性衰减加权 值,该因子形式上与 Alpha2 类似,属于改进的一致预期 GPE 变化率因子。Alpha7 的详细测试结果:Alpha7=div(sub(ts_decay_linear(UP_NUMBER90, 60),ts_decay_linear(DOWN_NUMBER90, 60), ts_decay_linear(DEGREE, 60),因子先 分别计算个股季度业绩上调家数和下调家数过去 60 个交易日的线性衰减加权值,再除以过 去 60 个交易日分析师预测标准差的线性衰减加权值。该因子属于改进的预期业绩上下调因 子。Alpha8 的详细测试结果:Alpha8 = -ts_return(div(inv(CON_BP), CON_EPS), 60),因子先计算一致预期 PB 和一致 预期 EPS 的比值,再计算其过去 60 个交易日的变化率,最后取相反数。该因子属于一致 预期复合因子。Alpha9 的详细测试结果:Alpha9 = ts_return(mul(CON_GPE, CON_CAGR), 60),因子先计算一致预期 GPE 和一致 预期净利润 2 年复合增长率的乘积,再计算其过去 60 个交易日的变化率。该因子属于一致 预期复合因子。Alpha10 的详细测试结果:Alpha10 = rank_mul(CON_CAGR, CON_EPS),因子计算一致预期净利润 2 年复合增长率 和一致预期 EPS排序数的乘积。该因子属于一致预期复合因子。Alpha11 的详细测试结果:Alpha11 = div(EP, ts_mean(delay(CON_EP,5), 60),因子首先将一致预期 EP 平移 5 天(即 跳过最近 5 天一致预期 EP),再取过去 60 个交易日的均值,最后用个股真实的 EP 除以该 均值。因子的内在含义是个股当前 EP 和前一段时间一致预期 EP 均值的比值,可视为一种 超预期因子。5.总结和讨论本文介绍了基于遗传规划的一致预期因子挖掘。遗传规划是一种启发式的公式演化技术, 通过模拟自然界中遗传进化的过程来逐渐生成契合特定目标的公式群体,适合进行因子挖 掘。实现层面,本文针对一致预期数据的特点量身定制数据处理方案,适配了遗传规划中 的矩阵运算算法,使得短时间内进行大量因子挖掘成为可能。结果层面,本文展示了挖掘 出的 11 个因子及其测试结果,因子可解释性较高,我们也对因子的构建逻辑和模式进行了 详细分析。分析师一致预期数据蕴含丰富的信息,具有深度挖掘的价值。分析师一致预期数据归纳总 结了卖方分析师报告对个股的财务指标预测、评级以及关注情况,是除公司财报数据、交 易数据以外据,一致预期数据可达到日频更新的水平,一定程度上能反映 基本面的高频变化,具有深度挖掘的价值。本文使用的一致预期数据包含:一致预期 EPS、 ROE、PE、PB 等财务指标类预测数据,以及业绩上下调、分析师预测标准差等衍生数据。 本文还引入真实的 PE_TTM 来与一致预期数据结合挖掘复合因子。针对一致预期数据的特点和遗传规划的需求,本文量身定制数据处理方案。考虑到每日每 只股票通常包含 2-3 个未来年份的一致预期数据,本文设计了一个三维数据结构来存储一 致预期数据,第一维是股票,第二维是交易日,第三维是预测年份。该数据结构具有以下 优点:(1)解决了年度财务报表公布前后一致预期数据预测年份变动的问题。(2)适配了遗传 规划中的矩阵运算算法,算法可在三维数据结构上快速运算得出因子值,使得短时间内进 行大量因子挖掘成为可能。具体实现中,我们主要对 gplearn 的因子计算模块进行了修改, 可支持三维数据结构的矩阵运算。文展示了挖掘出的 11 个因子及其测试结果,因子都有较高的可解释性。对于挖掘出的一 致预期因子,其可解释性至关重要,分析因子的构建逻辑可得以下结论:(1)11 个因子中, 计算变化率的函数 ts_return 出现次数最多,这与一致预期数据的内涵相符,分析师对于上 市公司的预期变化,往往表明公司的基本面发生变化,可能对公司未来的股价产生影响。(2) 复合因子中,主要为数据之间的乘除,说明这两种运算是构建复合因子的有效方式。(3)一 致预期数据也可以和真实的基本面数据结合挖掘复合因子,其中本文挖掘所得的复合因子 可视为一种超预期因子。(4) 改进的因子中多出现除以分析师预测标准差的运算,这可能与 新冠疫情以来分析师预测离散度增大有关。