《海外文献推荐系列之六十九:西学东渐.docx》由会员分享,可在线阅读,更多相关《海外文献推荐系列之六十九:西学东渐.docx(27页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、响会很大的因子(同样采用Lasso)。通过双重选择剔除的因子必须同时满足具有 较小的SDF载荷,在横截面中与段和收益率的协方差弱相关。使用这种方法可以 最小的缓解遗漏偏差。基于双重选择Lasso的两步骤回归具体算法如下:1)双重变量选择a)构建收益率和因子样本协方差的横截面回归:2minn 1 |r-ln/-Ch2 +ron-1 A (2-7)7,4 II其中3 =Cov(r, h )二丁一次“丁,此步3聚可以保存h中对于横截面期望收益率 ht tt有显著解释能力的因子。假设ij为经过这一步骤保存的因子。b)对于每一个在gt中的因j=l,2, .,d),构建j和直的横截面Lasso子上(回归。
2、八八2min(n Ch.j-KW +rA! |4|j(2-8)此步骤可以找到和gt有高度相关的因子,这也是双重选择Lasso中主要的步 骤,可以找到在第一步中被遗漏的因子。记i2, J为在j个回归中所找到的因子, 同时i =7 i o2 j=l 2, j2)因子挑选后二步回归采用筛选之后的因子进行OLS回归:(夕,3 2 )=arg min n-1 -f-1 / -C 2 -C 20 g h.2 j0 0 h g h h/o 4,44, j=o, vj i=i o i (2-9)Lasso估计仅涉及凸优化,因此实现相当快。R,python和Matlab等统计软件 都有软件包的实现。但需要指出的
3、是这里的Lasso模型其实也可以用其他机器学 习方法代理,例如Chernozhukov等人(2018)提出可用决策树、随机森林、boosting 和神经网络等模型替代,或用子集选择、偏最小二乘、PCA等。本文采用Lasso 模型,是因为其是线性的,可以用更好的解释能力。同时本文的方法可以与Harvey和Liu (2016)提出的模型进行比照。Harvey 和Liu (2016)所提出的方法是采用Friedman, Hastie和Tibshirani (2009)提出 的逐步回归方法,即通过评估每个因子相对于实现选择的最正确模型的贡献,并构 建最正确模型。然而,和Lasso方法的问题一样,该算法
4、提前对某些变量进行了确 定,可能会导致模型并非最正确,即如果预选模型中有一个因子是多于的,可能无 法找到最好的模型。由于双重选择Lass。考虑了模型错误,我们认为是更优的选 择,之后我们也会对此方法进行稳健性检验。在Lasso模型中引入了正那么化参数q, (j=l,2,来控制惩罚强度。如果4为0,那么Lasso回归将退化为普通的最小二乘回归。同时为确定正那么化参 数,本文使用了 Friedman, Hastie和Tibshirani (2009)提出的交叉验证(CV)方法。对于入h也可以给与不同的因子权重,Belloni等人(2012)提供了 一套从数据出 发确实定方案。我们参考Bryzgal
5、ova(2015)的做法,采用单变量beta的倒数得到 入h。2.5统计推断本文在n和T的渐近联合分布的假设下得到及估计量的渐进分布,其中d是 O固定的,而S和p可以改变。在附录中,我们证明了以下定理成立:定理一:如果假设1-6成立,且s2r“2(n+尸)k)g(n/pv7) = o,那么可以得到:GT,/2(2g-2g)Nd(0,n)其中异质协方差为lr=Var(z)=Var(z)n = lim-ZZE 1-/Tv (l-2rv )Z-,T(),i T Z=1 s=l定理二:假设定理一成立,同时假设定理二:假设定理一成立,同时假设7 成立,如果qs3/2(T-1/2 +n-,/2) MMAX
6、MAX=op(1),那么有:其中 2=(X: &),1工 人7n=-fa” Vt)T 口1 q y k亍2N在)9T匕)OY 明凡(沿一T人人、+ 马_&)人1 TN = zzT,z = g -rh =argZ T if ItL t-同时了是基于lasso方法选出的因子:minT“ G,-r/jHmin(G- : =0, / W 广77. , ) = 1,2,d7 1需要注意的是,即使模型选择不完善,以上推理过程也是有效的。也就是说, 从(7)和(8)中选择的模型可以存在遗漏变量,或包含冗余因子,但这些因子 对Xg的统计推论影响可忽略不计。使用类似于Belloni, Chemozhukov和H
7、ansen (2014)的分析,可以提升效果,使其在一系列可能随样本大小而变化的数据生 成过程中保持一致,并且仅在稀疏条件下进行,因此我们的推论是有效的依赖有 限样本中正确模型的完美恢复。在Internet附录I中,我们提供了广泛的模拟集, 它们证明了估计方法的有限样本性能。3、实证分析数据3.1.1 因子池本文1976年7月至2017年12月来源自不同数据库因子数据。首先,我 们从Ken French的数据库中下载美国股市中的所有主要因子。然后,从相关网站 添加一些已发布的因子,包括Pastor和Stambaugh (2003)的流动性因子,Hou, Xue和Zhang (2015)的q因子
8、,以及He, Kelly和Manela (2017)的中间资产 定价因子。我们还包括来自AQR数据库的因子,例如Betting-Against-Beta, HML 和质量因子。除了这15个公开可用的因子,我们还根据Fama和French (1993) 方法,使用 Hou, Xue, and Zhang (2017) and Green, Hand, and Zhang (2017)研究的企 业特征,构造了 135个多空市值加权投资组合作为因子代理。同时本文研究的公司仅限于在纽约证券交易所,美国证券交易所或纳斯达克 上市的、拥有CRSP股份,代码为10或11的公司。此外,我们剔除金融行业公 公司
9、、账面资产为负值的公司。对于每个因子,根据股票的去年末纽约证券交易 所的断点进行分组,投资组合在每年6月、12月进行调仓,采用市值加权。Fama 和French (2008)以及Hou, Xue和Zhang (2017)都讨论了使用纽约证券交易所 断点和市值加权对于投资组合的重要性。小盘股(即市值小于20%的股票)通常 具备最为显著的异象,等权会加大小盘股的权重使得组合收益增加,但经济含义 不大。3.1.2 测试投资组合构建本文数据长度与质量,对美股市场进行了实证分析。然而事实上,本文的研 究可以应用于任何地区或资产类别。同时尽管投资组合和单个资产的选择之间存 在偏差,本文关注投资组合,而非单
10、个资产为标的。投资组合一般会有更高的beta 和信噪比,而且没有遗漏数据的问题。同时Harvey和Liu (2016)指出,投资组合 数据过少可能会产生偏差。Litzenberger和Ramaswamy认为,投资组合数量太少 会降低效率。我们总共使用750个投资组合作为测试资产。基础投资组合个数为36个:分 别是按规模和账面市值比例排序得到的3x2个投资组合,按规模和盈利利润得到 的3x2个投资组合,按规模和投资排序的3x2投资组合,按规模和过去一个月收 益的短期反转的3x2投资组合,按规模和过去2-12个月收益排序的3x2投资组 合,以及根据规模和过去(13-60)个月收益的长期反转排序的3
11、x2投资组合。这 套测试资产(均可从Kenneth French的网站上获得)捕获了大量的横截面异象, 暴露于不同因子。我们将从因子库获得的714个其他投资组合加入到这36个基础 投资组合中,这714个投资组合涵盖了其他因子。这714个投资组合的来源,是对于每个因子,按规模和自身分为3x2投资组 合。需要注意的是每个3x2投资组合中的股票数量可以不一致,本文只囊括了 6 个小组中的股票都大于10的因子,满足条件的总共有119个因子,因此产生了 714个投资组合(119x3x2)o同时为了稳健性检验,本文采用两个其他投资组合作比照:1、使用了 Giglio和Xiu (2016)构建的202个投资
12、组合:25个由规模和账面 市值比构建的投资组合,17个行业投资组合,25个按投资和经营利润率构建的投 资组合,25个按规模和波动构建的投资组合,35个按规模和净发行构建的投资组 合,25个按规模和应计利润构建的投资组合,25个按规模和动量构建的投资组 合,以及25个按规模和beta构建的投资组合。2、使用1,825个5x5二元组合投资组合,而不是750个3x2投资组合。同时 基础投资组合个数为175:按规模和市销率构建25个投资组合,按规模和beta构 建的投资组合,按规模和利润构建了 25个投资组合,按规模和过去一个月收益的 短期反转构建了 25个投资组合,按规模和过去2-12个月收益排序构
13、建了 25个投 资组合,以及根据规模和过去(13-60)个月收益的长期反转构建了 25个投资组 合。同时添加1,650个其他投资组合,基本过程和之前一致,差异是用5x5分组。3.2 新因子评估本节,我们将本文方法应用于最近五年(2012年至2016年)提出的因子,并 构建了一个基准模型,从最近时期之前提出的135个因子集中评估这些因子。之 后,我们同样展示了随着提出更多因子,我们的方法将如何继续应用。在本实证 中,2012年至2016年期间提出的所有因子均根据同一基准模型进行评估,即直 到2012年为止可用的因子,因此在这里,我们没有明确考虑因子的提出时间。同 时对于一个新加入的因子可能出现的
14、情况有两种:1)基础模型中的因子所囊括信 息已经足够,新因子可能无法对定价作出贡献;2)新研究可能可以发现更好的因 子。3.2.1 第一步Lasso回归第一步为横截面Lasso,这与目前学术研究中用于处理海量因子的降维方法 类似(Kozak、Nagel和Santosh(2018)o这一步骤是为了选择能够对横截面预期 收益有解释能力的因子。Lasso模型的一大优点是,可以将高维数据降维,得到整个SDF的低维表示。 下面我们介绍通过Lasso从选出的模型,同时检验发现经过Lasso选出的模型 稳健性并不是很强。通过实证,Lasso从星中筛选了四个因子:SMB (21),净外部财务(99),流 通股
15、变化(109)和利润率(117)o可以看出所选因子和常用的基准模型十分接近 了。同时在任何有限的样本中,使用统计模型进行变量筛选的主要缺点是,在选 择因子时可能会出现变量遗漏等问题,从而导致错误的模型。为了评估LASSO模 型的稳健性,我们进行了 Lasso模型参数的稳健性检验。与很多降维方法一样, Lasso估计器的结果取决于参数(正那么化系数向)的变化,同时该参数确实定无理 论指导,必须由研究人员进行权衡。而To不同,所建立的模型也不一致。如果被 选择的因子随着to的变化没有实质性的变动,那么可以认为Lass。模型是比拟可靠 的。因此我们对Lasso模型稳健性进行检验,主要是判断to的合理
16、范围是多少。当然由于T0=0总是选择所有因子,而T()二00完全不选择因子。我们不期望估计器能 够对整个都具有稳健性,因此我们希望能够用一种合理的方法来确定m的合理 取值。在机器学习中,一般会选择采用不同的参数取值来进行模型构建,选择表现 最好的模型。本文使用10折交叉验证(CV)方法来进行参数确实定,然而根据 交叉验证所分样本的不同,最后所选的参数依旧可能存在差异。因此,本文选择屡次进行参数选择过程,以验证在不同情况下结果的稳健性。 在第一阶段的Lasso中,我们使用了 200个不同的随机种子进行CV测试。对于 每个种子,CV所选的参数不同。然后使用这200不同的to值来评估模型效果。通 过
17、这个方法得到了比拟稳健的Lass。模型,排除了使用CV可能无法得到最好的 To的风险。图表1展示了在200个模型中每个因子(由ID表示)出现的概率。可以看 出,因子在不同模型中被选择的概率有极大的不同。在135个因子中,只有SMB 被选择的概率超过70%,其余因子在1%-20%之间波动。这也说明Lasso模型并 不能完美的选择正确的模型(如果完美选择,我们预期应该近乎100%的概率选择 少数因子,而其余因子概率接近0)。因此,我们提出不要简单的用Lasso模型来 判断一个因子是否应当包括在SDF之中。其实从广义上来说,没有机器学习方法 可以可靠确实定真实的模型。第二步Lasso回归为了正确推断
18、新因子gt的边际贡献,我们的过程增加了第二次Lasso回归, 主要是为了确定最有可能带来偏差的因子。同时第一个Lasso回归仅依赖于ht, 而第二个Lasso回归同时依赖于与gt。这也意味着将对2012年之后每个新提出 的因子单独进行选择。为了简便,这里不对每个gt中因子的结果进行展示,而注 重比照两个步骤所选的平均因子数目。如前所述,第一个Lasso平均选择因子为四个,而在第二阶段中Lasso平均 所选因子个数在20-80个之间。这种差异主要由于两个Lasso目标的不同。第一 个Lass。主要是为了寻找能够解释横截面预期收益率的因子。因此,Lass。(高to) 构建了一个尽可能简单的模型。而
19、第二个Lasso是为了寻找具备高潜力的因子, 以消除变量遗漏偏差。考虑到屏中有许多因子是相关的,会保存许多因子。第一步所选的因子数量可以认为是在“oracleproperty”成立的假设下资产 定价基础模型的维度。而第二步所选的因子与资产定价模型的维度没有理论联系, 主要目的是为了尽可能保存会使入g估计值产生偏差的因子,甚至可能是冗余因子。O在第二步Lasso平均所选因子个数更多是符合预期的,因为很多因子之间存 在相关性。而在第一步中仅保存相关因子中的一个,但保存哪个由模型决定。因 此,仅将第一步Lass。回归的结果作为基础模型,可能会存在较大的遗漏变量风 险。3.2.3 双重选择估计下面本文
20、将基于双重变量筛选方法来给出gt中每个因子的边际贡献。具体结 果如图表2所示。具体的,我们主要研究近五年提出的因子,包括:质量(Quality- Minus-Junk ,QMJ)、波动(Betting-Against-Beta, BAB)、两个投资因子(Fama 和 French 的 CMA (2015)、Hou, Xue 和 Zhang 的 IA (2015)、两个盈利能力因 子(Fama和French的RMW Hou, Xue和Zhang的ROE)、He的不可交易中间 资本因子和由财务数据构建的几个因子。图表2 一共包含五列,其中每列都给出了各因子的SDF载荷的点估计值和统 计量。更具体的
21、说,SDF载荷的点估计值为每个因子的尸与横截面收益回归的斜 率值。同时给出采用不同方法寻找控制因子的结果,其中人等于经过比例缩放的 单位beta值,也就是左的点估计值。4的载荷为正,代表越高的因子值捕捉越低 的边际效用。为了和经济学理论直觉相符合,我们对每个因子的符号进行先验调 整,载荷估计为正数那么与经济含义相符。同时用t值进行显著性检验,原假设为 斜率值等于0。第一列展示了本文提出方法(DS)的结果,可以看出大局部新因子在统计上 并不显著。即我们认为与2011年之前提出的因子相比,最近五年提出的因子大多 是冗余或者无效的。其中有少局部因子是有重要意义的:1)盈利能力因子:不管 是Fama和
22、French还是Hou, Xue和Zhang提出的盈利因子都是有效地;2) Hou, Xue和Zhang提出的IA因子;3) He的不可交易中间资本因子;4)质量(Quality- Minus-Junk ,QMJ)O第二列展示了使用了原始的SS方法(仅使用一个横截面Lasso)的结果,未 考虑第二步的遗漏偏差纠正步骤。可以看出结论与DS方法完全不同,仅有一个 因子(可转换债券因子)显著,但符号为负。SS方法未包括任意一个DS方法显 示为显著的因子。鉴于我们的理论结果和模拟说明有限样本中的SS方法存在偏 差,因此使用SS方法获得的经验结果与使用DS方法获得的实证验结果不同并不 奇怪。这也说明考虑
23、遗漏偏差的重要性。第三列展示将Fama-French三个因子(市场、SMB HML)作为基础因子, 而不从ht中提取的结果。结果与DS也完全不同,在15个因子中有9个都为显 著。如果已经知道真实的SDF,可以得到入g的最有效估计。然而实际中,我们不 太可能得到真实的SDF,我们的DS方法是为了从统计角度选择基础因子,防止 任意选择带来的偏差。第四列介绍了另一种计算SDF载荷的方法的结果,即使用标准OLS估计将 所有变量包含在内。可以预见这种方法会具有很高的偏差,结果不显著。从图表2的结果来看符合预期,这也说明了在高维因子库中使用机器学习方法的重要性。该表最后一列展示了因子的平均风险溢价,捕捉投
24、资者通过承受因子的风险 而获得的收益。Cochrane (2009)提出,因子的风险溢价和定价能力并不一致。假 设有两个因子平等的承当了同样的潜在风险,这两个因子的风险溢价一致,然而 这些因子并不能被同时用于资产定价。即缩减因子最有效的方法并不是依赖于因 子的风险溢价(无论是否显著),而是评估它们是否在现有因子上增加了定价信息。 本文提出了一种方法,即使在高维情况下,该方法也可行。总体上看,图表2的结果可以说明选择基础模型的方法对SDF载荷和因子有 效性评价有着至关重要的作用。本文提供的理论分析和模拟都表现,DS方法可以 帮助研究人员充分利用因子库中包含的信息,而不引入偏差,同时也可以防止效
25、率损失。图表2、检验2012-2016年提出的新因子效果C2)(4)(5)DSSSFF3No Stectxn)Arg Rt& utat % tstat taut avyjet.id Factor DeacnptionCbp) (DS) (bp) (SS) (bp) (OLS) (bp) (OL8) (bp) toutIM 137 应 139 140 141 142 143144 145 146 147 148 149 150Ch holdingB HML Devil Gro4 proftubdity Orgam lAtioxud Capital Betting Afainst Beta Qua
26、hty Minus Junk Elmplojree growth Growth in advertising Book A*t Liqu汕D RMWCMAHXZIAHXZROEIntrraduu7 Ri*k FactorConvrtihl debt2kr型裳禽17J5803fi0ll12a12.41a21a19k OWO-O1O-OOOOOOO1T Is 3 7384 T o blso 623603 42-04&9245.ls- - 一 M54202S3673431286038B177121S - - 1 1 -18-0.16SyIS08ieo.4i491.49501XM18?3T-2-0.1
27、3200.42741.48704440 10427*22042niqi资料来源:THE JOURNAL OF FINANCE,兴业证券经济与金融研究院整理324递归法因子评价本节希望说明使用DS方法的又一动机。我们认为DS方法可以帮助区分文 献中所提出的有用、无用、冗余的因子。随着时间流逝,这有助于因子库维度的 控制,可以仅加入那些提供了增量信息的新因子、为了说明以上观点,我们从1994年开始的每一年,使用DS方法说明给定年 度引入的因子相对于之前年份已经存在的因子是有用的还是多余的。需要注意的 是,此实证是递归的,即在评估时间t引入的因子时,仅使用t年度之前的信息。图表3为测试结果,可以看出
28、如果从1994年开始每年进行DS检验,那么只有 17个因子被认为是有用的,其中绝大多数被认为是多冗余或无效因子。图表3、按发布时间递归测试因子Y!nr(1) , AmM4U(2) i Conlroh(3) New fMclom (II)k)19942626271”,160272H 293019961503031323316833凶199817434a5 36 37 3A 39 40 414243 44199922M4446462(X)02a44647 4M 49 0612001252515253545556 57 S820022sM58M 6061200331261626:l6465662(X
29、M336667 H 6970712273742005372747676777879 0 8182 A3 H4 85 868788899020064569192 gBM 殁 96 Md8 空 100 101 1022007516103 HM |0: 102109 110 111 112 113 IM 116 116 117 1IH 119 1202009618121 122 123 12120106阳125 126 127 128 1292011130 131 132 133 1:M 10520121362013137 138 1392014140 141 142 143 1442015146
30、146 147 1482016149 150资料来源:THE JOURNAL OF FINANCE,兴业证券经济与金融研究院整理鉴于最近有多篇文献(例如,Harvey, Liu和Zhu (2015), McLean和Pontiff (2016)对市场异象进行了说明,一些学者通过提高t检验的阈值来缩减因子库。同时上述论文特别强调了数据偏差的影响同时推荐多重测试。本文同样对控制因 子库维度问题进行了研究。然而我们的方法在以下四个方面和现有文献有所不同:首先,也是最重要的 一点。本文的方法解决了由于潜在模型选择错误而导致的变量遗漏问题。其次, 本文的方法直接考虑了因子之间的相关性,而不是将因子进行单
31、个的讨论。第三, 我们方法可以帮助解决高维问题,能够适应于存在上百个因子的情况。最后,本 文是根据因子对解释资产价格的贡献出发的,而非风险溢价。同时本文的方法也存在一些方向留待未来研究,例如本文的递归实证仅按年 度进行了新因子检验,而未使用因子的具体公布日期。同时我们的方法并不需要 对和gt来自同一数据源,例如%可以包含所有来自股票市场的因子,gt可以为期 权市场的因子。在这种假设下,我们的方法可以用于评价期权市场的因子是否有 助于解释股票横截面收益。同时在下节,我们提出了另外一种递归法,并将本文 方法的其他可能应用留待未来的研究。逐步回归方法本节提供了一种新的递归方法,并非和之前一样根据文献
32、发布时间来进行测 试,而通过逐步回归的方法选择因子。即本文首先设置ht的初始模型(Fama-French四因子),然后对所有其他因子 进行评价,并选择t统计量最高的因子班,并在未来迭代中需要加入此因子。我们 希望在每次迭代时能够正好加入一个因子,同时当没有更多因子被认为对现有集 合有贡献时,此递归结束。在我们的实证中,最后一次迭代中的基准因子为:148、88、51、62、74、61、 49、122、6、55、72、53、119、140、44、147、65、32、31 , 87、123 和 5 (按 选择顺序排序)。需要指出的是,这种方法所选出的因子(忽略时间)与上一节所选出的因子 存在有趣的重
33、叠:两个实证中测试的重要因子中大约有一半是相同的。这说明有 几个因子(例如,BAB, HXZ投资和盈利能力)不仅对先前引入的因子做出了重 要贡献,而且对所有其他因子也都做出了重要贡献。当然,其他因子不重叠这一 事实也缺乏为奇,这只是另一个选择,说明基准选择不是唯一的。总体而言,这 两种做法都导致因子库中因子总数的大幅减少。上一节的实证主要从因子发现的历史进程出发进行筛选,本节中的逐步过程 给出了研究人员在正确的基准模型上得出的不同结论。在每次迭代中,保证选择 因子的子集:这隐含着研究人员强烈认为这些因子应该在基准中,而其他因子 只有在解释横截面收益成功的情况下才进入基准。随着可能有用因子新证据
34、的出 现,研究人员更新了“预选”因子的集合。同时我们需要给出一个提醒。本节和上节所介绍的递归过程不能保证给出完 整的资产定价模型。正如在上文强调的那样,在有限样本中Lasso的“Oracle property”的失效和其他模型选择方法存在缺乏。而本文的方法可能更适用于想要 对一个新因子gt的贡献进行确定的研究。3.3稳健性检验本章我们将对本文方法的稳健性进行探讨,并讨论模型的一些可能的拓展。 其中最重要的测试是针对Lass。模型的参数,在前文我们已经说明仅构建一个 Lasso模型是不稳健的,下面将对双重选择Lasso的参数稳健性进行检验。模型参数稳健性检验本节我们将探讨我们的结论对参数变化的稳
35、健性。在Lasso进行降维的过程 中涉及一个调整参数,特别我们的DS方法在两步中都涉及参数的变化。本节我 们使用图表2所给的估计结果作为基准,检验2012年之后新提出因子的稳健性。和前文一致,我们需要为两个调整参数确定一个合理的值范围。这里遵循前 面的做法:首先为CV仿真选择200个不同的种子,其中对于每组仿真,我们都 会获得两个调整参数的估计值,然后检验每个4的t统计量随选择的不同而变化 的情况。此过程可确保我们仅考虑合理的调整参数值,因为它们在给定一组CV 仿真时是最正确的。因此,我们从200种仿真中均未使CV标准不最大化的参数的 稳健性分析值中排除。图表4展示了稳健性分析的结果,其中每一
36、个面板代表不同的因子。面板中 的每个点对应于一个CV选择的调整参数,十字是这200个调整参数的平均值。 该图说明,对某些因子的推断比对其他因子的推断更可靠。我们认为在大局部选 择的参数上都显著的因子可以看出这个因子的显著性是可以信任的。例如投资因 子、盈利能力显得十分文件,而一些因子例如中间投资,并不是那么的的稳健。 在主要结果中,Beta比拟稳健,虽然在前文的测试中并不显著。同时大多数其他 因子并不显著(例如Fama和French的CMA、营销费用增长)等。这些结果证实 了我们前文给出的主要结论。尤其是,最近的一些因子似乎对解释横截面起了重 要作用,而其余大多数因子是多余的或无用的。图表4、
37、不同参数下因子显著性热图tstat: Organizational Capital ?tstat: Organizational Capital ?-22-18-14资料来源:THE JOURNAL OF FINANCE ,兴业证券经济与金融研究院整理图表5为两个调整参数所选的模型大小(DS方法的两个步骤中选择的因子 的并集)。该图说明,我们的200个调整参数跨越了参数空间的很大一局部:这 也进一步支持DS方法的应用,DS方法可以选择小至零至五个因子以及大至120 个因子的模型。因此,我们考虑的调整参数范围代表了一组统计上和经济上有意 义的可能选择。图表5、不同参数下因子被选次数热图numsl
38、: Growth in advertising oxpens -140numsl: Growth in advertising oxpens -140numtel EmployM growth r*numsl: Robust Minus Weak哂)资料来源:THE JOURNAL OF FINANCE ,兴业证券经济与金融研究院整理目录1、弓I 言-3 -2、本文理论模型-7-2.1 基础模型介绍-7-2.2 传统方法缺点-8 -2.3 改进思路-9-2.4 基于双重选择Lasso的两步躲回归-9-2.5 统计推断-11 -3、实证分析-12-3.1 数据-12-3.2 新因子评估-13-3
39、.3 稳健性检验-18-4、结论-20-附录-22-图表1、因子被选概率-14 -图表2、检验2012-2016年提出的新因子效果-16-图表3、按发布时间递归测试因子-16-图表4、不同参数下因子显著性热图-18-图表5、不同参数下因子被选次数热图-19-图表6、所选资产和正那么化方法的稳健性检验结果-20-图表7、因子库-22-所选资产和正那么化方法的稳健性检验本节我们对所选资产和用于变量选择的机器学习方法稳健性进行测试,探讨 结果的稳健性。和331节一样,将稳健性的重点放在最近的因子评估上。图表6展示了稳健性测试结果,其中第(1)列是前文的基准结果,第(2) 列是将资产分为5x5而不是3
40、x2的结果,可以看出两者结果类似。第(3)列为使 用较少的资产类别(Giglio和Xiu (2016)使用的202个投资组合),可以看出本 文的结果继续成立。第(4)、(5)列为使用不同机器学习方法的结果,可以看出我们的结果依旧 成立。考虑我们所做的潜在模型假设,Lass。回归更为适合,同时LASSO的惩罚 与Ridge回归的惩罚相结合的Elastic Net也是一个合理的选择。Elastic Net选择的 模型会更大,但结果和基准比拟一致。Kozak, Nagel和Santosh (2020)提出可以 先构建因子的PCA,然后在主要成分上使用LASSO。在第(5)列中结果说明使 用该方法在统
41、计上较弱,但与基准的结果基本一致。第(6)列使用HarveyandLiu (2016)建议的正向逐步回归方法(和我们的DS 方法的中从一个先验模型出发开始不同),逐步回归是连续的将因子加入的模型中, 直到没有因子能够对模型BIC指标有提升。结果和我们基准结果比拟类似。总体而言,尽管某些因子的重要性在不同的稳健性测试中有所不同,但主要 结论显得相当稳健。因此,相对于2012年之前文献中引入的所有因子,可以认为 最近引入的一些因子具有显着的增量定价能力。图表6、所选资产和正那么化方法的稳健性检验结果资料来源:THE JOURNAL OF FINANCE ,兴业证券经济与金融研究院整理- - - -
42、 - -teSx6Elastic NetPCA,tutuutwutoutt*UtidFactor Dwcnpcioti(3g(IB)(D8)3)iDB)(D8)Cbp)gIMCash hoidxnga-043040099-014-oea71-057137HMLDUIMOJO06712A-om1j01IMGhmi proftubdity0 44OM1424餐0J60.47U9OrgamtAtianAl CaptUl092075oie0380670j01140Betting Against BeU Quality Muhm Junk:4SL4*181 122S626LUl208-1672 45-2
43、13-lie142Eraployw growth:je04414149Qg0M143Onwth m-USe057130074-067027144Book AMt Liquidity16-24-0.81on0M0718146RMW4 46,IM8 13 一8。.21127L146CMA1 10 21119OW0A20M0 44067147HXZ tA445-1 422 7L1311W1HXZROE337-n2421222-146101149IntermedUry Ruk Factor221-itO.U-caIW-10-0.17180Convert: bb debt-IMY-OM-18-CM-0X
44、)94、结论本文提出了一种在控制瓦因子的基础上对%因子资产定价贡献进行检验的方 法,此方法在传统的两阶段回归上进行改进。同时可以是高维度的,也可以包 含多个无用或冗余因子。我们的方法采用比拟前沿的计量经济学方法(特别是 Belloni, Chemozhukov和Hansen (2014b)提出的DS方法),从众多因子中系统 的进行最正确基础模型选择,同时明确的考虑了模型选择错误。我们将本文的方法应用于近30年文献中提出的大量因子。我们发现了许多有 趣的结果。首先,即使考虑了之前提出的大量因子,几个新提出的因子(尤其是 盈利能力)也可以对资产定价有贡献。第二,SDF对几个因子的载荷估计(以及 对
45、这些因子的有效性的评估)对于调整参数的改变具有稳健性,尽管在调整参数 改变时所选模型是不同的。这说明了 DS方法可以克服模型选择错误而能够产生 正确的推论。第三,我们证明,随着时间的推移递归地应用我们的方法,可以对 因子库进行缩减。最后,我们将结果与仅通过使用因子的风险溢价或标准Fama- French三因子模型作为对照,并讨论结论不同原因。总体而言,我们的结果对资产定价研究的持续开展作出了令人鼓舞的贡献, 同时需要指出的是研究新因子相对于大量现有因子的边际贡献是一种保守且有效 的筛选新因子的方法,这也为处理海量因子库给出了一条途径。附录本文所构建因子库如下所示:图表7、因子库0.0W*gadib axd Titman(1993)ao4Lkontebo)u flhbilbr. and Vhhny( 19M)O31Lakonuhok. Shhiter, and thny 19MJ04gLoughran ani Mttor (1996)-oo乂Kh*。ThaUr, and Womack (1996;-0.1gMicha。Thaler, and WortAckClW)0JMShan(19W
限制150内