基于最优化算法的众数回归理论及其在收入分配中的应用-田茂茜.pdf
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_05.gif)
《基于最优化算法的众数回归理论及其在收入分配中的应用-田茂茜.pdf》由会员分享,可在线阅读,更多相关《基于最优化算法的众数回归理论及其在收入分配中的应用-田茂茜.pdf(11页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、第34卷第11期2017年11月统计研究Statistical ResearchV0134。No11Nov2017基于最优化算法的众数回归理论及其在收入分配中的应用田茂茜 虞克明内容提要:经典众数回归模型可以准确刻画因变量条件众数与自变量之间的关系,是均值回归和分位数回归模型的重要补充。本文提出使用遗传算法、模拟退火算法等最优化算法估计经典众数回归模型系数向量,并给出了相应的统计检验方法,弥补了经典众数回归模型由于缺少渐进理论而无法给出显著性检验方法的缺陷。在实证分析中,本文利用众数回归分析方法研究了中国城镇居民的收入影响因素,发现城镇居民中占最大比例的群体的教育收益率仅为33,远低于均值回归
2、和中位数回归10的教育收益率;经验年限拐点为11年,远低于均值回归和中位数回归22年的拐点;对于占最大比例的群体而言,签有劳动合同者的收入比没有签订劳动合同者的收人高15左右。最后,本文基于上述结果从教育、技术培训、法律等方面给出了调节贫富差距的政策建议。关键词:众数回归模型;遗传算法;模拟退火算法;收入DOI:1019343jcnki111302c20171101l中图分类号:F2223 文献标识码:A 文章编号:10024565(2017)110118一11Applications on the Income Distribution Field Based on theOptimizat
3、ion Algorithm、订th Mode Regression TheoryTian Maoxi&Yu KemingAbstract:The classical mode regression model is mainly used to describe the relationship between theconditional mode of dependent variable and the independent variable,which is an important supplement to themean regression and the quantile
4、regression modelIn this paper,we propose the optimization algorithms basedon the genetic algorithm and simulated annealing algorithm to solve the parameter estimation vector of theclassical mode regression modelThe corresponding statistical test method is given,which makes up the lack ofsignificant
5、test method due to the absence of asymptotic theory for the classical mode regression modelIn theempirical analysis,based on the Chinese General Social Survey data in 2010,this paper studies the impactfactor of urban residentsincome using the mode regressionThe classical mode regression results indi
6、cate thatthe rate of return to education based on mode regression is 33far lower than the rate of return to educationbased on the mean regression and median regression,which is about 10;the extreme value of experience isabout 1 1 years based on the mode regression,far below the extreme value of expe
7、rience based on the meanregression and median regression,which is 22 years more;for the largest proportion of urban residents,theincome of labor contractors is about 15higher than that of those who have not signed a labor contractBasedon these results,policy recommendations on narrowing the gap betw
8、een the rich and the poor are given fromeducation,technical training,and implementation of the lawKey words:Mode Regression Model;Genetic Algorithm;Simulated Annealing Algorithm;Income+本文获得全国统计科学研究计划项目“基于众数统计量的收入分配差距测度及影响机制研究”(2013LY022)资助。万方数据第34卷第11期 田茂茜虞克明:基于最优化算法的众数回归理论及其在收入分配中的应用 。119一、引言众数是刻画数
9、据集中趋势的重要统计量之一,其他常用统计量还有均值和中位数。考虑到均值回归、中位数回归模型是研究因变量条件均值、条件中位数如何受自变量影响的重要工具,类似地,因变量条件众数的影响因素也可以用众数回归模型来研究。众数回归模型尤其在研究工资收入等服从偏态分布的数据时,可以提供均值回归和中位数回归模型无法提供的额外信息。在收入分配领域,很多学者主要使用均值回归和分位数回归分析工资收入的影响因素。对于均值回归,其目标函数为残差平方和最小,系数向量估计值易受极端值的影响,所以单纯研究收入条件均值的影响因素可能会掩盖很多问题。分位数回归模型(Koenker和Bassett,1978)1的目标函数是残差绝对
10、值加权求和最小,系数向量估计值非常稳健不易受极端值影响。分位数回归模型可以研究收入条件分位数的主要影响因素,尤其是对于一些需要关注尾部特征的情况(陈建宝和丁军军,20082 3;邢春冰,200831)。例如,可以根据低、中、高分位数回归结果制定针对低、中、高收入群体的缩小收入差距的政策。但是确定哪些人属于低、中、高收人群体会增加执行成本。众数回归模型可以描述收入条件众数与自变量之间的关系,其系数估计量为卢=arg maxzn1乏:?,(I Yi一石7i届lW),可以准确描述占最大比例群体收入的影响因素,依据众数回归结果制定出的缩小收入差距的政策无需确定哪些人属于哪个群体,只需执行即可。这些政策
11、的执行不仅不会增加额外成本,而且使得占最大比例的群体受益,从而更有针对性,调节贫富差距的效率更高。在此意义下,众数回归作为一种重要的回归分析方法,应该推广。均值回归、分位数回归的统计推断理论、方法并不能直接或者通过简单修正用于众数回归,这导致众数回归模型的统计推断存在较大困难,众数回归统计推断理论发展相对缓慢。目前,众数回归模型已经受到学者们的关注,被广泛应用于城市交通(Einbeck和Tutz,2006)、气象(Hyndman,Bashtannyk和Grunwald,1996)以及经济学(Huang和Yao,2012;Huang,Li和Wang,2013)等领域,此外,非参数、半参数众数回归
12、估计(Kemp和Silva,2012H o;Yao和Li,20141;Chen,等,2016旧1)、贝叶斯众数估计(Yu和Aristodemou,2012)一。以及众数回归变量选择(李泽安等,2013坤;Chen、Ma和Zhou,2016)等相关的众数回归模型理论研究已经取得较大进展。本文首先系统地介绍了众数回归模型的基本概念、发展脉络以及最新研究进展。在梳理文献的过程中发现,相较于非参数、半参数等众数回归模型,经典众数回归模型(Lee,1989)一1可以更准确反映因变量条件众数与自变量之间的关系。遗憾的是,经典众数回归模型系数估计向量的目标函数是非凸、不可微的,因此在求解过程中会遇到NPha
13、rd最优化问题(即随着问题规模的增大,使用传统算法进行求解所需要的计算时间会成指数级的增长)。为了解决该问题,本文将遗传算法、模拟退火算法等现代启发式算法用于经典众数回归模型系数向量的估计,并提出了相应的显著性检验方法,弥补了经典众数回归系数估计向量由于缺少渐进理论而无法给出相应显著性检验方法的缺点。最后,在实证分析部分,本文基于2010年中国综合社会调查数据(CGSS),应用众数回归模型分析了中国城镇居民收入的影响因素,并得到了不同于均值回归、分位数回归模型但有意义的结果和结论。二、众数回归模型研究综述近30年来,国内外很多学者对众数回归分析方法进行了有益探索,在众数回归估计理论方面取得了一
14、些有创见的成果,本文将对经典众数回归模型,非参数、半参数众数回归模型,以及众数回归的贝叶斯推断理论进行系统介绍。万方数据120 统计研究 2017年11月(一)经典众数回归模型经典众数回归模型最早由Lee(1989)一1在研究删失数据回归模型时提出。删失数据是指自变量观测值都可以观测到,但是因变量只有大于临界值z(左删失数据),或者小于临界值r(右删失数据),再或者只有位于区间(f,r)的观测值能够被观测到的数据。很多学者提出了Tobit均值回归模型(Tobin,1959)0。、删失中位数(分位数)回归模型(Powell,1984J1|;Powell,1986)12)等一系列方法处理此类删失数
15、据。设众数回归模型如下:Yi+=戈:口+占。,i=1,2,3,1, (1)其中,戈。=(1,戈,并咖),卢=(3。,卢:,卢,)为系数向量,si为随机误差项。随机误差项需满足以下假设:在给定z的条件下Y+的条件众数mode(y。I戈)必须满足条件mode(Y+l并)=x3,即随机误差项的条件众数mode(8 I戈)=00对于某一给定的正数W,随机误差项s的条件概率密度函数正I。的取值范围真包含区间一W,W,即随机误差项的实现值畲满足;幽,;。,一W,W。随机误差项占的条件概率密度函数正I。为对称分布时以I。满足同质性或异质性均可;但是当正I,为非对称分布时,必须满足同质性,同质性是指正l。不随
16、戈的变化而变化,反之则为异质性。在因变量Y+没有被临界值c截取的情形下,给定样本观察值(z。,Y+i)?:。,Lee(1989)。9。给出式(1)的系数向量口的估计量为:西=arg max口(n。1,I Yi+一z属I加) (2)其中,()为示性函数,即当括号内的条件满足时为1,否则为o。式(2)对于二维情形的一般解释如下:对于某正数W,在所有宽为2加,高为石l一,菇。的极差,长可以不断伸缩变化的平行四边形集合中,找出框住样本点比例最大的平行四边形ABCD,那么该平行四边形两个宽的中点连线EF即为众数回归估计曲线,具体如图1所示。由式(2)及图1可知,经典众数回归模型与分位数回归模型类似,不易
17、受到极端值的影响,极端值往往出现在平行四边形ABCD外,但是不论该极端值距离条件众数多远,根据式(2)可知系数向鼍估计结果一般不会受到影响。图1 众数回归估计曲线平行四边形解释图当因变量Y+被临界值C在左侧截取时,有Y=max(C,Y+),或者Y=max(C,戈锣+占)。事实上,当c=0时该模型恰好是Tobit模型(Tobin,1958)0|:Yi=max(0,X:JB+s。),i=l,2,3,n (3)由于因变量分布是离散型和连续型的混合分布,所以Tobit均值回归模型系数向量若使用普通最小二乘法进行估计,得到的结果是有偏的,此时可以使用极大似然估计法进行估计。Powell(1984)则使用
18、最小绝对离差法估计式(3)的系数向量,从而得到如下的最小绝对离差估计量:万方数据第34卷第11期 田茂茜虞克明:基于最优化算法的众数回归理论及其在收入分配中的应用 121声=arg咖I),。一max(0,z貉)J (4)PI”2lPowell(1984)1证明了最小绝对离差估计量口对于一大类随机误差分布具有一致性、渐进正态性,对于异方差也是稳健的。事实上,式(4)本质上是针对Tobit模型的中位数回归估计量,受分位数回归模型(Koenker和Bassett,1978)的启发,Powell(1986)21针对式(3)提出了删失分位数回归模型,并给出了相应的估计量。此后,Lee(1989)p1从众
19、数角度给出了式(3)的众数回归系数向量估计值:西=arg maxB(n一州Yimax(x冶,c+加)lw1) (5)l=lLee(1989)凹3指出当随机误差项8的条件分布是对称分布时,口是唯一的;但是当随机误差项占的条件分布是非对称分布且满足同质性条件时,估计量届与真实值之间的差别主要体现在截距项,即众数回归估计曲线只是向上或者向下平移一个常数距离。Lee(1989)一1还证明了式(5)满足强一致性。其在估计系数向量时使用了Himmelblau(1972)31提出的专门针对非线性最优化问题的单纯形算法(Simplex algorithm)。然而,单纯形法是一种指数时间算法,随着问题规模的增大
20、,单纯形算法的计算时间长、效率低,这极大地限制了众数回归模型的推广和应用。由于Lee(1989)一。给出的众数回归系数向量估计值是一个NPhard最优化问题的解,传统最优化算法往往无法求解,即使得到解,也可能只是局部最优解,而不是全局最优解,为了避免NPhard问题,众数回归模型被多次改进。Lee(1993)41将1989年提出的估计量进一步推广为:西=arg maxB(凡。1E w2一Yimax(x;3,c+删)2川yimax(戈:卢,c+埘)Iw 3)=l都=arg max口(n一max E w2一Y。一max(x:3,c+加)2,o) (6)=l对于每一个固定的J,式(6)非常类似于Po
21、well(1985)纠针对对称截断数据给出的STLS估计式(Symmetrically trimmed least squares estimator):西=arg min口凡一Ey。一max(05y。+05c,戈:JB)2 (7)I=l特别地,对于非截断数据,即c=一时式(6)和式(7)等价。Lee(1993)141给出的模拟结果显示,随机扰动项服从标准正态分布、标准Logistic分布、标准Cauchy分布、Gamma(2,1)、Gamma(3,1)等不同分布时,使用式(5)得到的估计结果没有什么差别。值得注意的是,相较于式(5),式(6)、式(7)的目标函数本质上仍是残差平方和最小,从而
22、式(6)、式(7)得到的估计量更接近于均值回归估计量,面非众数回归估计量。(二)非参数、半参数众数回归模型Kemp和Silva(2012)M1提出了众数回归半参数方法,系数向量估计量为:西=argmaxan一1Kh(y。一z:卢) (8)#=l其中,K(t)=h-lK(th),核函数K()为标准正态分布的概率密度函数,h是窗宽,其作用是使得估计值具有很好的稳健性。该估计量满足一致性,具有比较容易处理的渐进分布,尤其是这些渐进性质不依赖于条件分布的对称性及同质性等限制条件。然而由于K()为标准正态分布概率密度函数,所以式(8)中含有一(Yi一戈:卢)2项,即残差平方项,所以式(8)得到的估计量更
23、接近于万方数据122 统计研究 2017年11月均值回归估计量而不是众数回归估计量,而且估计量的收敛速度比较慢。同年,Yao、Lindsay和Li(2012)。2川提出了众数回归非参数估计量: 二卢=arg maxpn“Kh(X。一Xo)6h(Yi一戈:卢) (9)=l其中,K()为高斯核函数,咖。(t)=h-I咖(th),核函数咖(t)是标准正态分布的概率密度函数,估计式(9)与式(8)是相同的,所以也会出现估计量更接近于均值回归估计量的问题。在估计式(9)时,他们使用了MEM算法(Modal expectationmaximization algorithm),并指出当出现异常值或者随机误
24、差项为厚尾分布时,理论和实证结果都证实了估计结果比普通局部多项式回归更有效。李泽安等(2013)8 o借助非参数回归思想,使用局部二次逼近算法(LQA)和最大期望算法(EM)求解了Yao、Lindsay和Li(2012)钊提出的式(9),同时使用Adaptive Lasso方法进行了变量选择,这也是目前国内关于众数回归的唯一文献。Yao和Li(2014)o又使用MEM算法对式(8)进行了估计,模拟研究和实证研究结果均表明在给定相同置信度下众数回归模型预测区间比均值估计、中位数估计和矩估计量短,即预测结果更加精确。Chen等(2016)3基于自变量与因变量联合分布的核密度估计也得到了众数回归非参
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 优化 算法 众数 回归 理论 及其 收入 分配 中的 应用 田茂茜
![提示](https://www.taowenge.com/images/bang_tan.gif)
限制150内