基于弹性网的信用卡消费情况分析.docx
基于弹性网的信用卡消费情况分析摘要信用卡在能够解决暂时经济问题的同时,也会让人们误解自己生活水平与现实的关系,花钱没有节制。在这个基础上,本文将对信用卡的消费人群的收入、年龄以及透支额度等之间关系进行分析。在这个问题上的统计建模方法,有很多种,大多数都是基于最小二乘法的研究,其中最为经典的当为Robort Tibshirani在1996年的时候提出的方法Lasso。随着对Lasso算法研究的深入,在Lasso的基础上不断衍伸出了更多的算法。Elastic Net就是基于Lasso算法的一种更加优化的算法。而且,当处理一些数据例如微阵列数据的时候,也要比Lasso算法更加优秀。也就是在数据变量中存有组效应的时候,Elastic Net算法能够将所需群变量更加方便的筛选出来。本论文将通过实际有关信用卡数据处理,验证并分析Elastic Net算法要比Lasso算法以及Ridge回归算法在模型变量方面的选择有着更加优秀的表现。关键词:信用卡;统计建模;最小二乘法;Lasso;Ridge回归;Elastic NetIAnalysis on consumption of credit card based on Elastic NetABSTRACTDespite the credit card can solve the temporary economic problems, but it will let people misunderstand the relationship between the level of life and the reality, and there is no control on spending.On this basis, the paper will analyze the relationship between the income, age and the amount of credit card of the consumer.there are many statistical modeling method in this problem,most of them are based on the least square method.One of the most classic is Robort Tibshirani proposed the method of Lasso in 1996. With the research of Lasso algorithm deeply studied, more and more algorithms based on Lasso appeared. Elastic Net is a more optimized algorithm based on Lasso algorithm.Moreover, when processing some data such as microarray data, it is also more excellent than Lasso algorithm.In the data variable,the Elastic Net algorithm can easily filter the required group variables.This paper will deal with actual data related to credit cards to verify and analyze Elastic Net Algorithm algorithm has a more excellent performance than Lasso and Ridge regression algorithm on the choice of model variables.Keywords: credit card; statistical modeling; least square method; Lasso; Elastic Net; Ridge regressionI目录1.绪论11.1 模型的选择11.2 线性模型21.2.1 普通线性模型21.2.2 广义线性模型41.3 最小二乘法52.Lasso方法82.1 Lasso介绍82.2 Lasso回归的定义92.3 Lasso回归的性质92.4 Lasso回归的程序设计113.Ridge方法113.1 Ridge介绍113.2 Ridge的定义113.3 Ridge回归的性质133.4 Ridge回归程序的设计144.Elastic Net方法144.1 Elastic Net介绍144.2 Elastic Net的定义154.3 Elastic Net回归的性质155.Elastic Net弹性网与Lasso拉索实例解析165.1 Elastic Net运用实例解析165.2 Elastic Net弹性网程序调试175.3 Elastic Net弹性网与Lasso拉索程序结果分析176.总结20参考文献23III华东交通大学毕业设计1.绪论1.1 模型的选择随着科学技术的发展,数据收集方面的技术也得到了非常大的进步。因此,信息的收集对我们来说也会越来越重要,所以怎么能够将我们所需要的数据从大量的信息中筛选出来也越来越迫在眉睫,这也是我们需要解决的一个重要的问题。统计建模显然是解决这个问题最重要的方法之一。在该模型建立初期,为了能够尽量减少因为缺乏重要自变量而产生的模型的偏差,人们往往会去选择尽量多的自变量参与建模。然而在实际建模的过程中经常需要找到能够对响应变量产生拥有解释性的那些自变量子集,也就是我们所说的模型的选择(或者称为特征选择、变量选择),为了使我们在对模型的解释的时候更加容易,而且我们在对模型进行预测时得到的结果更加精准。所以,我们需要在统计建模的时候就认真地考虑到模型选择这个难题。对于传统的回归以及分类问题,传统的一些方法一般都采用AIC、BIC结合逐步回归来选择最优的模型。而且经过实践也证明了这些方法在这些问题上有着一定的实用性,但是传统的方法在很多方面存在着缺陷:Breiman(1996)就曾经在研究中提出使用这种方法进行模型选择会造成很大的不稳定。Fan(2001)也曾经提出这种算法在计算过程中会存在一定的随机误差,而且针对于一些大型回归、分类问题,它的计算量也是非常大,从而导致计算机也没有办法进行有效计算,并且它的理论性质也会比较难以进行研究。曾经有位统计学方面的学者向boothrap的提出者,也就是斯坦福大学统计学教授Bradley Efrom发出提问,在这个时代统计学范畴中什么是最重要的问题,Bradley Efrom直接回答为模型选择。但是针对这个问题的处理上仅仅是停留在对于AIC信息准则方面的研究,即使前期的统计学家已经对这个准则进行了大量的改进。例如(BIC、RIC、FIC、MDL)。但是当模型中的自变量较多时,信息准则就会因为计算量过于庞大而变得无法解决,而且针对更加高维的相关模型选择问题,这种方法就会无法解决。我们所了解到的模型选择包括这些目标:(1)预测准确;(2)可解释的模型也就是模型中间所选的自变量需要有科学意义;(3)稳定性也就是集中数据的微小改动不会影响到模型的大的变动;(4)应该尽量在假设检验中避免出现偏差;(5)应该控制计算种的复杂度。但是一些传统的方法,例如最优子集选择、逐步回归、主成分回归、岭回归以及偏最小二乘法都只是能够解决其中的部分问题。所以如何能够有效地解决这些问题从而达到统计建模的目的便成为了统计研究学中的热点问题之一。Lasso方法以及其有效算法也就为这些问题提供了一个可行的方法。尤其是Bradley Efrom(2004)提出了最小角回归算法(LARS)便能够很好地攻克Lasso的计算问题,这种算法在计算程度上只是相当于最小二乘回归,它的剔除使得Lasso方法更加广泛的使用,随后有着许多统计学家跟随着Tibshirani的脚步在改进的道路上做出更多的贡献,包括SCAD(2001)、Fused Lasso(2005)、Elastic Net(2005)、Group Lasso(2006)、Adaptive Lasso(2006)以及Relaxed Lasso等方法。即便Lasso基于LARS算法在各个方面都有着很多优秀的表现,但是当n<<p(n:观测数据的数量;p:自变量的数量)的时候,使用最小角回归的这种方法仅仅只是能够从大量的数据中筛选出n个自变量,在这种情况下能够得到结果仅仅只是偏于稀疏的模型,这V华东交通大学毕业设计时便有很多学者对这个问题做出尝试性的改进。Hastie和Zou在21世纪初期提出的全新的“Elastic Net”算法,在处理这个问题上就有着很好的效果。而且Elastic Net方法针对所研究的数据中存在着组效应的同时效果也很好,它能够成组的筛选出那些对因变量产生较大影响的变量。也可以比喻成:这就像是一张附有弹性的渔网,能够抓到并留到所有的大鱼,然而Lasso方法就无法做到这一点。1.2 线性模型1.2.1 普通线性模型首先来介绍普通线性模量定义1.2.1 假设一个可以观测的随机变量Y,它会受到随机误差和p个非随机的因素、.、的影响,如果Y和、.、有着下面的线性关系: (1.2.1)其中因变量(响应函数),自变量(解释变量),常数项是,回归系数是.、,j=1,2.p,误差项是,其中N(0,)。那么我们就将这种模型称做普通线性模型(ordernary linear model)。 观测数据,我们可以假设这些数据已经经过标准化。中心化的,也就是,。这时常数项的估计,并不失去一般性,可以继续假设=0,这是我们就能够将常数项省略掉,本文下面的讨论再不做特殊说明的情况下都是基于这个假设。这时模型(1.2.1)可以表示为: (1.2.2)其中因变量,自变量,其中j=1,2.p,常数项为,回归系数为.、,误差项,其中N(0,)。普通线性模型主要假设以下几个方面:(1) 误差项以及响应变量Y的正态性:是一个白噪声的过程。因此有着和方差、零均值相似的特性,而且误差项以及响应变量Y都能够严格的服从正态分布:(2) 研究对象:随机变量Y普通线性模型地输出项,随机变量有着很多的自身所具有的性质,例如分位数、分布还有各种矩等性质。响应变量的均值E(Y)是普通线性模型中一个需要重点进行深入探讨的问题。(3) 联接方式:我们可以对(1.2.2)式两边同时取期望得到:E(Y)=X (1.2.3) 由式(1.2.3)可以知道,在普通线性模型里面,预测量的线性组合X和响应变量均值E(Y)通过恒等式(identity)进行联接,而且也可以认为是通过函数(link function)f(x)=x的形式联接起来,也就是: E(Y)=f(X)=X1.2.2 广义线性模型基于普通线性模型,广义线性模型(generalized linear model)将上文所述的几个模型假设进行深层次的推广,从而得到实用性更强、应用范围更广的回归模型。(1) 将响应变量的分布推广到指数分散族(exponential dispersion family):例如泊松分布、正态分布、伽马分布、二项分布、逆高斯分布;(2) 研究对象:响应变量的均值E(Y)依旧是广义线性模型中的主要的研究对象;(3) 联接方式:广义线性模型中所采用的联接函数(link function)在理论上来说可以说任意的,同时也不会仅仅是局限于f(x)=x。但是我们在选择的过程中也必须基于那些进行过探讨而且取得一定成果的例子。而且也存在和假设(1)中所提到的分布相对应的联接函数称之为标准联接函数(canonical link or standard link)。举个例子来说,就像是自然对数函数和泊松分布之间的相对关系,恒等式和正态分布之间的相对关系。由此可以看出,广义线性模量主要在两方面对普通线性模量进行了推广:其中一方面通过假设一个联接函数能够将自变量的线性组合同响应变量的期望联系起来;同时与之相对的另外一问题是Y的分布不会任然被正态分布所限制,而且还扩展到指数分布族。通过这些推广我们便可以进行研究一些更加常见普遍的一般问题。更加具体的来说,广义线性模量有着下述三部分的假定:(1)系统成分:也就是自变量的线性组合=+.+;(2)随机成分:也就是说响应变量Y要服从指数分布族,其密度函数: (1.2.4) 其中称作刻度参数,称作自然参数。可以证明,在一定正则条件下,通过E(YX)与b(.)产生联系。也就是=E(YX)=b(),在X给定的条件下,响应变量Y与均值和存在着下面的函数关系,Var(YX)=a()b();(3)联接函数:联接函数g是一个单调可微的函数,他能够很好地将E(YX)同联系起来: 联接函数g具有的单调的性质确保了能够完全的一一的相互进行映射,下面我们将这个联接函数g的反函数记做为E(YX):我们可以记做F(X)=(X),V(X)=,这是我们便可以将广义线性模型用下面形式来表示: (1.2.5) 这其中,为有界函数,F(.)的二阶导数也是阶的连续函数。它是一个方差是一,的均值是零的指数分布,V(.)是一个连续非负且有界的函数。1.3 最小二乘法最小二乘法是一种非常常见的对参数进行估计的方法,我们对它的了解会比较多一点。然而,很多的浅入了解的人对最小二乘法的了解非常片面,只是把最小二乘法当做是一种简单的线性参数的估计。然而,这只是最小二乘法最简单的一个方面,其实它在很多的领域都有着非常的广泛的使用,例如:系统辨识、对参数进行估计还有预测预报等等方面。下面我们将对最小二乘法的出现、原理进行简单的介绍证明。最小二乘法作为一个重要的“观测组合”的方式,它可以根据对任意一个事例进行次数很多而且数据量很多的观测,从其中获得了一个预期想要得到表现形式。如果我们已知两个变量有着下述线性关系y=a+bx,对上式使用m次的观测,我们可以获得m(m>2)对的数据,如果我们把得到的m对数据代到上述线性关系方程中,对a,b进行求解,那么会得到a,b的值无确定解。这个时候我们就要用到最小二乘法,最小二乘法为我们提供了一种全新的求解的方式,它的最基本的思路就是能够寻找到“最接近”所观测到的m个观测点的一条直线,最小二乘法不只是在前人的时候一种非常重要的统计方法,而且将之称作数理统计学的灵魂也不为过。统计学的几大分支,例如对方差的分析、相关回归分析以及线性模型理论等等统计学原理都是把最小二乘法作为基础的理论。当然,一种方法运用再广泛也会有着一定的缺陷,所以为了最小二乘法的进一步发展,很多统计学家对最小二乘法进行了很久的研究来针对最小二乘法的一些缺陷与不足。这时候基于最小二乘法的大量的现代数理统计理论便应运而生了。这也就像是美国的一位统计学家斯蒂格勒(S.M. Stigler)曾经说过的:对于数理统计学来说,最小二乘法的作用就像是在数学中微积分的地位一样。最小二乘法在刚刚进行探索的时候道路是特别的艰辛。最小二乘法的成立拥有者非常多的科学思想。那些科学思想对于现代的统计学理论的创立仍然有着非常重要的启示意义。那么我们在下文中首先介绍一下最小二乘法在过去的历史中的成立过程和创立的人们对最小二乘法的思路想法。18世纪的时候,天文学以及地理学的高速发展对数理统计学和其他与之相关的科学体系的发展起到了很大的方面的促进作用。丹麦的一位统计学家哈尔德曾经对数理统计学的发展对天文学的发展祈祷的作用进行了分析,天文学的发展高速而迅猛,然而却没有相应的统计学理论对所观测到数据进行深层次而且准确的研究作为理论基础。这个时候这些天文学家靠自己进行分析研究,他们便是最早一批的统计学家,他们研究的领域大量涉及到数据的预测以及预报,这些问题也渐渐地衍生出了算术平均还有参数模型中的很对的估计相关方法,直到最小二乘法的出现才到达了一个最高峰。这也能很好地说明出最小二乘法在统计学以及天文学中非常重要的地位。最小二乘法的出现,最早是在勒让德于1805年发表的一篇著作中,但是它勒让德只是简单的介绍了最小二乘法的思想、好处以及最小二乘法的具体可行性方案。勒让德在它的文章中对最小二乘法的有点进行分析:(1)一般情况下,算术平均值就是最小二乘的特例,也就是说当n=1,=-1,的时候,令,那么就可以得出误差的平方和:对上式进行对x求它的偏导数,那么能令它的和极小的方程应该为,那么上式的解就是:。它也就是对m个数据进行观测得到的算术平均值。(2)假如,所得到的观测值能够全部严格的与所需方程组相符合,那么这个解也一定就是这个方程最小二乘法的解。(3)假如增加或者是修改观测值,那么只需要对得到的方程组进行修改就可以了。举个例子来说明:已知某一种材料在生产的过程中,会有一定的废品产生,而这种材料中的某一种化学成分x与废品率y有关系,下面的表里就是该工厂在生产的过程中x与相对应的y之间的数值:y(%)1.000.90.90.810.60.560.35x(%)3.63.73.83.94.04.14.2我们希望从上表的数据中找出一个y对x的近似公式。解:将上表中的数据在图表中表示,我们会发现数据y与x间的变化几乎接近于一条直线,所以我们尝试选取一次方程ax+b=0来进行表示,我们希望能够通过这些方程,找到那个最适合的a,b值,将方程列出: 3.6a+b-1.00=0 3.7a+b-0.9=0 3.8a+b-0.9=0 3.9a+b-0.81=0 4.0a+b-0.60=0 4.1a+b-0.56=0 4.2a+b-0.35=0我们想要找同时满足上述方程的a,b的值显然是不现实的,将任何的a,b的值代到上述的方程中都会产生一定的误差,那么我们就去找一组数据a,b是上面方程中中的误差的平方和达到最小值,也就是说找到a,b的值使得的值能够最小,在上述中所提到的误差的平方也就是二乘方,所以我们称这种方法为最小二乘法,但是在现实问题中一般不可能只有两个变量,我们对一般的问题就行分析: 下面是一组实系数的线性方程组:这些方程组很可能是无解的,也就是说任何的一组实数都会很可能使得下式不为零。我们想方法来找到一组实数组使得能够最小,这样求解的得到方程组的解,我们称为最小二乘解,将这样的问题称作最小二乘法问题。下面我们对最小二乘法给出证明。主要是使用欧氏空间概念来进行证明最小二乘法的。我们首先将最小二乘法的解需要满足的代数条件给出。可以使:我们需要找到一个最小距离进行证明,可以令(*)=|Y-B|2,我们想要通过使用最小二乘法来找到,而且这组解能够使得Y到B的距离是最短的。 从(*)中,我们了解到Y向量为:我们可以将A中的向量标记作:,利用这些向量生成的子空间可以记做L(),那么向量Y也就成为了L()里面的向量。那么最小二乘法的问题就可以描述为:为了找到一个X能够使得(*)的值最小。根据式(*)=|Y-B|2,也就是为了找出一个向量Y,而且需要满足它到B的距离必须比在L()中的任一向量都要更近,这样也就满足了(*)值的最小。我们可以将Y=AX=设为我们需要找出的那个满足要求的向量,那么就会有:C=B-Y=B-AX,而且这个向量C需要满足与子空间L()垂直,下面我们需要证明的就转移到下式中学过矩阵乘法的知识,我们可以将上述等式改写为矩阵相乘的模式,也就是 。矩阵A也可以由排列组成。那么将上文中的一系列等式可以写为:A(B-AX)=0或者AAX=AB这样我们就可以得出一个代数方程组,而且这个方程是一组线性方程组,还有最重要的是它就是最小二乘解。这个解中的矩阵AA就是最小二乘解的常数矩阵,AB就是最小二乘解的常数项。2.Lasso方法2.1 Lasso介绍在本文中所提及到的Lasso回归是Tibshirani在1996年提出的一种解决线性问题的一种新方法,Lasso回归在线性的最小二乘前提下进行了约束,使得各个系数的绝对值的和小于某一个常数,因为这个约束具有的自然属性,便使得这个回归模型得到的回归系数有的会可能是0,因此会方便我们对变量进行选择、对模型进行解释。下文中将对数据模拟,我们可以发现,Lasso回归模型就如最佳子集选择一样容易解释,而且还同时具有岭回归所类似的稳定性。选择一个一般的线性回归模型,假设我们手中有如下数据,i=1,2,.,N。为了预测变量与响应变量,一般使用最小化残差平方和来得到最小二乘,然而一般的最小二乘估计会有缺点,一方面是预测的精度不够,最小二乘会有高方差性以及低偏移,另外一个方面这个模型不方便解释。拥有了大量的预测因子,我们总是希望能够确定一个最小子集从而来反映出最强的信息。针对最小二乘的缺陷,一些统计学家做出了改进,之后便提出最佳子集选择与岭回归,然而这两个方法同时也有着自身的缺陷。最佳子集是一个离散的过程,即便是有着易于解释的模型,但是当数据有些稍稍的变动时,就会产生出不同的模型,这样就会影响到预测精度;而岭回归模型尽管是比较稳定,只是他不能让某些系数为零,这也造成了模型的难以解释。2.2Lasso回归的定义Breiman对最小二乘进行改进提出了non-negative garotte: (2.2.1)St. 这种方法以最小二乘估计为开始,利用约束收缩因子和从而达到收缩的目的。这样更加方便解释模型。我们可以发现这种方法相比于最佳子集选择会有着更小的预测误差。Lasso类似岭回归是一种收缩方法,但却有着微妙而且重要的区别。Lasso估计的定义如下: (2.2.2)s.t我们将常量通过预测子标准化重新参数化,便是的解,这之后,我们进行拟合不含有截距的这些模型。2.3 Lasso回归的性质性质(1):在式(2.2.2)中,当输入矩阵为一般情况时,Lasso回归系数会没有显示解,然而输入矩阵X是正交的时候,Lasso回归便会有显示解: (2.3.1)式(2.3.1)中的为式(2.2.2)中界限t相应的一一变换,表示的是x正的那部分,具体的关系我们用下图(图2.1)来表示,可以更加直观的看出:图2.1 Lasso回归系数和最小二乘系数间的关系性质(2)Lasso回归的贝叶斯(Bayes)解释:我们利用后验概率密度的方面对Lasso回归做出贝叶斯解释。首先,设先验分布为:,j=1,2,.,p,高斯抽样,i=1,2,.,N。这样Lasso回归估计便是上述后验分布的众数。下面我们来做出证明:证明:可由后验密度函数得:对上式取负对数可得:上式中,于是,可以得到后验密度最大值点:通过以上证明,我们就可以得到,Lasso回归估计可以看做是某一参数后验分布的众数。2.4 Lasso回归的程序设计Lasso least Absolute shrinkage and Selection Operator的简写便是Lasso回归,它是一种最小二乘法改进的算法,它有着更加容易解释的变量选择以及新的收缩方法,在很多领域得到广泛使用。假设定有p个自变量:,和一个因变量,经过n次统计后得到数据表。令是(±1,±1,.,±1)的p维的向量,估计Lasso回归系数的具体步骤:(1)以E=开始,式中=sign(),是线性回归中全局的最小二乘估计:(2)对下式求解; S.t ;(3)对(2)中所求到的是否满足式作出判断;(4)如果(3)中能够满足,那么就令,将上式代入里,作为其中的一行来完成对的更新;(5)重复步骤(2),一直到所求到的能够满足时停止。3.Ridge方法3.1 Ridge介绍我们都了解,回归系数LS估计有着很所优秀的性质,在这些之中最为重要的必定是Gauss-Markov定理。当误差能够服从正态分布时,这时LS估计在所有的无偏估计类中拥有最小方差。这些优良性质奠定了LS估计在众多方法中的重要地位。然而,现代电子计算技术不断地飞速发展,这便使得我们会面临很多的大型回归问题,而且这些回归问题包括很多的自变量,由于自变量较多,有时候这些自变量之间难免会存在一些近似的线性关系,这样可能会导致设计阵X列向量之间近似线性相关,我们将这样的设计称作病态。当设计阵X为病态时,接近于奇异,这样即使LS在线性无偏估计类之中方差最小,然而它的值却非常大,这样也造成LS估计的精度会比较低,会出现很大的不稳定。这时有很多统计学学者对LS估计的改进进行研究,也提出了很多的新的估计。其中最有代表性的就是有偏估计,也就是均值和参数向量不相等的估计。在这些有偏估计中,影响比较大的包括:岭估计(Ridge)、主成分估计、Stein压缩估计以及广义岭估计。本文主要对岭估计进行简单的介绍。3.2 Ridge的定义岭回归(Ridge)是通过对容量的加罚进而达到收缩回归系数的线性回归方法,将岭回归系数定义成极小化惩残差平方: (3.2.1)这里的是用来控制收缩量的复杂度的参数,的值越大,收缩量也会越大,系数便会向零收缩。我们也可以使用另外一种等价的方法来表达岭回归问题: (3.2.2)S.t 上式可以清楚地表达出参数上的约束,式(3.2.1)种的参数 与式(3.2.2)中的参数s存在着一一相对应的关系。但是只要线性回归模型中同时存在较多个相关变量时,系数的确定性就会变差,而且会呈现出高方差性。一个变量的很大的正系数可能会被它相关变量上的类似大小的负系数相抵消。可以在系数上施加上一个约束,式(3.2.2)便可以避免上述现象的发生。将式(3.2.1)改写成矩阵的形式:我们便能够推出岭回归的解为: (3.2.3)上式中,I是一个单位矩阵,需要注意的是,选取二次罚,推出的岭回归解也是y的线性函数。但是当这个解在反演之前,如果将一个正常数添加到的对角线上,这也会使问题变得非奇异,即便说不满秩,这也正是那些统计学家之前引进岭回归的一个奇特动机。传统岭回归的定义是从式(3.2.3)开始的,下面我们从(3.2.1)和(3.2.2)开始诱导,来观测岭回归是怎么解决共线性问题的。3.3 Ridge回归的性质性质(1):由式(3.2.3)可以很容易得知,当X是正交输入的时候,岭回归估计也只是最小二乘估计的一个缩小版本,岭回归估计与最小二乘估计之间具体的关系可以用下图进行表示: 图3.1 当X正交输入,岭回归系数和最小二乘估计之间关系性质(2):假设,i=1,2,.,N,每一个参数,j=1,2,.,p都是独一同步的,而且分布函数服从正态分布N(0,),假定与都是已知的,那么的负对数的后验密度就会正比于式(3.2.1)中大括号内的表达式,式中。下面对上述性质做出证明:证明:可由后验密度函数得:两边同时取负对数可得:式中,。可以得出后验密度最大值点:由以上证明可以得知:岭回归估计为某一个先验分布而且服从正态分布参数的后验分布的众数。这样拉私活岭回归估计是这个后验分布的众数,因为这个分布是高斯分布,那么他也就是后验均值。3.4Ridge回归程序的设计岭回归也称作“脊回归估计”,岭回归估计可以看做是一种进过改进之后的最小二乘估计,它适用在当自变量,.之间的相关性比较强的时候,或者某些个变量变化范围非常小的时候,也就是说线性回归模型里的正规方程系数矩阵接近于奇异矩阵时候的情况。当处于这种情形下时,传统的那些基于最小二乘估计参数的逐步回归分析、多元的线性回归模型,往往得不到我们令我们满意的结果,而且有时候出现的结果和专业知识完全不符合,这时候我们就可以使用岭回归分析的方法来进行分析。使用R语言软件对岭回归进行编程,R语言软件的数值计算能力非常强大,而且也方便对输出结果可视化的程序进行设计,在R语言软件统计工具箱里,功能函数多达200多个,R语言软件操作也比较简便,而且它的可扩充性等许多优点也奠定了它在SAS等类的概率统计所需软件领域之中占据着的重要地位。假设定有p个自变量:,和一个因变量,经过n次统计后得到数据表。令参数k(k0,1),做出估计岭回归系数具体的步骤为:(1) 将自变量原始的数据经过标准化变换,经过变换之后的均值是0,标准差是1。X,Y矩阵分别是Z,K;(2) 对于参数k(k0,1),求解;(3) 将经过标准化变换过的矩阵添加成样本数据,则可以变成:(4) 运用R语言软件里面的Regress函数拟合出来过原点多元的线性回归方程,这样估计出来的回归系数就是岭回归系数;(5) 在程序里面通过使用R语言软件的作图语句Plot绘制出,随着k值的变化趋势,可以找出适合的k值相对应的做为最后得到的岭回归系数。4.Elastic Net方法4.1 Elastic Net介绍在本文中介绍的这种新的选择变量和正则化的方法Elastic Net,是统计学家Hui Zhou提出的对Lasso回归进行分析的一种改进的算法。由上文介绍,最小二乘回归模型在解释变量和预测精度上都有很大的缺点,通过使用加罚来提高精度的用法比较多。上文中提到的Ridge回归方法是使用连续收缩的方法,同时偏最小二乘的方法也在对最小二乘方法的改进上做出很大的贡献。即使如此,也无法在根本上解决掉这个问题,因为总是会让所有的变量处于模型中,这样便不易于解释自变量和因变量之间的关系。即便之后提出的最佳子集选择方法可以较好地解释模型,然而它的精度不高也同时是这种方法的一个缺陷。Tibshirani提出的拉索回归方法(Lasso),这种方法是通过对它的的回归系数加罚的最小二乘回归。通过上文中对Lasso回归的分析,我们可以发现Lasso回归不仅仅能够连续的收缩系数,还能够自动的进行变量的选择。Tibshirani与Fu,W将Lasso回归、Ridge岭回归、以及Bridge桥回归进行了相互的比较,他们发现这三种方法任意一种都无法代替其他的两种方法。而且Frank也在自己文章中详细的介绍了Bridge桥回归算法的优点与缺点。Lasso回归有着很广泛的应用,虽然它在很多数据的模拟方面都有着不错的效果,然而它同样也有着一定的局限性。很多统计学家都发现一个问题,也就是当p>>n的时候,Lasso并不是一种比较理想的方法。因为Lasso最多是p个变量里面选出来n个变量,这样的话,很明显就会对模型的预测精度产生影响,很可能会对模型的建立导致误导。在下文中我们为了解决上述问题,介绍一种新的回归方法,下面具体来介绍弹性网(Elastic Net)。4.2 Elastic Net的定义假设我们有的数据包括n次观测以及p个变量,而且不失一般性,我们经常假设响应变量y是中心化的,而预测子集X是经过标准化的,也就是以下所表达的:我们对固定的那两个非负数,可以将弹性网准则的目标函数定义如下:式中:。我们令,那么上年的弹性网估计就可以等价为:我们可以称为弹性网罚,这是Lasso回归与Ridge回归罚的凸组合。当的时候就是一个简单的Ridge岭回归,当的时候就是一个简单的Lasso拉索回归,但是它并不是严格凸,在本论文中只考虑0,1)的情形。4.3 Elastic Net回归的性质当p>>n的时候,在模型中变量会成组的出现,这样的情况的发生,让相关统计学家非常重视,其中有些统计学家试图使用主成分回归分析进行构造并且寻找能够高度相关基因的办法。下文我们将介绍两个重要的引理,通过证明这两个引理,很容易就可以看出来,弹性网回归(Elastic Net)能够方便的选择出那些高度相关的变量。对于式: (4.3.1) 上式中,当不为0时,J()取到正值,下面来看介绍的引理: 引理4.1:假设定,(1) 若是J()严格凸,那么:(2) 若是,那么,而且是上面式子(4.3.1)的另外一个解。这其中: 下面进行证明:首先固定>0,,若可以如下来考虑:由于,因此,那么就会有,即使我们知道J()函数是严格的凸的,那么就会,所以也就可以将之最小化为式(4.3.1),这样就会和已知所矛盾,我们便可以得出证明。5.Elastic Net弹性网与Lasso拉索实例解析5.1 Elastic Net运用实例解析我们选用一组包含含有人们的Income、Limit、Rating、Cards、Age、Education以及Balance等变量的Credit数据,我们希望通过这个Credit数据对拉索lasso、弹性网Elastic Net两种方法进行对比分析,从而达到能够分析出拉索lasso、弹性网Elastic Net两种方法的优缺点的目的。5.2 Elastic Net弹性网程序调试我们使用RStudio软件对Credit的数据采用拉索lasso、弹性网Elastic Net两种方法进行分析。(1)安装包加载:在使用R语言的时候首先要安装bayesQR、Lasso、Elastic等加载包,可以通过下面语句来实现:install.packages(“bayesQR”),其他几个安装包可以参照这种形式进行加载。(2)数据的读取:我们从所网络得到的公开数据是在excel中打开的,导入R语言程序中需要使用特定的语句进行读取。在R语言中,文件的读取以及写入,常常采用一个命令getwd()进行获取到所需的目录。另外R语言经常可以使用下面方式来进行读取存放在外部工作空间的数据,例如:data、csv等格式的文件。下面介绍一种最常见而且方便的读取方式:read.table(“da