现代回归分析方法.ppt
《现代回归分析方法.ppt》由会员分享,可在线阅读,更多相关《现代回归分析方法.ppt(178页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、现代回归分析方法 Still waters run deep.流静水深流静水深,人静心深人静心深 Where there is life,there is hope。有生命必有希望。有生命必有希望目的目的:回归分析研究的是一个变量(应变量)和其他变量(自变量)之间的关系.其目的可能是:1.确定哪些变量有关及其程度;2.预测;3.找出最优的组合;4.控制;5.寻求合适的数学模型;6.评估两个或两个以上因素的交互影响等等.1.回归分析回归分析(RegressionAnalysis)数 据 资 料(data)应 变 量(response)自 变 量(independent variables,pre
2、dictor variables)这里n是记录数目,k是自变量数目(包括常数项).基本模型基本模型:2.线性回归线性回归(LinearRegression)模模型:型:Y=X+这这里里X是是Z的函数的函数(已知已知),是是未未知知参参数数向向量量,是是误误差差项项也就是说有线线性性模模型型的的假假设设:1.正态分布;2.互相独立;3.同方差;4.一个随机误差项;5.系统影响的相加性(additivityofsystematiceffects);6.资料完整.参参数数估估计计():最小二乘估计有(注意:这里没有用到正态分布的假定)极大似然估计这里在正态分布的假定下这个估计是所谓BLUE的.估计量
3、的分布残残差差平平方方和和的的分分布布方差的估计:(矩估计)显显著著性性1。模型的显著性,即检验假设使用统计量当为真时2。某个因素的显著性,即检验假设定义对称方阵设为其对角元素,则有检验统计量当成立时模型选择(变量数目)模型选择(变量数目)当两个模型有嵌套的(nested)关系时,可以用下述F检验来决定取舍模型1:模型2:当为真时这里是回归平方和,是残差平方和.方差分析表方差分析表拟合优度拟合优度确定系数:R2statistic:R2c(adjustR2):UnderH0:1=2=p-1=0(testR2exactlyequivalenttoFtest)应变量的变换应变量的变换(transfo
4、rmationofresponse)目的:1。正态分布(对称);2。同方差;3。相加性。异方差或者不独立异方差或者不独立加权最小二乘估计加权最小二乘估计:假如Y=X+N(0,2V)而且V已知,则存在满秩对称矩阵PPPPPPV且有P1 N(0,2In)即P1Y|XN(P1X,2In)对P1YP1X P1 取最小二乘估计,得(XTV1X)-1XTV1Y称之为加权最小二乘估计(weightedleastsquareestimator)有 N(,2(XTV1X)-1)3.共线性共线性(Multicollinearity,collinearity)这里主要讨论“几乎”共线性,顺便也讨论一下精确的共线性定
5、义:定义:自变量之间存在强烈的线性关系。精确地说,存在使或对至少一个k成立.迹象:迹象:nXTX至少有一个很小的特征值(0)注意:j0forj=1,2,p(这里j是XTX的特征值).影响影响:典型的影响是使参数估计的方差增大从而使整个估计不精确.总的说来:Var()=2(XTX)-1具体地说:Var(j)=forj=0,1,p-1这里R2j是即其它自变量对自变量j回归的确定系数.线性回归的理想要求是:Y对X有很强的线性关系,而X之间有较弱的线性关系.共线性的测度共线性的测度(1)VIF(varianceinflationfactor)VIFj=1/(1-R2j)forj=0,1,2,p-1.当
6、max(VIFj)10时,有共线性问题(这是经验公式,无精确理论基础)注意:VIF01/(1-R20)其对应模型是此模型右边无常数项.(2)ConditionNumber这里(j)是按大小排列的矩阵XTX的特征值.当1000时,可能有严重的共线性问题.(3)ConditionIndexforj=2,3,pConditionIndex能发现多于一个的共线性关系.经验公式:列出所有的j100.解决方法解决方法(1)从模型中除去一些变量(例如对应于比较大的VIFj的Xj).这个问题与变量选择和模型确定的方法有关;如果j0,则剔除j会导致,即最小二乘估计成为有偏估计.(2)主成分回归(Principa
7、lComponentRegression)Y=X+=X(UUT)+=(XU)(UT)+G+这里U是XTX的特征向量矩阵(XTX=UUT);G=XU(G称为主成分principalcomponent)=UT 这时的LS估计是=(GTG)-1GTY=-1GTY=U如果把G去掉(p-r)列(比如说对应于较小的i),记为G(r),G(r)=XU(r),取=(GT(r)G(r)-1GT(r)Y=U(r)=U(GT(r)G(r)-1GT(r)Y称之为主成分估计(principalcomponentestimator).这时有SV()=2SMSE()=2即这个估计是有偏的(除非2i=0i=r+1,p).(注
8、意:主成分回归只减少”成分”个数,没有减少变量个数).(3)岭回归(Ridgeregression)*(XTX+kI)-1XTY这里k0通常是个小正数.前面有SV()=2现在有SV(*)=2SV()当k时,SV(*)0事实上Var(*)=2U*UT这里(*)ii=i(i+k)-2然而SMSE(*)=2*是的有偏估计.当k有Var(*)同时bias(*).注意到上述SMSE(*)的第二项是单调增函数,且有当k=0时为0,则存在k*使SMSE(k*)SMSE(0).但事实上koptimal不可求(因为式中的未知).经验方法是:1)k=p*2/T 这里2=(Y-X)T(Y-X)/(np);2)找出使
9、*”稳定”下来的k(1VIFmax30时ri,r(-i)都渐进服从N(0,1).常用残差图常用残差图(1)分布图或直方图(histogram);(2)盒子图(box-plotorschematicplot);(3)正态图或半正态图;(4)二维图(如Y,r(-i).重大杠杆点重大杠杆点(highleveragepoint)一个事实:fori=1,2,n.(single-roweffects)帽子矩阵H的一些性质(1)对称(symmetric);(2)幂等(idempotent):H2=H;(3)1/nhii1;(4)特征值:theeigenvaluesarealleither0or1,(#of1
10、s=Rank(H);(5)Rank(H)=Rank(X)=p,(tr(H)=hii=p).Onaverage:hii=p/n;经验公式:Aruleofthumb:hii2p/nhighleveragepointi.Leverage的度量:Cooksdistance当Di1时,没有highleverage的问题.(注意:highleveragepoint不一定会很大地改变参数估计值.)图异类点及其处理异类点及其处理异类点(Outliers)通常指的是这样一种情况:资料不纯(contamination),即资料中的一个记录(点)或某项记录(点)显然与其他大部分记录(点)”不一样”.异类点的统计模型
11、原假设:备用假设1:确定性备用假设(deterministicalternative)有记录或测量误差;备用假设2:内在性备用假设(inherentalternative)备用假设3:混合型备用假设(mixturealternative)备用假设4:滑动型备用假设(slippagealternative)除了事先确定的k个点之外(确定指的是数目k而不是点)所有其他点都属于F.F由位置参数(location)和等级参数(scale)2确定.而k个点则来自和2有变动的版本F;备用假设5:可变换型备用假设(exchangeablealternative)只有一个异类点j等可能地来自1,2,n.异类点
12、的处理方法(1)找出并剔除(discardancytest):例如基于残差的检验.注意:当用maxr(-i)n的P值进行检验时,需要考虑所谓的Bonferronicorrection.(2)去除或减少其影响(accommodation):稳健性(robust)统计.注意:异类点常常是重大杠杆点,但重大杠杆点不一定是异类点.BonferroniInequalityntestseachofsize,theprobabilityoffalselylabellingatleastonepoint,anoutlierisnograterthann.如果选=/n,则可得保守的值稳健性回归稳健性回归(Rob
13、ustregression)稳健性统计的一些方法(以位置location估计为例):(1)修剪法(trimming)略去r个最小的和s个最大的样本值:或者取n=r+f(0f1)(2)温莎法(Winsorizing)或者类似于定义(3)L估计量,M估计量和R估计量L-estimators(LinearOrderStatisticsestimators)注意:修剪法和温莎法都是L估计量.M-estimators找出方程关于的解.注意:当密度函数为f(x-)时,取,就是似然方程的解.R-estimators由一定的秩检验(ranktest,如Wilcoxontest)的程度所取得.为什么要稳健性回归
14、为什么要稳健性回归替代方法是分两步走:(1)去除异类点;(2)用经典方法进行回归.但是n去除异类点首先需要可靠的参数估计;n原先的分布假设可能不对;n经验表明稳健性方法往往比剔除异类点的方法更可取.因为它不决断地接受或拒绝一个观察点.稳健性回归的要求稳健性回归的要求(1)在假定模型下是好的估计;(2)假如资料对模型假定有一点偏离,其参数估计还是”稳健的”;(3)如果资料对模型假定有较大的偏离,参数估计也不是”灾难性”的.稳健性回归的几个例子稳健性回归的几个例子(1)考虑M估计量当时,它就是LS估计.取这里0f0是一个常数.(2)考虑下列步骤:(i)对Yi回归,得Yi,s和ri(或r(-i);(
15、ii)WinsorizeYi:这里c是稳健控制值,一般取1到2之间.(iii)对Y*i回归,得新的Yi,s和ri(或r(-i);重复(i)和(ii)直到收敛.注意:当用:e*i=Y*i-Yi代替:ei=Yi-Yi时,将会低估2修正方法:这里m是未修改的Y的数目.(3)LTSregression这里hn,称之为LeastTrimmedSquaresRegression(4)LMSregression称之为LeastMedianofSquaresRegression注意:稳健性回归的思想具有一般的意义.5.广义线性模型广义线性模型(GeneralizedLinearModels)线性模型的推广一大
16、类回归模型有完整的理论结构逻辑回归逻辑回归(LogisticRegression)如果应变量Yi只能取两个值0和1,则Yi服从二点分布(Bernoullidistribution).设则逻辑函数:逻辑回归模型设这里g定义为连系函数(linkfunction),连系函数将线性组合Xi与数学期望pi连在一起.则即p是关于的逻辑函数,且有0pi1.参数参数的极大似然估计的极大似然估计由得似然函数于是forr=1,2,k.费雪信息矩阵(Fisherinformationmatrix)这里当是逻辑连系函数时注意:需用叠代算法求出,即解方程组.参数估计的性质事实上是渐进正态分布的.拟合优度拟合优度差异函数
17、(deviancefunction):(注意:0log(0)=0)如果模型假定正确,D渐进服从;如有两个嵌套模型H0和HA,则D0DA渐进服从.注意:嵌套模型的检验比显著性检验D更强,即D服从的要求比较高,D0DA服从的要求比较低,甚至当D0和DA都不服从和时亦成立.二项分布二项分布(Binomialdistribution)的的情形情形等价于mj个贝努里实验,且有:设连系函数为似然函数去掉常数项为有这里当 是逻辑连系函数时差异函数正态连系函数正态连系函数(probitlinkfunction)如果连系函数取所谓的probitlink的话,即则有:和将此式代入,既可得对应的和W.普阿松回归普阿
18、松回归(PoissonRegression)应变量Yi只能取非负的离散值(事实上只需要一边有界),其离散程度大致与其水平成正比例.设即则设(对数连系函数)则对任何X和有参数参数的极大似然估计的极大似然估计去掉常数项后这里当时(对数连系函数)注意:需用叠代算法求出,即解方程组参数估计的性质渐进服从N,(XTWX)-1)拟合优度拟合优度差异函数:如果模型假定正确,D渐进服从;如有两个嵌套模型H0和HA,则D0DA渐进服从.过度离散过度离散(over-dispersion)实际案例中常有如对应于负二项分布的情形.解决方法:设估计广义线性模型广义线性模型四个组成部分1。数学期望(均值)E(Yi)=i2
19、。线性预测量(linearpredictor)i=Xi3。连系函数(linkfunction)g(i)=i4。方差函数(variancefunction)Var(Yi)=V(i)线性指数分布族线性指数分布族(linearexponentialfamily)形式如:L(,;y)=expy-c()/+h(y,)(这里假定是已知的。如果是未知的,它可能是二参数的指数分布族,也可能不是。)对线性指数分布族有:E(y)=c()Var(y)=c()V()这里称之为离散参数(dispersionparameter)常用分布的离散参数和方差函数分布V()正态分布(normal)21普阿松分布(Poisson)
20、1伽玛分布(Gamma)1/2两点分布(Bernoulli)1(1-)二项分布(binomial)1/m(1-)当连系函数取c的反函数(记之为c-1)形式时,我们称为标准连系函数(canonicallink)常用分布的标准连系函数分布c c连系函数正态分布(normal)2/2 恒等g()=普阿松分布(Poisson)e e对数g()=log()伽玛分布(Gamma)-log(-)(1/)倒数g()=-1/两点分布(Bernoulli)log(1+e)e/(1+e)逻辑(logit)g()=log/(1-)二项分布(binomial)log(1+e)e/(1+e)逻辑(logit)g()=lo
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 现代 回归 分析 方法
限制150内