聚类分析 主成分分析和典型相关分析 含matlab程序.pdf
《聚类分析 主成分分析和典型相关分析 含matlab程序.pdf》由会员分享,可在线阅读,更多相关《聚类分析 主成分分析和典型相关分析 含matlab程序.pdf(26页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、-226-第十二章第十二章 回归分析回归分析 前面我们讲过曲线拟合问题。曲线拟合问题的特点是,根据得到的若干有关变量的一组数据,寻找因变量与(一个或几个)自变量之间的一个函数,使这个函数对那组数据拟合得最好。通常,函数的形式可以由经验、先验知识或对数据的直观观察决定,要作的工作是由数据用最小二乘法计算函数中的待定系数。从计算的角度看,问题似乎已经完全解决了,还有进一步研究的必要吗?从数理统计的观点看,这里涉及的都是随机变量,我们根据一个样本计算出的那些系数,只是它们的一个(点)估计,应该对它们作区间估计或假设检验,如果置信区间太大,甚至包含了零点,那么系数的估计值是没有多大意义的。另外也可以用
2、方差分析方法对模型的误差进行分析,对拟合的优劣给出评价。简单地说,回归分析就是对拟合问题作的统计分析。具体地说,回归分析在一组数据的基础上研究这样几个问题:(i)建立因变量y与自变量mxxx,21L之间的回归模型(经验公式);(ii)对回归模型的可信度进行检验;(iii)判断每个自变量),2,1(mixiL=对y的影响是否显著;(iv)诊断回归模型是否适合这组数据;(v)利用回归模型对y进行预报或控制。1 数据表的基础知识 1.1 样本空间 在本章中,我们所涉及的均是样本点变量样本点变量类型的数据表。如果有m个变量mxxx,21L,对它们分别进行了n次采样(或观测),得到n个样本点 ),(21
3、imiixxxL,ni,2,1L=则所构成的数据表X可以写成一个mn维的矩阵。=TnTmnijeexXM1)(式中mTimiiiRxxxe=),(21L,ni,2,1L=,ie被称为第i个样本点。样本的均值为 ),(21mxxxxL=,=niijjxnx11,mj,2,1L=样本协方差矩阵及样本相关系数矩阵分别为 TknkkmmijxexensS)()(11)(1=jjiiijmmijsssrR)(其中 -227-=nkjkjikiijxxxxns1)(11 1.2 数据的标准化处理 (1)数据的中心化处理 数据的中心化处理是指平移变换,即 jijijxxx=*,ni,2,1L=;mj,2,1
4、L=该变换可以使样本的均值变为 0,而这样的变换既不改变样本点间的相互位置,也不改变变量间的相关性。但变换后,却常常有许多技术上的便利。(2)数据的无量纲化处理 在实际问题中,不同变量的测量单位往往是不一样的。为了消除变量的量纲效应,使每个变量都具有同等的表现力,数据分析中常用的消量纲的方法,是对不同的变量进行所谓的压缩处理,即使每个变量的方差均变成 1,即 jijijsxx/*=其中=nijijjxxns12)(11。还可以有其它消量纲的方法,如 max/*ijiijijxxx=,min/*ijiijijxxx=jijijxxx/*=,)minmax/(*ijiijiijijxxxx=(3)
5、标准化处理 所谓对数据的标准化处理,是指对数据同时进行中心化压缩处理,即 jjijijsxxx=*,ni,2,1L=,mj,2,1L=。2 一元线性回归 2.1 模型 一元线性回归的模型为 +=xy10,(1)式中,10,为回归系数,是随机误差项,总是假设),0(2N,则随机变量),(210 xNy+。若对y和x分别进行了n次独立观测,得到以下n对观测值 ),(iixy,ni,2,1L=(2)这n对观测值之间的关系符合模型 iixy+=10,ni,2,1L=(3)这里,ix是自变量在第i次观测时的取值,它是一个非随机变量,并且没有测量误差。对应于ix,iy是一个随机变量,它的随机性是由i造成的
6、。),0(2Ni,对于不同的观测,当ji时,i与j是相互独立的。2.2 最小二乘估计方法 -228-2.2.1 最小二乘法 用最小二乘法估计10,的值,即取10,的一组估计值10,,使iy与xyi10+=的误差平方和达到最小。若记 =niiixyQ121010)(),(则 =niiixyQQ121010,10)(),(min),(10 显然0),(10Q,且关于10,可微,则由多元函数存在极值的必要条件得 0)(21100=niiixyQ 0)(21101=niiiixyxQ 整理后,得到下面的方程组 =+=+=niiiniiniiniiniiyxxxyxn1121101110 (4)此方程组
7、称为正规方程组,求解可以得到 =xyxxyyxxniiniii101211)()((5)称10,为10,的最小二乘估计,其中,yx,分别是ix与iy的样本均值,即 =niixnx11,=niiyny11 关于1的计算公式还有一个更直观的表示方法,即 =niiniiixxyyxx1211)()(-229-=niiniiniiiniiniiyyxxyyxxxxyy121211212)()()()()(xyxyrss=式中=niixxxns122)(11,=niiyyyns122)(11,xyr是x与y的样本相关系数。显然,当iiyx,都是标准化数据时,则有0=x,0=y,1=xs,1=ys。所以,
8、有 00=,xyr=1 回归方程为 xryxy=由上可知,对标准化数据,1可以表示y与x的相关程度。2.2.2 10,的性质 作为一个随机变量,1有以下性质。11是iy的线性组合,它可以写成 =niiiyk11 (6)式中,ik是固定的常量,=niiiixxxxk12)(。证明 事实上 =niininiiiiniiniiixxxxyyxxxxyyxx12111211)()()()()(由于 0)()(1=xnxnyxxynii 所以 ininiiiyxxxx=1121)(2因为1是随机变量),2,1(niyiL=的线性组合,而iy是相互独立、且服从正态分布的,所以,1的抽样分布也服从正态分布。
9、3点估计量1是总体参数1的无偏估计,有 -230-=niiiniiiyEkykEE111)()(=+=+=niiiniiiniixkkxEk1110101)(由于 0)(1121=niniiiniixxxxk 1)()()(1211121=niiniiiininiiiiniixxxxxxxxxxxxk 所以 11)(=E 4估计量1的方差为 =niixx1221)()(Var (7)这是因为 =niiniiniiiniiikkykyk1221221211)(VarVar)(Var 由于 =niiniiniininiiiniixxxxxxxxxxk1212212121212)(1)()(1)(因
10、此,式(7)得证。5 对于总体模型中的参数1,在它的所有线性无偏估计量中,最小二乘估计量1具有最小的方差。记任意一个线性估计量 =niiiyc11 式中ic是任意常数,ic不全为零,ni,2,1L=。要求1是1的无偏估计量,即 111)()(=niiiyEcE 另一方面,由于iixyE10)(+=,所以又可以写成 -231-=+=+=niiiniiniiixccxcE11101101)()(为保证无偏性,ic要满足下列限制 01=niic,01=niiixc 定义iiidkc+=,其中ik是式(6)中的组合系数,id是任意常数,则 +=niiiniiniiniidkdkc11212212212
11、)(Var 由于 =niniiniiiiniiiiniiikxxxxckckdk1121211)()(0)(1)(1)(1212121211=niiniiniiniiniiniiixxxxkxxcxxc 而 )(Var)(1122122=niiniixxk 所以 =+=niid12211)(Var)(Var =niid12的最小值为零,所以,当=niid120时,1的方差最小。但是,只有当0id时,即iikc 时,才有=niid120。所以,最小二乘估计量1在所有无偏估计量中具有最小的方差。同理,可以得出相应于点估计量0的统计性质。对于一元线性正态误差回归模型来说,最小二乘估计量0是iy的线性
12、组合,所以,它的抽样分布也是正态的。它是总体参数0的无偏估计量,即 00)(=E 同样可以证明 )(1)(12220=+=niixxxnVar (8)-232-且0是0的线性无偏的最小方差估计量。2.2.3 其它性质 用最小二乘法拟合的回归方程还有一些值得注意的性质:1残差和为零。残差 iiiyye=,ni,2,1L=由第一个正规方程,得 0)(11101=niiniixye (9)2拟合值iy 的平均值等于观测值iy的平均值,即 yynynniinii=1111 (10)按照第一正规方程,有 0)(110=niiixy 所以 =+=niiniiniiyxy11101)(3当第i次试验的残差以
13、相应的自变量取值为权重时,其加权残差和为零,即 01=niiiex (11)这个结论由第二个正规方程0)(110=niiiixyx即可得出。4当第i次试验的残差以相应的因变量的拟合值为权重时,其加权残差和为零,即 01=iniiey (12)这是因为 0)(1110110=+=+=niiiniiniiiexeex 5最小二乘回归线总是通过观测数据的重心),(yx的。事实上,当自变量取值为x时,由式(5)xy10=所以 yxxyxy=+=+=1110)(2.3 拟合效果分析 当根据一组观测数据得到最小二乘拟合方程后,必须考察一下,是否真的能由所得-233-的模型(iixy10+=)来较好地拟合观
14、测值iy?用iixy10+=能否较好地反映(或者说解释)iy值的取值变化?回归方程的质量如何?误差多大?对这些,都必须予以正确的评估和分析。2.3.1 残差的样本方差 记残差 iiiyye=,ni,2,1L=残差的样本均值为 0)(11=niiiyyne 残差的样本方差为 =niiiniiniiyyneneenMSE121212)(2121)(21 由于有01=niie和01=niiiex的约束,所以,残差平方和有)2(n个自由度。可以证明,在对=niie12除以其自由度)2(n后得到的MSE,是总体回归模型中)(2iVar=的无偏估计量。记 =niieenMSES1221 (13)一个好的拟
15、合方程,其残差总和应越小越好。残差越小,拟合值与观测值越接近,各观测点在拟合直线周围聚集的紧密程度越高,也就是说,拟合方程xy10+=解释y的能力越强。另外,当eS越小时,还说明残差值ie的变异程度越小。由于残差的样本均值为零,所以,其离散范围越小,拟合的模型就越为精确。2.3.2 判定系数(拟合优度)对应于不同的ix值,观测值iy的取值是不同的。建立一元线性回归模型的目的,就是试图以x的线性函数(x10+)来解释y的变异。那么,回归模型xy10+=究竟能以多大的精度来解释y的变异呢?又有多大部分是无法用这个回归方程来解释的呢?nyyy,21L的变异程度可采用样本方差来测度,即 =niiyyn
16、s122)(11 根据式(10),拟合值nyyy,21L的均值也是y,其变异程度可以用下式测度 =niiyyns122)(11 下面看一下2s与2 s之间的关系,有 -234-=+=niiiiniiniiiniiyyyyyyyyyy1121212)(2)()()(由于 =+=niiiiniiiiyxxyyyyy110101)()(0)()()(11011011100=+=niiiniiiiniiixyyxyxxy 因此,得到正交分解式为 =+=niiiniiniiyyyyyy121212)()()((14)记 =niiyySST12)(,这是原始数据iy的总变异平方和,其自由度为1=ndfT;
17、=niiyySSR12)(,这是用拟合直线iixy10+=可解释的变异平方和,其自由度为1=Rdf;=niiiyySSE12)(,这是残差平方和,其的自由度为2=ndfE。所以,有 SSESSRSST+=,ERTdfdfdf+=从上式可以看出,y的变异是由两方面的原因引起的;一是由于x的取值不同,而给y带来的系统性变异;另一个是由除x以外的其它因素的影响。注意到对于一个确定的样本(一组实现的观测值),SST是一个定值。所以,可解释变异SSR越大,则必然有残差SSE越小。这个分解式可同时从两个方面说明拟合方程的优良程度:(1)SSR越大,用回归方程来解释iy变异的部分越大,回归方程对原数据解释得
18、越好;(2)SSE越小,观测值iy绕回归直线越紧密,回归方程对原数据的拟合效果越好。因此,可以定义一个测量标准来说明回归方程对原始数据的拟合程度,这就是所谓的判定系数,有些文献上也称之为拟合优度。判定系数是指可解释的变异占总变异的百分比,用2R表示,有 )1(2SSTSSESSTSSRR=(15)从判定系数的定义看,2R有以下简单性质:(1)102 R;(2)当12=R时,有SSTSSR=,也就是说,此时原数据的总变异完全可以由拟合值的变异来解释,并且残差为零(0=SSE),即拟合点与原数据完全吻合;(3)当02=R时,回归方程完全不能解释原数据的总变异,y的变异完全由与x-235-无关的因素
19、引起,这时SSTSSE=。测定系数时一个很有趣的指标:一方面它可以从数据变异的角度指出可解释的变异占总变异的百分比,从而说明回归直线拟合的优良程度;另一方面,它还可以从相关性的角度,说明原因变量y与拟合变量y 的相关程度,从这个角度看,拟合变量y 与原变量y的相关度越大,拟合直线的优良度就越高。看下面的式子 ),()()()()()(212122112122yyryyyyyyyeyyyyySSTSSRRniiniiniiiiniinii=+=(16)在推导中,注意有 0)(111=niiniiiniiieyyeyye 所以,2R又等于y与拟合变量y 的相关系数平方。还可以证明,2R等于y与自变
20、量x的相关系数,而相关系数的正、负号与回归系数1的符号相同。2.4 显著性检验 2.4.1 回归模型的线性关系检验 在拟合回归方程之前,我们曾假设数据总体是符合线性正态误差模型的,也就是说,y与x之间的关系是线性关系,即 iiixy+=10,),0(2Ni,ni,2,1L=然而,这种假设是否真实,还需进行检验。对于一个实际观测的样本,虽然可以用判定系数2R说明y与y 的相关程度,但是,样本测度指标具有一定的随机因素,还不足以肯定y与x的线性关系。假设y与x之间存在线性关系,则总体模型为 iiixy+=10,ni,2,1L=如果01,则称这个模型为全模型。用最小二乘法拟合全模型,并求出误差平方和
21、为 =niiiyySSE12)(现给出假设0:10=H。如果0H假设成立,则 iiy+=0 这个模型被称为选模型。用最小二乘法拟合这个模型,则有 01=yxy=00 因此,对所有的ni,2,1L=,有 -236-yyi 该拟合模型的误差平方和为 SSTyynii=12)(因此,有 SSTSSE 这就是说,全模型的误差总是小于(或等于)选模型的误差的。其原因是在全模型中有较多的参数,可以更好地拟合数据。假若在某个实际问题中,全模型的误差并不比选模型的误差小很多的话,这说明0H假设成立,即1近似于零。因此,差额)(SSESST 很少时,表明0H成立。若这个差额很大,说明增加了x的线性项后,拟合方程
22、的误差大幅度减少,则应否定0H,认为总体参数1显著不为零。假设检验使用的统计量为 MSEMSRnSSESSRF=)2/(1/式中 1/SSRdfSSRMSRR=)2/(/=nSSEdfSSEMSEE 若假设0:10=H成立,由于SSESSRSST+=,则2/SSE与2/SSR是独立的随机变量,且 )2(/22nSSE,)1(/22SSR 这时 )2,1(=nFMSEMSRF 综上所述,为了检验是否可以用x的线性方程式来解释y,可以进行下面的统计检验。记iy关于ix的总体回归系数为1,则F检验的原假设0H与备则假设1H分别是 0:10=H,0:11H 检验的统计量为 )2,1(=nFMSEMSR
23、F (17)对于检验水平,按自由度(11=n,22=nn)查F分布表,得到拒绝域的临界值)2,1(nF。决策规则为 若)2,1(nFF,则接受0H假设,这时认为1显著为零,无法用x的线性关系式来解释y。若)2,1(nFF,则否定0H,接受1H。这时认为1显著不为零,可以用x的线性关系来解释y。习惯上说,线性回归方程的F检验通过了。需要注意的是,即使F检验通过了,也不说明 iiixy+=10 -237-就是一个恰当的回归模型,事实上,当0H假设被拒绝后,只能说明y与x之间存在显著的线性关系,但很有可能在模型中还包括更多的回归变量,而不仅仅是一个回归变量x。一般地,回归方程的假设检验包括两个方面:
24、一个是对模型的检验,即检验自变量与因变量之间的关系能否用一个线性模型来表示,这是由F检验来完成的;另一个检验是关于回归参数的检验,即当模型检验通过后,还要具体检验每一个自变量对因变量的影响程度是否显著。这就是下面要讨论的t检验。在一元线性分析中,由于自变量的个数只有一个,这两种检验是统一的,它们的效果完全是等价的。但是,在多元线性回归分析中,由于变量的个数只有一个,这两种检验是统一的,它们的效果完全是等价的。但是,在多元线性回归分析中,这两个建议的意义是不同的。从逻辑上说,一般常在F检验通过后,再进一步进行t建议。2.4.2 回归系数的显著性建议 回归参数的建议是考察每一个自变量对因变量的影响
25、是否显著。换句话说,就是要检验每一个总体参数是否显著不为零。首先看对01=的检验。1代表ix变化一个单位对iy的影响程度。对1的检验就是要看这种影响程度与零是否有显著差异。由于)(,(12211=niixxN=niixx1221)()(Var的点估计为 =niixxMSES1212)()(容易证明统计量 )2()(111ntS 事实上,由于 )(Var/)()(Var/)()(11111111SS=其分子)(Var/)(111服从标准正态分布,而分母项有 )2()(/)(/)(Var)(2212212112=nSSEMSExxxxMSESniinii 已知)2(/22nSSE,所以 -238-
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 聚类分析 主成分分析和典型相关分析 含matlab程序 成分 分析 典型 相关 matlab 程序
限制150内