多元课件第七章优秀PPT.ppt
多元课件第七章1第1页,本讲稿共113页第七章第七章 主成分分主成分分析析目目 录录7.1 总体的主成分总体的主成分7.2 样本的主成分样本的主成分7.3 主成分分析的应用主成分分析的应用2第2页,本讲稿共113页第七章第七章 主成分分主成分分析析 多变量分析多变量分析(Multivariate Analysis)是处理多是处理多变量变量(多指标多指标)的统计问题。的统计问题。多个变量之间常存在相关性,人们希望用多个变量之间常存在相关性,人们希望用较少不相关的变量来代替原来较多且相关的较少不相关的变量来代替原来较多且相关的变量。变量。主成分就是要从原变量的各种线性组合中找出主成分就是要从原变量的各种线性组合中找出能集中反映原变量信息的综合变量。能集中反映原变量信息的综合变量。3第3页,本讲稿共113页第七章第七章7.1 7.1 总体的主成分总体的主成分什么是主成分分什么是主成分分析析 主成分分析是将多个指标化为少数几个综合指标的一种主成分分析是将多个指标化为少数几个综合指标的一种统计分析方法统计分析方法.在实际问题中在实际问题中,研究多指标的问题是经常遇到的问题研究多指标的问题是经常遇到的问题.由由于变量个数太多于变量个数太多,并且彼此之间存在着一定的相关性并且彼此之间存在着一定的相关性,势必势必增加分析问题的复杂性增加分析问题的复杂性.主成分分析就是设法把原来的多个指标重新组合成较少主成分分析就是设法把原来的多个指标重新组合成较少几个新的互不相关的综合变量来代替原来的变量几个新的互不相关的综合变量来代替原来的变量;而且这几而且这几个综合变量又能够尽可能多地反映原来变量的信息个综合变量又能够尽可能多地反映原来变量的信息.利用这种降维的思想利用这种降维的思想,产生了主成分分析、因子分析、产生了主成分分析、因子分析、典型相关分析等统计方法典型相关分析等统计方法.4第4页,本讲稿共113页第七章第七章 7.17.1总体的主成分总体的主成分什么是主成分什么是主成分 设设X=(=(X1,Xp)是是p维随机向量维随机向量,均值向量均值向量E(E(X)=,)=,协差阵协差阵D(D(X)=.)=.考虑它的线性变换考虑它的线性变换:易见易见:(7.1.2)(7.1.1)5第5页,本讲稿共113页第七章第七章 7.17.1总体的主成分总体的主成分什么是主成分什么是主成分 假如我们希望用假如我们希望用Z1 1来代替原来的来代替原来的p个变量个变量X1,Xp,这就要求这就要求Z1 1尽可能多地反映原来尽可能多地反映原来p个变个变量的信息量的信息,这里所说的这里所说的“信息信息”用什么来表达呢用什么来表达呢?最最经典的方法是用经典的方法是用Z1 1的方差来表达的方差来表达.Var(Var(Z1 1)越大越大,表示表示Z1 1包含的信息越多包含的信息越多.由由(7.1.2)式看出式看出,对对a1 1必须有某种限制必须有某种限制.否则可使否则可使Var(Var(Z1 1).).常用的限制是常用的限制是:a1 1a1 1=1.=1.若存在满足以上约束的若存在满足以上约束的a1 1,使使Var(Var(Z1 1)达最大达最大,Z1 1就称为第一主成分就称为第一主成分(或主分量或主分量).).6第6页,本讲稿共113页第七章第七章 7.17.1总体的主成分总体的主成分什么是主成分什么是主成分 如果第一主成分不足以代表原来如果第一主成分不足以代表原来p个变量的绝大个变量的绝大部分信息部分信息.考虑考虑X的第二个线性组合的第二个线性组合Z2 2.为了有效地代表原变量组的信息为了有效地代表原变量组的信息,Z1 1已体现已体现(反映反映)的信息不希望在的信息不希望在Z2 2中出现中出现,用统计术语来讲用统计术语来讲,就是要就是要求求 Cov(Cov(Z2 2,Z1 1)=)=a2 2a1 1=0.(7.1.3)=0.(7.1.3)于是求于是求Z2 2时时,就是在约束就是在约束a2 2a2 2=1=1和和(7.1.3)(7.1.3)下下,求求a2 2使使Var(Var(Z2 2)达最大达最大,所求之所求之Z2 2称为第二主成分称为第二主成分,类似类似地可求得第三主成分地可求得第三主成分,第四主成分第四主成分,.,.,第第p主成分主成分 .7第7页,本讲稿共113页第七章第七章 7.17.1总体的主成分总体的主成分什么是主成分什么是主成分 换言之换言之,若原数据有若原数据有p个变量,则恰好可得个变量,则恰好可得到到p个主成分个主成分:1.每个主成分都是原变量的线性组合每个主成分都是原变量的线性组合;2.不同主成分间互不相关(互相正交)不同主成分间互不相关(互相正交);3.主成分以其方差减少次序排列主成分以其方差减少次序排列:第一主成分具有最大方差第一主成分具有最大方差,第二主成分是与第一主成分正交的原变第二主成分是与第一主成分正交的原变量的线性组合中具有最大方差者量的线性组合中具有最大方差者,其余主成分都有类似的性质其余主成分都有类似的性质.8第8页,本讲稿共113页第七章第七章 7.17.1总体的主成分总体的主成分什么是主成分什么是主成分 或者说或者说,若原变量包含有一定的信息若原变量包含有一定的信息,则全则全体主成分包含与原变量相同的信息体主成分包含与原变量相同的信息.方差反映了变量取值的离散程度,方差方差反映了变量取值的离散程度,方差大小表示了变量包含信息的多少大小表示了变量包含信息的多少.第一主成分包含了尽可能多的信息第一主成分包含了尽可能多的信息,不同的主成分包含的信息互不重复不同的主成分包含的信息互不重复;第二主成分包含除第一主成分外剩余信第二主成分包含除第一主成分外剩余信息中尽可能多的信息息中尽可能多的信息;其余主成分都有类似的性质其余主成分都有类似的性质.9第9页,本讲稿共113页第七章第七章 7.17.1总体的主成分总体的主成分主成分的定义主成分的定义 定义定义7.1.17.1.1 设设X=(=(X1,Xp)为为p维随机维随机向量向量.称称 Zi=aiX 为为X的第的第i 主成分主成分(i=1,2,=1,2,p),),如果如果:aiai=1(=1(i=1,2,=1,2,p););当当i 1 1时时 aiaj=0(=0(j=1,=1,i-1);-1);Var(Var(Zi)=Max Var()=Max Var(X X).).=1,=1,aj=0(=0(j=1,=1,i-1)-1)10第10页,本讲稿共113页第七章第七章 7.17.1总体的主成分总体的主成分主成分的几何意义主成分的几何意义 从代数学观点看主成分就是从代数学观点看主成分就是p个变量的一些特殊的个变量的一些特殊的线性组合线性组合,而从几何上看这些线性组合正是把而从几何上看这些线性组合正是把X1,Xp构成的坐标系旋转产生的新坐标系构成的坐标系旋转产生的新坐标系,新坐标新坐标轴使之通过样本变差最大的方向轴使之通过样本变差最大的方向(或者说具有最或者说具有最大的样本方差大的样本方差).设有设有n个观测个观测,每个观测有每个观测有p个变量个变量X1,Xp,它它们的综合指标们的综合指标(主成分主成分)记为记为Z1 1,Zp.当当p=2时原变量为时原变量为X1,X2.设设(X1,X2)服从二元正态服从二元正态分布分布,则样品点则样品点X(i)=(xi1,xi2)(i=1,2,n)的散布图的散布图(见下面图形见下面图形)在一个椭圆内分布着在一个椭圆内分布着.11第11页,本讲稿共113页第七章第七章 7.17.1总体的主成分总体的主成分主成分的几何意义主成分的几何意义 Z1Z212第12页,本讲稿共113页第七章第七章 7.17.1总体的主成分总体的主成分主成分的几何意义主成分的几何意义 对于二元正态随机向量对于二元正态随机向量,n个点散布在一个椭圆内个点散布在一个椭圆内(当当X1,X2相关性越强相关性越强,这个椭圆就越扁这个椭圆就越扁).若取椭圆的长轴为坐标轴若取椭圆的长轴为坐标轴Z1,椭圆的短轴为椭圆的短轴为Z2,这这相当于在平面上作一个坐标变换相当于在平面上作一个坐标变换,即按逆时针方向即按逆时针方向旋转一个角度旋转一个角度a a,根据旋转变换公式根据旋转变换公式,新老坐标之间新老坐标之间有关系有关系:Z1=Cos a aX1 1+Sin Sin a aX2 2 Z2=-Sin a aX1 1+Cos Cos a aX2 2Z1 Z2 是原变量是原变量X1 1和和X2 2 的特殊线性组合的特殊线性组合.13第13页,本讲稿共113页第七章第七章 7.17.1总体的主成分总体的主成分主成分的几何意义主成分的几何意义 从图上可以看出二维平面上从图上可以看出二维平面上n个点的波动个点的波动(用二用二个变量的方差和表示个变量的方差和表示)大部分可以归结为在大部分可以归结为在Z1方向方向的波动的波动,而在而在Z2 方向上的波动很小方向上的波动很小,可以忽略可以忽略.这样这样一来一来,二维问题可以降为一维了二维问题可以降为一维了,只取第一只取第一 个综合变个综合变量量Z1即可即可,而而Z1是椭圆的长轴是椭圆的长轴.一般情况一般情况,p个变量组成个变量组成p维空间维空间,n个样品点就是个样品点就是p维空间的维空间的n个点个点.对于对于p元正态分布变量来说元正态分布变量来说,找主成找主成分的问题就是找分的问题就是找p维空间中椭球的主轴问题维空间中椭球的主轴问题.14第14页,本讲稿共113页第七章第七章 7.17.1总体的主成分总体的主成分主成分分析的内容主成分分析的内容 主成分分析的计算一般是从原变量的协差阵主成分分析的计算一般是从原变量的协差阵或相关矩阵出发进行或相关矩阵出发进行,包含以下内容:包含以下内容:1.各主成分的构成各主成分的构成;2.各主成分的方差及其在总方差中所占的各主成分的方差及其在总方差中所占的比例比例(贡献率贡献率);3.每个观测在各个主成分下的得分值每个观测在各个主成分下的得分值;4.各主成分与原变量的相关性各主成分与原变量的相关性.15第15页,本讲稿共113页第七章第七章 7.17.1总体的主成分总体的主成分主成分的求法主成分的求法 设设p维随机向量维随机向量X的均值的均值E(E(X)=0,)=0,协差阵协差阵D(D(X)=)=0.0.由定义由定义7.1.1,7.1.1,求第一主成分求第一主成分Z1 1=a1 1X的问题就的问题就是求是求a1 1=(=(a1111,a2121,ap1 1),),使得在使得在a1 1a1 1=1=1下下,Var(,Var(Z1 1)达最大达最大.这是条件极值问题这是条件极值问题,用拉格朗日乘数法用拉格朗日乘数法.令令 (a1 1)=Var()=Var(a1 1X)-()-(a1 1a1 1-1)-1)=a1 1a1 1-(-(a1 1Ipa1 1-1),-1),由由(7.1.4)(见附录见附录(8.3)(8.3)式式)16第16页,本讲稿共113页第七章第七章 7.17.1总体的主成分总体的主成分主成分的求法主成分的求法 因因a1 10,0,故故|-I|=0,|=0,求解求解(7.1.4),(7.1.4),其实就是求其实就是求的特征值和特征向量问题的特征值和特征向量问题.设设=1是是的最大特征的最大特征值值,则相应的单位特征向量则相应的单位特征向量a1 1即为所求即为所求.一般地一般地,求求X的第的第i主成分就是求主成分就是求的第的第i大特征值对应的单位特大特征值对应的单位特征向量征向量.定理定理7.1.17.1.1 设设X=(=(X1,Xp)是是p维随机向量维随机向量,且且D(D(X)=,)=,的特征值的特征值1 12 2p p,a1 1,a2 2,ap为相应的单位正交特征向量为相应的单位正交特征向量,则则X的第的第i主主成分为成分为 Zi=aiX(i=1,2,=1,2,p).).17第17页,本讲稿共113页第七章第七章 7.17.1总体的主成分总体的主成分回顾附录中回顾附录中定理定理7.2 定理定理7.2 设设B是是p阶对称阵阶对称阵,i=chi(B)是是B的第的第i大大的特征值,的特征值,li 是相应于是相应于i的的B的标准化特征向量的标准化特征向量(i1,p),x为任一非零为任一非零p维向量,那么有维向量,那么有右边不等式的等号当右边不等式的等号当x=cl1时成立,左边不等式的等号时成立,左边不等式的等号当当x=clp时成立,这里时成立,这里c是非零常数是非零常数.18第18页,本讲稿共113页第七章第七章 7.17.1总体的主成分总体的主成分回顾附录中回顾附录中定理定理7.2 (2)记记2=(lr+1,lp),即即2是由是由lr+1,lp 张张成的空间成的空间,则则 2且当且当x=clr+1 时达到最大值,这里时达到最大值,这里c非零常数非零常数.19第19页,本讲稿共113页第七章第七章 7.17.1总体的主成分总体的主成分定理定理7.1.1的证明的证明定理定理7.1.1证明证明 因因为对称阵,利用附录中定为对称阵,利用附录中定理理7.2的结论的结论(1),可知对任意非零向量可知对任意非零向量a有有且最大值在且最大值在a=a1时达到时达到.故在故在a1a1=1的约束条的约束条件下件下,使得使得达极大值达极大值.20第20页,本讲稿共113页第七章第七章 7.17.1总体的主成分总体的主成分定理定理7.1.1的证明的证明 根据主成分的定义根据主成分的定义7.1.1,Z1=a1 X为为X的第一的第一主成分主成分.对对r=2,3,p,记记r(ar,ap),利用附利用附录中的定理录中的定理7.2的结论的结论(2)即得即得r且最大值在且最大值在a=ar时达到时达到.21第21页,本讲稿共113页第七章第七章 7.17.1总体的主成分总体的主成分定理定理7.1.1的证明的证明故在故在arar=1的约束条件下的约束条件下,ar 满足满足且使得且使得达极大值达极大值.根据主成分的定义根据主成分的定义7.1.1,Zr=ar X为为X的第的第r主主成分成分.(证毕证毕)22第22页,本讲稿共113页第七章第七章 7.17.1总体的主成分总体的主成分定理定理7.1.1的推论的推论 设设Z=(Z1,Z2,Z p)为为p维随机向量,则其分维随机向量,则其分量量Zi(i=1,2,p)依次是依次是X的第的第i主成分的充分必主成分的充分必要条件是:要条件是:Z=AX,A为正交阵;为正交阵;D(Z)=diag(1,2,p),即随机向量,即随机向量Z的的协差阵为对角阵;协差阵为对角阵;12p 0.23第23页,本讲稿共113页第七章第七章 7.17.1总体的主成分总体的主成分主成分的性质主成分的性质 主成分主成分Zi就是以就是以的单位特征向量的单位特征向量ai为系数的线性为系数的线性组合组合,它们互不相关它们互不相关,且方差且方差Var(Zi)=i.记记=(=(ij),=diag(),=diag(1 1,2 2,p p),),其中其中1 12 2p p为为的特征值的特征值,a1 1,a2 2,ap是相应的单位正交特征向量是相应的单位正交特征向量.主成分向量主成分向量Z=(=(Z1 1,Zp),),其中其中 Zi=aiX (i=1,2,=1,2,p)总体主成分有如下性质总体主成分有如下性质:24第24页,本讲稿共113页第七章第七章 7.17.1总体的主成分总体的主成分主成分的性质主成分的性质 (1)(1)D(D(Z)=,)=,即即p个主成分的方差为:个主成分的方差为:Var(Var(Zi)=)=i,且它们是互不相关且它们是互不相关 (2)(2)通常称通常称 为原总体为原总体X的总方差的总方差,该性质说明原该性质说明原总体总体X的总方差可分解为不相关的主成分的方的总方差可分解为不相关的主成分的方差和差和.25第25页,本讲稿共113页第七章第七章 7.17.1总体的主成分总体的主成分主成分的性质主成分的性质 即即p个原变量所提供的总信息个原变量所提供的总信息(总方差总方差)的绝大的绝大部分只须用前部分只须用前m个主成分来代替。这说明个主成分来代替。这说明若前几个若前几个主成分集中了大部分信息,则后几个主成分的方差主成分集中了大部分信息,则后几个主成分的方差都很小,包含的信息也很少都很小,包含的信息也很少.在实际应用时就可用前面较少的几个主成分来代在实际应用时就可用前面较少的几个主成分来代替原替原p个变量来描述数据的变化个变量来描述数据的变化.且存在且存在26第26页,本讲稿共113页第七章第七章 7.17.1总体的主成分总体的主成分主成分的性质主成分的性质 (3)(3)主成分主成分Zk与原始变量与原始变量Xi的相关系数的相关系数 证明证明:Var(Xi)=ii Var(Zk)=k k Cov(Cov(Xi ,Zk )=Cov()=Cov(eiX,ak X)=ei ak=ei(k k ak)=k k aik (ei是第是第i个元素为个元素为1,其余为其余为0的单位向量的单位向量)27第27页,本讲稿共113页第七章第七章 7.17.1总体的主成分总体的主成分主成分的性质主成分的性质 常把主成分常把主成分Zk与原始变量与原始变量Xi的相关系数称为的相关系数称为因子负因子负荷量荷量(或因子载荷量或因子载荷量).).利用因子载荷量利用因子载荷量,可对指标分可对指标分类类.如果把主成分与原始变量的相关系数列成表如果把主成分与原始变量的相关系数列成表7.17.1的的形式,则由相关系数的公式,还可得出性质形式,则由相关系数的公式,还可得出性质(4)(4)和和(5).(5).表表7.128第28页,本讲稿共113页第七章第七章 7.17.1总体的主成分总体的主成分主成分的性质主成分的性质 因因Xi也可表成也可表成Z1 1,Zp的线性组合的线性组合,且且 Z1 1,Zp相互相互独立,由回归分析的知识独立,由回归分析的知识,Xi 与与 Z1 1,Zp的全相关系数的全相关系数的平方和等于的平方和等于1 1,即表,即表7.17.1中每一行的平方和均为中每一行的平方和均为1.1.事实上事实上,由由 故有故有29第29页,本讲稿共113页第七章第七章 7.17.1总体的主成分总体的主成分主成分的性质主成分的性质 因因Zk可表成可表成X1 1,Xp的线性组合的线性组合,但但X1 1,Xp 一般有相关性,由一般有相关性,由Zk与与Xi的相关系的相关系数的公式,可得出表数的公式,可得出表7.17.1中中Zk对应的每一列关对应的每一列关于各变量方差的加权平方和为于各变量方差的加权平方和为k(即即Var(Var(Zk)=)=k).).30第30页,本讲稿共113页第七章第七章 7.17.1总体的主成分总体的主成分主成分的贡献率主成分的贡献率 主成分分析的目的是为了简化数据主成分分析的目的是为了简化数据结构(即减少变量的个数)结构(即减少变量的个数),故在实际故在实际应用中一般不用应用中一般不用p个主成分个主成分,而选用前而选用前m(mp)个主成分个主成分.m取多大取多大,这是一个很这是一个很实际的问题实际的问题.为此为此,我们引进贡献率的概我们引进贡献率的概念念.31第31页,本讲稿共113页第七章第七章 7.17.1总体的主成分总体的主成分主成分的贡献率主成分的贡献率 定义定义7.1.27.1.2 称称k/1+.+m+p 为主成分为主成分Zk的贡献率的贡献率;又称又称 fm=1+2+.+m/1+2+.+m+p 为为 主成分主成分Z1 1,Zm(mp)的累计贡献率的累计贡献率.通常取通常取m,使累计贡献率达到使累计贡献率达到70%70%或或80%80%以上以上,累累计贡献率的大小表达计贡献率的大小表达m个主成分提取了个主成分提取了X1 1,Xp的的多少信息多少信息,但它没有表达某个变量被提取了多少信但它没有表达某个变量被提取了多少信息息,为此又引入另一个概念为此又引入另一个概念.32第32页,本讲稿共113页第七章第七章 7.17.1总体的主成分总体的主成分主成分的贡献率主成分的贡献率 定义定义7.1.37.1.3 前前m个主成分个主成分Z1 1,Zm 对原对原变量变量Xi的贡献率的贡献率i(m)定义为定义为 Xi 与与Z1 1,Zm 的相关关系数的平方的相关关系数的平方,它等于它等于33第33页,本讲稿共113页第七章第七章 7.17.1总体的主成分总体的主成分主成分的贡献率主成分的贡献率-例子例子 例例7.1.1 7.1.1 设随机向量设随机向量X=(X1,X2,X3)的协差阵为的协差阵为1 -2 0-2 5 00 0 2=试求试求X的主成分及其对变量的主成分及其对变量Xi的贡献率的贡献率i(i=1,2,3).解解 的特征值为的特征值为 1=3+81/2,2=2,3=3-81/2.由相应标准化特征向量可得出主成分由相应标准化特征向量可得出主成分:34第34页,本讲稿共113页第七章第七章 7.1 7.1 总体的主成分总体的主成分主成分的贡献率主成分的贡献率-例子例子 Z1=0.383 X1-0.924X2,Z2=X3 (X3本身就是一个主分量,它与本身就是一个主分量,它与X1,X2不相关不相关),Z3=0.924X1+0.383 X2.当取当取m=1=1或或m=2=2时时,主成分主成分对对X的贡献率可达的贡献率可达72.8%或或97.85%.下表下表 列出列出m个主分量对变量个主分量对变量Xi的贡献率的贡献率35第35页,本讲稿共113页第七章第七章 7.17.1总体的主成分总体的主成分 标准化变量的主成分及性质标准化变量的主成分及性质 在实际问题中在实际问题中,不同的变量往往有不同的量纲不同的变量往往有不同的量纲,而而通过通过来求主成分首先优先照顾方差来求主成分首先优先照顾方差(ii)大的变量大的变量,有时会造成很不合理的结果有时会造成很不合理的结果,为了消除由于量纲的为了消除由于量纲的不同可能带来的一些不合理的影响不同可能带来的一些不合理的影响,常采用将变量标常采用将变量标准化的方法准化的方法.即令即令36第36页,本讲稿共113页第七章第七章 7.17.1总体的主成分总体的主成分标准化变量的主成分及性质标准化变量的主成分及性质 标准化后的随机向量标准化后的随机向量X*=(=(X1 1*,X2 2*,Xp*)的协差阵的协差阵*就是原随机向量就是原随机向量X的相关的相关阵阵R.从相关阵从相关阵R出发来求主成分出发来求主成分,记为记为Z*=(=(Z1 1*,Zp*),),则则Z*与与Z具有相似的性质具有相似的性质.把主成分把主成分Zk*(k=1,=1,p)对变量对变量Xi*的因子的因子负荷量负荷量ik=(Zk*,Xi*)列成表列成表7.2.7.2.37第37页,本讲稿共113页第七章第七章 7.17.1总体的主成分总体的主成分标准化变量的主成分及性质标准化变量的主成分及性质 7.238第38页,本讲稿共113页39第39页,本讲稿共113页第七章第七章 7.2 7.2 样本的主成分样本的主成分 在实际问题中在实际问题中,一般协差阵一般协差阵未知未知,需要需要通过样本来估计通过样本来估计.设设X(t)=(=(xt1,xtp)()(t=1,=1,n)为来自总体为来自总体X的样本的样本,记样本资料阵记样本资料阵x11,x12,x1px21,x22,x2p.xn1,xn2,xnpX=记样本协差阵为记样本协差阵为S,样本相关阵为样本相关阵为R,并用并用S作为作为 的估计或用的估计或用R作为总体相关阵的估计作为总体相关阵的估计.40第40页,本讲稿共113页第第七章七章 7.2 7.2 样本的主成分样本的主成分 样本主成分及其性质样本主成分及其性质 假定每个变量的观测数据都已标准化假定每个变量的观测数据都已标准化(X=0),=0),这时样本协差阵就是样本相关阵这时样本协差阵就是样本相关阵R,且且 R=S=离差阵离差阵/(/(n-1)-1)=XX/(/(n-1)-1)仍记仍记R 阵的阵的p个主成分为个主成分为Z1 1,Zp,1 12 2p00为为R的特征根的特征根,a1 1,a2 2,ap为相应的标准化特征向量为相应的标准化特征向量(记正交阵记正交阵A=(=(a1 1,ap).显然第显然第i个样本主成分为个样本主成分为 Zi=ai iX (i=1,=1,p).).41第41页,本讲稿共113页第七章第七章 7.27.2样本的主成分样本的主成分 样本主成分及其性质样本主成分及其性质 将第将第t个样品个样品X(t)=(=(xt1,xtp)的的值代入值代入Zi得得样品样品t的第的第i个主成分得分个主成分得分 zti=aiX(t)(i=1,=1,p).).记记Z(t)=(zt1,zt2,ztp)(t=1,n)=(a1X(t),a2X(t),apX(t)=AX(t)称称Z(t)为为第第t个样品的主成分得分向量个样品的主成分得分向量.42第42页,本讲稿共113页第七章第七章 7.27.2样本的主成分样本的主成分 样本主成分及其性质样本主成分及其性质 表表7.3 7.3 原始数据和样本主成分得分原始数据和样本主成分得分令令(z1,z2,zp)样本主成分样本主成分Z1 Z2 Zp 43第43页,本讲稿共113页第七章第七章 7.2 7.2 样本的主成分样本的主成分 样本主成分及其性质样本主成分及其性质 样本主成分得分阵样本主成分得分阵Z和原始数据阵和原始数据阵X有如下关系有如下关系Z=Z(1)Z(2).Z(n)X(1)A AX(2)A A.X(n)A A=X A=或或 X=ZA,其中其中 Z(t)=AX(t)(t=1,2,n)样本主成分得分具有如下一些性质样本主成分得分具有如下一些性质.(np)(np)(pp)44第44页,本讲稿共113页第七章第七章 7.2 7.2 样本的主成分样本的主成分样本主成分及其性质样本主成分及其性质 (1)(1)Z=(Z(1)+Z(2)+Z(n)/n =(AX(1)+AX(2)+AX(n)/n=AX=0,=0,以下由样本主成分得分的协差阵来得出样本主成以下由样本主成分得分的协差阵来得出样本主成分的性质分的性质(1)(1)的另一结论的另一结论.样本主成分得分的协差阵为样本主成分得分的协差阵为 SZ =ZZ/(/(n-1)-1)标准化变量的样本协差阵就是样本相关阵标准化变量的样本协差阵就是样本相关阵R,且且 R=XX/(/(n-1)-1)R阵的阵的p个特征根个特征根1 12 2 p 相应的标准相应的标准化特征向量为化特征向量为a1 1,a2 2,ap。45第45页,本讲稿共113页第七章第七章 7.2 7.2 样本的主成分样本的主成分样本主成分及其性质样本主成分及其性质 记正交阵记正交阵A=(=(a1 1,ap).则有则有 ARA=diag(=diag(1 1,2 2,p)又知又知 Z=XA,则则 SZ =ZZ/(/(n-1)=-1)=A AXXA/(/(n-1)-1)=A ARA=diag(diag(1 1,2 2,p)=ZZ=(n-1)-1)46第46页,本讲稿共113页第七章第七章 7.2 7.2 样本的主成分样本的主成分样本主成分及其性质样本主成分及其性质 zi zi=(n-1)i (i=1,2,p)zizj=0 (当当ij 时时)上式说明样本主成分得分的样本均值为上式说明样本主成分得分的样本均值为0,0,样本样本协差阵为对角阵协差阵为对角阵.当当ij 时,第时,第i个主成分得分向个主成分得分向量量zi与第与第j个主成分得分个主成分得分zj是相互正交的是相互正交的.47第47页,本讲稿共113页第七章第七章 7.2 7.2 样本的主成分样本的主成分样本主成分及其性质样本主成分及其性质 因因 ARA=diag(=diag(1 1,2 2,p)称称k/p为样本主成分为样本主成分Zk的贡献率的贡献率;又称又称 fm=1 1+m/p为样本主成分为样本主成分Z1,Zm(mp)的累计贡献率的累计贡献率.48第48页,本讲稿共113页第七章第七章 7.2 7.2 样本的主成分样本的主成分样本主成分及其性质样本主成分及其性质 (3)(3)样本主成分具有使残差平方和最小的优良性样本主成分具有使残差平方和最小的优良性 如果我们只取前如果我们只取前m个主成分个主成分(mp),),并考虑用前并考虑用前m 个主成分个主成分Z1,Zm的线性组合表示的线性组合表示Xj的回归方程的回归方程:Xj=bj1Z1+bjmZm+j(j=1,=1,p)(*)则当则当bjk=ajk(k=1,=1,m)时,可使回归方程的残差平时,可使回归方程的残差平方和达最小值方和达最小值.而且回归方程的决定系数而且回归方程的决定系数R2 2(j)=j(m).我们把我们把j(m)称为称为m个主成分对原变量个主成分对原变量Xj j的贡献率的贡献率,j(m)的大小反映了的大小反映了m个主成分能够反映个主成分能够反映Xj的变差的比例的变差的比例.49第49页,本讲稿共113页第七章第七章 7.2 7.2 样本的主成分样本的主成分样本主成分及其性质样本主成分及其性质 把表把表7.37.3给出的原始变量的观测数据和前给出的原始变量的观测数据和前m个主成分的得分数据作为以上模型(个主成分的得分数据作为以上模型(*)中因变量)中因变量X1,X p和自变量和自变量Z1,Zm的观测数据的观测数据.问题化为:按最小二乘准则求参数矩阵问题化为:按最小二乘准则求参数矩阵B:,使得残差平方和,使得残差平方和 Q(B)达最小达最小.(pm)50第50页,本讲稿共113页第七章第七章 7.2 7.2 样本的主成分样本的主成分样本主成分及其性质样本主成分及其性质 (nm)记记(np)则多对多的回归模型(则多对多的回归模型(*)的矩阵形式为:)的矩阵形式为:X=Z*B+E由多因变量的回归分析由多因变量的回归分析(参见第四章参见第四章)的理的理论知论知:参数矩阵参数矩阵B的最小二乘估计为的最小二乘估计为 51第51页,本讲稿共113页第七章第七章 7.2 7.2 样本的主成分样本的主成分样本主成分及其性质样本主成分及其性质 B =(Z*Z*)-1 Z*X 记A*=(=(a1 1,am),A2=(=(am+1 1,aP)则由则由 Z=(Z*|Z2)=XA=X(A*|A2)可得可得 Z*=XA*且因且因 A*RA*=diag(diag(1 1,2 2,m),),于是于是 Z*Z*=A*XXA*=(n-1)A*RA*=(n-1)diag(diag(1 1,2 2,m)52第52页,本讲稿共113页第七章第七章 7.2 7.2 样本的主成分样本的主成分样本主成分及其性质样本主成分及其性质*(A*)*53第53页,本讲稿共113页第七章第七章 7.2 7.2 样本的主成分样本的主成分样本主成分及其性质样本主成分及其性质 即即当当 B=A*或或 bjk=ajk(j=1,2,=1,2,p;k=1,=1,m)时,可使时,可使回归的残差平方和达最小值回归的残差平方和达最小值.而而Xj 回归方程的决定系数回归方程的决定系数 R2 2(j)=)=j(m)(j=1,2,=1,2,p).).(见习题见习题7-8)7-8)54第54页,本讲稿共113页第七章第七章 7.27.2样本的主成分样本的主成分主成分的个数及解释主成分的个数及解释 主成分分析的目的之一是主成分分析的目的之一是简化数据结构简化数据结构,用尽可用尽可能少的主成分能少的主成分Z1,Zm(mp)代替原来的代替原来的p个变个变量量,这样就把这样就把p个变量的个变量的n次观测数据简化为次观测数据简化为m个主成个主成分的得分数据分的得分数据.在这里要求:在这里要求:m个主成分所反映的信息与原来个主成分所反映的信息与原来p个变量提供的信息差不多个变量提供的信息差不多;m个主成分又能对资料所具有的个主成分又能对资料所具有的意义进行解释意义进行解释.55第55页,本讲稿共113页第七章第七章 7.27.2样本的主成分样本的主成分主成分个数的确定主成分个数的确定 主成分的个数主成分的个数m如何选取是实际工作者关心的问如何选取是实际工作者关心的问题题.关于主成分的个数如何确定关于主成分的个数如何确定,常用的标准有两常用的标准有两个:个:(1)(1)按累计贡献率达到一定程度按累计贡献率达到一定程度(如如70%70%或或80%80%以上以上)来确定来确定m;(2)先计算先计算S或或R的的p个特征根的均值个特征根的均值,取大于取大于的特征根个数的特征根个数m.当当p=20=20 时时,大量实践表明大量实践表明,第一个标准容易取太多的第一个标准容易取太多的主成分主成分,而第二个标准容易取太少的主成分而第二个标准容易取太少的主成分,故最好将两者故最好将两者给合起来应用给合起来应用,同时要考虑同时要考虑m个主成分对个主成分对Xi的贡献率的贡献率i(m).56第56页,本讲稿共113页第七章第七章 7.27.2样本的主成分样本的主成分应用例子应用例子7.2.17.2.1 例例7.2.17.2.1 学生身体各指标的主成分分析学生身体各指标的主成分分析.随机抽取随机抽取3030名某年级中学生名某年级中学生,测量其身高测量其身高(X1)(X1)、体、体重重(X2)(X2)、胸围、胸围(X3)(X3)和坐高和坐高(X4),(X4),数据见书中数据见书中P277P277表表7.4(7.4(或以下或以下SASSAS程序的数据行程序的数据行).).试对中学生身体指标试对中学生身体指标数据做主成分分析数据做主成分分析.解解 (1)(1)以下以下SASSAS程序首先生成包括程序首先生成包括3030名学生身体指名学生身体指标数据的标数据的SASSAS数据集数据集d721(d721(其中变量其中变量NUMBERNUMBER记录识别记录识别学生的序号学生的序号),然后调用,然后调用SAS/STASAS/STA软件中的软件中的PRINCOMPPRINCOMP过程进行主成分分析过程进行主成分分析.57第57页,本讲稿共113页第七章第七章 7.2 7.2 样本的主成分样本的主成分例例7.2.17.2.1的的sassas程序程序 Data d721;input number x1-x4 ;cards;1 148 41 72 78 2 139 34 71 763 160 49 77 86 4 149 36 67 79.27 144 36 68 76 28 141 30 67 7629 139 32 68 73 30 148 38 70 78;proc princomp data=d721 prefix=z out=o721;var x1-x4;run;该选项规定该选项规定主成分的前主成分的前缀名字为缀名字为z生成包含主生成包含主分量得分的分量得分的输出数据集输出数据集行指针控制符行指针控制符指示读完该行指示读完该行数据行后再数据行后再跳到下一行。跳到下一行。58第58页,本讲稿共113页第七章第七章 7.2 7.2 样本的主成分样本的主成分例例7.2.17.2.1的的sassas程序程序 proc plot data=o721;plot z2*z1$number=*;run;proc sort data=o721;by z1;run;proc print data=o721;var number z1 z2 x1-x4;run;绘制前二个主成分得分的散点绘制前二个主成分得分的散点图图.作图符号为作图符号为*,并在每散并在每散点旁边加上序号点旁边加上序号,以便识别各以便识别各个观测个观测.把输出集把输出集o721按第一主成分按第一主成分z1的得分值从小的得分值从小 到大排序到大排序输出排序后的数据集输出排序后的数据集o72159第59页,本讲稿共113页第七章第七章 7.27.2样本的主成分样本的主成分例例7.2.17.2.1的输出结果的输出结果 学生身体指标数据的描述统计量和相关阵学生身体指标数据的描述统计量和相关阵60第60页,本讲稿共113页第七章第七章 7.27.2样本的主成分样本的主成分例例7.2.17.2.1的输出结果的输出结果 输出输出7.2.1 7.2.1 相关阵的特征值和特征向量相关阵的特征值和特征向量