《应用多元统计分析》第五版PPT(第七章)ppt.ppt
《《应用多元统计分析》第五版PPT(第七章)ppt.ppt》由会员分享,可在线阅读,更多相关《《应用多元统计分析》第五版PPT(第七章)ppt.ppt(86页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、第七章 主成分分析,7.1 引言7.2 总体的主成分7.3 样本的主成分7.4 若干补充及应用中需注意的问题,1,7.1 引言,主成分分析由皮尔逊(Pearson,1901)首先引入,后来被霍特林(Hotelling,1933)发展了。主成分分析是一种通过降维技术把多个变量化为少数几个主成分(综合变量)的统计分析方法。这些主成分能够反映原始变量的绝大部分信息,它们通常表示为原始变量的某种线性组合,且彼此不相关。,2,习题7.6 下表给出的是美国50个州每100 000个人中七种犯罪的比率数据。这七种犯罪是:x1:杀人罪x5 :夜盗罪x2:强奸罪x6 :盗窃罪x3:抢劫罪x7 :汽车犯罪x4:伤
2、害罪 试图用降维的方式对50个州的犯罪情况进行比较分析。,3,4,该相关矩阵表明,变量之间存在一定的相关性,即彼此之间信息有不少是重复的,从而有一定的降维空间。该案例可用主成分分析进行降维,降了维之后再进行比较分析。,5,主成分的应用,(1)在一些应用中,用前少数几个主成分替代众原始变量以作分析,这些主成分本身就成了分析的目标。需要给出这前几个主成分一个符合实际背景和意义的解释。(2)在更多的另一些应用中,主成分只是要达到目的的一个中间结果(或步骤),而非目的本身。例如,主成分聚类、主成分回归、评估正态性、寻找异常值,以及寻找原始变量间的多重共线性关系等。此时的主成分可不必给出解释。,6,通过
3、一个简单二维例子理解主成分,7,图7.1.1 寻找主成分的正交旋转,旋转公式:,7.2 总体的主成分,一、主成分的定义及导出二、主成分的性质三、从相关阵出发求主成分,8,一、主成分的定义及导出,设 ,E(x)=,V(x)=。考虑如下的线性变换希望在约束条件 下寻求向量a1,使得 达到最大,y1就称为第一主成分。设1 2p0为的特征值, , i=1,2,p为相应的一组正交单位特征向量。则可求得第一主成分为它的方差具有最大值1。,9,如果第一主成分所含信息不够多,则需考虑再使用 ,并要求Cov(y1,y2) =0在此条件和约束条件 下寻求向量a2,使得 达到最大,所求的y2称为第二主成分。可求得其
4、方差为2。 一般来说,x的第i主成分是指:在约束条件 和 Cov(yk,yi)=0, k=1,2,i1下寻求ai,使得达到最大。第i主成分为,10,主成分的几何意义,在几何上,ti表明了第i主成分的方向,yi是x在ti上的投影值(其绝对值即为投影长度),i是这些值的方差,它反映了ti上投影点的变异程度。,11,x投影到ti上的值,其中i是ti与x的夹角。,12,主成分向量与原始向量之间的关系式,13,14,主成分与原始变量之间的关系式矩阵,15,正交变换 的几何意义,正交变换 的几何意义是将Rp中由x1,x2,xp构成的原p维坐标轴作一正交旋转,一组正交单位向量t1,t2,tp表明了p个新坐标
5、轴的方向,这些新坐标轴彼此仍保持正交(或说垂直)。,16,多元正态总体的主成分方向,以二元正态密度的等高线族为例。,17,二、主成分的性质,1.主成分向量的协方差矩阵2.主成分的总方差 3.原始变量xi与主成分yk之间的相关系数4.m个主成分对原始变量的贡献率5.原始变量对主成分的影响,18,1.主成分向量的协方差矩阵,V(y)=其中=diag(1,2,p),即V(yi)= i, i=1,2,p,且y1,y2,yp互不相关。,19,2.主成分的总方差,或,20,总方差中属于第i主成分yi (或被yi所解释)的比例为称为主成分yi的贡献率。第一主成分y1的贡献率最大,表明它解释原始变量 x1,x
6、2,xp的能力最强,而y2,y3,yp的解释能力依次递减。主成分分析的目的就是为了减少变量的个数,因而一般是不会使用所有p个主成分的,忽略一些带有较小方差的主成分将不会给总方差带来大的影响。,21,前m个主成分的贡献率之和称为主成分y1,y2,ym的累计贡献率,它表明y1,y2, ,ym解释x1,x2,xp的能力。通常取(相对于p)较小的m ,使得累计贡献达到一个较高的百分比(如8090)。此时,y1,y2, ,ym可用来代替x1,x2,xp,从而达到降维的目的,而信息的损失却不多。,22,3.原始变量xi与主成分yk之间的相关系数,x=Ty即xi=ti1y1+ti2y2+tipyp所以Cov
7、(xi,yk)=Cov(tikyk, yk)=tikk在实际应用中,通常我们只对xi (i=1,2,p)与yk (k=1,2,m)的相关系数感兴趣。,23,4.m个主成分对原始变量的贡献率,m个主成分y1,y2,ym从原始变量x1,x2,xp中提取的信息量,可度量为xi与y1,y2,ym的复相关系数的平方,它是xi的方差可由y1,y2,ym联合解释的比例,称之为y1,y2,ym对原始变量xi的贡献率。,24,例7.2.1 设x=(x1,x2,x3)的协方差矩阵为其特征值为1=5.83,2=2.00,3=0.17相应的特征向量为若只取一个主成分,则贡献率为5.83/(5.83+2.00+0.17
8、)=0.72875=72.875%,25,应再取y2,此时累计贡献率为(5.83+2.00)/8=97.875%(y1, y2)对每个变量xi的贡献率分别为 , 都比较高。,表7.2.1 y1及(y1,y2)对每个原始变量的贡献率,26,5.原始变量对主成分的影响,yk=t1kx1+t2kx2+tpkxp称tik为yk在xi上的载荷,它反映了xi对yk的重要程度。 在解释主成分时,我们需要考察载荷,同时也应考察一下相关系数,前者更值得重视。,27,例7.2.2 设x=(x1,x2,x3)的协方差矩阵为经计算,的特征值及特征向量为1=109.793,2=6.469,3=0.738 相应的主成分分
9、别为,28,y1=0.305x1+0.041x2+0.951x3y2=0.944x1+0.120x20.308x3 y3=0.127x1+0.992x20.002x3可见,方差大的x3在很大程度上控制了y1,方差小的x2几乎完全控制了y3,方差介于中间的x1则基本控制了y2。y1的贡献率为这么高的贡献率首先归因于x3的方差比x1和x2的方差大得多,其次是x1,x2,x3相互之间存在着一定的相关性。y3的方差相对很小,表明x1,x2,x3之间有这样一个线性依赖关系:0.127x1+0.992x20.002x3c其中c=0.1271+0.99220.0023为一常数。,29,方差大的主成分与方差大
10、的原始变量有较密切的联系,而方差小的主成分与方差小的原始变量有较强的联系。通常我们取前几个主成分,因此所取主成分会过于照顾方差大的原始变量,而对方差小的原始变量却照顾得不够。,揭示多重共线性关系,yp的贡献率常常很小,可视作接近于一个常数(均值)。yp可能揭示出原始变量之间存在着一个意外的多重共线性关系。更进一步来说,如果后几个主成分的贡献率都非常小,则可能表示变量之间有几个彼此独立的多重共线性关系。如果V(yp)=0,则表明x1,x2,xp之间(以概率1)存在线性关系(或者说完全共线性关系)。此时应从这些原始变量中删除“多余”的变量(一般来说,有几个主成分方差为零,就有几个“多余”的变量),
11、然后再重新进行主成分分析。,31,三、从相关阵出发求主成分,通常有两种情形不适合直接从协方差矩阵出发进行主成分分析。一种是各变量的单位不全相同的情形。另一种是各变量的单位虽相同,但其变量方差的差异较大(在应用中常表现为各变量数据间的数值大小相差较大)的情形。,32,最常用的标准化变换是令 。显然,的协差阵正是x的相关阵R。从R出发求主成分,主成分分析将均等地对待每一个原始变量。设 为R的p个特征值, 为相应的单位特征向量,且相互正交,则p个主成分为记 于是,33,从R出发的主成分性质,(1)E(y*)=0,V(y*)=*,其中 (2) 。(3)变量 与主成分 之间的相关系数即有,34,因此,在
12、解释主成分 时,从相关阵R出发求得的载荷 和相关系数 所起的作用是完全相同的,只需选其一用来作主成分解释即可。(4)主成分 对变量 的贡献率(5) 。,35,例7.2.3 在例7.2.2中,x的相关阵R的特征值及特征向量为相应的主成分分别为,36,的贡献率为 和 累计贡献率为现比较本例中从R出发和例7.2.2中从 出发的主成分计算结果。从R出发的 的贡献率0.705明显小于从出发的y1的贡献率0.938,事实上,原始变量方差之间的差异越大,这一点也就倾向于越明显。 可用标准化前的原变量表达如下:,37,可见, 在原变量x1,x2,x3上的载荷相对大小与例7.2.2中yi在x1,x2,x3上的载
13、荷相对大小之间有着非常大的差异。这说明,标准化后的结论完全可能会发生很大的变化,因此标准化不是无关紧要的。,38,7.3 样本的主成分,设数据矩阵为则样本协差阵和样本相关阵分别为,39,7.3 样本的主成分,一、样本主成分的定义二、从S出发求主成分三、从 出发求主成分四、主成分分析的应用,40,主成分定义的回顾,第一主成分:在约束条件|a1|=1下寻求向量a1,使得 的方差 达到最大。第二主成分:在约束条件|a2|=1和Cov(y1,y2) =0下寻求向量a2,使得 的方差 达到最大。第i主成分:在约束条件|ai|=1和Cov(yk,yi)=0, k=1,2,i1下寻求ai,使得 的方差 达到
14、最大。,41,一、样本主成分的定义,若向量a1在约束条件|a1|=1下,使得 的样本方差 达到最大,则称 为第一样本主成分。若向量a2在约束条件|a2|=1和,42,的样本协方差 下,使得 的样本方差 达到最大,则称 为第二样本主成分。一般地,若向量ai 在约束条件|ai|=1和 的样本协方差,43,下,使得的样本方差达到最大,则称 为第i样本主成分i=1,2,p 。需要指出的是,样本主成分是使样本方差而非方差达到最大,是使样本协方差而非协方差为零。,44,二、从S出发求主成分,用类似于上一节的方法,以S代替即可求得样本主成分。设 为S的特征值, 为相应的单位特征向量,且彼此正交。则第i样本主
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 应用 利用 运用 多元 统计分析 第五 ppt 第七
限制150内