实用多元统计分析.ppt
应应用用用用统计统计学学学学精品精品精品精品课课程程程程第十章第十章 实用多元用多元统计分析分析Unit ten practical multi-dimensionalUnit ten practical multi-dimensional statistical analysis statistical analysis西安理工大西安理工大学学工程管理系工程管理系 马斌斌 余梁蜀余梁蜀Project Management Department of XIAn Project Management Department of XIAn University of TechnologyUniversity of TechnologyMa Bing Yu Liangshu Ma Bing Yu Liangshu 应应用用用用统计统计学学学学精品精品精品精品课课程程程程 聚聚聚聚类类分析分析分析分析 Cluster analysisCluster analysis10.110.210.310.4 判判判判别别分析分析分析分析 Distinction analysisDistinction analysis 主成分分析主成分分析主成分分析主成分分析 Principal components analysisPrincipal components analysis 因子分析因子分析因子分析因子分析 Factor components analysisFactor components analysis应应用用用用统计统计学学学学精品精品精品精品课课程程程程10.1 聚聚聚聚类类分析分析分析分析 Cluster analysisCluster analysis10.1.1 10.1.1 10.1.1 10.1.1 数据的处理数据的处理数据的处理数据的处理10.1.2 10.1.2 10.1.2 10.1.2 聚类分析中的统计量聚类分析中的统计量聚类分析中的统计量聚类分析中的统计量10.1.3 10.1.3 10.1.3 10.1.3 分类的形成分类的形成分类的形成分类的形成应应用用用用统计统计学学学学精品精品精品精品课课程程程程聚类分析聚类分析Q 型型R 型型样品的分类样品的分类指标(变量)的分类指标(变量)的分类应应用用用用统计统计学学学学精品精品精品精品课课程程程程10.1.1 10.1.1 数据的处理数据的处理数据的处理数据的处理在工程项目中,假定对在工程项目中,假定对在工程项目中,假定对在工程项目中,假定对n n个样品测定其个样品测定其个样品测定其个样品测定其mm个指标,得到以下数据矩阵个指标,得到以下数据矩阵个指标,得到以下数据矩阵个指标,得到以下数据矩阵其中,其中,其中,其中,X X X Xijijijij是第是第是第是第i i i i个样品个样品个样品个样品j j j j个指标(变量)的观测值。个指标(变量)的观测值。个指标(变量)的观测值。个指标(变量)的观测值。如果各个指标的测量单位如果各个指标的测量单位如果各个指标的测量单位如果各个指标的测量单位、测量结果的数量级及数值变动范围存在测量结果的数量级及数值变动范围存在测量结果的数量级及数值变动范围存在测量结果的数量级及数值变动范围存在很大的差异,我们就有必要在分类之前对数锯进行很大的差异,我们就有必要在分类之前对数锯进行很大的差异,我们就有必要在分类之前对数锯进行很大的差异,我们就有必要在分类之前对数锯进行标准化标准化标准化标准化或或或或正规划正规划正规划正规划。1 1 1 1)数据的标准化)数据的标准化)数据的标准化)数据的标准化令令令令 (i=1,2,;j=1,2,m)i=1,2,;j=1,2,m)i=1,2,;j=1,2,m)i=1,2,;j=1,2,m)其中,其中,其中,其中,通过上述变换的变量通过上述变换的变量通过上述变换的变量通过上述变换的变量Y Y Y Yijijijij是标准化变量,这时,它的均值为是标准化变量,这时,它的均值为是标准化变量,这时,它的均值为是标准化变量,这时,它的均值为0 0 0 0,标准差为,标准差为,标准差为,标准差为1 1 1 1。2 2 2 2)数据的正规化)数据的正规化)数据的正规化)数据的正规化令令令令应应用用用用统计统计学学学学精品精品精品精品课课程程程程 其中,其中,其中,其中,是数据第是数据第是数据第是数据第j j列数据中的最小值;列数据中的最小值;列数据中的最小值;列数据中的最小值;是数据阵第是数据阵第是数据阵第是数据阵第j j列数据列数据列数据列数据中的最大值;中的最大值;中的最大值;中的最大值;是第是第是第是第j j列数据的级差。通过正规化变换后的数据列数据的级差。通过正规化变换后的数据列数据的级差。通过正规化变换后的数据列数据的级差。通过正规化变换后的数据阵中的每一列出现阵中的每一列出现阵中的每一列出现阵中的每一列出现0 0与与与与1 1各至少各至少各至少各至少1 1个,其余则介于个,其余则介于个,其余则介于个,其余则介于0 0与与与与1 1之间。之间。之间。之间。聚类分析中的统计量聚类分析中的统计量聚类分析中的统计量聚类分析中的统计量1 1)样品或指标间相似程度的类型)样品或指标间相似程度的类型)样品或指标间相似程度的类型)样品或指标间相似程度的类型 两个样品或指标对应的的两行(列)对应的元素比较接近两个样品或指标对应的的两行(列)对应的元素比较接近两个样品或指标对应的的两行(列)对应的元素比较接近两个样品或指标对应的的两行(列)对应的元素比较接近,具有成具有成具有成具有成比例比例比例比例关系关系关系关系或或或或互相消长互相消长互相消长互相消长的关系。的关系。的关系。的关系。应应用用用用统计统计学学学学精品精品精品精品课课程程程程2)衡量样品或指标间相似性的统计量的类型)衡量样品或指标间相似性的统计量的类型(1)距离系数)距离系数在实际应用中,常用下式表达作为距离系数在实际应用中,常用下式表达作为距离系数 显然,对于正规化的数据,有显然,对于正规化的数据,有(,)(,)d(,)(,)越小。第越小。第i个变量与第个变量与第j个变量就越相似;反之,相似性就越小。个变量就越相似;反之,相似性就越小。应应用用用用统计统计学学学学精品精品精品精品课课程程程程()相似系数()相似系数 显然,显然,cos ij cos ij绝对值越大,第绝对值越大,第i个变量的与第个变量的与第j个变量就越相似,反之相反。个变量就越相似,反之相反。应应用用用用统计统计学学学学精品精品精品精品课课程程程程()相关系数()相关系数 显然显然,R(i,j)R(i,j)的绝对值越大,第个变量与第的绝对值越大,第个变量与第个变量之间的关系就越密切;反之,就越不密切。个变量之间的关系就越密切;反之,就越不密切。应应用用用用统计统计学学学学精品精品精品精品课课程程程程 分类的形成分类的形成 原则:原则:()若选出的一对变量未曾连接过,就连结为一组。()若选出的一对变量未曾连接过,就连结为一组。()若选出的变量对中,有一个已同别的连结成组,则把另一个变量()若选出的变量对中,有一个已同别的连结成组,则把另一个变量 与这个组连接。与这个组连接。()若对选出的变量分别在已连结好的两组内,则把这两个组连结。()若对选出的变量分别在已连结好的两组内,则把这两个组连结。应应用用用用统计统计学学学学精品精品精品精品课课程程程程 应应用用用用统计统计学学学学精品精品精品精品课课程程程程10.2 判判判判别别分析分析分析分析 Distinction analysisDistinction analysis基本思想基本思想基本思想基本思想线性判别函数线性判别函数线性判别函数线性判别函数判别指标与判别法则判别指标与判别法则判别指标与判别法则判别指标与判别法则应应用用用用统计统计学学学学精品精品精品精品课课程程程程多组判别多组判别多组判别多组判别组数为组数为组数为组数为2 2组数大于组数大于组数大于组数大于2 2两组判别两组判别两组判别两组判别多组判别多组判别多组判别多组判别应应用用用用统计统计学学学学精品精品精品精品课课程程程程 10.2.1 10.2.1 基本思想基本思想基本思想基本思想 判别函数,记作判别函数,记作判别函数,记作判别函数,记作 Z=Z(YZ=Z(Y1 1,Y,YP P)均值均值均值均值同样,对于总体同样,对于总体同样,对于总体同样,对于总体X X2 2有均值有均值有均值有均值 通过判别分析的方法,可以构造出一个介于通过判别分析的方法,可以构造出一个介于通过判别分析的方法,可以构造出一个介于通过判别分析的方法,可以构造出一个介于 和和和和 之间的指标之间的指标之间的指标之间的指标Z ZC C,设设设设Z Z为某个待定判别的判别值。为某个待定判别的判别值。为某个待定判别的判别值。为某个待定判别的判别值。应应用用用用统计统计学学学学精品精品精品精品课课程程程程线性判别函数线性判别函数线性判别函数线性判别函数 判别函数判别函数判别函数判别函数 其中,其中,其中,其中,C C1 1,C,CP P是待定系数。通过下是待定系数。通过下是待定系数。通过下是待定系数。通过下式可以确定式可以确定式可以确定式可以确定C C1 1,C,CP P。应应用用用用统计统计学学学学精品精品精品精品课课程程程程判别指标与判别法则判别指标与判别法则判别指标与判别法则判别指标与判别法则 根据判别函数可求得根据判别函数可求得根据判别函数可求得根据判别函数可求得 和和和和 ,通常可以用它们的,通常可以用它们的,通常可以用它们的,通常可以用它们的加权平均作为判别指标,即有加权平均作为判别指标,即有加权平均作为判别指标,即有加权平均作为判别指标,即有应应用用用用统计统计学学学学精品精品精品精品课课程程程程 这样我们有以下判别法则:设为某一判别样品的判别值,则这样我们有以下判别法则:设为某一判别样品的判别值,则这样我们有以下判别法则:设为某一判别样品的判别值,则这样我们有以下判别法则:设为某一判别样品的判别值,则应应用用用用统计统计学学学学精品精品精品精品课课程程程程 10.2.4 10.2.4 10.2.4 10.2.4 判别函数的评价判别函数的评价判别函数的评价判别函数的评价 对于判别函数对于判别函数对于判别函数对于判别函数 其有效性需要进行检验。其有效性需要进行检验。其有效性需要进行检验。其有效性需要进行检验。在统计学中,常采用马哈拉诺比斯在统计学中,常采用马哈拉诺比斯在统计学中,常采用马哈拉诺比斯在统计学中,常采用马哈拉诺比斯D D D D2 2 2 2统计量统计量统计量统计量 D D D D2 2 2 2可直观地设想为总体可直观地设想为总体可直观地设想为总体可直观地设想为总体X X X X1 1 1 1和和和和X X X X2 2 2 2之间的距离(称为综合距离系数函数)。之间的距离(称为综合距离系数函数)。之间的距离(称为综合距离系数函数)。之间的距离(称为综合距离系数函数)。可以证明统计量可以证明统计量可以证明统计量可以证明统计量 服从第一自由度为服从第一自由度为服从第一自由度为服从第一自由度为P P P P,第二自由度为,第二自由度为,第二自由度为,第二自由度为n n n n1 1 1 1+n+n+n+n2 2 2 2-p-1-p-1-p-1-p-1的的的的F F F F分布。这样可以查分布。这样可以查分布。这样可以查分布。这样可以查F F F F分布进行检验并评价判别函数。分布进行检验并评价判别函数。分布进行检验并评价判别函数。分布进行检验并评价判别函数。应应用用用用统计统计学学学学精品精品精品精品课课程程程程实际中,先求出实际中,先求出实际中,先求出实际中,先求出 再求出各判别变量再求出各判别变量再求出各判别变量再求出各判别变量Y Y Y Yt t t t(t=1,p)(t=1,p)(t=1,p)(t=1,p)的的的的贡献系数贡献系数贡献系数贡献系数对对对对“贡献贡献贡献贡献”小的判别变量可根据实际情况筛选掉。小的判别变量可根据实际情况筛选掉。小的判别变量可根据实际情况筛选掉。小的判别变量可根据实际情况筛选掉。应应用用用用统计统计学学学学精品精品精品精品课课程程程程统计统计学学学学精品精品精品精品课课程程程程10.3 主成分分析主成分分析主成分分析主成分分析 Principal components analysisPrincipal components analysis10.3.1 10.3.1 主成份分析主成份分析主成份分析主成份分析10.3.2 10.3.2 主成份的导出主成份的导出主成份的导出主成份的导出10.3.3 10.3.3 主成份的定义主成份的定义主成份的定义主成份的定义主成份的性质主成份的性质主成份的性质主成份的性质应用实例应用实例应用实例应用实例 主成分分析法主成分分析法主成分分析法主成分分析法是多元统计分析中的一种,是一种简化数据结构的方是多元统计分析中的一种,是一种简化数据结构的方是多元统计分析中的一种,是一种简化数据结构的方是多元统计分析中的一种,是一种简化数据结构的方法。它用于将多个变量变换为少数几个综合变量,这几个综合变量变换法。它用于将多个变量变换为少数几个综合变量,这几个综合变量变换法。它用于将多个变量变换为少数几个综合变量,这几个综合变量变换法。它用于将多个变量变换为少数几个综合变量,这几个综合变量变换为少数几个综合变量,这几个综合变量可以反映原来多个变量的大部分为少数几个综合变量,这几个综合变量可以反映原来多个变量的大部分为少数几个综合变量,这几个综合变量可以反映原来多个变量的大部分为少数几个综合变量,这几个综合变量可以反映原来多个变量的大部分信息,而它们相互之间又是无关的。信息,而它们相互之间又是无关的。信息,而它们相互之间又是无关的。信息,而它们相互之间又是无关的。统计统计学学学学精品精品精品精品课课程程程程 主成分的概念主成分的概念主成分的概念主成分的概念 在项目管理中,假定对在项目管理中,假定对在项目管理中,假定对在项目管理中,假定对n n个样品测定其个样品测定其个样品测定其个样品测定其mm个指标(变量)个指标(变量)个指标(变量)个指标(变量)X X1 1,XXmm得以下数据矩阵得以下数据矩阵得以下数据矩阵得以下数据矩阵 以后我们将原指标记为以后我们将原指标记为以后我们将原指标记为以后我们将原指标记为X X X X1 1 1 1,XXXXm m m m,将它们的主成分记为将它们的主成分记为将它们的主成分记为将它们的主成分记为Y Y Y Y1 1 1 1,Y,Y,Y,Ym m m m.当当当当m=2m=2m=2m=2时,原指标记为时,原指标记为时,原指标记为时,原指标记为X X X X1 1 1 1和和和和X X X X2,2,2,2,其关系见下页图其关系见下页图其关系见下页图其关系见下页图应应用用用用统计统计学学学学精品精品精品精品课课程程程程 容易看出容易看出容易看出容易看出Y Y Y Y1 1 1 1将将将将X X X X1 1 1 1和和和和X X X X2,2,2,2,的主要信的主要信的主要信的主要信息都反映了。那么用息都反映了。那么用息都反映了。那么用息都反映了。那么用Y Y Y Y1 1 1 1来表达来表达来表达来表达X X X X1 1 1 1和和和和X X X X2,2,2,2,还是不错的。还是不错的。还是不错的。还是不错的。如果取椭圆的短轴作为第二主如果取椭圆的短轴作为第二主如果取椭圆的短轴作为第二主如果取椭圆的短轴作为第二主成分成分成分成分Y Y Y Y2 2 2 2,那么,图,那么,图,那么,图,那么,图10.210.210.210.2上的点,对上的点,对上的点,对上的点,对原指标原指标原指标原指标X X X X1 1 1 1,X X X X2,2,2,2,的值记为的值记为的值记为的值记为X X X X1t1t1t1t和和和和X X X Xt2t2t2t2(t=1,n),(t=1,n),(t=1,n),(t=1,n),对主成分对主成分对主成分对主成分Y Y Y Y2 2 2 2的值记为的值记为的值记为的值记为Y Y Y Y1t1t1t1t,Y Y Y Yt2t2t2t2(t=1,n),(t=1,n),(t=1,n),(t=1,n),则有则有则有则有应应用用用用统计统计学学学学精品精品精品精品课课程程程程 所谓所谓所谓所谓Y Y Y Y1 1 1 1反映的信息,就是反映的信息,就是反映的信息,就是反映的信息,就是 在整个平方和中所占的比例越在整个平方和中所占的比例越在整个平方和中所占的比例越在整个平方和中所占的比例越大越好,即大越好,即大越好,即大越好,即Y Y Y Y1 1 1 1的平方和(或方差)越大越好。的平方和(或方差)越大越好。的平方和(或方差)越大越好。的平方和(或方差)越大越好。主成分的导出主成分的导出主成分的导出主成分的导出 在标准化的情况下,样本的相关系数即为样本协方差,即在标准化的情况下,样本的相关系数即为样本协方差,即在标准化的情况下,样本的相关系数即为样本协方差,即在标准化的情况下,样本的相关系数即为样本协方差,即应应用用用用统计统计学学学学精品精品精品精品课课程程程程 对于数据矩阵(对于数据矩阵(对于数据矩阵(对于数据矩阵(10.110.110.110.1),其样本相关矩阵),其样本相关矩阵),其样本相关矩阵),其样本相关矩阵R R R R和样本协方差矩阵和样本协方差矩阵和样本协方差矩阵和样本协方差矩阵S S S S相相相相同,即同,即同,即同,即为了导出主成分,只须求为了导出主成分,只须求为了导出主成分,只须求为了导出主成分,只须求R R R R或或或或S S S S阵的特征根和特征向量即可。阵的特征根和特征向量即可。阵的特征根和特征向量即可。阵的特征根和特征向量即可。应应用用用用统计统计学学学学精品精品精品精品课课程程程程 主成分的定义主成分的定义主成分的定义主成分的定义设设设设为为为为X X X X1 1 1 1,XXXXm m m m是是是是m m m m个变量,可以抽得其个变量,可以抽得其个变量,可以抽得其个变量,可以抽得其n n n n个样品,它的第个样品,它的第个样品,它的第个样品,它的第i i i i(i=1,m)i=1,m)i=1,m)i=1,m)个个个个主成分为主成分为主成分为主成分为其中,其中,其中,其中,应应用用用用统计统计学学学学精品精品精品精品课课程程程程并且满足:并且满足:并且满足:并且满足:(1 1 1 1)第一主成分)第一主成分)第一主成分)第一主成分Y Y Y Y1 1 1 1是一切形如是一切形如是一切形如是一切形如 使使使使Y Y Y Y的方差达到极大者。的方差达到极大者。的方差达到极大者。的方差达到极大者。(2 2 2 2)第二主成分)第二主成分)第二主成分)第二主成分Y Y Y Y2 2 2 2是一切形如是一切形如是一切形如是一切形如并与并与并与并与Y Y Y Y1 1 1 1无关,使无关,使无关,使无关,使Y Y Y Y的方差达到极大者;的方差达到极大者;的方差达到极大者;的方差达到极大者;(3 3 3 3)第)第)第)第k k k k个主成分个主成分个主成分个主成分Y Y Y Yk k k k是一切形如是一切形如是一切形如是一切形如并与并与并与并与Y Y Y Y1 1 1 1YYYYK-1K-1K-1K-1不相关,使不相关,使不相关,使不相关,使Y Y Y Y的方差达到极大者。的方差达到极大者。的方差达到极大者。的方差达到极大者。应应用用用用统计统计学学学学精品精品精品精品课课程程程程主成分的性质主成分的性质主成分的性质主成分的性质 设对于变量设对于变量设对于变量设对于变量X X X X1 1 1 1,XXXXm m m m的的的的n n n n个样品的数据矩阵,其协方差矩阵为个样品的数据矩阵,其协方差矩阵为个样品的数据矩阵,其协方差矩阵为个样品的数据矩阵,其协方差矩阵为S S S S,设,设,设,设S S S S的的的的m m m m个特征值个特征值个特征值个特征值1 1 1 1m m m m0,0,0,0,对应的对应的对应的对应的m m m m个单位正交特征向量为个单位正交特征向量为个单位正交特征向量为个单位正交特征向量为则:则:则:则:应应用用用用统计统计学学学学精品精品精品精品课课程程程程(1 1)X X X X1 1 1 1,XXXXm m m m的第的第的第的第i i i i个主成分个主成分个主成分个主成分Y Y Y Yi i i i的系数就是第的系数就是第的系数就是第的系数就是第i i i i个特征值个特征值个特征值个特征值i i i i所对应的正所对应的正所对应的正所对应的正交化特征向量交化特征向量交化特征向量交化特征向量则则则则应应用用用用统计统计学学学学精品精品精品精品课课程程程程(2 2 2 2)第)第)第)第i i i i个主成分个主成分个主成分个主成分Y Y Y Yi i i i的方差为第的方差为第的方差为第的方差为第i i i i个特征值个特征值个特征值个特征值i i i i,每两个不相同主成分间的协方,每两个不相同主成分间的协方,每两个不相同主成分间的协方,每两个不相同主成分间的协方差为差为差为差为0 0 0 0,则,则,则,则Y Y Y Y1 1 1 1,Y,Y,Y,Ym m m m的协方差矩阵的协方差矩阵的协方差矩阵的协方差矩阵S S S S是一对角矩阵是一对角矩阵是一对角矩阵是一对角矩阵,其对角元素分别为,其对角元素分别为,其对角元素分别为,其对角元素分别为1 1 1 1m m m m,其他元素均为,其他元素均为,其他元素均为,其他元素均为0 0 0 0。(3 3 3 3)S S S S和和和和的对角元素之和相等,即两个协方差矩阵的迹相等的对角元素之和相等,即两个协方差矩阵的迹相等的对角元素之和相等,即两个协方差矩阵的迹相等的对角元素之和相等,即两个协方差矩阵的迹相等由此可得,第由此可得,第由此可得,第由此可得,第k k k k个主成分的方差占总方差的比例个主成分的方差占总方差的比例个主成分的方差占总方差的比例个主成分的方差占总方差的比例=称此为主成分称此为主成分称此为主成分称此为主成分Y Y Y Yk k k k的贡献率。的贡献率。的贡献率。的贡献率。则前则前则前则前K K K K个主成分的累计贡献率个主成分的累计贡献率个主成分的累计贡献率个主成分的累计贡献率=应应用用用用统计统计学学学学精品精品精品精品课课程程程程(4 4)主成分)主成分)主成分)主成分Y Y Y Yi i i i与与与与X X X Xj j j j的的的的相关系数相关系数相关系数相关系数 称为因子负荷量。称为因子负荷量。称为因子负荷量。称为因子负荷量。(5 5 5 5)应应用用用用统计统计学学学学精品精品精品精品课课程程程程应应用用用用统计统计学学学学精品精品精品精品课课程程程程 为了研究上海、北京房地产指数与其他价格指数之间的关系,设定为了研究上海、北京房地产指数与其他价格指数之间的关系,设定为了研究上海、北京房地产指数与其他价格指数之间的关系,设定为了研究上海、北京房地产指数与其他价格指数之间的关系,设定4 4个变量,见表个变量,见表个变量,见表个变量,见表10.1210.12。表表表表10.12 10.12 房地产指数变量房地产指数变量房地产指数变量房地产指数变量变变 量量 名名 称称x1 中国房地产板块股票价格指数中国房地产板块股票价格指数x2 中国房地产北京城市指数中国房地产北京城市指数x3 中国房地产上海城市指数中国房地产上海城市指数x4 全国零售价格指数全国零售价格指数10.3.5 10.3.5 10.3.5 10.3.5 应用实例应用实例应用实例应用实例 表中表中表中表中10.1210.12中所有变量的数据均取自中所有变量的数据均取自中所有变量的数据均取自中所有变量的数据均取自19971997年年年年1 1月月月月20002000年年年年6 6月有关的月有关的月有关的月有关的统计资料,样本容量为统计资料,样本容量为统计资料,样本容量为统计资料,样本容量为n=42n=42。根据这些数据计算的样本相关矩阵为。根据这些数据计算的样本相关矩阵为。根据这些数据计算的样本相关矩阵为。根据这些数据计算的样本相关矩阵为其特征值为:其特征值为:其特征值为:其特征值为:1 1=2.333=2.333,2 2=1.089 =1.089 3 3 =0.540 =0.540 4 4=0.038=0.038对应的特征向量分别为对应的特征向量分别为对应的特征向量分别为对应的特征向量分别为应应用用用用统计统计学学学学精品精品精品精品课课程程程程这样就可以得到这样就可以得到4 4个主成份。其第一、第二主成份分别为个主成份。其第一、第二主成份分别为应应用用用用统计统计学学学学精品精品精品精品课课程程程程 根据小节中的结论(根据小节中的结论(根据小节中的结论(根据小节中的结论(2 2 2 2)、()、()、()、(3 3 3 3)可以求出各个主成份的方差和方差)可以求出各个主成份的方差和方差)可以求出各个主成份的方差和方差)可以求出各个主成份的方差和方差贡献,见表贡献,见表贡献,见表贡献,见表10.1310.1310.1310.13。主成份可解释的方差方差贡献率累计方差贡献率Y12.3330.5830.583Y21.0890.2720.855Y30.5400.1350.990Y40.0380.0101.0004.0001.000表表表表10.13 10.13 10.13 10.13 方差贡献方差贡献方差贡献方差贡献 由表由表由表由表10.1310.1310.1310.13可见可见可见可见 ,前两个主成份的累计方差贡献率达到了,前两个主成份的累计方差贡献率达到了,前两个主成份的累计方差贡献率达到了,前两个主成份的累计方差贡献率达到了85.5%85.5%85.5%85.5%这这这这 就就就就说明如用两个成分说明如用两个成分说明如用两个成分说明如用两个成分Y Y Y Y1 1 1 1 和和和和 Y Y Y Y2 2 2 2 去代替原来的去代替原来的去代替原来的去代替原来的4 4 4 4个变量个变量个变量个变量X X X X1 1 1 1,X,X,X,X2 2 2 2,X,X,X,X3 3 3 3,X,X,X,X4 4 4 4的话,所不的话,所不的话,所不的话,所不能解释的方差不足能解释的方差不足能解释的方差不足能解释的方差不足15%15%15%15%,因此不致损失太多的信息,因此不致损失太多的信息,因此不致损失太多的信息,因此不致损失太多的信息 。利用(。利用(。利用(。利用(10.3310.3310.3310.33)还可以)还可以)还可以)还可以求出因子负荷,表求出因子负荷,表求出因子负荷,表求出因子负荷,表10.14 10.14 10.14 10.14 给出了计算结果。给出了计算结果。给出了计算结果。给出了计算结果。应应用用用用统计统计学学学学精品精品精品精品课课程程程程表表表表10.14 10.14 因子负荷因子负荷因子负荷因子负荷变变 量量Y1Y2X10.7570.211X2-0.412-0.874X30.8320.520X40.948-0.087 由因子负荷表可以看出第一主成份由因子负荷表可以看出第一主成份由因子负荷表可以看出第一主成份由因子负荷表可以看出第一主成份Y Y Y Y1 1 1 1和变量和变量和变量和变量X X X X1 1 1 1,X,X,X,X3 3 3 3,X,X,X,X4 4 4 4关系密切,因关系密切,因关系密切,因关系密切,因此,它的意义或命名应根据此,它的意义或命名应根据此,它的意义或命名应根据此,它的意义或命名应根据X X X X1 1 1 1,X,X,X,X3 3 3 3,X,X,X,X4 4 4 4的意义来决定;第二主成份的意义来决定;第二主成份的意义来决定;第二主成份的意义来决定;第二主成份Y Y Y Y2 2 2 2和和和和X X X X2 2 2 2 的关系最密切,而与的关系最密切,而与的关系最密切,而与的关系最密切,而与X X X X1 1 1 1,X,X,X,X3 3 3 3,X,X,X,X4 4 4 4的关系不密切。的关系不密切。的关系不密切。的关系不密切。应应用用用用统计统计学学学学精品精品精品精品课课程程程程 应应用用用用 统计统计学学学学精品精品精品精品课课程程程程10.4 因子分析因子分析因子分析因子分析 Factor components analysisFactor components analysis10.4.1 10.4.1 因子分析的基本思想因子分析的基本思想因子分析的基本思想因子分析的基本思想10.4.2 10.4.2 子分析的数学表达式子分析的数学表达式子分析的数学表达式子分析的数学表达式10.4.3 10.4.3 正交因子模型与回归模型的比较正交因子模型与回归模型的比较正交因子模型与回归模型的比较正交因子模型与回归模型的比较10.4.4 10.4.4 关于因子负荷的主要结论关于因子负荷的主要结论关于因子负荷的主要结论关于因子负荷的主要结论应用实例应用实例应用实例应用实例应应用用用用 统计统计学学学学精品精品精品精品课课程程程程因子分析的基本思想因子分析的基本思想因子分析的基本思想因子分析的基本思想 因子分析的基本思想是将可以直接观测的变量进行分类,使彼此因子分析的基本思想是将可以直接观测的变量进行分类,使彼此因子分析的基本思想是将可以直接观测的变量进行分类,使彼此因子分析的基本思想是将可以直接观测的变量进行分类,使彼此之间相关性较密切的变量分在同一类中,且使不同类的变量之间的相关之间相关性较密切的变量分在同一类中,且使不同类的变量之间的相关之间相关性较密切的变量分在同一类中,且使不同类的变量之间的相关之间相关性较密切的变量分在同一类中,且使不同类的变量之间的相关性尽量降低。这样每一类的变量实质上代表了一个本质因子。因子分析性尽量降低。这样每一类的变量实质上代表了一个本质因子。因子分析性尽量降低。这样每一类的变量实质上代表了一个本质因子。因子分析性尽量降低。这样每一类的变量实质上代表了一个本质因子。因子分析就是要就是要就是要就是要寻找这种类型的模型或结构。寻找这种类型的模型或结构。寻找这种类型的模型或结构。寻找这种类型的模型或结构。因子分析的数学表达式因子分析的数学表达式因子分析的数学表达式因子分析的数学表达式 设设设设m m m m个变量的个变量的个变量的个变量的n n n n个样品的观测数据矩阵为个样品的观测数据矩阵为个样品的观测数据矩阵为个样品的观测数据矩阵为 由于由于由于由于X X X X1 1 1 1,XXXXm m m m之间可能互相独立,也可能彼此相关,因此,我们将之间可能互相独立,也可能彼此相关,因此,我们将之间可能互相独立,也可能彼此相关,因此,我们将之间可能互相独立,也可能彼此相关,因此,我们将m m m m个个个个变量变量变量变量X X X Xi i i i(i=1,m)i=1,m)i=1,m)i=1,m)表示成因子表示成因子表示成因子表示成因子F F F F1 1 1 1FFFFP P P P以及因子以及因子以及因子以及因子u u u ui i i i(i=1,m)(i=1,m)(i=1,m)(i=1,m)的线性组合的线性组合的线性组合的线性组合应应用用用用统计统计学学学学精品精品精品精品课课程程程程应应用用用用统计统计学学学学精品精品精品精品课课程程程程 式中,式中,式中,式中,F F F FK K K K(K=1,P)(K=1,P)(K=1,P)(K=1,P)与所有的变量与所有的变量与所有的变量与所有的变量X X X X1 1 1 1,XXXXm m m m都有关,称为公共因子;都有关,称为公共因子;都有关,称为公共因子;都有关,称为公共因子;而而而而u u u ui i i i(i=1,m)(i=1,m)(i=1,m)(i=1,m)仅与相应的一个变量仅与相应的一个变量仅与相应的一个变量仅与相应的一个变量X X X Xi i i i有关,称为单因子。公共因子的有关,称为单因子。公共因子的有关,称为单因子。公共因子的有关,称为单因子。公共因子的系数系数系数系数a a a aikikikik(i=1,p)(i=1,p)(i=1,p)(i=1,p)称为第称为第称为第称为第i i i i个变量个变量个变量个变量X X X Xi i i i在第在第在第在第k k k k个公共因子个公共因子个公共因子个公共因子F F F FK K K K上的上的上的上的因子载荷因子载荷因子载荷因子载荷。为讨论问题的方便,假定原始变量为讨论问题的方便,假定原始变量为讨论问题的方便,假定原始变量为讨论问题的方便,假定原始变量X Xi i、公共因子、公共因子、公共因子、公共因子F F F FK K K K以及单因以及单因以及单因以及单因子子子子u u u ui i i i均已化为标准化,且各因子互相独立。若进一步假定公共均已化为标准化,且各因子互相独立。若进一步假定公共均已化为标准化,且各因子互相独立。若进一步假定公共均已化为标准化,且各因子互相独立。若进一步假定公共因子因子因子因子F F F F1 1 1 1FFFFP P P P满足满足满足满足EFEFEFEFK K K K=0 (K=1,P)=0 (K=1,P)=0 (K=1,P)=0 (K=1,P)Cov(FCov(FCov(FCov(FK K K K,F,F,F,Ft t t t)=)=)=)=单因子单因子单因子单因子u u u u1 1 1 1,u,u,u,um m m m满足满足满足满足EuEuEuEui i i i=0 (i=1,m)=0 (i=1,m)=0 (i=1,m)=0 (i=1,m)Cov(uCov(uCov(uCov(ui i i i,u,u,u,uj j j j)=)=)=)=以上模型称为以上模型称为以上模型称为以上模型称为正交因子模型正交因子模型正交因子模型正交因子模型。应应用用用用统计统计学学学学精品精品精品精品课课程程程程正交因子模型与回归分析比较正交因子模型与回归分析比较正交因子模型与回归分析比较正交因子模型与回归分析比较 对于线性组合中的一个式子对于线性组合中的一个式子对于线性组合中的一个式子对于线性组合中的一个式子 与多元回归模型与多元回归模型与多元回归模型与多元回归模型 进行比较,可见它们的形式是类似的,但参数的意义与自变进行比较,可见它们的形式是类似的,但参数的意义与自变进行比较,可见它们的形式是类似的,但参数的意义与自变进行比较,可见它们的形式是类似的,但参数的意义与自变量的性质不同,两者的比较详见下页表量的性质不同,两者的比较详见下页表量的性质不同,两者的比较详见下页表量的性质不同,两者的比较详见下页表应应用用用用统计统计学学学学精品精品精品精品课课程程程程正交因子模型与回归模型的比较正交因子模型与回归模型的比较正交因子模型与回归模型的比较正交因子模型与回归模型的比较应应用用用用统计统计学学学学精品精品精品精品课课程程程程回归模型正交因子模型估计的参数回归系数0 1,k,u,的方差Du因子负荷系数ai1,aip,ui的方差Dui自变量的性质X1,XK为可观测的显在变量F1,Fm为不可观测的潜在变量自变量的个数K是已知的P是未知的,需要估计自变量之间的关系可能相关是相互独立的关于因子负荷的主要结论关于因子负荷的主要结论关于因子负荷的主要结论关于因子负荷的主要结论 由因子模型系数构成的矩阵由因子模型系数构成的矩阵由因子模型系数构成的矩阵由因子模型系数构成的矩阵 称为因子负荷矩阵。它具有以下结论,见下页称为因子负荷矩阵。它具有以下结论,见下页称为因子负荷矩阵。它具有以下结论,见下页称为因子负荷矩阵。它具有以下结论,见下页应应用用用用统计统计学学学学精品精品精品精品课课程程程程(1 1)因子负