实用多元统计分析.ppt
《实用多元统计分析.ppt》由会员分享,可在线阅读,更多相关《实用多元统计分析.ppt(52页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、应应用用用用统计统计学学学学精品精品精品精品课课程程程程第十章第十章 实用多元用多元统计分析分析Unit ten practical multi-dimensionalUnit ten practical multi-dimensional statistical analysis statistical analysis西安理工大西安理工大学学工程管理系工程管理系 马斌斌 余梁蜀余梁蜀Project Management Department of XIAn Project Management Department of XIAn University of TechnologyUnive
2、rsity of TechnologyMa Bing Yu Liangshu Ma Bing Yu Liangshu 应应用用用用统计统计学学学学精品精品精品精品课课程程程程 聚聚聚聚类类分析分析分析分析 Cluster analysisCluster analysis10.110.210.310.4 判判判判别别分析分析分析分析 Distinction analysisDistinction analysis 主成分分析主成分分析主成分分析主成分分析 Principal components analysisPrincipal components analysis 因子分析因子分析因子分析
3、因子分析 Factor components analysisFactor components analysis应应用用用用统计统计学学学学精品精品精品精品课课程程程程10.1 聚聚聚聚类类分析分析分析分析 Cluster analysisCluster analysis10.1.1 10.1.1 10.1.1 10.1.1 数据的处理数据的处理数据的处理数据的处理10.1.2 10.1.2 10.1.2 10.1.2 聚类分析中的统计量聚类分析中的统计量聚类分析中的统计量聚类分析中的统计量10.1.3 10.1.3 10.1.3 10.1.3 分类的形成分类的形成分类的形成分类的形成应应用
4、用用用统计统计学学学学精品精品精品精品课课程程程程聚类分析聚类分析Q 型型R 型型样品的分类样品的分类指标(变量)的分类指标(变量)的分类应应用用用用统计统计学学学学精品精品精品精品课课程程程程10.1.1 10.1.1 数据的处理数据的处理数据的处理数据的处理在工程项目中,假定对在工程项目中,假定对在工程项目中,假定对在工程项目中,假定对n n个样品测定其个样品测定其个样品测定其个样品测定其mm个指标,得到以下数据矩阵个指标,得到以下数据矩阵个指标,得到以下数据矩阵个指标,得到以下数据矩阵其中,其中,其中,其中,X X X Xijijijij是第是第是第是第i i i i个样品个样品个样品个
5、样品j j j j个指标(变量)的观测值。个指标(变量)的观测值。个指标(变量)的观测值。个指标(变量)的观测值。如果各个指标的测量单位如果各个指标的测量单位如果各个指标的测量单位如果各个指标的测量单位、测量结果的数量级及数值变动范围存在测量结果的数量级及数值变动范围存在测量结果的数量级及数值变动范围存在测量结果的数量级及数值变动范围存在很大的差异,我们就有必要在分类之前对数锯进行很大的差异,我们就有必要在分类之前对数锯进行很大的差异,我们就有必要在分类之前对数锯进行很大的差异,我们就有必要在分类之前对数锯进行标准化标准化标准化标准化或或或或正规划正规划正规划正规划。1 1 1 1)数据的标准
6、化)数据的标准化)数据的标准化)数据的标准化令令令令 (i=1,2,;j=1,2,m)i=1,2,;j=1,2,m)i=1,2,;j=1,2,m)i=1,2,;j=1,2,m)其中,其中,其中,其中,通过上述变换的变量通过上述变换的变量通过上述变换的变量通过上述变换的变量Y Y Y Yijijijij是标准化变量,这时,它的均值为是标准化变量,这时,它的均值为是标准化变量,这时,它的均值为是标准化变量,这时,它的均值为0 0 0 0,标准差为,标准差为,标准差为,标准差为1 1 1 1。2 2 2 2)数据的正规化)数据的正规化)数据的正规化)数据的正规化令令令令应应用用用用统计统计学学学学精
7、品精品精品精品课课程程程程 其中,其中,其中,其中,是数据第是数据第是数据第是数据第j j列数据中的最小值;列数据中的最小值;列数据中的最小值;列数据中的最小值;是数据阵第是数据阵第是数据阵第是数据阵第j j列数据列数据列数据列数据中的最大值;中的最大值;中的最大值;中的最大值;是第是第是第是第j j列数据的级差。通过正规化变换后的数据列数据的级差。通过正规化变换后的数据列数据的级差。通过正规化变换后的数据列数据的级差。通过正规化变换后的数据阵中的每一列出现阵中的每一列出现阵中的每一列出现阵中的每一列出现0 0与与与与1 1各至少各至少各至少各至少1 1个,其余则介于个,其余则介于个,其余则介
8、于个,其余则介于0 0与与与与1 1之间。之间。之间。之间。聚类分析中的统计量聚类分析中的统计量聚类分析中的统计量聚类分析中的统计量1 1)样品或指标间相似程度的类型)样品或指标间相似程度的类型)样品或指标间相似程度的类型)样品或指标间相似程度的类型 两个样品或指标对应的的两行(列)对应的元素比较接近两个样品或指标对应的的两行(列)对应的元素比较接近两个样品或指标对应的的两行(列)对应的元素比较接近两个样品或指标对应的的两行(列)对应的元素比较接近,具有成具有成具有成具有成比例比例比例比例关系关系关系关系或或或或互相消长互相消长互相消长互相消长的关系。的关系。的关系。的关系。应应用用用用统计统
9、计学学学学精品精品精品精品课课程程程程2)衡量样品或指标间相似性的统计量的类型)衡量样品或指标间相似性的统计量的类型(1)距离系数)距离系数在实际应用中,常用下式表达作为距离系数在实际应用中,常用下式表达作为距离系数 显然,对于正规化的数据,有显然,对于正规化的数据,有(,)(,)d(,)(,)越小。第越小。第i个变量与第个变量与第j个变量就越相似;反之,相似性就越小。个变量就越相似;反之,相似性就越小。应应用用用用统计统计学学学学精品精品精品精品课课程程程程()相似系数()相似系数 显然,显然,cos ij cos ij绝对值越大,第绝对值越大,第i个变量的与第个变量的与第j个变量就越相似,
10、反之相反。个变量就越相似,反之相反。应应用用用用统计统计学学学学精品精品精品精品课课程程程程()相关系数()相关系数 显然显然,R(i,j)R(i,j)的绝对值越大,第个变量与第的绝对值越大,第个变量与第个变量之间的关系就越密切;反之,就越不密切。个变量之间的关系就越密切;反之,就越不密切。应应用用用用统计统计学学学学精品精品精品精品课课程程程程 分类的形成分类的形成 原则:原则:()若选出的一对变量未曾连接过,就连结为一组。()若选出的一对变量未曾连接过,就连结为一组。()若选出的变量对中,有一个已同别的连结成组,则把另一个变量()若选出的变量对中,有一个已同别的连结成组,则把另一个变量 与
11、这个组连接。与这个组连接。()若对选出的变量分别在已连结好的两组内,则把这两个组连结。()若对选出的变量分别在已连结好的两组内,则把这两个组连结。应应用用用用统计统计学学学学精品精品精品精品课课程程程程 应应用用用用统计统计学学学学精品精品精品精品课课程程程程10.2 判判判判别别分析分析分析分析 Distinction analysisDistinction analysis基本思想基本思想基本思想基本思想线性判别函数线性判别函数线性判别函数线性判别函数判别指标与判别法则判别指标与判别法则判别指标与判别法则判别指标与判别法则应应用用用用统计统计学学学学精品精品精品精品课课程程程程多组判别多组
12、判别多组判别多组判别组数为组数为组数为组数为2 2组数大于组数大于组数大于组数大于2 2两组判别两组判别两组判别两组判别多组判别多组判别多组判别多组判别应应用用用用统计统计学学学学精品精品精品精品课课程程程程 10.2.1 10.2.1 基本思想基本思想基本思想基本思想 判别函数,记作判别函数,记作判别函数,记作判别函数,记作 Z=Z(YZ=Z(Y1 1,Y,YP P)均值均值均值均值同样,对于总体同样,对于总体同样,对于总体同样,对于总体X X2 2有均值有均值有均值有均值 通过判别分析的方法,可以构造出一个介于通过判别分析的方法,可以构造出一个介于通过判别分析的方法,可以构造出一个介于通过
13、判别分析的方法,可以构造出一个介于 和和和和 之间的指标之间的指标之间的指标之间的指标Z ZC C,设设设设Z Z为某个待定判别的判别值。为某个待定判别的判别值。为某个待定判别的判别值。为某个待定判别的判别值。应应用用用用统计统计学学学学精品精品精品精品课课程程程程线性判别函数线性判别函数线性判别函数线性判别函数 判别函数判别函数判别函数判别函数 其中,其中,其中,其中,C C1 1,C,CP P是待定系数。通过下是待定系数。通过下是待定系数。通过下是待定系数。通过下式可以确定式可以确定式可以确定式可以确定C C1 1,C,CP P。应应用用用用统计统计学学学学精品精品精品精品课课程程程程判别
14、指标与判别法则判别指标与判别法则判别指标与判别法则判别指标与判别法则 根据判别函数可求得根据判别函数可求得根据判别函数可求得根据判别函数可求得 和和和和 ,通常可以用它们的,通常可以用它们的,通常可以用它们的,通常可以用它们的加权平均作为判别指标,即有加权平均作为判别指标,即有加权平均作为判别指标,即有加权平均作为判别指标,即有应应用用用用统计统计学学学学精品精品精品精品课课程程程程 这样我们有以下判别法则:设为某一判别样品的判别值,则这样我们有以下判别法则:设为某一判别样品的判别值,则这样我们有以下判别法则:设为某一判别样品的判别值,则这样我们有以下判别法则:设为某一判别样品的判别值,则应应
15、用用用用统计统计学学学学精品精品精品精品课课程程程程 10.2.4 10.2.4 10.2.4 10.2.4 判别函数的评价判别函数的评价判别函数的评价判别函数的评价 对于判别函数对于判别函数对于判别函数对于判别函数 其有效性需要进行检验。其有效性需要进行检验。其有效性需要进行检验。其有效性需要进行检验。在统计学中,常采用马哈拉诺比斯在统计学中,常采用马哈拉诺比斯在统计学中,常采用马哈拉诺比斯在统计学中,常采用马哈拉诺比斯D D D D2 2 2 2统计量统计量统计量统计量 D D D D2 2 2 2可直观地设想为总体可直观地设想为总体可直观地设想为总体可直观地设想为总体X X X X1 1
16、 1 1和和和和X X X X2 2 2 2之间的距离(称为综合距离系数函数)。之间的距离(称为综合距离系数函数)。之间的距离(称为综合距离系数函数)。之间的距离(称为综合距离系数函数)。可以证明统计量可以证明统计量可以证明统计量可以证明统计量 服从第一自由度为服从第一自由度为服从第一自由度为服从第一自由度为P P P P,第二自由度为,第二自由度为,第二自由度为,第二自由度为n n n n1 1 1 1+n+n+n+n2 2 2 2-p-1-p-1-p-1-p-1的的的的F F F F分布。这样可以查分布。这样可以查分布。这样可以查分布。这样可以查F F F F分布进行检验并评价判别函数。分
17、布进行检验并评价判别函数。分布进行检验并评价判别函数。分布进行检验并评价判别函数。应应用用用用统计统计学学学学精品精品精品精品课课程程程程实际中,先求出实际中,先求出实际中,先求出实际中,先求出 再求出各判别变量再求出各判别变量再求出各判别变量再求出各判别变量Y Y Y Yt t t t(t=1,p)(t=1,p)(t=1,p)(t=1,p)的的的的贡献系数贡献系数贡献系数贡献系数对对对对“贡献贡献贡献贡献”小的判别变量可根据实际情况筛选掉。小的判别变量可根据实际情况筛选掉。小的判别变量可根据实际情况筛选掉。小的判别变量可根据实际情况筛选掉。应应用用用用统计统计学学学学精品精品精品精品课课程程
18、程程统计统计学学学学精品精品精品精品课课程程程程10.3 主成分分析主成分分析主成分分析主成分分析 Principal components analysisPrincipal components analysis10.3.1 10.3.1 主成份分析主成份分析主成份分析主成份分析10.3.2 10.3.2 主成份的导出主成份的导出主成份的导出主成份的导出10.3.3 10.3.3 主成份的定义主成份的定义主成份的定义主成份的定义主成份的性质主成份的性质主成份的性质主成份的性质应用实例应用实例应用实例应用实例 主成分分析法主成分分析法主成分分析法主成分分析法是多元统计分析中的一种,是一种简化
19、数据结构的方是多元统计分析中的一种,是一种简化数据结构的方是多元统计分析中的一种,是一种简化数据结构的方是多元统计分析中的一种,是一种简化数据结构的方法。它用于将多个变量变换为少数几个综合变量,这几个综合变量变换法。它用于将多个变量变换为少数几个综合变量,这几个综合变量变换法。它用于将多个变量变换为少数几个综合变量,这几个综合变量变换法。它用于将多个变量变换为少数几个综合变量,这几个综合变量变换为少数几个综合变量,这几个综合变量可以反映原来多个变量的大部分为少数几个综合变量,这几个综合变量可以反映原来多个变量的大部分为少数几个综合变量,这几个综合变量可以反映原来多个变量的大部分为少数几个综合变
20、量,这几个综合变量可以反映原来多个变量的大部分信息,而它们相互之间又是无关的。信息,而它们相互之间又是无关的。信息,而它们相互之间又是无关的。信息,而它们相互之间又是无关的。统计统计学学学学精品精品精品精品课课程程程程 主成分的概念主成分的概念主成分的概念主成分的概念 在项目管理中,假定对在项目管理中,假定对在项目管理中,假定对在项目管理中,假定对n n个样品测定其个样品测定其个样品测定其个样品测定其mm个指标(变量)个指标(变量)个指标(变量)个指标(变量)X X1 1,XXmm得以下数据矩阵得以下数据矩阵得以下数据矩阵得以下数据矩阵 以后我们将原指标记为以后我们将原指标记为以后我们将原指标
21、记为以后我们将原指标记为X X X X1 1 1 1,XXXXm m m m,将它们的主成分记为将它们的主成分记为将它们的主成分记为将它们的主成分记为Y Y Y Y1 1 1 1,Y,Y,Y,Ym m m m.当当当当m=2m=2m=2m=2时,原指标记为时,原指标记为时,原指标记为时,原指标记为X X X X1 1 1 1和和和和X X X X2,2,2,2,其关系见下页图其关系见下页图其关系见下页图其关系见下页图应应用用用用统计统计学学学学精品精品精品精品课课程程程程 容易看出容易看出容易看出容易看出Y Y Y Y1 1 1 1将将将将X X X X1 1 1 1和和和和X X X X2,
22、2,2,2,的主要信的主要信的主要信的主要信息都反映了。那么用息都反映了。那么用息都反映了。那么用息都反映了。那么用Y Y Y Y1 1 1 1来表达来表达来表达来表达X X X X1 1 1 1和和和和X X X X2,2,2,2,还是不错的。还是不错的。还是不错的。还是不错的。如果取椭圆的短轴作为第二主如果取椭圆的短轴作为第二主如果取椭圆的短轴作为第二主如果取椭圆的短轴作为第二主成分成分成分成分Y Y Y Y2 2 2 2,那么,图,那么,图,那么,图,那么,图10.210.210.210.2上的点,对上的点,对上的点,对上的点,对原指标原指标原指标原指标X X X X1 1 1 1,X
23、X X X2,2,2,2,的值记为的值记为的值记为的值记为X X X X1t1t1t1t和和和和X X X Xt2t2t2t2(t=1,n),(t=1,n),(t=1,n),(t=1,n),对主成分对主成分对主成分对主成分Y Y Y Y2 2 2 2的值记为的值记为的值记为的值记为Y Y Y Y1t1t1t1t,Y Y Y Yt2t2t2t2(t=1,n),(t=1,n),(t=1,n),(t=1,n),则有则有则有则有应应用用用用统计统计学学学学精品精品精品精品课课程程程程 所谓所谓所谓所谓Y Y Y Y1 1 1 1反映的信息,就是反映的信息,就是反映的信息,就是反映的信息,就是 在整个平
24、方和中所占的比例越在整个平方和中所占的比例越在整个平方和中所占的比例越在整个平方和中所占的比例越大越好,即大越好,即大越好,即大越好,即Y Y Y Y1 1 1 1的平方和(或方差)越大越好。的平方和(或方差)越大越好。的平方和(或方差)越大越好。的平方和(或方差)越大越好。主成分的导出主成分的导出主成分的导出主成分的导出 在标准化的情况下,样本的相关系数即为样本协方差,即在标准化的情况下,样本的相关系数即为样本协方差,即在标准化的情况下,样本的相关系数即为样本协方差,即在标准化的情况下,样本的相关系数即为样本协方差,即应应用用用用统计统计学学学学精品精品精品精品课课程程程程 对于数据矩阵(对
25、于数据矩阵(对于数据矩阵(对于数据矩阵(10.110.110.110.1),其样本相关矩阵),其样本相关矩阵),其样本相关矩阵),其样本相关矩阵R R R R和样本协方差矩阵和样本协方差矩阵和样本协方差矩阵和样本协方差矩阵S S S S相相相相同,即同,即同,即同,即为了导出主成分,只须求为了导出主成分,只须求为了导出主成分,只须求为了导出主成分,只须求R R R R或或或或S S S S阵的特征根和特征向量即可。阵的特征根和特征向量即可。阵的特征根和特征向量即可。阵的特征根和特征向量即可。应应用用用用统计统计学学学学精品精品精品精品课课程程程程 主成分的定义主成分的定义主成分的定义主成分的定
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 实用 多元 统计分析
限制150内