第十一章多元统计分析.doc





《第十一章多元统计分析.doc》由会员分享,可在线阅读,更多相关《第十一章多元统计分析.doc(36页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、第十一章 多元统计分析第一节 聚类分析聚类分析起源于分类学,在考古的分类学中,人们主要依靠经验和专业知识来实现分类,随着生产技术和科学的发展,分类越来越细,要求越来越高,仅靠经验和专业知识不能进行确切的分类,于是统计这个有用的工具逐渐被引进到分类学中,形成数值分类学。后来,数理统计的多元方法被引入到分类学中,从分类学中逐渐分离出聚类分析这个新的分支,逐渐形成了今天在自然科学领域及社会经济领域里广泛应用的聚类分析。聚类分析是多元统计分析方法中的一种,它是根据样品的多种指标的数据,定量的确定它们之间存在的相似性,根据这些样品或指标的相似程度,将其归为若干个类群,构成分类谱系图。聚类分析可以分为Q型
2、与R型两种,Q型聚类主要用于样品的分类,R型聚类主要用于指标的分类。基本思想:选择一个统计量用来衡量对象间的相似程度,按照相似程度的大小依次进行连结,从而绘制出分类谱系图。本节主要讨论Q型聚类分析。一、数据的变换处理在一些社会经济问题中,假设对n个样品测试其p个指标,得到如下数据矩阵:其中,Xij是第i个样品的第j个指标的观测值。特别,当各个指标的测量单位,测量结果的量纲存在较大差异时,有必要聚类之前对数据作相应得变换处理。1、 数据的中心化中心化变换是一种坐标轴平移处理方法,它是先求出每个变量的样本平均值,再从原始数据中减去该变量的均值,就得到中心化变换后的数据。令 其中: 中心化变换的结果
3、是使每列数据之和均为0,即每个变量的均值为0。2、 数据的正规化规格化变换是从数据矩阵的每一个变量中找出其最大值和最小值,这两者之差称为极差,然后从每个变量的每个原始数据中减去该变量中的最小值,再除以极差,就得到规格化数据。即有: 经过规格化变换后,数据矩阵中每列即每个变量的最大数值为1,最小数值为0,其余数据取值均在01之间;并且变换后的数据都不再具有量纲,便于不同的变量之间的比较。3、 数据的标准化标准化变换也是对变量的数值和量纲进行类似于规格化变换的一种数据处理方法。首先对每个变量进行中心化变换,然后用该变量的标准差进行标准化。即有:经过标准化变换处理后,每个变量即数据矩阵中每列数据的平
4、均值为0,方差为1,且也不再具有量纲,同样也便于不同变量之间的比较。二、聚类分析中的统计量研究样品或变量的亲疏程度的数量指标有两种,一种叫相似系数,性质越接近的变量或样品,它们的相似系数越接近于1或一l,而彼此无关的变量或样品它们的相似系数则越接近于0,相似的为一类,不相似的为不同类;另一种叫距离,它是将每一个样品看作p维空间的一个点,并用某种度量测量点与点之间的距离,距离较近的归为一类,距离较远的点应属于不同的类。1、 距离在Q型聚类中,如果把n个样品(X中的n行)看成p维空间中的n个点,则两个样品间的相似程度可用p维空间中的两点的距离来度量。令表示样品与的距离。常用的距离:对于正规化的数据
5、,有。越小,第i个样品与第j个样品就越相似;反之,相似性就越小。2、 相似系数研究样品之间的关系,除了用距离表示外,还有相似系数,顾名思义,相思系数是描述样品之间相似程度的一个度量,常用相似系数有:(1)夹角余弦将任何两个样品与看成p维空间的两个向量,这两个变量的余弦用表示,即为两个样品的相似系数:其中,。当接近于1,说明与相似密切;,说明与完全不一样;越接近于0,说明与差别大。(2)相关系数将第i个样品与第j个样品之间的相关系数定义为:其中: 其中,。当接近于1,说明与相似密切;,说明与完全不一样;越接近于0,说明与差别大。由以上定义可知,对于标准化数据而言,相关系数与相似系数这两个统计量是
6、完全一样的。三、分类的步骤分类之初,所有样品自成一类。(1) 计算n个样品两两之间的距离,记作D=()(2) 合并距离最近的两类为一新类(3) 计算新类于当前各类的距离(4) 画聚类图(5) 决定分类个数和类在连结过程中,可采取最长距离法、中间距离法、最短距离法、重心法类、平均法等,根据实际情况选择。四、案例分析为了更深入了解我国人口文化现状程度,利用2006年全国人口变动情况抽样调查样本数据对全国31个省、市、自治区进行聚类分析。分析选取了三个指标:(1)大专及以上文化程度的人口占全部人口的百分比(x1)(2)高中化程度的人口占全部人口的百分比(x2)(3)初中文化程度的人口占全部人口的百分
7、比(x3)分别来反映较高、中等、较低文化程度人口的状况,原始数据如下表:2006年全国人口变动情况抽样调查文化程度人口比例地区x1x2x3北 京29.3623.1529.47天 津15.2222.7836.44河 北3.9311.4347.36山 西6.6514.647.28内蒙古6.5114.7239.76辽 宁9.5714.6545.18吉 林7.0216.9141.98黑龙江6.1114.8244.52上 海21.8325.8833.3江 苏7.2415.238.62浙 江8.4212.9134.83安 徽4.729.6138.51福 建5.8312.3934.13江 西4.7411.4
8、834.46山 东5.7313.3241.88河 南4.1411.4847.98湖 北7.7115.2737.42湖 南5.0713.9339.86广 东5.715.0942.06广 西4.5711.6641海 南5.4313.5743.86重 庆4.4910.9333.45四 川4.519.231.17贵 州2.726.3830.28云 南3.16.7628.33西 藏1.062.8411.22陕 西7.4615.1238.79甘 肃3.311.5430.82青 海5.9510.7727.72宁 夏7.2712.1833.05新 疆8.6911.4537.51数据来源:中国统计年鉴2007(
9、4-12)计算样品之间的欧式距离,使用Ward系统聚类法,将上机结果按地区画出聚类图如下:根据聚类图把31个样品分为四类能更好的反映我国实际情况。第一类:北京、上海、天津。经济文化相对发达的直辖市。第二类:江西、重庆、福建、宁夏、浙江、云南、贵州、四川、甘肃、青海。其中除浙江、福建外,大多是西部经济文化欠发达地区。浙江、福建较发达省份出现在这一类可能与近年来较多西部省份打工者涌入,人口变动有关。第三类:西藏。经济文化较落后的地区。第四类:其他省、直辖市、自治区。经济、文化在全国处于中等水平。第二节 判别分析判别分析是一种根据观测变量判断研究样本如何分类的多变量统计方法,它对于需要根据对样本中每
10、个个案的观测来建立一个分组预测模式的情况是非常适用的。与聚类分析不同,判别分析是在已知研究对象分成若干类型并已取得各种类型的一批已知样品的观测数据,在此基础上根据某些准则建立判别式,然后对未知类型的样品进行判别分类。 对于聚类分析来说,一批给定样品要划分的类型事先并不知道,正需要通过聚类分析来给以确定。因此,判别分析和聚类分析往往联合起来应用。例如,可先用聚类分析对原来的一批分类不清楚的样品进行分类,然后再用判别分析建立判别式对新样品进行判别。判别分析的主要用于识别一个个体所属类别。包括预测新产品的成功与失败、决定一个学生师傅被录取、确定某人的信用风险的种类或者某人是否是某一特定险种的目标客户
11、等。判别分析按照判别的组数来分,有两组判别分析和多组判别分析。根据不同的判断准则衍生出多种判别分析方法,常用的判别方法包括距离判别法、fisher判别法、Bayes判别法和逐步判别法。为了便于原理性的说明,我们仅讨论两总体的fisher判别。一、fisher判别的基本思想Fisher判别的思想是投影,将两组p维数据投影到某一个方向,使得它们的投影组和组之间尽可能的分开,将待判样品也作相应的投影,从而判定其归属组。如图:具体得做法:从两类总体中抽取具有个指标的样品的观测数据,借助于方差分析的思想构造一个判别函数,即 其中系数 确定的原则是使两组间的组间离差最大,而每个组的组内离差最小。当建立了判
12、别式以后,对一个新的样品值,我们可以将他的P个指标值代入判别式中求出Y值,然后与某个临界值比较,就可以将该样品归某类。假设我们可以得到一个线性判别函数:我们可以把两个总体的样品代入上面的判别式,得:分别对上面两式左右相加,再除以样品个数,可得两个总体的重心:最佳的线性判别函数应该是:两个重心的距离越大越好,两个组内的离差平方和越小越好。组间的离差:组内离差:二、判别函数的确定 从fisher判别的整个过程可知,对于判别函数的确定是关键,根据fisher 准则:要使两组样品的p个变量经过线形变换后形成一个新变量,若要使得每个样品的新变量的值使两组样品能区分得好,关键是要使两组样品的重心距离很大,
13、且使各组组内的离差平方和为最小。即要求 ( 11.1) 为最大。根据微积分求极值的必要条件可求出使I达到最大值的c1,c2,cp。对(11.1)两边取对数得:令 (k=1,p)得即 (k=1,p)计算得: ( )得到判别函数:三、判别准则定义临界点为: , 不妨假定:如果由原始数据y求得判别函数得分为Y*,对与一个样品代入判别函数中,若Y*Y0,则判给G1,否则判给G2。四、实例分析为了研究中小企业的破产模型,我们选定4个经济指标: (1) X1总负债率(现金收益/总负债) (2)X2收益性指标(纯收入/总财产) (3)X3短期支付能力(流动资产/流动负债) (4)X4生产效率性指标(流动资产
14、/纯销售额)对17个破产企业(1类)和21个正常运行企业(2类)进行了调查,得如下资料:(1)建立判别式经计算得: 从而: 因此,判别式为:(2)求判别临界值y0, 对所给样品判别分类= -0.987 =0.799因此 =0由于,当样品带入判别式后,如果y*,则被判为第二组。回判结果如下:样品序列号y值原类号回判组别1234567891011121314151617181920212223242526272829303132333435363738-1.87498-1.83522-0.95892-0.78017-1.02595-1.59139-1.87648-0.61102-0.38331-1
15、.653470.011210.60156-0.87087-0.81188-1.00669-0.66301-1.452081.31602-0.209961.512140.377382.083472.205440.16587-0.367850.46247-0.164380.068480.93511-0.997790.36822-0.474130.494422.883530.186481.529260.59673.811791111111111111111122222222222222222222211111111112211111212222212122121222222待判样品判别结果:样品序列
16、y值判属组别 3940414243444546-0.81204-0.93329-0.57936-1.021570.095680.411620.315341.3042311112222 上述回判结果表明,第一组的第11、12号被判回第二组,说明第11、12号样品被误分,第11、12 号企业之前被误判为破产企业,其实为正常企业。而第二组的第19、25、27、30、32号样品被回判到第一组,说明这5家企业被误判为正常企业,其实为破产企业。总的回代判对率为31/38=81.6%。第三节 主成分分析在社会经济的研究中,为了全面系统的分析和研究问题,必须考虑与之相关的许多经济指标,这样就产生了如下问题:一
17、方面这些指标能从不同的侧面反映我们所研究的对象的特征,而另一方面随着考虑指标的增多增加了问题的复杂性,同时在某种程度上存在信息的重叠,这种信息的重叠甚至会抹杀事物的真正特征与内在规律。主成分分析(Principal Components Analysis,PCA)是一种试图在力保数据信息丢失最少的原则下,通过降维来简化数据结构的方法。通过主成分析,可以将多个变量(指标)化为少数几个相互无关的综合变量(综合指标),称之为主成分,其中每个主成分都是原始变量的线形组合,且各个主成分之间互不相关,这就使得主成分比原始变量具有某些更优越的性能。在考虑复杂问题的时候就可以只考虑少数几个主要成分而不至于损失
18、太多信息,从而更容易抓住主要矛盾,揭示事物内部变量之间的规律性,简化问题,同时提高效率。本节主要介绍主成分分析的基本理论和方法及主成分分析的计算步骤。一、主成分分析的基本思想 主成分分析就是设法将原来众多具有一定相关性的指标(比如p个指标),组合成一组新的相互无关的综合指标,即将原来p个指标作线性组合,作为新的综合指标。如果将选取的第一线性组合即第一个综合指标F1,自然希望F1尽可能多的反应原来指标信息,这里的“信息”用F1的方差来表达,即F1的方差越大,表示F1包含的信息越多。因此在所有的线性组合中所选的F1应该是方差最大的,故称F1为第一主成分。如果第一主成分不足以代表原来p个指标的信息再
19、考虑选取F2即第二个线性组合,为有效的反映原来信息,F1已有的信息不需要再出现在F2中了,即Cov(F1, F2)=0,同理可构造第三,第四,第p个主成分,这些主成分之间不相关且方差递减。实际处理问题时只挑选前几个最大主成分。二、主成分分析的数学模型及几何意义(一)数学模型假设对某一事物的研究涉及到p个指标,假定对n个样品测定其p个指标,X1,Xp,得到如下数据矩阵: (X1,X2,Xp) (公式11.1)其中, i=1,p用矩阵X的p个向量X1,X2,Xp作的线性组合即X矩阵的第1到第p个主成分表示为:其中,上述方程要求:且系数由以下原则决定:(1)与(ij,i,j=1,p)不相关;(2)是
20、X1,X2,Xp的一切线性组合中方差最大的,是与无关的X1,X2,Xp的一切线性组合中方差最大的,是与F1,F2,Fp-1无关的X1,X2,Xp的一切线性组合中方差最大的。(二)主成分的几何意义以下我们将原始指标标记为X1,Xp,将它们的主成分记为F1,Fp。为了方便,我们在二维空间中讨论主成分几何意义。即当p=2时,每个样品有两个观测变量X1和X2,在由变量X1和X2 所确定的二维平面中,n个样本点所散布的情况如椭圆状。由上图所示这n个样本点无论是沿着Xl 轴方向或X2轴方向都具有较大的离散性,其离散的程度可以分别用观测变量Xl的方差和X2的方差定量地表示。显然,如果只考虑Xl和X2中的任何
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 第十一章 多元统计分析 第十一 多元 统计分析

限制150内