本文运用多元统计分析中介绍的主成分分析方法和聚类分.pdf
《本文运用多元统计分析中介绍的主成分分析方法和聚类分.pdf》由会员分享,可在线阅读,更多相关《本文运用多元统计分析中介绍的主成分分析方法和聚类分.pdf(13页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、武汉理工大学多元统计分析课程设计1我国各省市的污染类型分析摘要本文运用多元统计分析中介绍的主成分分析方法和聚类分析方法,在 2006 年中国统计年鉴所提供的数据基础上,对所列出的 31 个省,市,自治区的环境指标进行主成分分析后再以所得到的因子进行聚类分析,从而确定每个城市所处的类别得出其环境污染类型。针对不同的污染类型,需要有侧重的进行治理,为环保部门提供一些依据。关键词关键词:主成分分析;因子分析;皮尔逊相关系数The PollutionTypeAnalysis of Our CountrysEvery ProvinceAbstractIn this article the factor
2、analysis method and clustering analysis method which are introduced inthe Applied Multivariate Statistical Analysis are used.On the number supplied by the ChinaYearbook 2006,we use the factor analysis method to analysis the 10 environment variancesabout the given 31 provinces in order to get the mai
3、n factors.Then,we can cluster the provincesby the main factors,so we can know the pollution type after clustering.Todifferent pollutiontype,different method are needed.Wewant to give some advices to the Environment ProtectionDepartment by the result of this article.Keywords:Keywords:Keywords:Keyword
4、s:Main Component Analysis,Factor Analysis,Pearson Correlation武汉理工大学多元统计分析课程设计21.引言由于人们对工业高度发达的负面影响预料不够,预防不利,导致了全球性的三大危机:资源短缺,环境污染,生态破坏。环境保护,随着现在时代的进步,人民生活水平的提高,这一字眼在人们的生活中出现的次数也越来越频繁。由于我国现在正处于迅速推进工业化和城市化的发展阶段,对自然资源的开发强度不断加大,加之粗放型的经济增长方式,技术水平和管理水平比较落后,污染物排放量不断增加。从全国总的情况来看,我国环境污染仍在加剧,生态恶化积重难返,环境形势不容乐观
5、。我国的环境污染现状已经到了非常严重的地步了,最近爆发的太湖水污染事件充分说明了事情的严重性。水污染事件的发生导致沐阳 20 多万人没有干净水喝,这还只是单一方面的污染事件。有专家预计,我国很多水域都有可能发生类似的大面积的污染事件。因此,充分认识各个地区的环境污染特点,有针对性的采取相应的措施,虽然环境污染并不是只影响单一区域,而具有全球性影响,但是各个地区将本地的污染最严重的方面进行治理后,将对治理全国范围内的污染有比较好的效果。2理论部分2.1 主成分分析主成分分析所关心的问题,是通过一组变量的几个线形组合来解释这组变量的方差协方差结构。它的一般目的是:(1)数据的压缩;(2)数据的解释
6、。虽要求 P 个成分可以再现全系统的变异性,但大部分变异性常常只用少数 K 个主成分就可说明。这时,这 K 个主成分所包含的信息和那 P 个原变量所包含的信息(几乎)一样多。主成分,在代数学上是 P 个随机变量的一些特殊的线形组合。而在几何学这些线形组合代表选取一1,2PX XXL个新坐标系,它是以为坐标轴的原坐标系旋转后得到的。设随机向量12,PXXXL有协方差阵,其特征值。对应的特征向量为12,TPXXXX=L120PL。则 第i个 主 成 分 由此 时,12,pe eeL1122,1,2.iiiippYe Xe Xe Xip=+=L,.如某些相等,那么对应的()ar,1,2.TiiiiV
7、Yeeip=(),0,TikikCov Y Yeeik=i系数向量的选取从而的选取,就都不是惟一的。ieiY武汉理工大学多元统计分析课程设计3对于样本来说,其主成分的计算同总体的计算是一样的。但是在做样本的主成分时,需要考虑是以样本的协方差阵还是以样本的相关系数阵来计算其特征值与特征向量。对于这个问题我们采取以下原则:用于解释主成分时只用成分系数而不是用相关系数。虽说ie作为变量对已知成分的重要性的测度,系数和相关可能导出不同的重要性等级,但是我们的经验表明,这种等级的差别常常不是大到很明显。在实践中,有较大(按绝对值)系数的变量,趋向于有较大的相关,故这两个重要性的测度(前者为多变量,后者为
8、单变量)经常给出相似的结果。建议既考虑系数又考虑相关,这有助于解释主成分。另外,在确定主成分的个数时,也应该考虑我们所取的主成分是否能充分代表原有数据的信息。我们定义:第 j 个主成分的贡献率为:。当我们取 m 个主成分时,它所解释的贡献率为1jppi=,当由此式所算出的结果大于等于 80%时就可以认为所取的主成分的个数能很好的11miipjj=代表原有变量的信息,此时则可取 m 个主成分。2.2 聚类分析聚类分析是从事物数量上的特征出发对事物进行分类,是事物分类学和多元统计技术结合的结果,是一种较为粗糙的,理论并非完善的分析方法,但是其使用简便,分类效果较好,其内容也在不断丰富中,是常用的数
9、据探索性分析工具。聚类分析(Cluster Analysis)又称为集群分析,其分析的基本思想是依照事物的数值特征,来观察各样品之间的亲疏关系。而样品之间的亲疏关系则是由样品之间的距离来衡量的,一旦样品之间的距离定义之后,则把距离近的样品归为一类。传统的聚类分析要求聚类变量为数值变量。设为第 i 个样品的第 k 个指标,每个样品测量了 p 个ikX变量,则样品和之间的距离()定义为:(7-1)。iXjXijD()11pqqijikjkkDqXX=式(7-1)称为闵可夫斯基(Minkovshi)距离。其中 q 为大雨 0 的正数。当 q=1 时,武汉理工大学多元统计分析课程设计4,称为绝对值距离
10、或曼哈顿(Manhanan)距离,SPSS 称为“block”;()1pijikjkkDqXX=当 q=2 时,称为欧氏距离(Euclidean Distance);也可以定义()1221pijikjkkDqxx=变量之间的距离,常用的两种定义方法是夹角余弦法和相关系数法。变量和的夹角ixjx余弦为;变量和的相关系数ijC1122211nkikjkijnnkikjkkx xCxx=ixjx。和称为变量间的相似系数。变量间的距离()()()()1122211nkiikjjkijnnkiikjjkkxxxxrxxxx=ijCijrijD由下式定义:或。聚类分析既可以对样品聚类,又可以对变21iji
11、jDC=21ijijDr=量聚类,样品聚类也称为 Q 型聚类,变量聚类也称为 R 型聚类。根据样本量的大小,可以使用层次聚类或 K 中心聚类的方法。后者属于一种快速聚类方法。当样本量较大,数值变量和分类变量并存时,也可以使用二阶段聚类法。本文主要是采用层次聚类法。层次聚类法(也称为系统聚类法)是实际工作中使用最多的一种方法。层次聚类法的层次含义是:开始时每个样品各看成一类,将距离最近的两类合并;重新计算新类与其他类的距离,再将距离最近的两类合并;再计算新类与其他类的距离,这样一步LL步地进行下去,每一步减少一类,直至所有的样品都合并成一类为止。整个聚类过程可绘成聚类图,类与类之间的距离有各种不
12、同的定义方法,定义不同即产生不同的算法,而不同的算法可能得到不同的结果。3主成分分析和聚类分析的具体应用3.1数据来源与指标变量选取本文所采用的数据全部来自 2006 年中国统计年鉴,其中所选取的指标来自年鉴第十二章环境保护目录中。,我们共选取了十个指标,选取的指标有:工业废水排放量(万吨),1x生活废水排放量(万吨),工业二氧化硫排放量(万吨),生活二氧化硫排放量(万2x3x4x武汉理工大学多元统计分析课程设计5吨),工业烟尘排放量(万吨),生活烟尘排放量(万吨),工业粉尘排放量(万吨),5x6x7x生活垃圾排放量(万吨),等效声级,工业固体废物排放量(吨)。我们采用的数8x9x10 x据如
13、表 1:表1 排放指标数据表工业废水排放量生活废水排放量工业二氧化排放量硫生活二氧化硫排放量工业烟尘排放量生活烟尘排放量工业粉尘排放量生活垃圾排放量等效噪声工业固体废物排放量128138819610.58.51.843.3454.653.291403300813028024.12.47.71.41.9144.854.944.412453383991128.121.45617.371.3680.154424148.8320996299712031.69121.269.5619.753.860469012496731274129.61660.417.545.632954.3624957.71050
14、7211363396.123.651.722.845.376854.193938411895681630.87.532.78.613.7580.456.418642451586888343.17.745.49.412.41125.8563005109714861337.513.856.61.1622.357.31233296318223107131.26.142.62.635.5834.8545319242612077083.12.919.91.323.1762.555.756379.6634879310451.55.625.34.546.2476.653.74501309398145343.
15、92.211.81.319.330356.257681.8539726934855.55.8231.635264.455.9102819.1139071141306171.528.748.513.437.31046.553.51376123476139088147.115.385.77.170.4756.755.736353.79243214493662.69.226.66.433.8885.255167033.612244013319875.516.445.38.676.948654567049.9231568406835127.4227.10.832.11722.655.1138537.8
16、14560912524897.54.953.81.255.6204.75611047917428278462.2010.11.181.255.7367.7848856033668.315.413.18.521.3237.654.71844955122590139061114.115.963.415.738.4600.754.61157015148504081865.969.920.515.919.1176.555.61312832329284227442.99.317.15.615.5205.753.870660299135640.10.10.200.244.50730004281940549
17、8012.229.210.234370.755.4348678.6167982693051.74.612.43.816.6297.857.9406347.276191174111.50.95.729.354.452.127625.4214111440630.2410.22.2996.453.341046.8200524336734.817.1151217.3343.654.91094286武汉理工大学多元统计分析课程设计6我们的主要思想是:由于所选取的指标量太多,对聚类分析不是有利的,因此首先运用主成分分析的方法,将十个因子进行压缩得到几个主要因子,再利用这些主成分来对各个样本(也就是各个城市
18、)在相应因子上的因子得分来进行聚类分析,将 31 个城市进行分类,最后分析分在一个类的城市在这几个主要因子上的得分有什么特点,从而可以知道相应城市的污染类型。现在将上述思想具体进行。3.2 主成分分析先进行主成分分析。将这十个变量作为因子分析的变量进行分析,在因子分析过程中,提取公因子是采用主成分法,可以得到以下的结果:表 2 给出的是因子分析的总方差解释表2 总方差解释表Extraction Method:Principal Component Analysis.由上表及有关主成分的理论知:选取四个主成分是合适的,它所解释的比例占原方差的85.219%,达到了 80%的要求,因而是合适的。因
19、子数量的确定还可以直接取特征值大于 1的个数,由上表知若仅取特征值大于 1 的个数,将只有两个因子,它所解释的比例只有68.34%,效果并不是很好。由主成分的理论知道,经正交旋转(采用方差最大旋转)后各个因子对所有变量的解释均能有很好的效果,旋转后的因子成分矩阵见表 3:componentInitial EigenvaluesExtraction Sums of SquaredLoadingsRotation Sums of SquaredLoadingsTotal%ofVarianceCumulative%Total%ofVarianceCumulative%Total%ofVariance
20、Cumulative%14.33343.32643.3264.33343.32643.3262.97029.69729.69722.50125.01468.3402.50125.01468.3402.57825.78155.4783.9349.34277.682.9349.34277.6821.95919.58875.0664.7547.53685.219.7547.53685.2191.01510.15285.2195.5715.71290.9316.4204.20495.1357.1971.96997.1048.1361.36298.46598.815E-02.88199.347106.5
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 本文 运用 多元 统计分析 介绍 成分 分析 方法 聚类分
限制150内