北航数理统计判别分析大作业.pdf
数理统计(课程大作业 2)聚类和判别分析聚类和判别分析学学院:院:机械工程学院机械工程学院专专业:业:材料加工工程材料加工工程日期:日期:20142014 年年 1212 月月 2222 日日摘要摘要:本文介绍聚类与判别方法,然后结合实际,依据各地区居民消费水平(元)、社会固定资产投资(亿元)、人均地区生产总值(元)、政府消费支出(亿元)、城镇居民人均总收入(元/人)5 个与经济发展水平相关联的指标,对全国 28 个省、自治区、直辖市进行聚类分析,并对剩下的三个省市进行判别分析,以此对我国各地区的经济发展水平进行分类,并对分类的结果进行了分析。关键字:关键字:经济类型 SPSS聚类分析 判别分析1 1引言引言中华人民共和国成立后,通过有计划地进行大规模的社会主义建设,中国已成为世界上最具有发展潜力的经济大国之一,人民生活总体上达到小康水平。按预定计划,到 2010 年,中国将建立起比较完善的社会主义市场经济体制;到 2020年,建立起比较成熟的社会主义市场经济体制。但是,我国的经济发展还不太均衡,地区性差异十分显著,尤其是东西部发展十分不同步。近年来,这种不均衡引起了人们的注意。新中国成立至 1978 年的 30 年间,中国政府一直致力于平衡发展战略,各种投资政策和财政支付转移明显地向边远和落后地区倾斜,然而效果不佳,付出的代价非常大。自 1978 年实行改革开放以后,中国政府在区域经济发展战略上来了一个大转变,从平衡发展战略转向不平衡发展战略,优先发展沿海地区,发展和开放的政策明显向沿海地区倾斜,使得沿海地区得以迅速发展起来,也迅速地拉大了沿海与内地的经济发展差距.从地区生产总值来看,2003 年广东省为 13626 亿元,约相当于 3 个湖南(4639 亿元)或 10 个贵州(1365 亿元)或 35 个青海(390 亿元).从人均地区生产总值来看,2003 年浙江为 20147 亿元,3 倍于江西(6678 元),4 倍于甘肃,5.6 倍于贵州。本文就是在这样的背景下提出来的,使用 SPSS Statistics 19.0 这一统计软件,利用国家统计局公布的中国统计年鉴2013中提供的 2012 年我国各地区经济发展的数据,依据各地区居民消费水平(元)、社会固定资产投资(亿元)、人均地区生产总值(元)、政府消费支出(亿元)、城镇居民人均总收入(元/人)5 个与经济发展水平相关联的指标,对全国 28 个省、自治区、直辖市进行聚类分析,并对剩下的三个省市进行判别分析,以此对我国各地区的经济发展水平进行分类,并对分类的结果进行了分析。12 2数据采集数据采集本文数据来源于中国统计年鉴 2013,具体数据见表 1表 1 源数据地区北京天津河北山西内蒙古辽宁吉林黑龙江上海江苏浙江安徽福建江西山东河南湖北湖南广东广西海南重庆四川贵州云南西藏陕西甘肃青海宁夏新疆社会固定资居民消费人均地区生政府消费支城镇居民人均总产投资(亿水平(元)产总值(元)出(亿元)收入(元/人)元)6112.430349.5874754451.836468.757934.822984.0931731698.729626.4119661.310749.4365843272.720543.448863.310829.0336281605.420411.7111875.715195.5638862466.923150.2621836.317998.7566492178.823222.679511.512276.3434151566.220208.049694.711600.8357112812.717759.755117.636892.9853732807.340188.3430854.219452.3683477329.029676.9717649.422844.7633744013.334550.3015425.810977.7287921876.321024.2112439.916143.9527631854.828055.2410774.210572.9288001560.519860.3631256.015095.0517685960.325755.1921450.010380.3314993584.020442.6215578.312283.0385722897.320839.5914523.211739.5334802397.721318.7618751.521823.3540956241.830226.719808.610519.5279521612.221242.802145.410634.532377448.320917.718736.213655.4389141389.322968.1417040.011280.2296082831.420306.995717.88372.0197101039.718700.517831.19781.6221951763.221074.50670.55339.522936289.618028.3212044.511852.2385641944.920733.885145.08542.0219781131.917156.891883.410289.133181410.217566.282096.912120.436394404.219831.416158.810675.1337961891.817920.68三三聚类分析聚类分析3.13.1 聚类分析过程聚类分析过程2首先将数据导入 SPSS 中,并剔除待分析的河北、浙江、新疆三省数据。表 3 所示的为聚类分析的汇总结果:表 3 案例处理汇总案例有效N28百分比100.0N0缺失百分比.0N28总计百分比100.0a.平方 Euclidean 距离 已使用b.平均联结(组之间)从表 3 中可以看到 28 个样本的数据全都有效,均用于系统聚类分析过程。表中列出了有效样本、缺失样本和样本总数的个数和百分数。表4显示的是样本的凝聚过程。对本文选取的28个样本,系统进行了27步分析,并在每一步中给出了凝聚过程中两类之间的相关系数。表 4 聚类表群集组合阶12345678910111213141516171819群集 1121022191531922106106223110553群集 218212627257282316201215246814171119系数3568152.1644789624.4287892087.38412067895.81513591635.44414116255.33219190996.70821666276.49623240192.30830411453.52041848265.89642054641.61553920958.10154768430.05264763844.61881191025.39796231017.5221.141E81.218E8首次出现阶群集群集 100000043209108601101714群集 200000000001501200007下一阶119871214191311121614231922201821203202122232425262734139431105222139431.515E81.868E82.597E82.667E83.113E83.780E81.133E93.450E91901520021232216180130242526232527262526270表4所列各项的意义如下:阶聚类步骤号;群集组合在某步中合并的个案;系数距离或相似系数;首次出现阶群集新生成聚类;下一阶对应步骤生成的新类将在第几步与其它个案或新类合并。从中可以看出聚类的进度和类详细合并的步骤。可以从表中看出,第 12 和第 18 个样本最先进行了聚类,样本间的距离为3568152.164。表 5 显示的是聚类后的集群成员:表 5 群集成员案例1:北京2:天津3:山西4:内蒙古5:辽宁6:吉林7:黑龙江8:上海9:江苏10:安徽11:福建12:江西13:山东群集1123322132323414:河南15:湖北16:湖南17:广东18:广西19:海南20:重庆21:四川22:贵州23:云南24:西藏25:陕西26:甘肃27:青海28:宁夏222322222222222从表 5 可以看到系统聚类分析的最终结果为:北京市、天津市、上海市属于第一类,内蒙古、辽宁省、江苏省、福建省、山东省、广东省被分为第三类,其他省、直辖市、自治区被分为第二类。图 1 为垂直冰柱图,形状类似于冬天屋檐上垂下的冰柱,因此得名。横轴:案例(Case)表示被聚类的对象;纵轴:群集数(Number of clusters)表示被聚成几类;图 1 以冰柱图表示聚类分析结果。图中第 1 列为聚类步骤号,第 1 行为样本及样本号。图中每一列代表一个冰柱,深色柱代表冰柱的长短。从冰柱的长短变化可以看出聚类的全过程。即如果样本或新类在第 n 步合并,则在图中第 n 步以上合并项对应列中用深色填充,没有空格。由于冰柱图是按照聚类的编号进行排列,所以其与聚结表的顺序刚好相反,也就是说聚结表的第一步对应于冰柱图的最后一步。冰柱图一般从表格的最后一行开始观察。最后一行中,类的数目为 27,即聚积成 27 类,其中样本江西和广西用深色柱连接在一起,表示成两个样本聚成一类,其余每个样本构成一类。因此从冰柱图中可以非常清楚地看到,聚成 n时类时,各个样本的类归属情况。5图图1 1 冰柱图冰柱图图 2 为聚类分析之后的树状图:图图2 2 树状图树状图图 2 清晰地表示出了聚类的全过程。它将实际的距离按比例调整到 0256的范围内,用逐级连线的方式连接性质相近的个案和新类,直至并为一类。在该图上部的距离标尺上根据需要(粗分或细分)选定一个划分类的距离值,然后垂直标尺划线,该垂线将和水平线相交,则相交的交点数即为分类的类别数,相交水平连线所对应的样本聚成一类。3.23.2 聚类分析结果总结聚类分析结果总结从上一部分的聚类分析过程可以看出,SPSS 软件将本文所采用的数据分为3 类,如表 6 所示:表表 2 2集群第一类第二类第三类地区北京、天津、上海其他省、自治区、直辖市内蒙古、辽宁、江苏、福建、山东、广东北京市、天津市、上海市构成一类。北京、天津作为老牌经济强省,同时也是北方京津冀经济圈的主要经济贡献力量,其在全国经济整体盘面上表现一直相对强劲。上海市作为中国的经济中心,其整体发展水平高于全国其他地市,其在居民消费水平、人均地区生产均值、城镇居民人均总收入等诸多指标中都有着明显的优势。内蒙古由于近几年煤炭等能源生产增长,还有富饶的草原畜牧业,经济发展迅速。而辽宁、江苏、福建、山东、广东这些沿海地区,由于受到改革开放经济政策的影响,经济实力仅次于北京、上海、天津。故以上几个省份被划为一类。其余省市被划分为一类。这些省市中也包括黑龙江省等经济条件较好的省市,但各行业领域发展并不均衡,故将其划入该类中。4 4判别分析判别分析4.14.1 判别分析过程判别分析过程根据聚类分析的结果,将省份分为 3 类,在 SPSS 中添加一个新变量 G 用来表示类别,取值为 1、2 和 3,同时在表中添加了三个个案河北、浙江、新疆,作为待判样本。下面是判别结果相关表格。下表 7 为参与分析的个案处理的摘要显示,可以看出,共有 28 个样本作为判别基础数据进入分析。7表表 7 7 分析案例处理摘要分析案例处理摘要未加权案例有效排除的缺失或越界组代码至少一个缺失判别变量缺失或越界组代码还有至少一个缺失判别变量合计合计3319.7100.0N28300百分比90.39.7.0.0下表 8 为分组的统计量统计信息。由下表可以看出一共有 3 个组,其中第一组 3 例,第二组 19 例,第三组 6 例。同时,下表给出了各组中变量的均值和标准差。表表 8 8 组统计量组统计量G 类别居民消费水平社会固定资产投资1人均地区生产总值城镇居民人均总收入政府消费支出居民消费水平社会固定资产投资2人均地区生产总值城镇居民人均总收入政府消费支出居民消费水平社会固定资产投资3人均地区生产总值城镇居民人均总收入政府消费支出居民消费水平社会固定资产投资合计人均地区生产总值城镇居民人均总收入政府消费支出均值30075.46676388.266788673.666735427.83332985.933310686.62639417.915831458.210520020.65631661.315817618.116721168.933357918.000026681.17334338.600014249.321411611.385743258.392923098.67892376.9429标准差6958.498081428.716484035.790055357.352141385.215621816.102855710.441516544.425491518.89422938.749362668.375658537.012076708.252833121.529322430.301746810.849487880.5621420322.599275646.004381755.02985有效的 N(列表状态)未加权的333331919191919666662828282828已加权的3.0003.0003.0003.0003.00019.00019.00019.00019.00019.0006.0006.0006.0006.0006.00028.00028.00028.00028.00028.0008下表 9 为组均值的均等性检验表:表表 9 9 组均值的均等性的检验组均值的均等性的检验居民消费水平社会固定资产投资人均地区生产总值城镇居民人均总收入政府消费支出Wilks的 Lambda.153.570.092.172.592F69.1219.437123.02660.3668.615df122222df22525252525Sig.000.001.000.000.001该检验方法的原假设是组均值对应相等,此时各变量间没有显著差异。本例中的各变量的显著性概率均小于 0.05,所以拒绝原假设,即认为各变量之间存在显著的差异。下表 10 为汇聚的组内矩阵表,该表显示了各个变量两两之间的协方差和相关系数。表表 1010 汇聚的组内矩阵汇聚的组内矩阵社会固定资产投资3033279.65738217995.8478001104.6083391896.3046634790.857.1771.000.202.226.765人均地区生产总值5216758.8788001104.60841140382.873960452.8981465320.179.294.2021.000.062.163城镇居民人均总收入5283078.9183391896.304960452.8985905955.3771618204.396.785.226.0621.000.474居民消费水平社会固定资产投资协方差人均地区生产总值城镇居民人均总收入政府消费支出居民消费水平社会固定资产投资相关性人均地区生产总值城镇居民人均总收入政府消费支出a.协方差矩阵的自由度为 25。居民消费水平7672426.6603033279.6575216758.8785283078.9181480414.1291.000.177.294.785.381政府消费支出1480414.1296634790.8571465320.1791618204.3961969279.350.381.765.163.4741.000下表 11 的协方差矩阵,展示了聚类分析后的各个类的变量两两之间的协方差:9表表 1111 协方差矩阵协方差矩阵G 类别居民消费水平社会固定资产投资1人均地区生产总值城镇居民人均总收入政府消费支出居民消费水平社会固定资产投资2人均地区生产总值城镇居民人均总收入政府消费支出居民消费水平社会固定资产投资3人均地区生产总值城镇居民人均总收入政府消费支出居民消费水平社会固定资产投资合计人均地区生产总值城镇居民人均总收入政府消费支出a.总的协方差矩阵的自由度为 27。居民消费水平48420695.503-9852735.767-27368710.96736940141.4424156123.8823298229.5804319615.9809662694.1051680206.960662639.4407120228.6103556875.0652245580.0005590592.9563354119.11046387670.6226278134.1481.252E836970857.2075704313.183社会固定资产投资-9852735.7672041230.7735741544.133-7654132.957-1084074.7934319615.98032609142.1888424512.8463916161.1194982434.6323556875.06572880575.0517380659.1405922954.67315670819.5266278134.14862103259.58530401569.8588345411.10111060870.150人均地区生产总值-27368710.9675741544.13316287601.333-21531547.583-3479584.1339662694.1058424512.84642829504.9533747667.0591404456.1192245580.0007380659.14045000656.000-76717.8903662392.5201.252E830401569.8584.130E81.003E816762748.823城镇居民人均总收入36940141.442-7654132.957-21531547.58328701221.9614071622.6831680206.9603916161.1193747667.0592307039.664413414.2665590592.9565922954.673-76717.8909743945.3074974081.55336970857.2078345411.1011.003E831877365.4555444351.363政府消费支出4156123.882-1084074.793-3479584.1334071622.6831918822.303662639.4404982434.6321404456.119413414.266881250.3603354119.11015670819.5263662392.5204974081.5535906366.5325704313.18311060870.15016762748.8235444351.3633080129.7904.24.2 判别分析结果总结判别分析结果总结首先,对协方差矩阵的均等性进行箱式检验。下表 12 为对数行列式表,该表包括各类别和合并组内的对应的秩和对数行列式:表表 1212 对数行列式对数行列式G 类别123汇聚的组内秩.a555对数行列式.b74.08080.61178.5571 0打印的行列式的秩和自然对数是组协方差矩阵的秩和自然对数。a.秩 3b.案例太少无法形成非奇异矩阵通过表 13 得出检验结果:表表 1313 检验结果检验结果a a箱的 MF近似。df1df2Sig.79.9003.08315339.325.000对相等总体协方差矩阵的零假设进行检验。a.有些协方差矩阵是奇异矩阵,因此一般程序不会起作用。将相对非奇异组的汇聚组内协方差矩阵检验非奇异组。其行列式的对数为 71.701。表 14 为特征值表:表表 1414 特征值特征值函数12特征值15.035.878aa方差的%94.55.5累积%94.5100.0正则相关性.968.684a.分析中使用了前 2 个典型判别式函数。表 15 为 Wilks 表:表表 1515WilksWilks 的的 LambdaLambda函数检验1 到 22Wilks Lambda.033.533卡方78.31314.494df104Sig.000.0061 1该表中各项为 Wilks 的值、卡方值、自由度和显著性概率。当显著性概率小于 0.05 时,拒绝原假设,认为组间均值不相等。由表中可以看出,显著性概率均小于 0.05,所以认为组间均值不等。表 16 为标准化的典型判别式函数系数,其中包含了各独立变量对应的判别函数的标准化系数值:表表 1616 标准化的典型判别式函数系数标准化的典型判别式函数系数函数1居民消费水平社会固定资产投资人均地区生产总值城镇居民人均总收入政府消费支出-.124-.121.857.737-.2072-.666.880.199.359.040表 17 为结构矩阵表,该表内为判别变量与根据函数内相关系数绝对大小排序的标准化公共判别函数变量之间的合并组内相关系数:表表 1717 结构矩阵结构矩阵函数1人均地区生产总值居民消费水平城镇居民人均总收入社会固定资产投资政府消费支出间相关性按函数内相关性的绝对大小排序的变量。*.每个变量和任意判别式函数间最大的绝对相关性.807.605.567.038.142*2.210-.155.066.914.662*判别变量和标准化典型判别式函数之间的汇聚组表 18 为典型判别式函数系数表,里面列出的是各变量及常数项对应的没有进行标准化的典型判别函数系数:1 2表表 1818 典型判别式函数系数典型判别式函数系数1居民消费水平社会固定资产投资人均地区生产总值城镇居民人均总收入政府消费支出(常量)非标准化系数函数2.000.000.000.000.000-3.051.000.000.000.000.000-11.563利用上表 17,可以得到前两个判别函数的表达式:f1=-11.563,f2=-3.051表 18 为组质心处的函数值表:表表 1919 组质心处的函数组质心处的函数函数G12319.107-2.2012.4162-1.300-.2971.592在组均值处评估的非标准化典型判别式函数该表包括对应与表 17 中两个函数的各类别的函数值。可得:河北:f1=-11.563,f2=-3.051浙江:f1=-11.563,f2=-3.051新疆:f1=-11.563,f2=-3.051可以看出,河北、浙江和新疆的最大值在都在 f2 判别函数处取得。继续进行判别,将河北、浙江、新疆的分入聚类分析所分出的三个类中。接下来进行进一步的判别分析,采用 Fisher 判别法。首先来看分类处理的摘要,如表 20 所示:表表 2020 分类处理摘要分类处理摘要1 3已处理的已排除的用于输出中缺失或越界组代码至少一个缺失判别变量310031下表 21 显示的为组的先验概率:表表 2121 组的先验概率组的先验概率用于分析的案例G123合计先验.333.333.3331.000未加权的319628已加权的3.00019.0006.00028.000该表包括各类别和全部对应的先验概率和参与分析的未加权和经过加权的个案数。各类别的先验概率等于 1 除以类别数。在本文中,类别数等于3,所以各类别的先验概率均等于 0.333。然后进行 Fisher 判别,表 22 为 Fisher 线性判别函数的系数表:表表 2222 分类函数系数分类函数系数G1居民消费水平社会固定资产投资人均地区生产总值城镇居民人均总收入政府消费支出(常量)-.004.000.003.011-.007-244.0622-.004.001.001.008-.005-76.5243-.005.001.002.010-.006-137.397Fisher 的线性判别式函数利用该表得到 3 各类别的分类判别函数为:f1=-0.004居民消费水平+0.003人均地区生产总值+0.011城镇居民人均总收入-0.007政府消费支出-244.062f2=-0.004居民消费水平+0.001社会固定资产投资+0.001人均地区生产总值+0.008城镇居民人均总收入-0.005政府消费支出-76.524f3=-0.005居民消费水平+0.001社会固定资产投资+0.002人均地区1 4生产总值+0.010城镇居民人均总收入-0.006政府消费支出-137.397利用上述三个判别函数对河北、浙江和新疆的经济类型进行判断。将各省的变量值带入各函数。经过计算可得:河北:f1=25.76134,f2=161.23172,f3=87.4835浙江:f1=211.8256,f2=169.4565,f3=214.2001新疆:f1=-1.48952,f2=54.63684,f3=50.8343由上面的结果可以看出:浙江在f3 处取得最大值,因此应该被分为第三类。新疆、河北在 f2 处取得最大值,因此应该被分为第二类。表 23 为分类结果表:表表 2323 分类结果分类结果G11计数300100.0.0.0.0230预测组成员201902.0100.0.066.730061.0.0100.033.331963100.0100.0100.0100.0合计初始1%3未分组的案例2未分组的案例a.已对初始分组案例中的 100.0%个进行了正确分类。5 5结论结论本文运用 SPSS 数理统计软件,依据各地区居民消费水平(元)、社会固定资产投资(亿元)、人均地区生产总值(元)、政府消费支出(亿元)、城镇居民人均总收入(元/人)5 个与经济发展水平相关联的指标,对我国 31 个省份 2012年的地方生产总值进行了聚类分析。在此基础上,进行 Fisher 判别分析,得出了各类的 Fisher 线形判别函数,并且对所有样品进行了回报判别,回报率均为100%,说明建立的判别分析方法适用。同时,可以通过之前给出的 Fisher 规范判别函数,将待检验的个案的各指标带入其中,比较计算值的大小就可以预测该个案属于哪个类,如预测河北省属于第二类。分析结果显示,北京、天津、上海构成了中国经济金字塔的最上层,由于北1 5京是中国政治、文化中心,又是中国的首都,因此经济发展必然有所保证;天津作为沿海直辖市,经济势头也相当迅猛;而上海是中国的经济中心,也是长江三角洲的核心,经济发展全国首屈一指。内蒙古、辽宁、江苏、福建、山东、广东构成了中国经济发展的第二集团。其中内蒙古最近几年由于煤炭资源的大力开采和畜牧业的天然优势,逐步将经济提升到第二集团;而辽宁、山东、江苏、福建和广东作为我国沿海地区,经济发展较其他地区优先,所以经济发展状况良好。其他省、市、自治区被划分为最后一类,这也是由于中国地区差异造成的。判别分析中,浙江被划分为第二集团,浙江作为沿海省份,与江苏、福建经济状况相当。河北和新疆被划分为最后一类,由中西部发展迟缓造成。按经验分析,这样的聚类和判别分析也是相当合理。参考文献:参考文献:1 孙海燕,周梦,李卫国,冯伟.应用数理统计M.北京:北京航空航天大学数学系,2014.2 国家统计局.2013 年中国统计年鉴M.北京:中国统计出版社,2013.1 6