北航数理统计大作业聚类分析与判别分析.pdf
《北航数理统计大作业聚类分析与判别分析.pdf》由会员分享,可在线阅读,更多相关《北航数理统计大作业聚类分析与判别分析.pdf(12页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、应用数理统计应用数理统计聚类分析与判别分析聚类分析与判别分析(第二次作业)(第二次作业)学院:姓名:学号:2013 年 12 月我国部分城市经济发展水平的聚类分析我国部分城市经济发展水平的聚类分析和判别分析和判别分析摘要:摘要:本文基于中国统计年鉴(2012 年版)统计数据,寻找评价城市经济发展水平的指标,包括第二三产业发展水平、固定投资额、社会消费零售总额和进出口贸易交流五个指标,利用统计软件SPSS 综合考虑各指标,对所选城市进行 K-Means 聚类分析,利用 Fisher 线性判别待判城市类型,进一步验证所建模型的有效性。关键字:关键字:聚类分析,判别分析,SPSS,城市经济发展水平1
2、 1,引言,引言经过改革开放后三十多年的长足进展,中国城市化已步入中期阶段,步伐加快,质量显著提高。同时,中国城市化又处于周期转折点上,上一周期行将结束,下一周期将要开始。2011 年中国城市化率首次突破 50,意味着中国城镇人口首次超过农村人口,中国城市化进入关键发展阶段,这必将引起深刻的社会变革。根据 2011 年 4 月公布的第六次人口普查数据,2010 年中国居住城镇的人口接近 6.6 亿人,城镇化率达到 49.68%,全国已有近一半的人口居住在城镇,这意味着中国将进入城镇时代。在过去 30 多年中,中国的城市化发展取得了很大成绩。然而,总体上中国的城市化道路是城市化滞后于工业化的非均
3、衡道路;是土地城市化快于人口城市化的非规整道路;是以抑制农村、农业、农民的经济利益来支持城市发展,导致不能兼顾效率和公平的非协调道路;是片面追求城市发展的数量和规模,而以生态环境损失为代价的非持续道路;是以生产要素的高投入,而不是投入少、产值高、依靠科技拉动经济增长的非集约道路。传统的城市化存在着诸多弊端,中国未来的城市化必须走出一条具有自身特色的新型城市化道路。具体而言,中国城市经济发展水平受限于地理、环境、资源以及国家政策等因素的影响,我国不同区域的城市化进程尚存在很大差异。2012 年中国城市发展报告中指出,从区域角度看,目前沿海一带城市发展起步早,与国际贸易交流往来频率高,经济发展水平
4、较高,西部地区受到国家政策的大力扶持,表现出了强劲的增长势头,西部主要城市经济发展水平仅次于沿海发达地区,而中部地区城市发展的水平已经落到了最后。显然,通过研究不同城市的经济发展状况和经济类型,指出其发展差异所在,可以为政府在出台相关政策来平衡区域经济发展,缩小不同地区人民生活水平的差异提供一定的指导意见,也为我们深刻理解国家相关政策提供了扎实的基础。2 2,相关统计基础理论,相关统计基础理论2.12.1,聚类分析,聚类分析聚类分析指将物理或抽象对象的集合分组成为由类似的对象组成的多个类的分析过程。聚类分析的目标就是在相似的基础上收集数据来分类。从统计学的观点看,聚类分析是通过数据建模简化数据
5、的一种方法。传统的统计聚类分析方法包括系统聚类法、分解法、加入法、动态聚类法、有序样品聚类、有重叠聚类和模糊聚类等。采用 k-均值、k-中心点等算法的聚类分析工具已被加入到许多著名的统计分析软件包中,如 SPSS、SAS 等。本文使用统计软件 SPSS 对所收集的数据进行快速聚类,其特点是:在确定类别数量基础上,先给定一个粗糙的初始分类,然后按照某种原则进行反复修改,直至分类较为合理。在选定类中心作为凝聚点的基础上进行分类和修正的方法有很多,本文使用的是 K-Means 算法。K-Means 算法接受输入量 k;然后将 n 个数据对象划分为 k 个聚类以便使得所获得的聚类满足:同一聚类中的对象
6、相似度较高;而不同聚类中的对象相似度较小。聚类相似度是利用各聚类中对象的均值所获得一个“中心对象”(引力中心)来进行计算的。K-Means 算法的工作过程说明如下:首先从n 个数据对象任意选择 k 个对象作为初始聚类中心;而对于所剩下其它对象,则根据它们与这些聚类中心的相似度(距离),分别将它们分配给与其最相似的(聚类中心所代表的)聚类;然后再计算每个所获新聚类的聚类中心(该聚类中所有对象的均值);不断重复这一过程直到标准测度函数开始收敛为止。一般都采用均方差作为标准测度函数。一般而言,k 个聚类具有以下特点:各聚类本身尽可能的紧凑,而各聚类之间尽可能的分开。2.22.2,判别分析,判别分析判
7、别分析是市场研究的重要分析技术,也是多变量分析技术。它可以就一定数量的个体的一个分类变量和相应的其它多元变量的已知信息,确定分类变量与其它多元变量之间的数量关系,建立判别函数,并利用判别函数构建 Biplot 二元判别图(概念图)。同时,利用这一数量关系对其他已知多元变量的信息、但未知分组的子类型的个体进行判别分组。判别分析属于监督类分析方法,例如:市场细分研究中,常涉及判别个体所属类型的问题,也常涉及不同品牌在一组产品属性之间的消费者偏好和认知概念,判别分析可以很好地对这种差异进行鉴别。并在低维度空间表现这种差异。判别分析主要有距离判别、贝叶斯(Bayes)判别、费舍尔(Fisher)判别等
8、几种常用方法。距离判别的基本原理是:首先对样本到总体 G 之间的距离进行合理规定,然后依照“就近”原则判定样本的归属,常用马氏距离(Mahalanobis)规定为:d2(x,G)(xu)1(xu)式中为 p 元总体 G 的协方差阵,x 是取自 G 的样品,则该式即为样品 x到总体 G 的马氏距离。贝叶斯判别既考虑了先验分布产生的影响,也考虑到误判损失产生的影响,是衡量一个判别优劣的比较合理的准则。费舍尔判别的基本思想与主成分分析十分相似,当总体是高维向量时,先把其综合成一个一维变量,然后在对一维变量进行距离判别,费舍尔判别实际上是一种降维处理,降维压缩后,样品 y 到各个总体Gj*的距离可以用
9、欧式距离度量,即:d(y,G)|y uj|(aixaiuj)22*j*2i1m由此导出 Fisher 判别规则为:d2(y,Gj*)mind2(y,Gj*),则xGl1 jk本文及使用 Fisher 判别建立线性判别函数进行距离判别。3 3,模型建立,模型建立3.13.1 设置变量设置变量本文综合考虑了评价城市发展指数衡量因素,选取衡量一个城市经济发展水平的主要因素,城市化进程总是伴随着工业化发展,发达的服务业水平是衡量现代新兴城市的主要指标,此外,综合考虑了固定资产投资总额与社会消费品零售总额以及货物进出口总额作为类别分析的主要经济指标:X1:城市第二产业产值(亿元)X2:城市第三产业产值(
10、亿元)X3:城市固定资产投资总额(亿元)X4:城市社会消费品零售总额(亿元)X5:货物进出口总额(亿元)从区域发展角度从上面 5 个经济指标将城市经济发展水平划分为三大类:G1:发达城市G2:中度发达城市G3:欠发达城市3.23.2 数据收集和整理数据收集和整理本文所有数据来源于中国统计年鉴(2012),选取2011 年度 36 个城市主要经济发展水平做模型建立及分析。其中前 32 个城市相关经济指标水平作为初始样本用于划分类别,建立类别总体G;最后四个城市(杭州、南宁、昆明、银川)及其相关经济发展水平用作待判样品,利用判别函数进行判别分析。所有相关数据经过量纲统一规则化处理见表 1 所示。表
11、 1 我国部分城市相关经济发展水平(2011 年)序号12345678910111213城市第二产业第三产业固定资产投资社会消费品零售货物进出口总额(亿元)23374.98846203.4642850.1112513.6306121.4736637.2153630.58741040.9322307.054826246.1513440.63585891.20921207.719(亿元)(亿元)总额(亿元)总额(亿元)12363.25219.21635.81097.11277.82609.82550.71620.22147.811142.93220.42454.51426.25851.520174
12、83.69733026.97781024.14441031.67814577.0944580.05852356.61893011.9715064.26243757.25172385.50723376.96526900.32463395.061662.9864973.2937890.04782426.86551924.7941515.85372070.41296814.82697.09972018.86171111.1188北京3752.5天津5928.3石 家 庄2031.9太原949.2呼和浩特790.0沈阳3026.9大连3204.2长春2092.7哈 尔 滨1647.2上海7927.9南
13、京2760.8宁波3349.5合肥2002.21415161718192021222324252627282930313233343536福州1711.2厦门1297.1南昌1579.3济南1829.0青岛3150.7郑州2874.2武汉3254.0长沙3151.7广州4577.0深圳5343.3海口177.9重庆5543.0成都3143.8贵阳586.8拉萨75.21700.11217.5974.72339.53158.51974.03309.52224.37641.96155.7487.73623.83383.4733.7137.21993.9663.5332.0908.93458.510
14、76.31214.6414.42720.28271128.08722022.32971934.33893502.53823002.54255.16213510.24253412.22136.3882395.04087579.44544944.01571600.5898220.50313352.12950.5758528.0052427.62213100.02181950.86282275.5286720.56271947.8102800.2779928.34382114.28682302.37031987.11473031.78852201.611252433520.8736387.18043
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 北航 数理统计 作业 聚类分析 判别分析
限制150内