北航应用数理统计大作业聚类分析.pdf
《北航应用数理统计大作业聚类分析.pdf》由会员分享,可在线阅读,更多相关《北航应用数理统计大作业聚类分析.pdf(13页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、应用数理统计应用数理统计聚类分析与判别分析聚类分析与判别分析(第二次作业)(第二次作业)学院:姓名:学号:2013 年 12 月 16 日我国各地区居民消费水平的聚类分析和判我国各地区居民消费水平的聚类分析和判别分析别分析摘要:摘要:本文基于中国统计年鉴(2012 年版)统计数据,寻找评价各省份人民消费水平的指标,包括居民消费水平、农村居民消费水平、城镇居民消费水平和居民人均消费四个指标,利用统计软件SPSS 综合考虑各指标,对全国各省份进行 K-Means 聚类分析,利用 Fisher线性判别待判城市类型,进一步验证所建模型的有效性。关键字:关键字:聚类分析,判别分析,SPSS,居民消费水平
2、1 1,引言,引言人均消费水平是指一定时期内(月、年)平均每人占有和享受的物质生活资料和服务的数量。它是一个国家整个经济活动成果的最终体现,也是反映人民物质和文化生活需要的满足程度。一个国家的国民生产总值(GNP)除以该国国民人口的总数所得出的商。即指分摊到每个国民份上的国民生产总值的平均值。在经济学上,一般用来衡量或表示一个国家的经济发展程度。经过改革开放后三十多年的长足进展,尽管世界格局在走向多极化的过程中不断呈现出错综复杂、风云变幻的局面,但中国领导人高瞻远瞩,始终不渝地坚持以经济建设为中心,坚持走和平发展的道路,使中国步履稳健、坚定不移地走向世界,融入经济全球化的历史进程之中。中国在为
3、经济全球化作出贡献的同时,也从中获取了巨大的增长动力,中国人民的生活水平和消费水平也在不断提高。2014 年全国居民人均可支配收入 20167 元,比上年增长 10.1%,扣除价格因素,实际增长 8.0%。按常住地分,城镇居民人均可支配收入 28844 元,比上年增长 9.0%,扣除价格因素,实际增长 6.8%;城镇居民人均可支配收入中位数为26635 元,增长 10.3%。农村居民人均可支配收入 10489 元,比上年增长 11.2%,扣除价格因素,实际增长9.2%;农村居民人均可支配收入中位数为9497 元,增长 12.7%。全年农村居民人均纯收入为 9892 元。全国居民人均消费支出 1
4、4491元,比上年增长 9.6%,扣除价格因素,实际增长 7.5%。按常住地分,城镇居民人均消费支出 19968 元,增长 8.0%,扣除价格因素,实际增长 5.8%;农村居民人均消费支出 8383 元,增长 12.0%,扣除价格因素,实际增长 10.0%。但是,经济和消费水平的增长比例关系却不尽如人意,经济增长大大慢于消费增长,消费需求对经济增长的贡献率不断下降并成为当前经济运行中的重要问题。为实现扩大内需、拉动经济增长的长效目的,我们要在洞察当前居民消费现状的基础上,深入分析居民消费增长缓慢的原因,并探索扩大居民消费需求、拉动经济增长的对策和措施。所以我希望通过对居民消费情况进行分析,得到
5、影响居民消费水平的地域因素和其他影响因子等。2 2,相关统计基础理论,相关统计基础理论2.12.1,聚类分析,聚类分析聚类分析指将物理或抽象对象的集合分组成为由类似的对象组成的多个类的分析过程。聚类分析的目标就是在相似的基础上收集数据来分类。从统计学的观点看,聚类分析是通过数据建模简化数据的一种方法。传统的统计聚类分析方法包括系统聚类法、分解法、加入法、动态聚类法、有序样品聚类、有重叠聚类和模糊聚类等。采用 k-均值、k-中心点等算法的聚类分析工具已被加入到许多著名的统计分析软件包中,如 SPSS、SAS 等。本文使用统计软件 SPSS 对所收集的数据进行快速聚类,其特点是:在确定类别数量基础
6、上,先给定一个粗糙的初始分类,然后按照某种原则进行反复修改,直至分类较为合理。在选定类中心作为凝聚点的基础上进行分类和修正的方法有很多,本文使用的是 K-Means 算法。K-Means 算法接受输入量 k;然后将 n 个数据对象划分为 k 个聚类以便使得所获得的聚类满足:同一聚类中的对象相似度较高;而不同聚类中的对象相似度较小。聚类相似度是利用各聚类中对象的均值所获得一个“中心对象”(引力中心)来进行计算的。K-Means 算法的工作过程说明如下:首先从n 个数据对象任意选择 k 个对象作为初始聚类中心;而对于所剩下其它对象,则根据它们与这些聚类中心的相似度(距离),分别将它们分配给与其最相
7、似的(聚类中心所代表的)聚类;然后再计算每个所获新聚类的聚类中心(该聚类中所有对象的均值);不断重复这一过程直到标准测度函数开始收敛为止。一般都采用均方差作为标准测度函数。一般而言,k 个聚类具有以下特点:各聚类本身尽可能的紧凑,而各聚类之间尽可能的分开。2.22.2,判别分析,判别分析判别分析是市场研究的重要分析技术,也是多变量分析技术。它可以就一定数量的个体的一个分类变量和相应的其它多元变量的已知信息,确定分类变量与其它多元变量之间的数量关系,建立判别函数,并利用判别函数构建 Biplot 二元判别图(概念图)。同时,利用这一数量关系对其他已知多元变量的信息、但未知分组的子类型的个体进行判
8、别分组。判别分析属于监督类分析方法,例如:市场细分研究中,常涉及判别个体所属类型的问题,也常涉及不同品牌在一组产品属性之间的消费者偏好和认知概念,判别分析可以很好地对这种差异进行鉴别。并在低维度空间表现这种差异。判别分析主要有距离判别、贝叶斯(Bayes)判别、费舍尔(Fisher)判别等几种常用方法。距离判别的基本原理是:首先对样本到总体 G 之间的距离进行合理规定,然后依照“就近”原则判定样本的归属,常用马氏距离(Mahalanobis)规定为:d2(x,G)(xu)1(xu)式中为 p 元总体 G 的协方差阵,x 是取自 G 的样品,则该式即为样品 x到总体 G 的马氏距离。贝叶斯判别既
9、考虑了先验分布产生的影响,也考虑到误判损失产生的影响,是衡量一个判别优劣的比较合理的准则。费舍尔判别的基本思想与主成分分析十分相似,当总体是高维向量时,先把其综合成一个一维变量,然后在对一维变量进行距离判别,费舍尔判别实际上是一种降维处理,降维压缩后,样品y到各个总体Gj的距离可以用欧式距离度量,即:*d(y,G)|yuj|(aixaiuj)22*j*2i1m由此导出 Fisher 判别规则为:d2(y,Gj*)min d2(y,Gj*),则xGl1 jk本文及使用 Fisher 判别建立线性判别函数进行距离判别。3 3,模型建立,模型建立3.13.1 设置变量设置变量本文综合考虑了衡量人民消
10、费水平因素,选取各地区居民消费水平,消费水平包括城镇居民消费水平和农村居民消费水平,综合考虑了居民人均消费作为类别分析的主要经济指标:X1:居民消费水平(元)X2:城镇居民消费水平(元)X3:农村居民消费水平(元)X4:居民人均消费(元)从区域发展角度从上面 5 个经济指标将城市经济发展水平划分为三大类:G1:高消费地区G2:中等消费地区G3:低消费地区3.23.2 数据收集和整理数据收集和整理本文所有数据来源于中国统计年鉴(2014),选取 2014 年度 31 个省份主要居民消费水平做模型建立及分析。其中前 31 个省份相关消费指标水平作为初始样本用于划分类别,建立类别总体 G;再利用判别
11、函数进行判别分析。所有相关数据经过量纲统一规则化处理见表 1 所示。表 1:各省份居民消费水平省份北京市天津市河北省山西省内蒙古自治区辽宁省吉林省黑龙江省上海市江苏省浙江省安徽省福建省江西省山东省河南省湖北省居民消费水平3333726261115571207817168201561367612978392232358524771116181711511910167281178213912农 村 居 民 消费176631495464607476821810417777374782022114571154586114101477429922464387755城镇居民消费35836287791719
12、81634123590251611871417102414642875330101177792172516728233581883319156居 民 人 均消费31102.8922342.9811931.5410863.8316258.1216067.9813025.9712768.7633064.7619163.5622551.9711726.9917644.4711088.8913328.911000.4412928.31湖南省广东省广西壮族自治区海南省重庆市四川省贵州省云南省西藏自治区陕西省甘肃省青海省宁夏回族自治区新疆维吾尔自治区1292023739117101171215270124
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 北航 应用 数理统计 作业 聚类分析
限制150内