基于各地区各类商品消费性支出的统计分析.pdf
《基于各地区各类商品消费性支出的统计分析.pdf》由会员分享,可在线阅读,更多相关《基于各地区各类商品消费性支出的统计分析.pdf(19页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、 -0-应用多元统计分析期末论文 论文题目:基于各地区各类商品消费性支出的统计分析 作者:殷云剑 学号:0810120001 完成日期:2011 年 1 月 23 号 评语:论文成绩:-1-摘摘 要要 消费性支出从来就是公共财政基本的和主要的支出内容,本论文使用国家统计局网站上给的 2008 年各地区的八类商品的消费性支出的数据,先利用系统聚类法对各地区的消费性支出做一个分类,分别找出消费性高和低的地区。另外,考虑到食品、衣着、居住是人们的基本生活物质需求,所以我们将这三类商品分成一类,另外五类商品分成一类,猜测这两组商品之间的消费性支出存在很强的相关性,并通过简单的数据观测和强有力的典型相关
2、来证实这一想法。在得到两组变量的第一典型变量存在很强的相关之后,建立两者之间的线性模型,并通过线性回归来证实这一模型是显著的,并利用最小二乘法求出模型中的参数。关键词:消费价格指数关键词:消费价格指数 系统聚类法系统聚类法 典型相关典型相关 线性相关线性相关 -2-目目 录录 1 引言引言.3 2 消费性支出的聚类消费性支出的聚类.3 2.1 各观测之间的距离的定义.3 2.2 类平均法分类.4 2.3 WARD 离差平方和法分类.5 2.4 两种分类结果的简单比较说明.6 3 两组变量的相关性分析两组变量的相关性分析.8 3.1 简单的初步分析.8 3.2 两组变量的典型相关.9 3.2.1
3、 典型相关系数的显著性检验.9 3.2.2 典型相关系数的求解.10 3.3 典型变量的进一步讨论.11 4 最终的结论分析最终的结论分析.13 5 报告的评价报告的评价.14 5.1 报告的优点.14 5.2 报告的缺点.14 5.3 可以进一步研究的问题.14 6 附录附录.15.6.1 数据.15 6.2 SAS 程序.16 7 参考文献参考文献.18 -3-1 引言引言 消费性支出是指政府以消费者身份在市场上购买所需商品和劳务所发生的支出,同人们切身利益,眼前利益密切相关,是衡量居民生活水平的一个重要指标,因此对这项指标的研究有着重要意义。我们使用国家统计局给出的 2008 年全国 3
4、1 个地区(27 个省及 4 个直辖市)的八类商品的消费性支出,包括食品、衣着、居住、家庭设备用品及服务、医疗保健、交通和通信、教育文化及娱乐服务、杂项商品和服务,对全国的这 31 个地区的做一个分类,使用的方法是系统聚类法中的类平均法和 WARD 离差平方和法,分别找出消费性水平高和低的地区。另一方面,由于八类商品所属于的生活需求等级不同,其中食品、衣着、居住属于基本的生活物质需求,我们将这三类商品分成一组,另五类商品分成一组,然后考虑两组变量的相关程度,其中使用到的方法是多元统计分析中的典型分析。在得出两组变量存在着很强的相关性之后,假想两组变量的第一典型变量存在着线性关系,建立模型并证实
5、模型的显著性,再求出其参数。以下用字母表示八类变量,具体如下:类型 食 品 衣 着 居 住 家庭设备用品及服务 医疗保健 交通和通信 教育文化娱乐服务 杂项商品和服务 字符 X1 X2 X3 X4 X5 X6 X7 X8 2 消费性支出消费性支出的聚类的聚类 2.1 各观测之间的距离的定义各观测之间的距离的定义 在进行系统聚类之前,无论使用哪种聚类方法,都需要先对观测之间的距离进行定义,在此我们采用欧式距离作为两个观测之间的距离,具体表达式如下:=()28=1 -4-其中 Xki表示第 k 个变量的第 i 个观测值。2.2 类平均法分类类平均法分类 类平均法中类与类之间的距离定义为两类观测中两
6、两之间距离平方的平均,其具体表达式为:2=12,根据将距离最小的两类合并的原则,利用 SAS 软件运行可得到巨雷历史聚类,由于共有 31 个观测,限于篇幅在此只给出最后 10 步的聚类历史过程:Cluster History NCL Clusters Joined FREQ SPRSQ RSQ ERSQ CCC PSF PST2 Norm RMS Dist T i e 10 天津天津 福建福建 2 0.0056.932.31.8.0.4092 9 北京北京 浙江浙江 2 0.0058.926.34.3.0.4184 8 CL14 CL18 13 0.0212.905.31.2 8.4 0.48
7、77 7 CL12 CL11 11 0.0213.883.30.3 5.5 0.4882 6 CL9 广东广东 3 0.0126.871.897-1.4 33.7 2.2 0.5717 5 CL7 西藏西藏 12 0.0158.855.876-1.0 38.3 2.8 0.5787 4 CL8 CL5 25 0.0867.768.844-2.7 29.9 16.5 0.5956 3 CL6 CL10 5 0.0336.735.793-1.3 38.8 4.2 0.7442 2 CL3 CL4 30 0.4067.328.664-4.4 14.2 42.9 1.3272 1 CL2 上海上海 3
8、1 0.3281.000.000 0.00.14.2 2.3284 为确定将最终的 31 个地区分成几类,我们观察聚类历史中的R2统计量(上表中的RSQ)和伪 F 统计量(上表中的 PSF),R2统计量为 Pk与 T 的比值,其中 Pk表示类内的离差平方合,T 表示总的离差平方合,当 R2下降的很快时,表明该不合并使得类内离差平方合占总离差平方合的比例减小的很多,因此我们认为该不合并不宜进行。在聚类历史中,我们看到由 3 类合并成 2 类的过程中 R2统计量下降的最快,因此我们将 31 个地区分成 3 类。伪 -5-F 统计量也可用于评价分为 k 类的聚类效果,伪 F 越大表示这 n 个观测可
9、以显著地分为 k类,根据上表中显示的伪 F 的值,在 3 类时伪 F 统计量取到一个最大值 38.8,因此将 31个地区分成三类是很合理的。分成的六类结果如下:第一类:第一类:上海上海 各类商品的消费性支出都偏高。第二第二类:类:北京、浙江、广东、天津、福建北京、浙江、广东、天津、福建 总体的消费性支出中等。第三第三类:类:河北、河南、黑龙江、山西、吉林、宁夏、江西、贵州、甘肃、青海、新疆、内河北、河南、黑龙江、山西、吉林、宁夏、江西、贵州、甘肃、青海、新疆、内蒙古、山东、辽宁、重庆、江苏、安徽、湖北、湖南、陕西、广西、海南、四川、云南、蒙古、山东、辽宁、重庆、江苏、安徽、湖北、湖南、陕西、广
10、西、海南、四川、云南、西藏西藏 各种商品的消费性支出偏低。2.3 WARD 离差平方和法分类离差平方和法分类 WARD 离差平方和法中类与类之间的距离定义为合并所引起的类内离差平方和的增加量,其具体公式为:=其中 Wk表示的是第 k 类的类内离差平方和。考虑到越是同一类观测,合并使得增加的类内离差平方和就应该越小些,因此在每一部合并过程中选择使得类内离差平方和增加最小的两类进行合并。利用 SAS 运行得到的聚类历史,在此依然只给出最后 10 步的过程:Cluster History NCL Clusters Joined FREQ SPRSQ RSQ ERSQ CCC PSF PST2 T i
11、 e 10 CL20 CL15 5 0.0094.942.37.9 3.7 9 CL26 CL10 8 0.0115.930.36.8 3.8 8 CL14 CL16 12 0.0117.919.37.2 6.4 7 CL11 广东广东 3 0.0126.906.38.6 2.2 6 CL13 CL12 5 0.0147.891.897-.35 41.1 3.1 5 CL8 CL19 14 0.0200.871.876-.21 44.1 7.5 -6-Cluster History NCL Clusters Joined FREQ SPRSQ RSQ ERSQ CCC PSF PST2 T i
12、 e 4 CL7 上海上海 4 0.0540.818.844-1.1 40.3 5.9 3 CL6 CL9 13 0.0595.758.793-.82 43.9 11.2 2 CL3 CL5 27 0.1351.623.664-.74 47.9 19.9 1 CL4 CL2 31 0.6229.000.000 0.00.47.9 仍然同上面类平均法分成几类的原则,观察 R2和伪 F 统计量,在由 3 类合并成 2 类的过程中,R2统计量下降地很快,而且在合并成三类时,伪 F 统计量的值也比较大,因此我们将这 31 个地区分成 3 类,具体如下:第一类:第一类:北京、浙江、广东、上海北京、浙江、
13、广东、上海 各项商品的消费性支出偏高。第二类:第二类:天津、福建、辽宁、重庆、江苏、安徽、湖北、湖南、广西、海南、四川、云南、天津、福建、辽宁、重庆、江苏、安徽、湖北、湖南、广西、海南、四川、云南、西藏西藏 总体的消费性支出中等。第三类:第三类:河北、河南、黑龙江、山西、吉林、宁夏、陕西、河北、河南、黑龙江、山西、吉林、宁夏、陕西、江西、江西、贵州、甘肃、青海、新贵州、甘肃、青海、新疆、内蒙古、山东疆、内蒙古、山东 各项商品的消费性支出均比较低。2.4 两种分类结果的两种分类结果的简单简单比较说明比较说明 使用类平均法和 WARD 离差平方和法都较好地实现了分类,都表明了各个地区在各类商品上的
14、消费性支出存在着较显著的差异,再根据数据给出的各个地区总的消费性支出数据,发现两种方法的结果都使得这一指标有较显著的区分。在这个例子中 WARD 离差平方和法的结果中的第一类可以看作是类平均法得出的结果中的第一、二类的综合,而第二、三类则可以看成是类平均法第三类的一个拆分。这也就是说,两种方法得出的结果又很大的相似性 但两种方法得出的结果也有一定的偏差,例如天津、福建的观测,按照上面的简单分析,在类平均法中其与北京、广东等地区同属一类,而在 WARD 离差平方和法中却与北京、广东等地区不在一类上。出现这种小范围矛盾的结果一方面说明了两种方法本身的缺陷性,另一方面也说明了数据的实际意义可能没有被
15、完全利用上。-7-3 两组变量的相关性分析两组变量的相关性分析 3.1 简单的简单的初步分析初步分析 衣食住行是人们生活的基本物质需要,因此在这里我们将食品、衣着、居住看作一组变量,其它五个变量划为另外一组,探究两组变量之间的相关程度,以此来说明基本生活物质的消费性支出对其它生活物质的消费性支出的影响。在进行相关性分析之前,我们先观察一下数据的一些简单特征,如下给出 8 个变量的均值和标准差:Means and Standard Deviations Variable Mean Standard Deviation x1 4105.175161 955.228373 x2 1136.49064
16、5 235.478578 x3 1074.709355 264.679236 x4 646.790323 190.770696 x5 756.513548 233.584021 x6 1294.270000 607.202182 x7 1243.084516 518.231686 x8 400.113548 155.581847 我们发现在食品上各地区的消费明显高出其它各类商品,而且其标准差也明显高出其它各类商品,这说明各地区人们会花更多的钱在吃上,食品是人们生活的最底层的物质需要,这类商品的高额消费也不足为奇,还有就是各地区在这类商品上的花费差异很大。如下给出两组变量两两之间的相关系数:Co
17、rrelations Between the VAR Variables and the WITH Variables x4 x5 x6 x7 x8 x1 0.7244 0.2719 0.9190 0.8194 0.7656 -8-Correlations Between the VAR Variables and the WITH Variables x4 x5 x6 x7 x8 x2 0.4833 0.6212 0.4084 0.5729 0.5996 x3 0.7115 0.5654 0.7647 0.7716 0.6933 由表中给出的结果可以看出,食品(x1)与家庭设备用品及服务(x
18、4),交通和通信(x6),教育文化及娱乐服务(x7),杂项商品和服务(x8),居住(x3)与家庭设备用品及服务(x4),交通和通信(x6),教育文化及娱乐服务(x7)等都存在较大的相关。由此初步地认为考虑两组变量的相关是很合理的。3.2 两组变量的典型相关两组变量的典型相关 3.2.1 典型相关系数的显著性检验典型相关系数的显著性检验 在3.1 中,我们已经通过简单的观测初步认为两组变量有着一定的相关性,下面我们用统计量来检验这两组变量的相关性。检验检验 H0:xy=0 其中 x=(x1,x2,x3),y=(x4,x5,x6,x7,x8),如果两组变量不相关,那么 cov(x,y)=xy=0,
19、这时对两组变量相关性的讨论就毫无意义,因此作在讨论相关性之前做这个检验是很有必要的。假设 z=(x,y)服从正态分布,即 zNp+q(,),根据似然比可导出统计量如下:=|其中 S 是的极大似然估计,Sxx,Syy分别是xx,yy的极大似然估计,下面是 SAS给出的集中统计量的值以及 p 值:Multivariate Statistics and F Approximations S=3 M=0.5 N=10.5 Statistic Value F Value Num DF Den DF Pr F Wilks Lambda 0.03446058 10.17 15 63.894.0001 Pil
20、lais Trace 1.47409397 4.83 15 75.0001 Hotelling-Lawley 14.34070216 21.18 15 38.495 F Trace Roys Greatest Root 13.40702585 67.04 5 25|t|Intercept 1 5.77007E-17 0.04813 0.00 1.0000 -13-Parameter Estimates Variable DF Parameter Estimate Standard Error t Value Pr|t|v1 1 0.96467 0.04892 19.72.0001 对于参数1,
21、其t值小于0.0001,因此在=0.01的显著水平下认为回归模型是显著的;对于参数0,其 t 值为 1,因此判定回归模型通过原点,由此得出 v1 与 w1 的线性模型为:w1=0.96467 v1 这个模型的决定系数结果如下:Root MSE 0.26796 R-Square 0.9306 Dependent Mean 1.96975E-17 Adj R-Sq 0.9282 Coeff Var 1.360389E18 决定系数 R2=0.9306,由此认为这个模型的效果还是不错的。下面画出散点与模拟的值线图:4 最终的结论分析最终的结论分析 就地区而言,上海、北京、广东、浙江等地的消费性支出水
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 各地区 各类 商品 消费 支出 统计分析
限制150内