多元统计论文,有案例分析.doc
《多元统计论文,有案例分析.doc》由会员分享,可在线阅读,更多相关《多元统计论文,有案例分析.doc(12页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、多 元 统 计 学课程论文 成绩 学生姓名 刘佳 班 级 统计12( 2 )班 学 号 12213238 基于主成分分析的城镇居民的人均全年消费性支出以中国31个省市为例摘 要主成分分析是将多指标化为少数几个综合指标的一种统计分析方法。通过降维技术把多个变量化为少数几个主成分的方法,这些主成分保留原始数据的绝大部分信息。通过主成分分析,可以从事务错综复杂的关系中找出一些主要成分,从而能有效利用大量统计数据进行定量分析,揭示变量之间的内在关系,得到一些对事务特征及其发展规律的深层次的启发,把研究工作引向深入。R软件是一款功能强大的、免费的、开源的、应用前景广阔的软件。【关键词】:主成分,多元统计
2、,R软件0 引 言每个地区的各项家庭人均年消费性支出都不一样,而收集的数据有很多,全部罗列会很繁琐。我国地区经济发展很不平衡,居民的人均消费性支出有很大差异。因此我们要把数据进行主成分分析,选出最主要的数据来代表各个省市的家庭人均消费性出。这个行为就显得尤为必要。1.主成分分析方法原理和步骤主成分分析(Principal Component Analysis,PCA), 将多个变量通过线性变换以选出较少个数重要变量的一种多元统计分析方法。1.1主成分分析方法原理主成分分析是数学上对数据降维的一种方法。其基本思想是设法将原来众多的具有一定相关性的指标X1,X2,XP(比如p个指标),重新组合成一
3、组较少个数的互不相关的综合指标Fm来代替原来指标。那么综合指标应该如何去提取,使其既能最大程度的反映原变量Xp所代表的信息,又能保证新指标之间保持相互无关(信息不重叠)。设F1表示原变量的第一个线性组合所形成的主成分指标,即 ,由数学知识可知,每一个主成分所提取的信息量可用其方差来度量,其方差Var(F1)越大,表示F1包含的信息越多。常常希望第一主成分F1所含的信息量最大,因此在所有的线性组合中选取的F1应该是X1,X2,XP的所有线性组合中方差最大的,故称F1为第一主成分。如果第一主成分不足以代表原来p个指标的信息,再考虑选取第二个主成分指标F2,为有效地反映原信息,F1已有的信息就不需要
4、再出现在F2中,即F2与F1要保持独立、不相关,用数学语言表达就是其协方差Cov(F1, F2)=0,所以F2是与F1不相关的X1,X2,XP的所有线性组合中方差最大的,故称F2为第二主成分,依此类推构造出的F1、F2、Fm为原变量指标X1、X2XP第一、第二、第m个主成分。 根据以上分析得知: (1) Fi与Fj互不相关,即Cov(Fi,Fj) = 0,并有Var(Fi)=aiai,其中为X的协方差阵 (2)F1是X1,X2,Xp的一切线性组合(系数满足上述要求)中方差最大的,即Fm是与F1,F2,Fm1都不相关的X1,X2,XP的所有线性组合中方差最大者。F1,F2,Fm(mp)为构造的新
5、变量指标,即原变量指标的第一、第二、第m个主成分。 由以上分析可见,主成分分析法的主要任务有两点: (1)确定各主成分Fi(i=1,2,m)关于原变量Xj(j=1,2 , p)的表达式,即系数 ( i=1,2,m; j=1,2 ,p)。从数学上可以证明,原变量协方差矩阵的特征根是主成分的方差,所以前m个较大特征根就代表前m个较大的主成分方差值;原变量协方差矩阵前m个较大的特征值 (这样选取才能保证主成分的方差依次最大)所对应的特征向量就是相应主成分Fi表达式的系数 ,为了加以限制,系数 启用的是 对应的单位化的特征向量,即有 = 1。 (2)计算主成分载荷,主成分载荷是反映主成分Fi与原变量X
6、j之间的相互关联程度: 1.2主成分分析法的计算步骤 (1)计算协方差矩阵计算样品数据的协方差矩阵:=(sij)pp,其中 i,j=1,2,p(2)求出的特征值及相应的正交化单位特征向量 的前m个较大的特征值l1l2lm0,就是前m个主成分对应的方差,对应的单位特征向量就是主成分Fi的关于原变量的系数,则原变量的第i个主成分Fi为:Fi =X主成分的方差(信息)贡献率用来反映信息量的大小,为:(3)选择主成分 最终要选择几个主成分,即F1,F2,Fm中m的确定是通过方差(信息)累计贡献率G(m)来确定当累积贡献率大于85%时,就认为能足够反映原来变量的信息了,对应的m就是抽取的前m个主成分。(
7、4)计算主成分载荷 主成分载荷是反映主成分Fi与原变量Xj之间的相互关联程度,原来变量Xj(j=1,2 , p)在诸主成分Fi(i=1,2,m)上的荷载 lij( i=1,2,m; j=1,2 ,p)。: (5)计算主成分得分 计算样品在m个主成分上的得分: i = 1,2,m实际应用时,指标的量纲往往不同,所以在主成分计算之前应先消除量纲的影响。消除数据的量纲有很多方法,常用方法是将原始数据标准化,即做如下数据变换:其中:,根据数学公式知道,任何随机变量对其作标准化变换后,其协方差与其相关系数是一回事,即标准化后的变量协方差矩阵就是其相关系数矩阵。另一方面,根据协方差的公式可以推得标准化后的
8、协方差就是原变量的相关系数,亦即,标准化后的变量的协方差矩阵就是原变量的相关系数矩阵。也就是说,在标准化前后变量的相关系数矩阵不变化。根据以上论述,为消除量纲的影响,将变量标准化后再计算其协方差矩阵,就是直接计算原变量的相关系数矩阵,所以主成分分析的实际常用计算步骤是:1.计算相关系数矩阵2.求出相关系数矩阵的特征值及相应的正交化单位特征向量3.选择主成分 4计算主成分得分总结:原指标相关系数矩阵相应的特征值li为主成分方差的贡献,方差的贡献率为 ,越大,说明相应的主成分反映综合信息的能力越强,可根据li的大小来提取主成分。每一个主成分的组合系数(原变量在该主成分上的载荷)就是相应特征值li所
9、对应的单位特征向量。2.主成分方法的实际应用本研究选取中国统计年鉴(2009)提供的包括全国31个省。直辖市和自治区(港澳台除外)的各地区城镇居民家庭消费性支出作为观测样本,所选指标包括食品、衣着、居住、医疗、交通通信、教育、家政、耐用消费品。x1x2x3x4x5x6x7x8北京5556.541571.741286.321563.12293.23809.2584.71548.55天津5005.091153.661528.281220.921567.87715.2445.5467.75河北3155.41137.221097.41808.881062.31386.628.84305.7山西2974
10、.761137.711250.87769.79931.33570.7935.38259.05内蒙古3553.481616.561028.19869.711191.7568.3530.49307.92辽宁4378.141187.411270.95913.131295.7670.1330.4235.46吉林3307.141259.621285.28914.47954.96576.1721.25214.28黑龙江3128.11217.04941.25864.89749.05551.7316.11192.87上海7108.621520.611646.1755.23373.11165.06130.865
11、45.3江苏4544.641166.911042.1794.631357.96750.9772.09365.56浙江5522.561546.461333.69933.112392.631178.5478.67306.86安徽3905.051010.61988.12633.93920.72633.4531.57249.32福建5078.851105.311300.1540.631777.06686.3578.29320.38江西3633.05969.58815.15483.96872.57388.4827.95229.82山东3699.421394.111247.04799.791410.455
12、80.133.5426.8河南3079.821141.76963.59790.87915.12464.3523.36332.85湖北3996.271099.16914.26675.32890.12570.9928.21265.01湖南3970.421090.72960.82790.95971.05543.538.49254.18广东5866.91975.061748.16836.392623.08720.58120.04348.66广西4082.99772.28891.33529.361376.03483.6130.24294.83海南4226.9491.841106.39536.41303.
13、5459.7424.66255.76重庆4418.341294.31096.82878.251044.36536.4348.15405.48四川4255.481042.45819.28564.931121.45422.0730.03211.86贵州3597.94851.5836.54471.39871.15436.2425.36186.1云南4272.291026.5739.2606.861216.46294.2911.89158.87西藏4262.771011.82634.94317.08966.74205.453.5839.8陕西3586.131047.611007.68862.7967.
14、52697.2939.86287.22甘肃3183.791022.62846.26654.82817.17428.419.3238.04青海3315.94945.14802.73610.02787.63388.969.74242.21宁夏3352.831178.881069.15816.871096.32465.0827.94303.8新疆3235.771245.02781.9643.481003.89417.0623.89223.222.1计算相关矩阵 d=read.table(clipboard,header=T) cor(d) x1 x2 x3 x4 x5 x6 x7x1 1.00000
15、00 0.2819462 0.6459568 0.2712858 0.9189221 0.7142440 0.8554823x2 0.2819462 1.0000000 0.3763614 0.6211735 0.4084226 0.5596444 0.3906042x3 0.6459568 0.3763614 1.0000000 0.5683671 0.7646681 0.7520014 0.7895356x4 0.2712858 0.6211735 0.5683671 1.0000000 0.3593429 0.5248155 0.3828978x5 0.9189221 0.4084226
16、 0.7646681 0.3593429 1.0000000 0.7828692 0.9108506x6 0.7142440 0.5596444 0.7520014 0.5248155 0.7828692 1.0000000 0.8130313x7 0.8554823 0.3906042 0.7895356 0.3828978 0.9108506 0.8130313 1.0000000x8 0.5665381 0.5090256 0.7043491 0.6824421 0.6616299 0.6674963 0.7100433 x8x1 0.5665381x2 0.5090256x3 0.70
17、43491x4 0.6824421x5 0.6616299x6 0.6674963x7 0.7100433x8 1.00000002.2计算相关矩阵的特征值和主成分负荷 pca=princomp(d,cor=T) pcaCall:princomp(x = d, cor = T)Standard deviations: Comp.1 Comp.2 Comp.3 Comp.4 Comp.5 Comp.6 Comp.7 2.3209530 1.1083219 0.7288691 0.5469382 0.4736940 0.4345337 0.2988395 Comp.8 0.2278107 8 va
18、riables and 31 observations. pca$loadingsLoadings: Comp.1 Comp.2 Comp.3 Comp.4 Comp.5 Comp.6 Comp.7 Comp.8x1 -0.358 0.399 0.164 0.290 -0.495 0.262 0.533x2 -0.257 -0.538 0.703 0.121 -0.339 0.139x3 -0.374 -0.408 -0.568 -0.516 0.223 0.209x4 -0.276 -0.596 -0.338 -0.603 0.170 -0.222 -0.110x5 -0.392 0.293
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 多元 统计 论文 案例 分析
限制150内