19主成分分析法.doc

资源ID：69467128 资源大小：114.50KB 全文页数：7页
资源格式： DOC 下载积分：15金币

快捷下载

会员登录下载

微信登录下载

三方登录下载：

微信扫一扫登录

下载资源需要15金币

邮箱/手机：
温馨提示：	快捷下载时，用户名和密码都是您填写的邮箱或者手机号，方便查询和重复下载（系统自动生成）。如填写123，账号就是123，密码也是123。
支付方式：
验证码：	换一换

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？

友情提示

1、下载资料失败解决办法

2、PDF文件下载后，可能会被浏览器默认打开，此种情况可以点击浏览器菜单，保存网页到桌面，就可以正常下载了。

3、本站不支持迅雷下载，请使用电脑自带的IE浏览器，或者360浏览器、谷歌浏览器下载即可。

4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩，下载后原文更清晰。

5、试题试卷类文档，如果标题没有明确说明有答案则都视为没有答案，请知晓。

网站客服

侵权投诉

19主成分分析法.doc

19.主成分分析法一、方法介绍基本思路：主成分分析就是设法将原来指标重新组合成一组新的互相无关的几个综合指标来代替原来指标，同时根据实际需要从中可取几个较少的综合指标尽可能多地反映原来指标的信息。这种将多个指标化为少数互相无关的综合指标的统计方法叫做主成分分析或称主分量分析。主成分分析的基本思想就是，设法将原来众多具有一定相关性的指标（比如P个指标），重新组合成一组新的相互无关的综合指标来代替原来指标。最经典的方法就是用F1的方差来表达，即 Var (F1)越大，表示F1包含的信息越多。理论模型：设有n个样品，每个样品观测p项指标（变量）：X1，X2，p，得到原始数据资料阵：（1）其中， i=1，p用数据矩阵X的p个向量(即p个指标向量)X1，Xp作线形组合（即综合指标向量）为：（2）简写成 i=1，p （3）（注意：Xi是n维向量，所以Fi也是n维向量。）上述方程要求： i=1,，p （4）且系数aij由下列原则决定：（1）Fi与Fj（ij，i，j=1，p）不相关；（2）F1是X1，p的一切线性组合（系数满足上述方程组）中方差最大的，F2是与F1不相关的X1，p的一切线性组合中方差最大的，Fp是与其他都不相关的X1，p的一切线性组合中方差最大的。二、实证模型实证模型中，我们运用主成分分析的方法,建立我国蔬菜总产的主成分回归预测模型。我们确立了以下13个因素：蔬菜种植面积(103hm2),记为X1；物质费用(元/ hm2) ,以每公顷每年投入物质费用总金额表示,记为X2；劳动投入(日/ hm2) , 以每hm2 每年投入劳动标准工作日表示，记为X3；蔬菜零售物价指数(1990年=100),记为X4；成本纯收益率(%) ,记为X5；市场化程度(元/人)，以人均年社会消费品零售额表示,记为X6 ；城市化水平1(%)，用城市人口所占全国人口比重表示，记为X7 ；城市化水平2 (%)，用全国从事第二、三产业人口占全国人口比重表示,记为X8；交通(t/人),用每年人均货物运输量表示,记为X9，城镇居民人均可支配收入(元),记为X10，农村居民人均纯收入(元)，记为X11，农业劳动力受教育程度(年), 用农民家庭劳动力的平均文化程度表示, 记为X12；气候条件(%),用每年成灾面积占农作物播种面积比重表示,记为X13 。使用软件：采用Eviews5.1、SPSS12.0、Stata5.1、SAS 8.1 等计量软件均可完成上述因子分子模型。三、一个简单的例证：我国蔬菜总产的主成分回归模型为了弄清13个因素之间的相关关系,我们利用SAS8.1软件将影响我国蔬菜总产的13个因素变量作了共线诊断。我们发现, 从第5 维开始条件指数开始超过30 ,第14 维条件指数竟达到3680430 ,这表示13个影响因素之间存在着严重的多重共线性, 而且X1 与X6、X7、X10、X12, X2以及X4 与X8 、X11等有很强的相关性。由于讨论的是多个因素对蔬菜总产的影响,多个因素之间相关系数又是错综复杂的,任何两个因素之间都有简单的线性关系,而这种相关关系还夹杂了其它变量所带来的影响。因此,现在就需要有一种进行简化的方法,可以在不损失或很少损失原有信息的前提下,将上述若干个个数较多而且彼此相关的因素转化为新的且个数较少并且彼此独立或不相关的综合因素, 然后将这些因素作为解释变量, 与被解释变量蔬菜总产一起, 建立回归模型。首先，将影响我国蔬菜总产因素的数据写成矩阵形式：X = X1, X2 , , X13 ,Xi 为13维列向量( i= 1,2 ,13) 。为了消除原来各指标的量纲,使各指标之间具有可比性, 需对原数据作标准化处理得到标准化矩阵Y=Y1 ,Y2 , , Y13。计算其列向量相关系数矩阵R= rij 13 ×13 (i,j =1 , 2 , , 13),其中rij是第i个指标与第j 个指标之间的样本相关系数, 并进一步由R 的特征方程R - I13 = 0 计算出其特征值i ( i = 1 , 2 , 13)(表1 只给出了R 的前3 个特征值) 。由于第一、第二、第三主成分Z1 、Z2 、Z3 累计解释方差的比率已经超过了94 % , 所以只需求1 、2 、3 所对应的正交化特征向量i( i = 1 , 2 , 3) 以及模型(*)。计算结果见表1。表1 相关矩阵的特征值特征值序号特征值累计方差比率特征向量模型（*）110.1630.7821Z1=1YT21.2500.8782Z2=2YT30.8790.9463Z3=3YT表1 中:1 = (0131, 0129, - 0125, 0130, - 0109, 0131, 0130,0130, 0130, 0131, 0131, 0131, 0113) ,2 = ( - 0103, 0123, 0151, 0111, 0177, 0101, - 0109,0113, 0119, 0107, 0104, - 0103, - 0109) ,3 = (0103, - 0103, 0124, - 0108, 0101, - 0103, 0102,- 0106, - 0104, - 0103, - 0108, 0105, 0196) 其次，利用公式r(Zk,Yj) = (其中k = 1, 2,3, j = 1, 2, , 13) 可以计算出Zk 与yj 的相关系数, 并称为因子载荷,见表2。表2 因子载荷矩阵y1 y2 y3 y4 y5 y6 y7 y8 y9 y10 y11 y12 y13 Z1 0.99*0.92*-0.8* 0.96* -0.30.99*0.96* 0.96* 0.96* 0.99*0.99* 0.99* 0.41Z2 -0.030.260.57 *0.120.86*0.01-0.100.150.210.080.05-0.03-0.10Z3 0.03-0 03 0.23 -0.08 0.01 -0.03 0.02 -0.06 -0.04 -0.03 -0.08 0.05 0.90* 注: *表示在0.05 水平下显著。从表2 结果可以得到, 前面3个主成分( Z1Z3) 基本上反映了原来所有信息。第一主成分与蔬菜种植面积、每公顷物质费用、蔬菜零售物价指数、市场化程度、城市化水平1、城市化水平2、交通、城镇居民可支配收入、农村居民纯收入、农民文化素质等密切相关, 表示的是市场经济综合因素, 着重反映的是市场经济的成熟程度与国家现代化水平；第二主成分与每公顷劳动投入、成本纯收益率等密切相关, 表示的是劳动者动力因素；第三主成分与气候条件密切相关,显然表示的是气候因素。将影响我国蔬菜总产的数据的标准化矩阵Y(*) 式, 得到了每个年份的3 个主成分得分。表3 给出了Z1 、Z2 、Z3 的具体得分以及19902002 我国蔬菜总产的具体数据。表3 主成分得分以及蔬菜总产年份主成分得分蔬菜总产（104t）年份主成分得分蔬菜总产（104t）Z1Z2Z3Z1Z2Z31990-4.62-0.54-1.401951919971.42-0.200.59344731991-4.13-0.200.971957819981.61-0.70-0.77384851992-3.50-1.930.361963719992.07-0.09-0.45405141993-2.980.29-0.181969520003.37-0.971.10424001994-1.721.371.591660220013.92-0.100.534833719950.942.73-0.422572320024.720.10-0.595290919960.790.13-1.3430379继续利用SAS8.1 软件将表3 的数据建立蔬菜总产Q 对3个主成分的二次多元回归分析, 得到Q 的主成分回归方程为：（*）F = 48.91,P值< 0.0001,R2 =0.9873模型(*)是把第一、第三主成分当作自变量来处理的。继续利用(*) , 将其代入(*) ,再将Y 回代成X ,这样就得到了Q 与X 的回归方程为：（*）其中, Y= Y1 ,Y2 ,., Y13 ,Yi =，Xi 与Si分别是Xi 的均值与修正标准差。表4 1990-2002年蔬菜总产的主成分回归值与实际值比较年份实际值（104t）回归值（104t）相对误差（%）年份实际值（104t）回归值（104t）相对误差（%）19901951916756.50-4.2419973447334803.09-1.42319911957818861.53-10.5119983848535171.46-5.70719921963720916.143.519819994051438238.69-4.23619931969521789.0811.34420004240043661.27-0.40819941660219761.267.228620014833748767.78-0.70619952572326117.833.519420025290953644.190.13919963037929396.983.0983平均相对误差4.32最后，将19902002 各年的Xi数据代入模型(*) 就得到了各年的蔬菜产量回归值。从表4 中我们可以看出, 蔬菜产量回归值与实际值的平均相对误差只有4.32% , 显示了模型具有较高拟合程度, 达到了预期的效果。虽然1993、1994 这两年的相对误差较大, 但造成这种局面主要是这两年的蔬菜总产波动幅度过大(达到了15.7 %) 所造成的。四、评价及问题方法评价：主成分分析法的优点在于各综合因子的权重不是主观赋值而是根据各自的方差贡献率大小来确定的，方差越大的变量越重要，从而具有较大的权重；相反，方差越小的变量所对应的权重也就越小。这就避免了人为确定权重的随意性，使得排行结果唯一，而且较为客观合理。此外，主成分分析的整个过程都可以运用计算机软件方便快捷地进行，可操作性强。因此，与其他方法相比，主成分分析法是一种科学、实用、简便的综合排行方法，适用于解决多指标的综合评价问题。需注意问题：（1）设定好主成分分析指标后，还要对主成分分析法的可行性进行研究。主成分分析法应用的前提是原有变量之间应具有较强的相关关系，否则根本无法从中综合出能够反映某些变量共同特性的几个较少的公共因子变量。（2）在利用主成分分析法的开始阶段，应当尽可能多地选取与研究对象有关的指标，以免遗漏重要的评估指标。然后，就可以通过主成分分析选择相对更为有效的指标，构建研究对象评估的指标体系，进而进行基于数据本身的相对客观的评估。五、重要文献1 高志刚.新疆区域经济差异与预警系统研究M,新疆人民出版社 20022 韩德麟等.新疆绿洲经济发展地域差异与协调方略,科技导报J，1999(12)3 赵建新.新疆区域间经济差距变动状况分析,新疆社会科学,1997(5) 4 卢艳徐建华.中国区域及国内经济发展差异的实政研究与R/S分析J,地域研究与开发，20035 王学民.应用多元分析,上海财经大学出版社,20036 王振龙.时间序列分析,中国统计出版社,19997 邓祖新.SAS系统和数据分析,电子工业出版社,20028 刘俊昌.计量经济学,中国林业出版社,20027

注意事项

本文（19主成分分析法.doc）为本站会员（asd****56）主动上传，淘文阁 - 分享文档赚钱的网站仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对上载内容本身不做任何修改或编辑。若此文所含内容侵犯了您的版权或隐私，请立即通知淘文阁 - 分享文档赚钱的网站（点击联系客服），我们立即给予删除！

温馨提示：如果因为网速或其他原因下载失败请重新下载，重复下载不扣分。