19主成分分析法.doc
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_05.gif)
《19主成分分析法.doc》由会员分享,可在线阅读,更多相关《19主成分分析法.doc(7页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、19.主成分分析法一、方法介绍基本思路:主成分分析就是设法将原来指标重新组合成一组新的互相无关的几个综合指标来代替原来指标,同时根据实际需要从中可取几个较少的综合指标尽可能多地反映原来指标的信息。这种将多个指标化为少数互相无关的综合指标的统计方法叫做主成分分析或称主分量分析。主成分分析的基本思想就是,设法将原来众多具有一定相关性的指标(比如P个指标),重新组合成一组新的相互无关的综合指标来代替原来指标。最经典的方法就是用F1的方差来表达,即 Var (F1)越大,表示F1包含的信息越多。理论模型:设有n个样品,每个样品观测p项指标(变量):X1,X2,p,得到原始数据资料阵: (1)其中, i
2、=1,p用数据矩阵X的p个向量(即p个指标向量)X1,Xp作线形组合(即综合指标向量)为: (2)简写成 i=1,p (3)(注意:Xi是n维向量,所以Fi也是n维向量。)上述方程要求: i=1,,p (4)且系数aij由下列原则决定:(1)Fi与Fj(ij,i,j=1,p)不相关;(2)F1是X1,p的一切线性组合(系数满足上述方程组)中方差最大的,F2是与F1不相关的X1,p的一切线性组合中方差最大的,Fp是与其他都不相关的X1,p的一切线性组合中方差最大的。二、实证模型实证模型中,我们运用主成分分析的方法,建立我国蔬菜总产的主成分回归预测模型。我们确立了以下13个因素:蔬菜种植面积(10
3、3hm2),记为X1;物质费用(元/ hm2) ,以每公顷每年投入物质费用总金额表示,记为X2;劳动投入(日/ hm2) , 以每hm2 每年投入劳动标准工作日表示,记为X3;蔬菜零售物价指数(1990年=100),记为X4;成本纯收益率(%) ,记为X5;市场化程度(元/人),以人均年社会消费品零售额表示,记为X6 ;城市化水平1(%),用城市人口所占全国人口比重表示,记为X7 ;城市化水平2 (%),用全国从事第二、三产业人口占全国人口比重表示,记为X8;交通(t/人),用每年人均货物运输量表示,记为X9,城镇居民人均可支配收入(元),记为X10,农村居民人均纯收入(元),记为X11,农业
4、劳动力受教育程度(年), 用农民家庭劳动力的平均文化程度表示, 记为X12;气候条件(%),用每年成灾面积占农作物播种面积比重表示,记为X13 。使用软件:采用Eviews5.1、SPSS12.0、Stata5.1、SAS 8.1 等计量软件均可完成上述因子分子模型。三、一个简单的例证:我国蔬菜总产的主成分回归模型为了弄清13个因素之间的相关关系,我们利用SAS8.1软件将影响我国蔬菜总产的13个因素变量作了共线诊断。我们发现, 从第5 维开始条件指数开始超过30 ,第14 维条件指数竟达到3680430 ,这表示13个影响因素之间存在着严重的多重共线性, 而且X1 与X6、X7、X10、X1
5、2, X2以及X4 与X8 、X11等有很强的相关性。由于讨论的是多个因素对蔬菜总产的影响,多个因素之间相关系数又是错综复杂的,任何两个因素之间都有简单的线性关系,而这种相关关系还夹杂了其它变量所带来的影响。因此,现在就需要有一种进行简化的方法,可以在不损失或很少损失原有信息的前提下,将上述若干个个数较多而且彼此相关的因素转化为新的且个数较少并且彼此独立或不相关的综合因素, 然后将这些因素作为解释变量, 与被解释变量蔬菜总产一起, 建立回归模型。首先,将影响我国蔬菜总产因素的数据写成矩阵形式:X = X1, X2 , , X13 ,Xi 为13维列向量( i= 1,2 ,13) 。为了消除原来
6、各指标的量纲,使各指标之间具有可比性, 需对原数据作标准化处理得到标准化矩阵Y=Y1 ,Y2 , , Y13。计算其列向量相关系数矩阵R= rij 13 13 (i,j =1 , 2 , , 13),其中rij是第i个指标与第j 个指标之间的样本相关系数, 并进一步由R 的特征方程R - I13 = 0 计算出其特征值i ( i = 1 , 2 , 13)(表1 只给出了R 的前3 个特征值) 。由于第一、第二、第三主成分Z1 、Z2 、Z3 累计解释方差的比率已经超过了94 % , 所以只需求1 、2 、3 所对应的正交化特征向量i( i = 1 , 2 , 3) 以及模型(*)。计算结果见
7、表1。表1 相关矩阵的特征值特征值序号特征值 累计方差比率特征向量模型(*)110.1630.7821Z1=1YT21.2500.8782Z2=2YT30.8790.9463Z3=3YT表1 中:1 = (0131, 0129, - 0125, 0130, - 0109, 0131, 0130,0130, 0130, 0131, 0131, 0131, 0113) ,2 = ( - 0103, 0123, 0151, 0111, 0177, 0101, - 0109,0113, 0119, 0107, 0104, - 0103, - 0109) ,3 = (0103, - 0103, 0124
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 19 成分 分析
![提示](https://www.taowenge.com/images/bang_tan.gif)
限制150内