《主成分分析法讲稿.ppt》由会员分享,可在线阅读,更多相关《主成分分析法讲稿.ppt(37页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、关于主成分分析法第一页,讲稿共三十七页哦4.1 主成分分析法的基本原理主成分分析法的基本原理 主成分分析(Principal Components Analysis)是由Hotelling于1933年首先提出的,它是利用降维的思想,把多指标转化为少数几个综合指标的多元统计分析方法。第二页,讲稿共三十七页哦4.1.1 基本思想基本思想 对原始变量相关矩阵结构关系进行研究,找出影响某一经济过程的几个综合指标,使综合指标变为原来变量的线性组合,从而不仅保留了原始变量的主要信息,彼此之间又不相关,更有助于抓住主要矛盾。第三页,讲稿共三十七页哦 借助于一个正交变换T,将其分量相关的原随机向量x=(x1,
2、x2,L,xp)T,转化成其分向量不相关的新随机向量u=(u1,u2,L,up)T ,这在代数上表现为将x的协方差阵变换成对角形阵,在几何上表现为将远坐标系变换成新的正交坐标系,使之指向样本点散布最开的p个正交方向,然后对多维变量系统进行降维处理,使之能以一个较高的精度转换成低维度变量系统,再通过构造适当的价值函数,进一步把低维系统转化成一维系统。第四页,讲稿共三十七页哦 定义: 称为第k主成分分量的方差贡献率, 称为前k个主成分分量的累计方差贡献率。 11pkii111pkiiii第五页,讲稿共三十七页哦 例:儿童身高和体重两个变量之间的关系。下表表示儿童身高与体重数据 : 变量观测量身高h
3、体重w1h1w12h2w23h3w3nhnwn第六页,讲稿共三十七页哦使用散点图表示儿童身高与体重 y1y2 wh i=1,2,n 第七页,讲稿共三十七页哦 以该直线为一个坐标轴y1,以该轴的垂直线为另一个坐标轴y2。因为所有观测点均在坐标轴y1周围,而 y1 与 y2 是两个相互垂直的坐标轴,因此彼此不相关。 上述也可以看成是将h轴和w轴同时按逆时针方向旋转角度,得到新的坐标轴y1和 y2 ,y1和 y2是两个新的变量。第八页,讲稿共三十七页哦 根据旋转公式 y1=h cos+ w sin y2=-h sin+ w cos 我们看到新变量 y1和 y2 是原变量h和w的线性组合,它的矩阵表示
4、形式为 y1 cos sin h = =Ux y2 一sin cos w其中其中U为正交矩阵,即有为正交矩阵,即有U=U-1,U U-1=I第九页,讲稿共三十七页哦 旋转变换的目的是为了使得n个样本点在 y1 轴方向上的离散程度最大,即 y1的方差最大。变量 y1 代表了原始数据的绝大部分信息,即把原始数据的信息集中到 y1轴上,对数据中包含的信息起到了浓缩作用。 y1和 y2 可称为原始变量h和w的综合变量。由于n个点在 y1 轴上的方差最大,因而将二维空间的点的描述用 y1这个综合变量来代替,所损失的信息最小,由此称 y1 为第一主成分,y2为第二主成分。 第十页,讲稿共三十七页哦 4.1
5、.2 主成分分析法与因子分析法主成分分析法与因子分析法 主成分分析通过线性组合将原变量综合主成分分析通过线性组合将原变量综合成几个主成分,用较少的综合指标来代替原成几个主成分,用较少的综合指标来代替原来较多的指标来较多的指标(变量变量)。在多变量分析中,某些。在多变量分析中,某些变量间往往存在相关性。是什么原因使变量变量间往往存在相关性。是什么原因使变量间有关联呢?是否存在不能直接观测到的、间有关联呢?是否存在不能直接观测到的、但影响可观测变量变化的公共因子?但影响可观测变量变化的公共因子? 因子分析法因子分析法(Factor Analysis)就是寻找就是寻找这些公共因子的模型分析方法,它是
6、在主成这些公共因子的模型分析方法,它是在主成分的基础上构筑若干意义较为明确的公因子,分的基础上构筑若干意义较为明确的公因子,以它们为框架分解原变量,以此考察原变量以它们为框架分解原变量,以此考察原变量间的联系与区别。间的联系与区别。第十一页,讲稿共三十七页哦 4.1.2 主成分分析法与因子分析法主成分分析法与因子分析法 例如,随着年龄的增长,儿童的身高、体重会随着变化,具有一定的相关性,身高和体重之间为何会有相关性呢?因为存在着一个同时支配或影响着身高与体重的生长因子。那么,我们能否通过对多个变量的相关系数矩阵的研究,找出同时影响或支配所有变量的共性因子呢?因子分析就是从大量的数据中“由表及里
7、”、“去粗取精”,寻找影响或支配变量的多变量统计方法。 可以说,因子分析是主成分分析的推广,也是一种把多个变量化为少数几个综合变量的多变量分析方法,其目的是用有限个不可观测的隐变量来解释原始变量之间的相关关系。 因子分析主要用于:1、减少分析变量个数;2、通过对变量间相关关系探测,将原始变量进行分类。即将相关性高的变量分为一组,用共性因子代替该组变量。第十二页,讲稿共三十七页哦第十三页,讲稿共三十七页哦第十四页,讲稿共三十七页哦 4.2 主成分分析的一般数学模型主成分分析的一般数学模型 变量观测量X1X2X3X4Xm1X11X12X13X14X1m2X21X22X23X24X2mnXn1Xn2
8、Xn3Xn4Xnm 推广到一般情况,实测变量X1Xm,共测得n个样品 :第十五页,讲稿共三十七页哦原始数据矩阵为 : X11 X12 X1m X21 X22 X2m Xn1 Xn2 XnmX= 第十六页,讲稿共三十七页哦 在原始变量的m维空间中,找到新的m个坐标轴,新变量与原始变量的关系可以表示为:y1=u11x1+u12x2+ +u1mxmy2=u21x1+u22x2+ +u2mxm ym=um1x1+um2x2+ +ummxm 并且满足uk12 + uk22 + + ukm2=1 k=1,2, ,m第十七页,讲稿共三十七页哦系数uij由下列原则来确定: (1)yi与yj (i j, i,
9、j=1,2, ,p)相互无关。 (2)y1是x1、x2、xp的一切线性组合中方差最大者; y2是与y1不相关的x1、x2、xp的所有线性组合中方差最大者; yp是与y1、y2、yp-1都不相关的x1、x2、xp的所有线性组合中方差最大者。 如此决定的综合变量y1、y2、yp分别称为原始变量的第1、第2、第p个主成分。其中y1在总方差中占的比重最大,综合变量y1、y2、yp的方差依次递减,在具体分析时只挑选前几个方差最大的主成分,从而达到简化系统结构的目的。第十八页,讲稿共三十七页哦4.3 主成分分析法的算法主成分分析法的算法 主成分分析法原理应用于实际课题,必须解决主成分分析法原理应用于实际课
10、题,必须解决两个问题:两个问题: 一是随机向量一是随机向量x的协方差阵的协方差阵T 或相关系数阵或相关系数阵R通常是未知的,需借助于随机抽样的途径,对通常是未知的,需借助于随机抽样的途径,对T或或R作出极大似然估计;作出极大似然估计; 二是随机向量二是随机向量x的各个分量通常是不同的自的各个分量通常是不同的自然科学量或社会科学量,需通过标准化变换的方然科学量或社会科学量,需通过标准化变换的方法,以解决不可公度的问题。法,以解决不可公度的问题。 第十九页,讲稿共三十七页哦 步骤1:采集p维随机向量x=(x1,x2,xp)T的n个样品xi=(xi1,xi2,xip)T, i=1,2, ,n, np
11、,构造样本阵X x1T x11 x12 x1p x2T x21 x22 x2p X= = xnT xn1 xn2 xnp 第二十页,讲稿共三十七页哦 步骤步骤2 对样本阵X中的元进行如下变换 x ij , 对正指标 Y ij = - x ij, 对逆指标 得 Y= Y ij np 第二十一页,讲稿共三十七页哦步骤步骤3 对Y正中元进行如下标准化变换 ijjjyyijs1,2, ;1,2,in jp其中得标准化矩阵Z:2211,1nnijijjiijjyyyysnnZ= z1T z11 z12 z1p z2T = z21 z22 z2p znT zn1 zn2 znp第二十二页,讲稿共三十七页哦
12、步骤步骤4 对标准化阵Z求样本相关系数阵 其中1Tijp pZ ZRrn1., ,1,2,1nkjkjkijz zri jpn第二十三页,讲稿共三十七页哦步骤步骤5 解样本相关系数阵R的特征方程 得p个特征值 0pRI120p第二十四页,讲稿共三十七页哦步骤步骤6 按按 得单位特征向量得单位特征向量: 110.85mjjpjj使信息的利用率达到使信息的利用率达到85%以上。以上。确定确定m值。值。,1,2,jim对每个对每个 解方程组解方程组 jRbb0jjjbbb第二十五页,讲稿共三十七页哦 步骤7 求出zi=(zi1,zi2,zip)T, i=1,2,n的m个主成分量 uij=ziTbj0
13、 , j=1,2,m 得主成分决策阵 U= TnTTuuu21= nmnnmmuuuuuuuuu212222111211 其中ui为第i个样品的主成分向量,i=1,2,n, 它的第j个分量uij是向量zi在单位特征向量bj0 上的投影,j=1,2,m。 第二十六页,讲稿共三十七页哦 步骤步骤8 选择适当的主成分价值函数模型,进一选择适当的主成分价值函数模型,进一步把步把m维系统降成一维系统。维系统降成一维系统。一般评价函数一般评价函数模型为:模型为: Fi= , i=1,2,n。 其中其中 , j=1,2,m。 mjijjuw1miijjw1第二十七页,讲稿共三十七页哦 4.4 实例分析:企业
14、经济效益的主成分分析实例分析:企业经济效益的主成分分析 企业经济效益是指企业在一定的计划期内,以尽量少的资金占用、生产出尽量多的符合社会需求的产品。 对企业经济效益的考核、分析和评价,是国家发展经济、实施宏观调控和科学管理所必须的,也是企业自我认识、自我发展、进行科学决策和科学管理的依据。第二十八页,讲稿共三十七页哦 4.4.1 评价指标体系设计评价指标体系设计 (1)销售利润率 (2)总资产报酬率 (3)资本收益率 (4)资本保值增值率 (5)资产负债率 (6)速动比率 (7)应收帐款周转率 (8)存货周转率 (9)社会贡献率 (10)社会积累率第二十九页,讲稿共三十七页哦 4.4.2 建立
15、数学模型 (1)根据调查研究,取n个样本,每个样本观测p项指标, 从十个企业的财务报表中计算出所需的十个评价指标,得出原始数据矩阵如表1 Book1.xls第三十页,讲稿共三十七页哦(2)为了消除原来各指标的量纲,使各指标之间具有可比性,对原始数据作标准化处理,其计算公式为: (i=1,2,.n; j=1,2,p) 标准化原始数据矩阵所得结果如表2 Book1.xls jjijsxx XIj* =第三十一页,讲稿共三十七页哦 (3)计算相关系数矩阵: R= 其中, rij= (i=1,2,3,p; j=1,2,3,p) 根据标准化矩阵计算相关矩阵,结果如表3 Book1.xlspppppprr
16、rrrrrrr21222211121111nnttjtixx1第三十二页,讲稿共三十七页哦 (5)根据特征根计算主成分的贡献率和主成分的累计贡献率,选择m个主分量。当其达到一定水平时,说明前r个主成分来描述原样本所包含的信息量已经达到要求。计算公式如下: 第k个主主成分的贡献率= , 前r个主成分的累计贡献率= 计算结果如表4(Book1.xls)piik1piirii11第三十三页,讲稿共三十七页哦 选择的4个主分量的方差和占全部方差总和的比例为0.9070接近1, 即基本保留了原来的信息,而因子由10个减少为4个。故主成分为4个,根据Z=CX计算4个主成分的值z1,z2,z3,z4, 如下
17、: 第一主成分: z1=0.0620 x1+0.4439x2+0.4501x3+0.3072x4- 0.0803x5-0.1923x6+0.3089x7- 0.1153x8+0.4061x9+0.4301x10 第三十四页,讲稿共三十七页哦 第二主成分: z2=0.5554x1+0.0170 x2+0.0148x3+0.2455x4-0.4081x5+0.3854x6+0.1437x7-0.4850 x8-0.2443x9+0.0117x10 第三主成分: z3=-0.0660 x1-0.0813x2+0.1591x3-0.4107x4- 0.6418x5+0.2796x6+0.2931x7-0.4270 x8-0.0570 x9+0.1832x10 第三十五页,讲稿共三十七页哦 第四主成分: z4=0.2372x1-0.0673x2-0.1638x3-0.1553x4-0.1369x5-0.5447x6+0.6281x7-0.2381x8-0.1733x9-0.3026x10 用这四个主成分来评价各企业的综合经济效益,其计算公式如下: Y=0.4443z1+0.2550z2+0.1128z3+0.0949z4第三十六页,讲稿共三十七页哦感谢大家观看第三十七页,讲稿共三十七页哦
限制150内