《主成分分析模型》PPT课件.ppt
《《主成分分析模型》PPT课件.ppt》由会员分享,可在线阅读,更多相关《《主成分分析模型》PPT课件.ppt(33页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、 第二讲第二讲 主成分分析模型与因子分析模型主成分分析模型与因子分析模型 主成分概念首先是由主成分概念首先是由Karl Parson Karl Parson 在在19011901年年引进的引进的,不过当时只对非随机变量来讨论的不过当时只对非随机变量来讨论的.19331933年年HotellingHotelling将这个概念推广到随机向量将这个概念推广到随机向量.在实际问题中在实际问题中,研究多指标研究多指标(变量变量)问题是经常问题是经常遇到的遇到的,然而在多数情况下然而在多数情况下,不同指标之间是有一不同指标之间是有一定相关性定相关性.由于指标较多再加上指标之间有一定的由于指标较多再加上指标
2、之间有一定的相关性相关性,势必增加了分析问题的复杂性势必增加了分析问题的复杂性.主成分分主成分分析就是设法将原来指标重新组合成一组新的互相析就是设法将原来指标重新组合成一组新的互相无关的几个综合指标来代替原来指标无关的几个综合指标来代替原来指标,同时根据实同时根据实际需要从中可取几个较少的综合指标尽可能多地际需要从中可取几个较少的综合指标尽可能多地反映原来指标的信息反映原来指标的信息.一、主成分分析模型一、主成分分析模型这种将多个指标化为少数互相无关的综合指标的统这种将多个指标化为少数互相无关的综合指标的统计方法就叫主成分分析或称为主分量分析计方法就叫主成分分析或称为主分量分析.也是数也是数学
3、上处理降维的一种方法学上处理降维的一种方法.例如例如,某人要做一件上衣某人要做一件上衣要测量很多尺寸要测量很多尺寸,如身长、袖长、胸围、腰围、肩如身长、袖长、胸围、腰围、肩宽、肩厚等等十几个指标,但某服装厂要生产一批宽、肩厚等等十几个指标,但某服装厂要生产一批新型服装绝不可能把尺寸的型号分得过多,而是从新型服装绝不可能把尺寸的型号分得过多,而是从多种指标中综合成几个少数的综合指标,做为分类多种指标中综合成几个少数的综合指标,做为分类的型号,利用主成分分析将十几项指标综合成的型号,利用主成分分析将十几项指标综合成3项项指标,一项是反映长度的指标,一项是反映胖瘦的指标,一项是反映长度的指标,一项是
4、反映胖瘦的指标,一项是反映特体的指标。在商业经济中用主指标,一项是反映特体的指标。在商业经济中用主成分分析可将复杂的一些数据综合成几个商业指数成分分析可将复杂的一些数据综合成几个商业指数形式,如物价指数、生活费用指数、商业活动指数形式,如物价指数、生活费用指数、商业活动指数等等。等等。主成分分析综合评价法具有以下优点:第一,可消主成分分析综合评价法具有以下优点:第一,可消除评价指标之间的相关影响。因为主成分分析在对除评价指标之间的相关影响。因为主成分分析在对原指标变量进行变换后形成了彼此相互独立的主成原指标变量进行变换后形成了彼此相互独立的主成分,而且实践证明指标间相关程度越高,主成分分分,而
5、且实践证明指标间相关程度越高,主成分分析效果越好。第二,可减少指标选择的工作量,对析效果越好。第二,可减少指标选择的工作量,对于其它评价方法,由于难以消除评价指标间的相关于其它评价方法,由于难以消除评价指标间的相关影响,所以选择指标时要花费不少精力,而主成分影响,所以选择指标时要花费不少精力,而主成分分析由于可以消除这种相关影响,所以在指标选择分析由于可以消除这种相关影响,所以在指标选择上相对容易些。第三、主成分分析中各主成分是按上相对容易些。第三、主成分分析中各主成分是按方差大小依次排列顺序的,在分析问题时,可以舍方差大小依次排列顺序的,在分析问题时,可以舍弃一部分主成分,只取前面方差较大的
6、几个主成分弃一部分主成分,只取前面方差较大的几个主成分来代表原变量,从而减少了计算工作量。来代表原变量,从而减少了计算工作量。2、基本思想、基本思想 主成分分析就是设法将原来众多具有一定相关主成分分析就是设法将原来众多具有一定相关性的指标(比如性的指标(比如p个指标),重新组合成一组相互个指标),重新组合成一组相互无关的综合指标来代替原来指标。通常数学上的处无关的综合指标来代替原来指标。通常数学上的处理就是将原来理就是将原来p个指标作线性组合,作为新的综合个指标作线性组合,作为新的综合指标,但是这种线性组合,如果不加限制,则可以指标,但是这种线性组合,如果不加限制,则可以有很多,我们应该如何去
7、选取呢?如果将选取的第有很多,我们应该如何去选取呢?如果将选取的第一个线性组合即第一个综合指标记为一个线性组合即第一个综合指标记为F1,自然希望,自然希望F1尽可能多的反映原来指标的信息,这里的尽可能多的反映原来指标的信息,这里的“信息信息”用什么来表达?最经典的方法就是用用什么来表达?最经典的方法就是用F1的方差来的方差来表达,即表达,即Var(F1)越大,表示越大,表示F1包含的信息越多。包含的信息越多。因此在所有的线性组合中所选取的因此在所有的线性组合中所选取的F1应该是方差最应该是方差最大的,故称大的,故称F1为第一主成分。如果第一主成分不足为第一主成分。如果第一主成分不足以代表原来以
8、代表原来p个指标的信息,再考虑选取个指标的信息,再考虑选取F2即选第即选第二个线性组合。二个线性组合。为了有效地反映原来信息,为了有效地反映原来信息,F1已有的信息就不需要已有的信息就不需要再出现在再出现在F2中,用数学语言表达就是要求中,用数学语言表达就是要求Cov(F1,F2)=0,称,称F2为第二主成分,依此类推,可以为第二主成分,依此类推,可以制造出第三、四制造出第三、四第第p个主成分。不难想像这些个主成分。不难想像这些主成分之间不仅不相关,而且它们的方差依次递减。主成分之间不仅不相关,而且它们的方差依次递减。因此,在实际工作中,就挑选前几个最大的主成分因此,在实际工作中,就挑选前几个
9、最大的主成分(一般取信息量包含一般取信息量包含85%以上的前几个指标),虽以上的前几个指标),虽然这样做会损失一部分信息,但是由于它使我们抓然这样做会损失一部分信息,但是由于它使我们抓住了主要矛盾,并从原始数据中进一步提取了某些住了主要矛盾,并从原始数据中进一步提取了某些新的信息,因而在某些实际问题的研究中得益比损新的信息,因而在某些实际问题的研究中得益比损失大,这种既减少了变量的数目又抓住了主要矛盾失大,这种既减少了变量的数目又抓住了主要矛盾的做法有利于问题的分析和处理。的做法有利于问题的分析和处理。3、数学模型设有设有n个样品,每个样品观测项指标(变量):个样品,每个样品观测项指标(变量)
10、:X1,X2,Xp,得到原始资料数据矩阵:,得到原始资料数据矩阵:用数据矩阵用数据矩阵X的的p个向量(即个向量(即p个指标向量)个指标向量)X1,Xp作线性组合(即综合指标向量)为:作线性组合(即综合指标向量)为:上述方程要求:上述方程要求:且系数由下列原则确定:且系数由下列原则确定:(1)Fi与与Fj()不相关;)不相关;(2)F1是是X1,X2,Xp的的一一切切线线性性组组合合中中方方差差中中最最大大的的,F2是是与与F1不不相相关关的的X1,X2,Xp的的一一切切线线性性组组合合中中方方差差中中最最大大的的,Fp是是F1,F2,Fp-1都都不不相相关关的的X1,X2,Xp的的一一切切线线
11、性性组组合中方差中最大的。合中方差中最大的。可以证明,满足上述条件的主成分可以证明,满足上述条件的主成分F1,F2,Fp线性组合中的系数向量线性组合中的系数向量 恰好是恰好是X的协方差矩阵的协方差矩阵的特征值对应的特征向量。也就是的特征值对应的特征向量。也就是说,数学上可以证明使说,数学上可以证明使Var(F1)达到最大,这个最大达到最大,这个最大值是在值是在的第一个特征值所对应特征向量处达到。的第一个特征值所对应特征向量处达到。依此类推,使依此类推,使Var(Fp)达到最大,这个最大值是在达到最大,这个最大值是在的第的第p个特征值所对应特征向量处达到。个特征值所对应特征向量处达到。这里要说明
12、两点:一个是数学模型中为什么作这里要说明两点:一个是数学模型中为什么作线性组合?基于两种原因线性组合?基于两种原因:1)数学上容易处理数学上容易处理;2)在实践中效果好。另一个需要说明的是每次主成在实践中效果好。另一个需要说明的是每次主成分的选取使分的选取使Var(Fi)最大,如果不加限制就可使最大,如果不加限制就可使Var(Fi),则就无意义了,而常用的要求是:,则就无意义了,而常用的要求是:设设的特征根分别为:的特征根分别为:定义:定义:称第一主成分的贡献率为称第一主成分的贡献率为 ,由于,由于,所以所以 。因此第一主成分的贡献率就是第一主成分的方因此第一主成分的贡献率就是第一主成分的方差
13、在全部方差差在全部方差 中的比值。这个比值越大,表明中的比值。这个比值越大,表明第一主成分综合第一主成分综合X1,Xp信息的能力越强。信息的能力越强。前两个主成分的累计贡献率定义为前两个主成分的累计贡献率定义为 ,前前k个主成分的累计贡献率定义为个主成分的累计贡献率定义为 。如果前如果前k个主成分的贡献率达到个主成分的贡献率达到85%,表明取前,表明取前k个主成分包含了全部测量指标所具有的信息,这个主成分包含了全部测量指标所具有的信息,这样既减少了变量的个数又便于对实际问题的分析样既减少了变量的个数又便于对实际问题的分析和研究。和研究。值得指出的是:当协方差阵值得指出的是:当协方差阵未知时,可
14、用其估计未知时,可用其估计值值S(样本协方差阵)来代替。(样本协方差阵)来代替。设原始资料矩阵为:设原始资料矩阵为:则则而相关系数矩阵:而相关系数矩阵:显然,当原始变量显然,当原始变量X1,Xp标准化后,则标准化后,则实际应用时,往往指标的量纲不同,所以在计算之实际应用时,往往指标的量纲不同,所以在计算之前先消除量纲的影响,而将原始数据标准化,这样前先消除量纲的影响,而将原始数据标准化,这样一来一来S和和R相同。因此一般求相同。因此一般求R的特征根和特征向量,的特征根和特征向量,并且不妨取,并且不妨取 。因为这时的。因为这时的R与与 只差只差一个系数,显然一个系数,显然 与与 的特征根相差的特
15、征根相差n倍,倍,但它们的特征向量不变,它并不影响求主成分。但它们的特征向量不变,它并不影响求主成分。4、主成分分析的步骤、主成分分析的步骤(1)将原始数据标准化(目的是消除不同量纲、)将原始数据标准化(目的是消除不同量纲、正逆指标的影响)正逆指标的影响)设原始数据矩阵为设原始数据矩阵为按下式进行标准化(其中按下式进行标准化(其中Y为标准化后的数据)为标准化后的数据)(2)计算相关系数矩阵)计算相关系数矩阵R(3)求相关系数矩阵的特征根及对应的特征向量)求相关系数矩阵的特征根及对应的特征向量(4)写出主成分)写出主成分(5)将)将k个主成分进行综合,综合成单个指标,个主成分进行综合,综合成单个
16、指标,并得出最后排序结果并得出最后排序结果主成分进行综合常用的有以下三种方法。主成分进行综合常用的有以下三种方法。将将k个个主主成成分分综综合合成成单单指指标标评评价价,通通常常有有以以下下三三种种方法。方法。第第一一种种方方法法,将将累累计计贡贡献献率率达达到到85%的的k个个主主成成分分F1,F2,Fk做做线线性性组组合合,并并以以每每个个主主成成分分Fi的的方差贡献率方差贡献率 作为权数构造一个综合评价函数:作为权数构造一个综合评价函数:以以v为评估指数,依据对每个评价对象计算出的为评估指数,依据对每个评价对象计算出的v值值大小进行综合排序。大小进行综合排序。第二种方法,只用第一个主成分
17、作评估指数,第二种方法,只用第一个主成分作评估指数,即即v=F1。理由是,第一主成分与原始变量。理由是,第一主成分与原始变量X1,X2,Xp综合相关度最强,如果想以一个综合变量综合相关度最强,如果想以一个综合变量来代替原来所有变量,则最佳选择应该是来代替原来所有变量,则最佳选择应该是F1;另一;另一方面由于第一主成分方面由于第一主成分F1对应于数据变异最大的方向对应于数据变异最大的方向也就是使数据信息损失最小,精度最高的一维综也就是使数据信息损失最小,精度最高的一维综合变量。但是值得注意的是使用这种方法是有前合变量。但是值得注意的是使用这种方法是有前提条件的,即要求所有评估指标变量都是正相关提
18、条件的,即要求所有评估指标变量都是正相关的,也就是说对所有变量均有同增、同减的趋势。的,也就是说对所有变量均有同增、同减的趋势。第第三三种种方方法法,根根据据变变量量的的重重要要性性程程度度不不同同赋赋予予不不同同的的权权数数,重重要要的的变变量量权权数数取取得得大大些些,不不重重要要的的变变量量权数取得相对小些。即令权数取得相对小些。即令 这时这时 因此,因此,1p个变量的方差分别为:个变量的方差分别为:由由于于一一部部分分在在系系统统评评估估中中更更为为重重要要的的变变量量被被赋赋予予更更大大的的权权数数,因因此此在在这这些些指指标标上上,变变量量的的变变差差被被拉拉长长,于于是是在在求求
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 主成分分析模型 成分 分析 模型 PPT 课件
限制150内