第六讲主成分分析优秀PPT.ppt
《第六讲主成分分析优秀PPT.ppt》由会员分享,可在线阅读,更多相关《第六讲主成分分析优秀PPT.ppt(143页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、第六讲主成分分析1第一页,本课件共有143页主要内容1 主成分分析的基本思想2 数学模型与几何解释3 主成分的推导4 主成分的性质5 主成分分析的步骤6主成分分析的应用第二页,本课件共有143页1 主成分分析基本思想(案例)(案例)主成分分析的典型案例是美国统计学家斯通(stone)在1947年关于国民经济的研究依据美国1929一1938年的数据,利用了17个反映国民收入与支出的变量要素,例如雇主补贴、消费资料和生产资料、纯公共支出、净增库存、股息、利息外贸平衡等经过主成分分析,用三个新变量取代原17个变量。根据经济学知识,斯通给这三个新变量分别命名为总收总收入入F1、总收入变化率总收入变化率
2、F2和经济发展或衰退的趋势经济发展或衰退的趋势F3。精度达97.4有意思的是这三个变量都可以直接测量。斯通将得到的主成分与实际测量的总收入总收入I、总收入变化率总收入变化率I以及时间时间t因素做相关分析,得到下表:第三页,本课件共有143页F1F2F3I ItF11F201F3001I0.995-0.0410.0571 I-0.0560.948-0.124-0.1021t-0.369-0.282-0.836-0.414-0.1121主成分与实测变量的相关分析第四页,本课件共有143页实践中遇到的问题为了全面系统的分析和研究问题,必须考虑许多分析指标,这些指标从不同的侧面反映所研究对象的特征,但
3、在某种程度上存在信息的重叠,具有一定的相关性信息的重叠,具有一定的相关性主成分分析是把各变量之间互相关联的复杂关系进行简化分析的方法在力保数据信息丢失最少数据信息丢失最少的原则下,对多变量的截面数据进行最佳综合简化,对高维变量空间进行降维处理很显然,识辨系统在一个低维空间要比在一个高维空间容易得多主成分分析基本思想(问题)(问题)第五页,本课件共有143页处理的思路建立研究指标体系的少数几个线性组合,这几个线性组合所构成的综合指标将尽可能多地保留原来指标变异方面的信息。这些综合指标就是主成分主成分选取新指标选取新指标 F1,F2,Fk (kp)的原则)的原则按照保留主要信息量的原则,充分反映原
4、指标的信息新指标之间相互独立主成分分析基本思想第六页,本课件共有143页假设实际问题有p 个指标,我们把这p 个指标看作p 个随机变量,记为X1,X2,Xp主成分分析就是要把这p 个指标的问题,转变为讨论p个指标的线性组合线性组合的问题,即2 数学模型与几何解释第七页,本课件共有143页满足的条件:满足的条件:主成分之间相互独立,即无重叠的信息。即主成分的方差依次递减,重要性依次递减,即每个主成分的系数平方和为1。即第八页,本课件共有143页基于相关系数矩阵还是基于协方差矩阵做主成分分析当分析中所选择的经济变量具有不同的量纲,变量水平差异很大,应该选择基于相关系数矩阵的主成分分析选择几个主成分
5、主成分分析的目的是简化变量,一般情况下主成分的个数应该少于原始变量的个数。关于保留几个主成分,应该权衡主成分个数和保留的信息。如何解释主成分所包含的经济意义主成分分析涉及的问题第九页,本课件共有143页设有6个样品,每个样品有两个观测变量Xl和X2,观测数据如下主成分的几何意义X1123456X224681012上述数据的散点图如下所示以二维空间为例以二维空间为例表1第十页,本课件共有143页61210864254321OX1X2 F2F1图1 散点图注意:6个样点完全落在同一条直线上,这条直线的方程是X22X1在这条直线上建立F1数轴,并在图1中的F1OF2坐标系中考察这考察这考察这考察这6
6、 6个样品点个样品点个样品点个样品点,显然F2轴是不必要的。于是,原来用(X1,X2)两个变量表述的样本点,可用一个新的变量F1来代替。第十一页,本课件共有143页F1新变量的6个样品值依次列入下表:表2由此可见,表1中数据的全部(即100)信息都含在表2的数据中。用变量F1代替变量(X1,X2),变量的维数就从2降为1在实际问题中,两个变量的样品点完全落在同一条直线上的情形最少见的。在一般情况下,n个样本点所散布的情况如椭圆状,见下图。主成分分析法的简单直观说明第十二页,本课件共有143页图中显示:n个样点无论是沿着X1轴方向或X2轴方向都具有较大的离散性,其离散的程度可以分别用观测变量Xl
7、的方差和X2的方差定量地表示如果只考虑Xl和X2中的任何一个,那么包含在原始数据中的经济信息将会有较大的损失。图2散点图第十三页,本课件共有143页平移、旋转坐标轴平移、旋转坐标轴将X1轴和X2轴先平移,再同时按逆时针方向旋转 角度,得到新坐标轴Fl和F2。Fl和F2是两个新变量。n个观测值在新坐标系下的分布图如下所示可以看出:-样点的F1坐标变化幅度很大,或者说F1的方差较大;而F2的变化幅度相对较小,或者说F2的方差较小。可以说,变量变量(xl,x2)的信息大部分集中在新变量的信息大部分集中在新变量F1,而小部分集中在新变,而小部分集中在新变量量F2上上。称F1是(xl,x2)的第一主成分
8、,F2是(x1,x2)的第二主成分-在一定条件下,可以舍掉F2,只用第一主成分F1度量原来的全部样品,从而维数由2降为l-与此类似,3维变量可以降为2维或1维,第十四页,本课件共有143页主成分分析的几何解释平移、旋转坐标轴第十五页,本课件共有143页主成分分析的几何解释平移、旋转坐标轴第十六页,本课件共有143页主成分分析的几何解释平移、旋转坐标轴第十七页,本课件共有143页主成分分析的几何解释平移、旋转坐标轴第十八页,本课件共有143页主成分分析的几何解释平移、旋转坐标轴第十九页,本课件共有143页旋转变换的目的-使得n个样点在Fl轴方向上的离散程度最大,即Fl的方差最大-由于变量Fl代表
9、了原始数据的绝大部分信息,在问题的研究中,即使不考虑变量F2也无损大局旋转变换的作用-经过旋转变换,原始数据的大部分信息集中到Fl轴上,对数据中包含的信息起到了浓缩作用-Fl,F2具有不相关不相关的性质,这使得在研究复杂的问题时避免了信息重叠所带来的虚假性第二十页,本课件共有143页旋转变换的公式:旋转变换的公式:平移、旋转坐标轴即Fl,F2是原变量x1和x2的线性组合,用矩阵表示是U为旋转变换矩阵,它是正交矩阵正交矩阵,即有第二十一页,本课件共有143页3 主成分的推导一、线性代数的两个结论两个结论两个结论两个结论1、若A是p阶实对称阵实对称阵,则一定可以找到正交阵正交阵U,使其中i,i=1
10、,2,.,p 是A的特征根。第二十二页,本课件共有143页2、若上述矩阵A的特征根所对应的单位特征向量为u1,up由于实对称阵A 属于不同特征根所对应的特征向量是正交的,因而有令即U是正交阵第二十三页,本课件共有143页 二、主成分的推导二、主成分的推导 (一)(一)第一主成分第一主成分设X=(X1,X2,Xp)的协方差阵为由于X为非负定的对称阵,利用线性代数的知识可得,必存在正交阵U,使得第二十四页,本课件共有143页其中1,2,p为x的特特征征根根,不妨假设12p。而U恰好是由特征根相对应的特征向量所组成的正交阵。下面我们来看,由U的第一列元素所构成的原始变量的线性组合是否有最大的方差。第
11、二十五页,本课件共有143页设有p个p维单位正交向量a1,a2,.,ap,其中ai=(a1i,a2i,.,api),则变量F1的方差,是一个数第二十六页,本课件共有143页第二十七页,本课件共有143页(ai为单位向量)第二十八页,本课件共有143页即其中当且仅当a1=u1时,即时,有最大的方差1。事实上,当a1=u1时,有(其中 )第二十九页,本课件共有143页(二)(二)第二主成分第二主成分在约束条件Cov(F1,F2)=0下,寻找第二主成分所以因为如果第一主成分的信息不够,则需要寻找第二主成分(其中 )n 在约束条件下,向量在约束条件下,向量a2必须与向量必须与向量u1正交正交12B第三
12、十页,本课件共有143页对p维向量 ,有(其中 )其中第三十一页,本课件共有143页同样,如果取线性变换:则F2的方差次大。类推第三十二页,本课件共有143页写为矩阵形式:其中第三十三页,本课件共有143页一、均值二、方差为所有特征根之和,且4主成分的性质证明:(U为正交阵,有UU I)第三十四页,本课件共有143页说明:由于协方差矩阵x 的对角线上的元素之和等于特征根之和。所以,主成分分析把p 个随机变量X 的总方差分解成为p 个不相关的随机变量F的方差之和(tr(AB)=tr(BA))(正交变换,为对角阵)第三十五页,本课件共有143页1)贡献率:第i个主成分的方差在全部方差中所占比重称为
13、贡献率贡献率,反映第i个主成分指标综合X1,.,Xp信息能力的大小。2)累积贡献率:反映前k个主成分的综合能力,用这k个主成分的方差之和在全部方差中所占比重来描述,称为累积贡献率累积贡献率。三、精度分析三、精度分析第三十六页,本课件共有143页主成分分析的目的之一是希望用尽可能少的主成分F1,F2,Fk(kp)代替原来的P个指标。在实际工作中,主成分个数的多少以能够反映原来变量80%以上的信息量为依据,即当累积贡献率80%时的主成分的个数就足够了。最常见的情况是主成分为2到3个。主成分个数的选择第三十七页,本课件共有143页四、原始四、原始变量与主成分之间的相关系数变量与主成分之间的相关系数矩
14、阵形式为因而第三十八页,本课件共有143页可见,Xi 和Fj 相关的密切程度取决于对应线性组合系数uij 的大小。F Fi i与与与与F Fj j不相关不相关不相关不相关又所以第三十九页,本课件共有143页主成分原始变量F1F2FpX1X2Xp原始变量与主成分之间的相关系数第四十页,本课件共有143页五、原始变量被主成分的提取率前面我们讨论了主成分的贡献率和累计贡献率,他度量了F1,F2,Fm分别从原始变量X1,X2,XP中提取了多少信息。问题:问题:X1,X2,XP中每个变量各有多少信息被F1,F2,Fm提取了?应该用什么指标来度量?当讨论F1分别与X1,X2,XP的关系时,可以讨论F1分别
15、与X1,X2,XP的相关系数,由于相关系数有正有负,所以只有考虑相关系数的平方第四十一页,本课件共有143页如果我们仅仅提出了m个主成分,则第第第第i i 原始变量原始变量原始变量原始变量X Xi i信息的被提取率为:是第第i 原始变量原始变量 Xi 的方差能被的方差能被 Fj 说明的部分说明的部分是Fj 提取的第提取的第i 原始变量原始变量 Xi 信息的比重信息的比重则因为第四十二页,本课件共有143页例例例例设X=(X1,X2,X3),X的协方差矩阵为解得特征根为1=5.83,2=2.00,3=0.17第一个主成分的贡献率为5.83/(5.83+2.00+0.17)=72.875%,尽管第
16、一个主成分的贡献率并不小,但在本题中第一主成分不含第三个原始变量的信息,所以应该取两个主成分。第四十三页,本课件共有143页Xi与与F1的的相关系数相关系数平方平方Xi与与F2的的相关系数相关系数平方平方信息提信息提取率取率Xi10.9250.855000.8552-0.9980.996000.996300111则其他结果计算相同,见下表第四十四页,本课件共有143页(该题无公共因子)定义:定义:如果一个主成分仅仅对某一个原始变量有作用,则称为特殊成分特殊成分。如果一个主成分对所有的原始变量都起作用称为公共成分公共成分。六、载荷矩阵六、载荷矩阵称矩阵为载荷矩阵第四十五页,本课件共有143页在实
17、际问题中,X的协差阵 X通常是未知的,可用其估计值S(样本协差阵)代替。即5主成分分析的步骤其中sij表示变量Xi与变量Xj的样本协方差,且13A一、基于协方差矩阵第四十六页,本课件共有143页第二步第二步第二步第二步:求出分别所对应的特征向量u1,u2,up第三步第三步第三步第三步:计算累积贡献率,给出恰当的主成分个数第四步第四步第四步第四步:计算选出的k个主成分的得分将原始数据的中心化值:代入前k个主成分的表达式,分别计算出各样品样品k个主成分的得分第第第第一一一一步步步步:由X的协方差阵x求出其特征根,即解方程|XI|=0,可得特征根第四十七页,本课件共有143页二、基于相关系数矩阵 如
18、果变量有不同的量纲,则必须基于相关系数矩阵进行主成分分析。设原始资料阵为:第四十八页,本课件共有143页当原始变量 标准化后,协方差为则注意:基于相关系数的主成分分析在计算主成分得分时应采用标准化后的数据。其中X*=(x*ij)np第四十九页,本课件共有143页【例例例例1 1 1 1】对全国对全国3030个省市自治区经济发展基本情况的八项指标作个省市自治区经济发展基本情况的八项指标作主成分分析,原始数据如下:主成分分析,原始数据如下:第五十页,本课件共有143页续表续表第五十一页,本课件共有143页续表续表第一步建立指标之间的相关系数阵R如下:第二步求R的特征值和特征向量(见表)。根据题意,
19、可知p8,n30第五十二页,本课件共有143页X1X2X3X4X5X6X7X8X1X2X3X4X5X6X7X81.000.267.951.191.617-.274-.264.874.2671.000.426.718-.151-.234-.593.363.951.4261.000.400.431-.282-.359.792.191.718.4001.000-.356-.134-.539.104.617-.151.431-.3561.000-.255.022.659-.274-.234-.282-.134-.2551.000.760-.126-.264-.593-.359-.539.022.760
20、1.000-.192.874.363.792.104.659-.126-.1921.000相关系数阵相关系数阵相关系数阵相关系数阵R第五十三页,本课件共有143页从上表看,前前3 3个特征值累计贡献率已达个特征值累计贡献率已达89.56489.564,说明前3个主成分基本包含全部指标的绝大部分信息取前3个特征值,并计算出相应的特征向量(见下表)。主成分主成分特征值特征值方差贡献率方差贡献率累计贡献率累计贡献率123456783.7552.1951.2140.4030.2130.1396.594E-021.462E-0246.94327.44315.1785.0332.6601.7370.824
21、0.18346.94374.38689.56494.59697.25698.99399.817100.00相关系数矩阵相关系数矩阵R R的特征值的特征值第五十四页,本课件共有143页u1u2u30.4706410.4567080.4247120.319440.3127290.2508020.2404810.262670.1079950.2585120.2875360.4009310.404310.4988010.488680.1673920.192410.1098190.192410.3975250.245050.247770.3321790.723351特征向量表特征向量表第五十五页,本课件
22、共有143页主成分分析主成分分析第一主成分:第一主成分:F1的表达式中,指标X1,X2,X3的系数较大,这三个指标起主要作用。所以,第一主成分可以看成是由国内生产总值、固定资产投资和居民消费水平所刻划的的综合指标,反映经济发展状况经济发展状况经济发展状况经济发展状况F1=0.470641X10.456708X20.424712X30.31944X40.312729X50.250802X60.240481X70.26267X8第五十六页,本课件共有143页第二主成分:第二主成分:在第二主成分中,指标X4,X5,X6,X7的影响大,且指标X6,X7的影响尤其大,可将之看成是反映物价指数、职工工资和
23、货物周转量的综合指标;F2=0.107995X10.258512X20.287536X30.400931X40.40431X50.498801X60.48868X70.167392X8第五十七页,本课件共有143页第三主成分:第三主成分:在第三主成分中,第八项指标影响最大,远超过其它指标的影响,可单独看成是工业总产值的影响。F3=0.19241X1 0.109819X2 0.19241X3 0.397525X4 0.24505X5 0.24777X6 0.332179X7 0.723351X8第五十八页,本课件共有143页【例例例例2 2】分析某农业生态经济系统,共选取9项指标,分别是:x1人
24、口密度(人/km2)x2人均耕地面积(ha)x3森林覆盖率(%)x4农民人均纯收入(元/人)x5人均粮食产量(kg/人)x6经济作物占农作物播面比例(%)x7耕地占土地面积比例(%)x8果园与林地面积之比(%)x9灌溉田占耕地面积之比(%)根据表1中给出的数据,做主成分分析。第五十九页,本课件共有143页样本序号x1x2x3x4x5x6x7x8x91363.90.35216.101192.11295.326.72418.4922.23126.2622141.51.68424.3011752.35452.332.31414.4641.45527.0663100.71.06765.6011181.
25、54270.118.2660.1627.47412.4894143.71.33633.2051436.12354.317.48611.8051.89217.5345131.41.62316.6071405.09586.640.68314.4010.30322.932668.3372.03276.2041540.29216.398.1284.0650.0114.861795.4160.80171.106926.35291.528.1354.0630.0124.862862.9011.65273.3071501.24225.2518.3522.6450.0343.201986.6240.84168
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 第六 成分 分析 优秀 PPT
限制150内