主成分分析多元回归分析PPT课件.ppt
关于主成分分析多元关于主成分分析多元回归分析回归分析第一张,PPT共三十七页,创作于2022年6月什么是主成分分析什么是主成分分析主成分分析(主成分分析(Principal Components AnalysisPrincipal Components Analysis)也称主分量分析也称主分量分析 是将多个指标,化为少数几个不相关的是将多个指标,化为少数几个不相关的 综合指标的一种统计方法。综合指标的一种统计方法。第二张,PPT共三十七页,创作于2022年6月在综合评价工业企业的经济效益中,考核指标有:在综合评价工业企业的经济效益中,考核指标有:1 1每百元固定资产原值实现产值、每百元固定资产原值实现产值、2 2每百元固定资产原值实现利税、每百元固定资产原值实现利税、3 3每百元资金实现利税、每百元资金实现利税、4 4每百元工业总产值实现利税、每百元工业总产值实现利税、5 5每百元销售收入实现利税、每百元销售收入实现利税、6 6每吨标准煤实现工业产值、每吨标准煤实现工业产值、7 7每千瓦电力实现工业产值、每千瓦电力实现工业产值、8 8全员劳动生产率、全员劳动生产率、9 9每百元流动资金实现的产值每百元流动资金实现的产值指标间信息有重叠,指标数量又多。指标间信息有重叠,指标数量又多。经经过过主主成成分分分分析析计计算算,最最后后确确定定选选择择了了2 2个个主主成成分分作作为为综综合合评评价价工工业业企企业业经经济济效效益益的的依依据据,变变量量数数由由9 9个个减减少少到到2 2个个,这这两两个个主主成成分分代代表表的的信信息息达达91.6%91.6%,使所研究的问题简化。使所研究的问题简化。第三张,PPT共三十七页,创作于2022年6月第一节第一节主成分分析的主成分分析的几何意义几何意义第四张,PPT共三十七页,创作于2022年6月X1X2几何意义几何意义:为了直观,先在二维空间中讨论主成分的几何意义。为了直观,先在二维空间中讨论主成分的几何意义。设对每个样品观测两个变量设对每个样品观测两个变量X X1 1和和X X2 2的数据如下的数据如下X X1 11 2 3 4 5 6X X2 22 4 6 8 10 122 4 6 8 10 12 样品点完全在同一条直线上。样品点完全在同一条直线上。X1X2其散点图如下其散点图如下第五张,PPT共三十七页,创作于2022年6月X1Y2X2Y1因为样品点都在因为样品点都在Y Y1 1轴上,轴上,Y Y1 1方向有离散性,方向有离散性,Y Y2 2方向无离散性,方向无离散性,也就无区别。可以用也就无区别。可以用Y Y1 1来描述这些样品点来描述这些样品点,,因此在新坐标系,因此在新坐标系中只需用中只需用Y Y1 1一个变量就可以描述原来需用两个变量一个变量就可以描述原来需用两个变量X X1 1和和X X2 2描述描述的样品。那么的样品。那么Y Y1 1包含了原来变量包含了原来变量X X1 1和和X X2 2的的100%100%的信息的信息。在实际问题中,这样的情况是很少见的在实际问题中,这样的情况是很少见的。第六张,PPT共三十七页,创作于2022年6月一般情况下,例如有一般情况下,例如有n n个样品,每个样品有两个变量值个样品,每个样品有两个变量值X X1 1和和X X2 2,这,这n n个样品的散点图如带状个样品的散点图如带状.由图可见这由图可见这n n个样品点无论是沿着个样品点无论是沿着X X1 1轴方向或轴方向或X X2 2轴方向都具轴方向都具有较大的离散性,其离散的程度可以分别用观测变量有较大的离散性,其离散的程度可以分别用观测变量X X1 1的的方差和方差和X X2 2的方差定量地表示。的方差定量地表示。X1X2 第七张,PPT共三十七页,创作于2022年6月X2Y2Y1X1 同样我们将同样我们将X X1 1轴和轴和X X2 2轴同时按逆时针方向旋转轴同时按逆时针方向旋转角度,得角度,得到新坐标轴到新坐标轴Y Y1 1和和Y Y2 2 。Y Y1 1和和Y Y2 2是两个新变量。根据解析几何是两个新变量。根据解析几何中的坐标旋转变换公式:中的坐标旋转变换公式:第八张,PPT共三十七页,创作于2022年6月第二节第二节 主成分的求解主成分的求解 假设我们所讨论的实际问题中,有假设我们所讨论的实际问题中,有p p个指标,我个指标,我们把这们把这p p个指标看作个指标看作p p个随机变量,记为个随机变量,记为 X X1 1,X X2 2,X Xp p 主成分分析就是要把这主成分分析就是要把这p p个指标的问题,转变为个指标的问题,转变为讨论讨论p p个指标的线性组合的问题个指标的线性组合的问题 第九张,PPT共三十七页,创作于2022年6月主成分分析通常的做法是,寻求原指标的线性组合主成分分析通常的做法是,寻求原指标的线性组合Yi。并且满足:并且满足:1 (i=1,2,P)*1 (i=1,2,P)*2 2 不相关性,不相关性,Y Yi i与与Y Yj j不相关。不相关。3 3 方差极大条件,方差极大条件,第十张,PPT共三十七页,创作于2022年6月主成分的求解:主成分的求解:求系数求系数 ,而其正是观测变量相关矩阵的单位特,而其正是观测变量相关矩阵的单位特征向量。因此,通过求解征向量。因此,通过求解 的特征方程,得到的特征方程,得到P P个特征根和个特征根和P P个单位特征向量,把个单位特征向量,把P P个特征根按从大到小的顺序排列,记作个特征根按从大到小的顺序排列,记作i i(i=1,2,p)(i=1,2,p),它们分别代表,它们分别代表P P个主成分所解释的观测变个主成分所解释的观测变量的方差,即量的方差,即Var(YVar(Yi i)=)=i i(i=1,2,p)(i=1,2,p)。相应的。相应的P P个单位特个单位特征向量就是主成分的系数征向量就是主成分的系数 (i=1,2,pi=1,2,p)。)。第十一张,PPT共三十七页,创作于2022年6月主成分主成分Y=由由 的单位特征向量构成的单位特征向量构成U,即由即由|-I|=0 求出求出然后代入(然后代入(-I)Z=0 求出单位特征向量求出单位特征向量 ,构成,构成U第十二张,PPT共三十七页,创作于2022年6月变量的标准化变量的标准化:由于主成分是根据变量的离散度也即方差的大小来确定主成由于主成分是根据变量的离散度也即方差的大小来确定主成分的,这样当不同指标的量纲不同时,不同指标的方差大小差分的,这样当不同指标的量纲不同时,不同指标的方差大小差別很大,主成分会受到影响,別很大,主成分会受到影响,例如:例如:X X1 1表年收入,从万元到百万元变化,表年收入,从万元到百万元变化,X X2 2表净收入与总资产之比,从表净收入与总资产之比,从0.010.01到到0.600.60变化变化,那么那么X X1 1的方差的绝对量将远远大于的方差的绝对量将远远大于X X2 2的方差的方差,这样主成分会过于照顾方差大的变量这样主成分会过于照顾方差大的变量,为使主成分能均等地对为使主成分能均等地对待每一个原变量待每一个原变量,应将原变量作标准化处理应将原变量作标准化处理.第十三张,PPT共三十七页,创作于2022年6月标准化公式标准化公式:(i=1,2,P)(i=1,2,P)这时有这时有 =因此求因此求U U时可用时可用 的特征向量。的特征向量。还可以证明还可以证明 =所以所以 =第十四张,PPT共三十七页,创作于2022年6月在实际问题中,利用主成分的目的是为了减少变量的在实际问题中,利用主成分的目的是为了减少变量的个数,所以一般不用个数,所以一般不用P P个主成分,而是根据如下方法选个主成分,而是根据如下方法选取前取前K K个主成分。个主成分。定义定义 为第为第i i主成分主成分Y Yi i的方差贡献率。的方差贡献率。这个值越大,说明这个主成分这个值越大,说明这个主成分Y Yi i综合原指标信息的能力越综合原指标信息的能力越强。强。主成分的方差贡献率主成分的方差贡献率第十五张,PPT共三十七页,创作于2022年6月定义定义 (KPKP)为主成分为主成分Y Yl l,Y,Y2 2,Y,Yk k的累积方差贡献率。的累积方差贡献率。当当前前K K个个主主成成分分的的累累积积方方差差贡贡献献率率达达到到85%85%以以上上时时,就就取取K K个个主主成成分分。这这样样K K个个主主成成分分基基本本反反映映了了原原指指标标的信息,指标数目由的信息,指标数目由P P个减少到个减少到K K个。个。这种由讨论多个指标降为少数几个综合指标的过程在数这种由讨论多个指标降为少数几个综合指标的过程在数学上就叫做降维。学上就叫做降维。第十六张,PPT共三十七页,创作于2022年6月 (i=1,2,P)(i=1,2,P)对于标准化后的变量,则对于标准化后的变量,则原始变量与主成分之间的相关系数变量与主成分之间的相关系数第十七张,PPT共三十七页,创作于2022年6月主成分得分主成分得分:当当选选取取了了n n个个主主成成分分后后,把把样样本本数数据据代代入入各各主主成成分分表表达式可得样本的主成分得分。达式可得样本的主成分得分。若若主主成成分分是是由由原原始始数数据据协协方方差差阵阵计计算算的的,则则计计算算主成分得分时,用原始数据。主成分得分时,用原始数据。若若主主成成分分是是由由标标准准化化数数据据计计算算,即即由由R R计计算算,则则计计算算主主成成分分得得分分时时,一一定定要要用用标标准准化化数数据据,否否则则会会出出现现错误。错误。第十八张,PPT共三十七页,创作于2022年6月主成分的综合得分主成分的综合得分利用主成分利用主成分Y Yl l,Y,Y2 2,Y,Yk k作线性组合,并以每作线性组合,并以每个主成分个主成分Y Yi i的方差贡献率作为权数构造一个综合的方差贡献率作为权数构造一个综合函数:函数:Y=Y=根据计算出的根据计算出的Y Y值大小进行排序。值大小进行排序。第十九张,PPT共三十七页,创作于2022年6月主成分的计算步骤主成分的计算步骤:原始数据矩阵原始数据矩阵1 1、原始数据标准化、原始数据标准化2 2、计算样本协差阵或相关系数矩阵、计算样本协差阵或相关系数矩阵R R3 3、求、求R R的非零特征根及对应的标准正交特征向量的非零特征根及对应的标准正交特征向量 4 4、求出主成分求出主成分 (i=1,2,P)(i=1,2,P)根据累计方差贡献率大于等于根据累计方差贡献率大于等于80%80%,85%85%,90%90%等,确等,确 定定选选取取主主成成分分个个数数。结结合合专专业业知知识识将将各各主主成成分分给给出出恰恰当当的解释,并运用其来判断样品的特性。的解释,并运用其来判断样品的特性。第二十张,PPT共三十七页,创作于2022年6月 例一例一 应收账款是指企业因对外销售产品、材料、提供劳务及应收账款是指企业因对外销售产品、材料、提供劳务及其它原因,应向购货单位或接受劳务的单位收取的款项。出于其它原因,应向购货单位或接受劳务的单位收取的款项。出于扩大销售的竞争需要,企业不得不以赊销或其它优惠的方式招扩大销售的竞争需要,企业不得不以赊销或其它优惠的方式招揽顾客,由于销售和收款的时间差,于是产生了应收款项。揽顾客,由于销售和收款的时间差,于是产生了应收款项。应收款赊销的效果的好坏,不仅依赖于企业的信用政策,应收款赊销的效果的好坏,不仅依赖于企业的信用政策,还依赖于顾客的信用程度。由此,评价顾客的信用等级,了还依赖于顾客的信用程度。由此,评价顾客的信用等级,了解顾客的综合信用程度,对加强企业的应收账款管理大有帮解顾客的综合信用程度,对加强企业的应收账款管理大有帮助。某企业为了了解其客户的信用程度,采用西方银行信用助。某企业为了了解其客户的信用程度,采用西方银行信用评估常用的评估常用的5C5C方法,方法,5C5C的目的是说明顾客违约的可能性。的目的是说明顾客违约的可能性。第二十一张,PPT共三十七页,创作于2022年6月 1 1、品品格格(用用X X1 1表表示示),指指顾顾客客的的信信誉誉,履履行行偿偿还还义义务务的的可可能能性性。企企业业可可以以通过过去的付款记录得到此项。通过过去的付款记录得到此项。2 2、能能力力(用用X X2 2表表示示),指指顾顾客客的的偿偿还还能能力力。即即其其流流动动资资产产的的数数量量和和质质量量以以及及流流动动负负载载的的比比率率。顾顾客客的的流流动动资资产产越越多多,其其转转化化为为现现金金支支付付款款项项的的能能力力越越强强。同同时时,还还应应注注意意顾顾客客流流动动资资产产的的质质量量,看看其其是是否否会出现存货过多过时质量下降,影响其变现能力和支付能力。会出现存货过多过时质量下降,影响其变现能力和支付能力。3 3、资资本本(用用X X3 3表表示示),指指顾顾客客的的财财务务势势力力和和财财务务状状况况,表表明明顾顾客客可可能能偿偿还还债务的背景。债务的背景。4 4、附带的担保品(用、附带的担保品(用X X4 4表示),指借款人以容易出售的资产做抵押。表示),指借款人以容易出售的资产做抵押。5 5、环境条件(用、环境条件(用X X5 5表示),指企业的外部因素,即指非企业本身能控制表示),指企业的外部因素,即指非企业本身能控制或操纵的因素。或操纵的因素。第二十二张,PPT共三十七页,创作于2022年6月 首先抽取了首先抽取了1010家具有可比性的同类企业作为样本,又请家具有可比性的同类企业作为样本,又请8 8位专家分别给位专家分别给1010个企业的个企业的5 5个指标打分,然后分别计个指标打分,然后分别计算企业算企业5 5个指标的平均值,如表。个指标的平均值,如表。76.581.57675.871.78579.280.384.476.570.67367.668.178.5949487.589.59290.787.39181.58084.666.968.864.866.477.573.670.969.874.857.760.457.460.86585.668.57062.276.57069.271.764.968.9;第二十三张,PPT共三十七页,创作于2022年6月 第一主成份的贡献率为第一主成份的贡献率为84.6%84.6%,第一主成份,第一主成份 Z Z1 1=0.469X=0.469X1 1+0.485X+0.485X2 2+0.473X+0.473X3 3+0.462X+0.462X4 4+0.329X+0.329X5 5 的各项系数大致相等,且均为正数,是对所有指标的一个的各项系数大致相等,且均为正数,是对所有指标的一个综合测度,可以作为综合的信用等级指标。可以用来排序。综合测度,可以作为综合的信用等级指标。可以用来排序。计算各企业的得分,并按分值大小排序计算各企业的得分,并按分值大小排序:在在正正确确评评估估了了顾顾客客的的信信用用等等级级后后,就就能能正正确确制制定定出出对对其其的的信信用期、收帐政策等,这对于加强应收帐款的管理大有帮助。用期、收帐政策等,这对于加强应收帐款的管理大有帮助。序号序号1 12 23 34 45 56 67 78 89 91010得分得分3.163.1613.613.6-9.01-9.0135.935.925.125.1-10.3-10.3-4.364.36-33.8-33.8-6.416.41-13.8-13.8排序排序4 43 37 71 12 28 85 510106 69 9第二十四张,PPT共三十七页,创作于2022年6月例例对全国对全国30个省市自汉区经济发展基本情况的个省市自汉区经济发展基本情况的八项指标作主成分分析,原始数据如下:八项指标作主成分分析,原始数据如下:第二十五张,PPT共三十七页,创作于2022年6月GDPX1居民消费居民消费水平水平X2固定资固定资产投资产投资X3职工平均职工平均工资工资X4货物周货物周转转量量X5居民消费价居民消费价格指数格指数X6商品零售价商品零售价格指数格指数X7工业总产工业总产值值X8北京北京天津天津河北河北山西山西内蒙内蒙辽宁辽宁吉林吉林黑龙江黑龙江上海上海江苏江苏浙江浙江安徽安徽福建福建江西江西山东山东河南河南湖北湖北湖南湖南广东广东广西广西海南海南四川四川贵州贵州云南云南西藏西藏陕西陕西甘肃甘肃青海青海宁夏宁夏新疆新疆1394.89920.112849.521092.18832.882793.371129.22014.532462.575155.253524.792003.582160.521205.115002.343002.712391.422195.75381.721606.15364.173534630.071206.6855.981000.03553.35165.31169.75843.5725052720125812501387269718722334534319262249125423201182152710341527140826991314181412619421261111012081007144513551469519.01345.46704.87290.9250.23387.99320.45435.73996.481434.951006.39474553.97282.841229.55670.35571.68422.611639.83382.59198.35822.54150.8433417.87300.27114.8147.7661.98376.95814465014839472141344911443041459279594366194609585742115145434446854797825051055340464544755149738243965493575350795348373.9342.82033.3717.3781.71371.1497.4824.8207.41025.5754.4908.3609.3411.71196.61574.48491011.8656.5556232.1902.3301.1310.44.2500.950761.6121.8339117.3115.2115.2116.9117.5116.1115.2116.1118.7115.8116.6114.8115.2116.8117.6116.5120119114118.4113.5118.5121.4121.3117.3119119.8118117.1119.7112.6110.6115.8115.6116.8114114.2114.3113114.3113.5112.7114.4115.9114.2114.9116.6115.5111.6116.4111.3117117.2118.1114.9117116.5116.3115.3116.7843.43582.511234.85697.25419.391840.55762.471240.371642.952026.64916.59824.14433.67571.842207.691367.921220.72843.831396.35554.9764.331431.81324.72716.655.57600.98468.79105.8114.4428.76第二十六张,PPT共三十七页,创作于2022年6月第一步第一步将原始数据标准化。将原始数据标准化。第二步第二步建立指标之间的相关数阵建立指标之间的相关数阵R如下:如下:X1X2X3X4X5X6X7X8X1X2X3X4X5X6X7X81.000.267.951.191.617-.274-.264.874.2671.000.426.718-.151-.234-.593.363.951.426.1000.400.431-.282-.359.792.191.718.4001.000-.356-.134-.539-.104.617-.151.431-.3561.000-.255.022.659-.274-.234-.282-.134-.2551.000.760-.126-.264-.593-.359-.539.022.7601.000-1.92.874.363.792.104.659-.126-.1921.000第二十七张,PPT共三十七页,创作于2022年6月第三步第三步求求R的特征值和特征向量。的特征值和特征向量。从从上上表表看看,前前3个个特特征征值值累累计计贡贡献献率率已已达达89.564%,说说明明前前3个个主主成成分分基基本本包包含含了了全全部部指指标标具具有有的的信信息息,我我们们取取前前3个个特特征征值值,并并计计算算出出相相应的特征向量:应的特征向量:主成分主成分特征值特征值方差贡献率方差贡献率累计贡献率累计贡献率123456783.7552.1951.214.403.213.1396.594E-021.462E-0246.94327.44315.1785.0332.6601.737.842.18346.94374.38689.56494.59697.25698.99399.817100.000第二十八张,PPT共三十七页,创作于2022年6月从从上上表表看看,前前3个个特特征征值值计计累累计计贡贡献献率率已已达达89.564%,说说明明前前3个个主主成成分分基基本本包包含含了了全全部部指指标标具具有有的的信信息息,我我们们取取前前3个个特特征征值值,并计算出相应的特征向量:并计算出相应的特征向量:第一特征向量第一特征向量a1第二第二特征向量特征向量a2第三特征向量第三特征向量a30.4567080.3132450.4706410.2404810.250802-0.262670-0.319440-0.4247120.258464-0.4035390.107995-0.4886800.4988010.1673920.4009310.2875360.1097730.2458560.1924100.332179-0.247770.7233510.3975250.19241第二十九张,PPT共三十七页,创作于2022年6月因而前三个主成分为:因而前三个主成分为:第一主成分:第一主成分:F1=0.456708X1+0.312729X2+0.470641X3+0.240481X4+0.250802X5-0.26267X6-0.31944X7+0.424712X8第二主成分:第二主成分:F1=0.258512X1-0.40431X20.107995X3-0.48868X4+0.498801X50.167392X6+0.400931X70.287536X8第三主成分:第三主成分:F1=0.109819X1+0.24505X2+0.19241X3+0.332179X4-0.24777X5+0.723351X6+0.397525X7+0.19241X8第三十张,PPT共三十七页,创作于2022年6月 如如果果一一个个主主成成分分仅仅仅仅对对某某一一个个原原始始变变量量有有作作用,则称为特殊成分。用,则称为特殊成分。如如果果一一个个主主成成分分所所有有的的原原始始变变量量都都起起作作用用,称称为公共成分。为公共成分。第三十一张,PPT共三十七页,创作于2022年6月选题参考:选题参考:1、(我国)房地产发展因素的主成分分析、(我国)房地产发展因素的主成分分析2、(全国)工业企业市场竞争力的主成分分析、(全国)工业企业市场竞争力的主成分分析3、(各地区)工业企业经济效益的主成分分析、(各地区)工业企业经济效益的主成分分析4、我国城市、我国城市(农村)居民消费支出的主成分分析农村)居民消费支出的主成分分析5、(各地区)农业发展状况的主成分分析、(各地区)农业发展状况的主成分分析6、我国各省市社会发展状况的主成分分析、我国各省市社会发展状况的主成分分析7、零售物价指数影响因素的主成分分析、零售物价指数影响因素的主成分分析8、(我国)信息产业发展因素的主成分分析、(我国)信息产业发展因素的主成分分析9、城市环境质量影响因素的主成分分析、城市环境质量影响因素的主成分分析第三十二张,PPT共三十七页,创作于2022年6月1010、(各地区)经济发展水平的主成分分析、(各地区)经济发展水平的主成分分析1111、(各地区)综合竞争力的主成分分析、(各地区)综合竞争力的主成分分析1212、股票价格指数影响因素的主成分分析、股票价格指数影响因素的主成分分析1313、城市环境质量因素的主成分分析、城市环境质量因素的主成分分析1414、(各地区)保险业发展状况的主成分分析、(各地区)保险业发展状况的主成分分析1515、上市公司业绩评价的主成分分析、上市公司业绩评价的主成分分析1616、大学生网络面试的主成分分析、大学生网络面试的主成分分析1717、中国外贸进出口影响因素的主成分分析、中国外贸进出口影响因素的主成分分析1818、影响国民经济增长因素的主成分分析、影响国民经济增长因素的主成分分析第三十三张,PPT共三十七页,创作于2022年6月19、各省市保险业发展状况影响因素的主成分分析、各省市保险业发展状况影响因素的主成分分析第三十四张,PPT共三十七页,创作于2022年6月9 9、城市环境质量影响因素:、城市环境质量影响因素:(1 1)人均工业总产值)人均工业总产值(2 2)人均国民收入)人均国民收入(3 3)人均居住面积)人均居住面积(4 4)人均生活用水量)人均生活用水量(5 5)消费指数)消费指数=社会零售总额社会零售总额/市区人口总数市区人口总数(6 6)人均绿化面积)人均绿化面积(7 7)人均道路面积)人均道路面积(8 8)人均公共车辆数)人均公共车辆数(9 9)万人病床数)万人病床数(1010)万人医生数)万人医生数(1111)每百人拥有电话机数)每百人拥有电话机数(1212)每千人中中级技术职称以上人数)每千人中中级技术职称以上人数(1313)工业废水污染负荷)工业废水污染负荷=工业废水排放量工业废水排放量/市区总面积市区总面积(1414)二氧化硫污染负荷)二氧化硫污染负荷=二氧化硫年排放量二氧化硫年排放量/市区总面积市区总面积(1515)烟尘污染负荷)烟尘污染负荷=烟尘年排放量烟尘年排放量/市区总面积市区总面积(1616)噪声平均值)噪声平均值=区域环境噪声平均值和城市交通干线噪声区域环境噪声平均值和城市交通干线噪声 平均值的平均值平均值的平均值第三十五张,PPT共三十七页,创作于2022年6月19、各省市保险业发展状况影响因素有:、各省市保险业发展状况影响因素有:(1)保费收入)保费收入(2)保费增长速度)保费增长速度(3)赔付率)赔付率(4)完成计划率)完成计划率(5)国内业务承保金额)国内业务承保金额(6)国内业务赔付件数)国内业务赔付件数(7)机构个数)机构个数(8)人员数)人员数(9)涉外业务保费收入)涉外业务保费收入(10)涉外业务赔付率)涉外业务赔付率第三十六张,PPT共三十七页,创作于2022年6月感感谢谢大大家家观观看看第三十七张,PPT共三十七页,创作于2022年6月