主成分分析多元回归分析精选课件.ppt
《主成分分析多元回归分析精选课件.ppt》由会员分享,可在线阅读,更多相关《主成分分析多元回归分析精选课件.ppt(37页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、关于主成分分析多元关于主成分分析多元回归分析回归分析第一页,本课件共有37页什么是主成分分析什么是主成分分析主成分分析(主成分分析(Principal Components AnalysisPrincipal Components Analysis)也称主分量分析也称主分量分析 是将多个指标,化为少数几个不相关的是将多个指标,化为少数几个不相关的 综合指标的一种统计方法。综合指标的一种统计方法。第二页,本课件共有37页在综合评价工业企业的经济效益中,考核指标有:在综合评价工业企业的经济效益中,考核指标有:1 1每百元固定资产原值实现产值、每百元固定资产原值实现产值、2 2每百元固定资产原值实现
2、利税、每百元固定资产原值实现利税、3 3每百元资金实现利税、每百元资金实现利税、4 4每百元工业总产值实现利税、每百元工业总产值实现利税、5 5每百元销售收入实现利税、每百元销售收入实现利税、6 6每吨标准煤实现工业产值、每吨标准煤实现工业产值、7 7每千瓦电力实现工业产值、每千瓦电力实现工业产值、8 8全员劳动生产率、全员劳动生产率、9 9每百元流动资金实现的产值每百元流动资金实现的产值指标间信息有重叠,指标数量又多。指标间信息有重叠,指标数量又多。经经过过主主成成分分分分析析计计算算,最最后后确确定定选选择择了了2 2个个主主成成分分作作为为综综合合评评价价工工业业企企业业经经济济效效益益
3、的的依依据据,变变量量数数由由9 9个个减减少少到到2 2个个,这这两两个个主主成成分分代代表表的信息达的信息达91.6%91.6%,使所研究的问题简化。,使所研究的问题简化。第三页,本课件共有37页第一节第一节主成分分析的主成分分析的几何意义几何意义第四页,本课件共有37页X1X2几何意义几何意义:为了直观,先在二维空间中讨论主成分的几何意义。为了直观,先在二维空间中讨论主成分的几何意义。设对每个样品观测两个变量设对每个样品观测两个变量X X1 1和和X X2 2的数据如下的数据如下X X1 11 2 3 4 5 6X X2 22 4 6 8 10 122 4 6 8 10 12 样品点完全
4、在同一条直线上。样品点完全在同一条直线上。X1X2其散点图如下其散点图如下第五页,本课件共有37页X1Y2X2Y1因为样品点都在因为样品点都在Y Y1 1轴上,轴上,Y Y1 1方向有离散性,方向有离散性,Y Y2 2方向无离散性,方向无离散性,也就无区别。可以用也就无区别。可以用Y Y1 1来描述这些样品点来描述这些样品点,,因此在新坐标系,因此在新坐标系中只需用中只需用Y Y1 1一个变量就可以描述原来需用两个变量一个变量就可以描述原来需用两个变量X X1 1和和X X2 2描述描述的样品。那么的样品。那么Y Y1 1包含了原来变量包含了原来变量X X1 1和和X X2 2的的100%10
5、0%的信息的信息。在实际问题中,这样的情况是很少见的在实际问题中,这样的情况是很少见的。第六页,本课件共有37页一般情况下,例如有一般情况下,例如有n n个样品,每个样品有两个变量值个样品,每个样品有两个变量值X X1 1和和X X2 2,这,这n n个样品的散点图如带状个样品的散点图如带状.由图可见这由图可见这n n个样品点无论是沿着个样品点无论是沿着X X1 1轴方向或轴方向或X X2 2轴方向都轴方向都具有较大的离散性,其离散的程度可以分别用观测变量具有较大的离散性,其离散的程度可以分别用观测变量X X1 1的方差和的方差和X X2 2的方差定量地表示。的方差定量地表示。X1X2 第七页
6、,本课件共有37页X2Y2Y1X1 同样我们将同样我们将X X1 1轴和轴和X X2 2轴同时按逆时针方向旋转轴同时按逆时针方向旋转角度,角度,得到新坐标轴得到新坐标轴Y Y1 1和和Y Y2 2 。Y Y1 1和和Y Y2 2是两个新变量。根据解是两个新变量。根据解析几何中的坐标旋转变换公式:析几何中的坐标旋转变换公式:第八页,本课件共有37页第二节第二节 主成分的求解主成分的求解 假设我们所讨论的实际问题中,有假设我们所讨论的实际问题中,有p p个指标,个指标,我们把这我们把这p p个指标看作个指标看作p p个随机变量,记为个随机变量,记为 X X1 1,X X2 2,X Xp p 主成分
7、分析就是要把这主成分分析就是要把这p p个指标的问题,转个指标的问题,转变为讨论变为讨论p p个指标的线性组合的问题个指标的线性组合的问题 第九页,本课件共有37页主成分分析通常的做法是,寻求原指标的线性组合主成分分析通常的做法是,寻求原指标的线性组合Yi。并且满足:并且满足:1 (i=1,2,P)*1 (i=1,2,P)*2 2 不相关性,不相关性,Y Yi i与与Y Yj j不相关。不相关。3 3 方差极大条件,方差极大条件,第十页,本课件共有37页主成分的求解:主成分的求解:求系数求系数 ,而其正是观测变量相关矩阵的单位,而其正是观测变量相关矩阵的单位特征向量。因此,通过求解特征向量。因
8、此,通过求解 的特征方程,得到的特征方程,得到P P个特征个特征根和根和P P个单位特征向量,把个单位特征向量,把P P个特征根按从大到小的顺序排个特征根按从大到小的顺序排列,记作列,记作i i(i=1,2,p)(i=1,2,p),它们分别代表,它们分别代表P P个主成分所个主成分所解释的观测变量的方差,即解释的观测变量的方差,即Var(YVar(Yi i)=)=i i(i=1,2,p)(i=1,2,p)。相应的相应的P P个单位特征向量就是主成分的系数个单位特征向量就是主成分的系数 (i=1,2,pi=1,2,p)。)。第十一页,本课件共有37页主成分主成分Y=由由 的单位特征向量构成的单位
9、特征向量构成U,即由即由|-I|=0 求出求出然后代入(然后代入(-I)Z=0 求出单位特征向量求出单位特征向量 ,构成,构成U第十二页,本课件共有37页变量的标准化变量的标准化:由于主成分是根据变量的离散度也即方差的大小来确定主由于主成分是根据变量的离散度也即方差的大小来确定主成分的,这样当不同指标的量纲不同时,不同指标的方差大成分的,这样当不同指标的量纲不同时,不同指标的方差大小差別很大,主成分会受到影响,小差別很大,主成分会受到影响,例如:例如:X X1 1表年收入,从万元到百万元变化,表年收入,从万元到百万元变化,X X2 2表净收入与总资产之比,从表净收入与总资产之比,从0.010.
10、01到到0.600.60变化变化,那么那么X X1 1的方差的绝对量将远远大于的方差的绝对量将远远大于X X2 2的方差的方差,这样主成分会过于照顾方差大的变量这样主成分会过于照顾方差大的变量,为使主成分能均等地为使主成分能均等地对待每一个原变量对待每一个原变量,应将原变量作标准化处理应将原变量作标准化处理.第十三页,本课件共有37页标准化公式标准化公式:(i=1,2,P)(i=1,2,P)这时有这时有 =因此求因此求U U时可用时可用 的特征向量。的特征向量。还可以证明还可以证明 =所以所以 =第十四页,本课件共有37页在实际问题中,利用主成分的目的是为了减少变量的个在实际问题中,利用主成分
11、的目的是为了减少变量的个数,所以一般不用数,所以一般不用P P个主成分,而是根据如下方法选取个主成分,而是根据如下方法选取前前K K个主成分。个主成分。定义定义 为第为第i i主成分主成分Y Yi i的方差贡献率。的方差贡献率。这个值越大,说明这个主成分这个值越大,说明这个主成分Y Yi i综合原指标信息的能力综合原指标信息的能力越强。越强。主成分的方差贡献率主成分的方差贡献率第十五页,本课件共有37页定义定义 (KPKP)为主成分为主成分Y Yl l,Y,Y2 2,Y,Yk k的累积方差贡献率。的累积方差贡献率。当当前前K K个个主主成成分分的的累累积积方方差差贡贡献献率率达达到到85%85
12、%以以上上时时,就就取取K K个个主主成成分分。这这样样K K个个主主成成分分基基本本反反映映了了原原指标的信息,指标数目由指标的信息,指标数目由P P个减少到个减少到K K个。个。这种由讨论多个指标降为少数几个综合指标的过程这种由讨论多个指标降为少数几个综合指标的过程在数学上就叫做降维。在数学上就叫做降维。第十六页,本课件共有37页 (i=1,2,P)(i=1,2,P)对于标准化后的变量,则对于标准化后的变量,则原始变量与主成分之间的相关系数变量与主成分之间的相关系数第十七页,本课件共有37页主成分得分主成分得分:当当选选取取了了n n个个主主成成分分后后,把把样样本本数数据据代代入入各各主
13、主成分表达式可得样本的主成分得分。成分表达式可得样本的主成分得分。若若主主成成分分是是由由原原始始数数据据协协方方差差阵阵计计算算的的,则则计算主成分得分时,用原始数据。计算主成分得分时,用原始数据。若若主主成成分分是是由由标标准准化化数数据据计计算算,即即由由R R计计算算,则则计计算算主主成成分分得得分分时时,一一定定要要用用标标准准化化数数据据,否则会出现错误。否则会出现错误。第十八页,本课件共有37页主成分的综合得分主成分的综合得分利用主成分利用主成分Y Yl l,Y,Y2 2,Y,Yk k作线性组合,并作线性组合,并以每个主成分以每个主成分Y Yi i的方差贡献率作为权数构的方差贡献
14、率作为权数构造一个综合函数:造一个综合函数:Y=Y=根据计算出的根据计算出的Y Y值大小进行排序。值大小进行排序。第十九页,本课件共有37页主成分的计算步骤主成分的计算步骤:原始数据矩阵原始数据矩阵1 1、原始数据标准化、原始数据标准化2 2、计算样本协差阵或相关系数矩阵、计算样本协差阵或相关系数矩阵R R3 3、求、求R R的非零特征根及对应的标准正交特征向量的非零特征根及对应的标准正交特征向量 4 4、求出主成分求出主成分 (i=1,2,P)(i=1,2,P)根据累计方差贡献率大于等于根据累计方差贡献率大于等于80%80%,85%85%,90%90%等,确等,确 定定选选取取主主成成分分个
15、个数数。结结合合专专业业知知识识将将各各主主成成分分给给出出恰恰当的解释,并运用其来判断样品的特性。当的解释,并运用其来判断样品的特性。第二十页,本课件共有37页 例一例一 应收账款是指企业因对外销售产品、材料、提供劳应收账款是指企业因对外销售产品、材料、提供劳务及其它原因,应向购货单位或接受劳务的单位收取的款务及其它原因,应向购货单位或接受劳务的单位收取的款项。出于扩大销售的竞争需要,企业不得不以赊销或其它项。出于扩大销售的竞争需要,企业不得不以赊销或其它优惠的方式招揽顾客,由于销售和收款的时间差,于是产优惠的方式招揽顾客,由于销售和收款的时间差,于是产生了应收款项。生了应收款项。应收款赊销
16、的效果的好坏,不仅依赖于企业的信用政应收款赊销的效果的好坏,不仅依赖于企业的信用政策,还依赖于顾客的信用程度。由此,评价顾客的信用等策,还依赖于顾客的信用程度。由此,评价顾客的信用等级,了解顾客的综合信用程度,对加强企业的应收账款管级,了解顾客的综合信用程度,对加强企业的应收账款管理大有帮助。某企业为了了解其客户的信用程度,采用西理大有帮助。某企业为了了解其客户的信用程度,采用西方银行信用评估常用的方银行信用评估常用的5C5C方法,方法,5C5C的目的是说明顾客违约的目的是说明顾客违约的可能性。的可能性。第二十一页,本课件共有37页 1 1、品品格格(用用X X1 1表表示示),指指顾顾客客的
17、的信信誉誉,履履行行偿偿还还义义务务的的可可能能性性。企企业可以通过过去的付款记录得到此项。业可以通过过去的付款记录得到此项。2 2、能能力力(用用X X2 2表表示示),指指顾顾客客的的偿偿还还能能力力。即即其其流流动动资资产产的的数数量量和和质质量量以以及及流流动动负负载载的的比比率率。顾顾客客的的流流动动资资产产越越多多,其其转转化化为为现现金金支支付付款款项项的的能能力力越越强强。同同时时,还还应应注注意意顾顾客客流流动动资资产产的的质质量量,看看其其是是否否会会出出现存货过多过时质量下降,影响其变现能力和支付能力。现存货过多过时质量下降,影响其变现能力和支付能力。3 3、资资本本(用
18、用X X3 3表表示示),指指顾顾客客的的财财务务势势力力和和财财务务状状况况,表表明明顾顾客客可可能能偿偿还还债务的背景。债务的背景。4 4、附带的担保品(用、附带的担保品(用X X4 4表示),指借款人以容易出售的资产做抵押。表示),指借款人以容易出售的资产做抵押。5 5、环境条件(用、环境条件(用X X5 5表示),指企业的外部因素,即指非企业本身表示),指企业的外部因素,即指非企业本身能控制或操纵的因素。能控制或操纵的因素。第二十二页,本课件共有37页 首先抽取了首先抽取了1010家具有可比性的同类企业作为样本,家具有可比性的同类企业作为样本,又请又请8 8位专家分别给位专家分别给10
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 成分 分析 多元 回归 精选 课件
限制150内