主成分分析多元回归分析讲稿.ppt
《主成分分析多元回归分析讲稿.ppt》由会员分享,可在线阅读,更多相关《主成分分析多元回归分析讲稿.ppt(37页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、第一页,讲稿共三十七页哦什么是主成分分析什么是主成分分析主成分分析(主成分分析(Principal Components AnalysisPrincipal Components Analysis) 也称主分量分析也称主分量分析 是将多个指标,化为少数几个不相关的是将多个指标,化为少数几个不相关的 综合指标的一种统计方法。综合指标的一种统计方法。 第二页,讲稿共三十七页哦在综合评价工业企业的经济效益中,考核指标有:在综合评价工业企业的经济效益中,考核指标有:1 1每百元固定资产原值实现产值、每百元固定资产原值实现产值、2 2每百元固定资产原值实现利税、每百元固定资产原值实现利税、3 3每百元资
2、金实现利税、每百元资金实现利税、4 4每百元工业总产值实现利税、每百元工业总产值实现利税、5 5每百元销售收入实现利税、每百元销售收入实现利税、6 6每吨标准煤实现工业产值、每吨标准煤实现工业产值、7 7每千瓦电力实现工业产值、每千瓦电力实现工业产值、8 8全员劳动生产率、全员劳动生产率、9 9每百元流动资金实现的产值每百元流动资金实现的产值指标间信息有重叠,指标数量又多。指标间信息有重叠,指标数量又多。经过主成分分析计算,最后确定选择了经过主成分分析计算,最后确定选择了2 2个主成分作为综合评价工业企个主成分作为综合评价工业企业经济效益的依据,变量数由业经济效益的依据,变量数由9 9个减少到
3、个减少到2 2个,这两个主成分代表的信息达个,这两个主成分代表的信息达91.6%91.6%,使所研究的问题简化。,使所研究的问题简化。第三页,讲稿共三十七页哦第一节第一节 主成分分析的主成分分析的几何意义几何意义第四页,讲稿共三十七页哦X1X2几何意义几何意义:为了直观,先在二维空间中讨论主成分的几何意义。为了直观,先在二维空间中讨论主成分的几何意义。 设对每个样品观测两个变量设对每个样品观测两个变量X X1 1和和X X2 2的数据如下的数据如下X X1 11 2 3 4 5 6X X2 22 4 6 8 10 122 4 6 8 10 12样品点完全在同一条直线上。样品点完全在同一条直线上
4、。X1X2其散点图如下其散点图如下第五页,讲稿共三十七页哦X1Y2X2Y1因为样品点都在因为样品点都在Y Y1 1轴上,轴上,Y Y1 1方向有离散性,方向有离散性,Y Y2 2方向无离散性,方向无离散性,也就无区别。可以用也就无区别。可以用Y Y1 1来描述这些样品点来描述这些样品点, ,,因此在新坐标系,因此在新坐标系中只需用中只需用Y Y1 1一个变量就可以描述原来需用两个变量一个变量就可以描述原来需用两个变量X X1 1和和X X2 2描述描述的样品。那么的样品。那么Y Y1 1包含了原来变量包含了原来变量X X1 1和和X X2 2的的100%100%的信息的信息。在实际问题中,这样
5、的情况是很少见的在实际问题中,这样的情况是很少见的。第六页,讲稿共三十七页哦一般情况下,例如有一般情况下,例如有n n个样品,每个样品有两个变量值个样品,每个样品有两个变量值X X1 1和和X X2 2,这,这n n个样品的散点图如带状个样品的散点图如带状. .由图可见这由图可见这n n个样品点无论是沿着个样品点无论是沿着X X1 1轴方向或轴方向或X X2 2轴方向都具轴方向都具有较大的离散性,其离散的程度可以分别用观测变量有较大的离散性,其离散的程度可以分别用观测变量X X1 1的方差的方差和和X X2 2的方差定量地表示。的方差定量地表示。X1X2 第七页,讲稿共三十七页哦 X2Y2 Y
6、1 X1 同样我们将同样我们将X X1 1轴和轴和X X2 2轴同时按逆时针方向旋转轴同时按逆时针方向旋转角度,得角度,得到新坐标轴到新坐标轴Y Y1 1和和Y Y2 2 。 Y Y1 1和和Y Y2 2是两个新变量。根据解析几何是两个新变量。根据解析几何中的坐标旋转变换公式:中的坐标旋转变换公式:cossinsincos212211XXYXXY第八页,讲稿共三十七页哦第二节第二节 主成分的求解主成分的求解 假设我们所讨论的实际问题中,有假设我们所讨论的实际问题中,有p p个指标,个指标,我们把这我们把这p p个指标看作个指标看作p p个随机变量,记为个随机变量,记为 X X1 1,X X2
7、2,X Xp p 主成分分析就是要把这主成分分析就是要把这p p个指标的问题,转变为个指标的问题,转变为讨论讨论p p个指标的线性组合的问题个指标的线性组合的问题 ppppppppppXaXaXaYXaXaXaYXaXaXaY22112222121212121111第九页,讲稿共三十七页哦主成分分析通常的做法是,寻求原指标的线性组合主成分分析通常的做法是,寻求原指标的线性组合Yi。并且满足:并且满足: 1 (i=1,2, P) 1 (i=1,2, P) * *2 2 不相关性,不相关性,Y Yi i与与Y Yj j不相关。不相关。3 3 方差极大条件,方差极大条件,)()(21pYVarYVa
8、rYVar)(),(21ipiiiaaaa122221ipiiaaappppppppppXaXaXaYXaXaXaYXaXaXaY22112222121212121111第十页,讲稿共三十七页哦主成分的求解:主成分的求解:ppppppppppXaXaXaYXaXaXaYXaXaXaY22112222121212121111ipiiaaa,21求系数求系数 ,而其正是观测变量相关矩阵的单位特征,而其正是观测变量相关矩阵的单位特征向量。因此,通过求解向量。因此,通过求解 的特征方程,得到的特征方程,得到P P个特征根和个特征根和P P个个单位特征向量,把单位特征向量,把P P个特征根按从大到小的顺
9、序排列,记作个特征根按从大到小的顺序排列,记作i i (i=1,2,p) (i=1,2,p),它们分别代表,它们分别代表P P个主成分所解释的观测个主成分所解释的观测变量的方差,即变量的方差,即Var(YVar(Yi i)= )= i i (i=1,2,p)(i=1,2,p)。相应的。相应的P P个单个单位特征向量就是主成分的系数位特征向量就是主成分的系数 (i=1,2,pi=1,2,p)。)。ipiiaaa,21XX第十一页,讲稿共三十七页哦主成分主成分UXppppppaaaaaaaaaU212222111211Y=ppppppppppXaXaXaYXaXaXaYXaXaXaY2211222
10、2121212121111ppppppppXXXaaaaaaaaaYYY2121222211121121),(21ipiiiaaaaX由由 的单位特征向量构成的单位特征向量构成U,即由即由| -I|=0 求出求出然后代入(然后代入( -I)Z=0 求出单位特征向量求出单位特征向量 ,构成,构成UXX),(21ipiiiaaaa第十二页,讲稿共三十七页哦变量的标准化变量的标准化: :由于主成分是根据变量的离散度也即方差的大小来确定主成分的由于主成分是根据变量的离散度也即方差的大小来确定主成分的,这样当不同指标的量纲不同时,不同指标的方差大小差別很大,这样当不同指标的量纲不同时,不同指标的方差大小
11、差別很大,主成分会受到影响,主成分会受到影响,例如:例如:X X1 1表年收入,从万元到百万元变化,表年收入,从万元到百万元变化,X X2 2表净收入与总资产之比,从表净收入与总资产之比,从0.010.01到到0.600.60变化变化, ,那么那么X X1 1的方差的绝对量将远远大于的方差的绝对量将远远大于X X2 2的方差的方差, ,这样主成分会过于照顾方差大的变量这样主成分会过于照顾方差大的变量, ,为使主成分能均等为使主成分能均等地对待每一个原变量地对待每一个原变量, ,应将原变量作标准化处理应将原变量作标准化处理. .第十三页,讲稿共三十七页哦标准化公式标准化公式: : (i=1,2,
12、 P)(i=1,2, P)这时有这时有 = =因此求因此求U U时可用时可用 的特征向量。的特征向量。还可以证明还可以证明 = =所以所以 = = =iiiXXiiSXXSXXXiiXXRXRXXRXXRXR第十四页,讲稿共三十七页哦在实际问题中,利用主成分的目的是为了减少变量的个数在实际问题中,利用主成分的目的是为了减少变量的个数,所以一般不用,所以一般不用P P个主成分,而是根据如下方法选取前个主成分,而是根据如下方法选取前K K个个主成分。主成分。定义定义 为第为第i i主成分主成分Y Yi i的方差贡献率。的方差贡献率。这个值越大,说明这个主成分这个值越大,说明这个主成分Y Yi i综
13、合原指标信息的能综合原指标信息的能力越强。力越强。piiii1主成分的方差贡献率主成分的方差贡献率第十五页,讲稿共三十七页哦定义定义 ( KPKP)为主成分为主成分Y Yl l, Y, Y2 2,Y,Yk k的累积方差贡献率。的累积方差贡献率。当前当前K K个主成分的累积方差贡献率达到个主成分的累积方差贡献率达到85%85%以上时以上时,就取,就取K K个主成分。这样个主成分。这样K K个主成分基本反映了原指个主成分基本反映了原指标的信息,指标数目由标的信息,指标数目由P P个减少到个减少到K K个。个。pkpiikii1111这种由讨论多个指标降为少数几个综合指标的过程在这种由讨论多个指标降
14、为少数几个综合指标的过程在数学上就叫做降维。数学上就叫做降维。第十六页,讲稿共三十七页哦 (i=1,2, P) (i=1,2, P)对于标准化后的变量,则对于标准化后的变量,则iikikiikikikaaXY),(kikikaXY),(第十七页,讲稿共三十七页哦主成分得分主成分得分: : 当选取了当选取了n n个主成分后,把样本数据代入各主成个主成分后,把样本数据代入各主成分表达式可得样本的主成分得分。分表达式可得样本的主成分得分。若主成分是由原始数据协方差阵计算的,则计算主若主成分是由原始数据协方差阵计算的,则计算主成分得分时,用原始数据。成分得分时,用原始数据。若主成分是由标准化数据计算,
15、即由若主成分是由标准化数据计算,即由R R计算,则计算,则计算主成分得分时,一定要用标准化数据,否则计算主成分得分时,一定要用标准化数据,否则会出现错误。会出现错误。第十八页,讲稿共三十七页哦主成分的综合得分主成分的综合得分利用主成分利用主成分Y Yl l,Y,Y2 2, Y, Yk k作线性组合,并以每作线性组合,并以每个主成分个主成分Y Yi i的方差贡献率作为权数构造一个综的方差贡献率作为权数构造一个综合函数:合函数: Y= Y= 根据计算出的根据计算出的Y Y值大小进行排序。值大小进行排序。kkYYY2211第十九页,讲稿共三十七页哦主成分的计算步骤主成分的计算步骤: :原始数据矩阵原
16、始数据矩阵1 1、原始数据标准化、原始数据标准化2 2、计算样本协差阵或相关系数矩阵、计算样本协差阵或相关系数矩阵R R3 3、求、求R R的非零特征根及对应的标准正交特征向量的非零特征根及对应的标准正交特征向量 4 4、 求出主成分求出主成分 (i=1,2, P)(i=1,2, P)根据累计方差贡献率大于等于根据累计方差贡献率大于等于80%80%,85%85%,90%90%等,确等,确 定选取主成分个数。定选取主成分个数。结合专业知识将各主成分给出恰结合专业知识将各主成分给出恰当的解释,并运用其来判断样品的特性。当的解释,并运用其来判断样品的特性。1111pnnpxxXxx120ppipii
17、iXaXaXaY2211第二十页,讲稿共三十七页哦 例一例一 应收账款是指企业因对外销售产品、材料、提供劳应收账款是指企业因对外销售产品、材料、提供劳务及其它原因,应向购货单位或接受劳务的单位收取的款务及其它原因,应向购货单位或接受劳务的单位收取的款项。出于扩大销售的竞争需要,企业不得不以赊销或其它项。出于扩大销售的竞争需要,企业不得不以赊销或其它优惠的方式招揽顾客,由于销售和收款的时间差,于是产优惠的方式招揽顾客,由于销售和收款的时间差,于是产生了应收款项。生了应收款项。 应收款赊销的效果的好坏,不仅依赖于企业的信用政应收款赊销的效果的好坏,不仅依赖于企业的信用政策,还依赖于顾客的信用程度。
18、由此,评价顾客的信用等策,还依赖于顾客的信用程度。由此,评价顾客的信用等级,了解顾客的综合信用程度,对加强企业的应收账款管级,了解顾客的综合信用程度,对加强企业的应收账款管理大有帮助。某企业为了了解其客户的信用程度,采用西理大有帮助。某企业为了了解其客户的信用程度,采用西方银行信用评估常用的方银行信用评估常用的5C5C方法,方法,5C5C的目的是说明顾客违约的目的是说明顾客违约的可能性。的可能性。 第二十一页,讲稿共三十七页哦 1 1、品格(用、品格(用X X1 1表示),指顾客的信誉,履行偿还义务的可能性。企表示),指顾客的信誉,履行偿还义务的可能性。企业可以通过过去的付款记录得到此项。业可
19、以通过过去的付款记录得到此项。 2 2、能力(用、能力(用X X2 2表示),指顾客的偿还能力。即其流动资产的数量和质量以表示),指顾客的偿还能力。即其流动资产的数量和质量以及流动负载的比率。顾客的流动资产越多,其转化为现金支付款项的能力及流动负载的比率。顾客的流动资产越多,其转化为现金支付款项的能力越强。同时,还应注意顾客流动资产的质量,看其是否会出现存货过多过越强。同时,还应注意顾客流动资产的质量,看其是否会出现存货过多过时质量下降,影响其变现能力和支付能力。时质量下降,影响其变现能力和支付能力。 3 3、资本(用、资本(用X X3 3表示),指顾客的财务势力和财务状况,表明顾客可能偿还债
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 成分 分析 多元 回归 讲稿
限制150内