主成分分析多元回归分析ppt课件.ppt
《主成分分析多元回归分析ppt课件.ppt》由会员分享,可在线阅读,更多相关《主成分分析多元回归分析ppt课件.ppt(38页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、第五章第五章 主成分分析主成分分析什么是主成分分析什么是主成分分析主成分分析(主成分分析(Principal Components AnalysisPrincipal Components Analysis) 也称主分量分析也称主分量分析 是将多个指标,化为少数几个不相关的是将多个指标,化为少数几个不相关的 综合指标的一种统计方法。综合指标的一种统计方法。 在综合评价工业企业的经济效益中,考核指标有:在综合评价工业企业的经济效益中,考核指标有:1 1每百元固定资产原值实现产值、每百元固定资产原值实现产值、2 2每百元固定资产原值实现利税、每百元固定资产原值实现利税、3 3每百元资金实现利税、每
2、百元资金实现利税、4 4每百元工业总产值实现利税、每百元工业总产值实现利税、5 5每百元销售收入实现利税、每百元销售收入实现利税、6 6每吨标准煤实现工业产值、每吨标准煤实现工业产值、7 7每千瓦电力实现工业产值、每千瓦电力实现工业产值、8 8全员劳动生产率、全员劳动生产率、9 9每百元流动资金实现的产值每百元流动资金实现的产值指标间信息有重叠,指标数量又多。指标间信息有重叠,指标数量又多。经过主成分分析计算,最后确定选择了经过主成分分析计算,最后确定选择了2 2个主成分作为综合评价个主成分作为综合评价工业企业经济效益的依据,变量数由工业企业经济效益的依据,变量数由9 9个减少到个减少到2 2
3、个,这两个主成分个,这两个主成分代表的信息达代表的信息达91.6%91.6%,使所研究的问题简化。,使所研究的问题简化。第一节第一节 主成分分析的主成分分析的几何意义几何意义X1X2几何意义几何意义:为了直观,先在二维空间中讨论主成分的几何意义。为了直观,先在二维空间中讨论主成分的几何意义。 设对每个样品观测两个变量设对每个样品观测两个变量X X1 1和和X X2 2的数据如下的数据如下X X1 11 2 3 4 5 6X X2 22 4 6 8 10 122 4 6 8 10 12样品点完全在同一条直线上。样品点完全在同一条直线上。X1X2其散点图如下其散点图如下X1Y2X2Y1因为样品点都
4、在因为样品点都在Y Y1 1轴上,轴上,Y Y1 1方向有离散性,方向有离散性,Y Y2 2方向无离散性,方向无离散性,也就无区别。可以用也就无区别。可以用Y Y1 1来描述这些样品点来描述这些样品点, ,,因此在新坐标系,因此在新坐标系中只需用中只需用Y Y1 1一个变量就可以描述原来需用两个变量一个变量就可以描述原来需用两个变量X X1 1和和X X2 2描述描述的样品。那么的样品。那么Y Y1 1包含了原来变量包含了原来变量X X1 1和和X X2 2的的100%100%的信息的信息。在实际问题中,这样的情况是很少见的在实际问题中,这样的情况是很少见的。一般情况下,例如有一般情况下,例如
5、有n n个样品,每个样品有两个变量个样品,每个样品有两个变量值值X X1 1和和X X2 2,这,这n n个样品的散点图如带状个样品的散点图如带状. .由图可见由图可见这这n n个样品点无论是沿着个样品点无论是沿着X X1 1轴方向或轴方向或X X2 2轴方向轴方向都具有较大的离散性,其离散的程度可以分别用观测都具有较大的离散性,其离散的程度可以分别用观测变量变量X X1 1的方差和的方差和X X2 2的方差定量地表示。的方差定量地表示。X1X2 X2Y2 Y1 X1 同样我们将同样我们将X X1 1轴和轴和X X2 2轴同时按逆时针方向旋转轴同时按逆时针方向旋转角度,角度,得到新坐标轴得到新
6、坐标轴Y Y1 1和和Y Y2 2 。 Y Y1 1和和Y Y2 2是两个新变量。根据是两个新变量。根据解析几何中的坐标旋转变换公式:解析几何中的坐标旋转变换公式:cossinsincos212211XXYXXY第二节第二节 主成分的求解主成分的求解 假设我们所讨论的实际问题中,有假设我们所讨论的实际问题中,有p p个指标,个指标,我们把这我们把这p p个指标看作个指标看作p p个随机变量,记为个随机变量,记为 X X1 1,X X2 2,X Xp p 主成分分析就是要把这主成分分析就是要把这p p个指标的问题,转个指标的问题,转变为讨论变为讨论p p个指标的线性组合的问题个指标的线性组合的问
7、题 ppppppppppXaXaXaYXaXaXaYXaXaXaY22112222121212121111主成分分析通常的做法是,寻求原指标的线性组合主成分分析通常的做法是,寻求原指标的线性组合Yi。并且满足:并且满足: 1 (i=1,2, 1 (i=1,2, P) P) * *2 2 不相关性,不相关性,Y Yi i与与Y Yj j不相关。不相关。3 3 方差极大条件,方差极大条件,)()(21pYVarYVarYVar)(),(21ipiiiaaaa122221ipiiaaappppppppppXaXaXaYXaXaXaYXaXaXaY22112222121212121111主成分的求解:
8、主成分的求解:ppppppppppXaXaXaYXaXaXaYXaXaXaY22112222121212121111ipiiaaa,21求系数求系数 ,而其正是观测变量相关矩阵的单位,而其正是观测变量相关矩阵的单位特征向量。因此,通过求解特征向量。因此,通过求解 的特征方程,得到的特征方程,得到P P个特个特征根和征根和P P个单位特征向量,把个单位特征向量,把P P个特征根按从大到小的顺个特征根按从大到小的顺序排列,记作序排列,记作i i (i=1,2, (i=1,2,p),p),它们分别代表,它们分别代表P P个主个主成分所解释的观测变量的方差,即成分所解释的观测变量的方差,即Var(YV
9、ar(Yi i)= )= i i (i=1,2,(i=1,2,p),p)。相应的。相应的P P个单位特征向量就是主成分的个单位特征向量就是主成分的系数系数 (i=1,2,i=1,2,p,p)。)。ipiiaaa,21XX主成分主成分UXppppppaaaaaaaaaU212222111211Y=ppppppppppXaXaXaYXaXaXaYXaXaXaY22112222121212121111ppppppppXXXaaaaaaaaaYYY2121222211121121),(21ipiiiaaaaX由由 的单位特征向量构成的单位特征向量构成U,即由即由| -I|=0 求出求出然后代入(然后代
10、入( -I)Z=0 求出单位特征向量求出单位特征向量 ,构成,构成UXX),(21ipiiiaaaa变量的标准化变量的标准化: :由于主成分是根据变量的离散度也即方差的大小来确定由于主成分是根据变量的离散度也即方差的大小来确定主成分的,这样当不同指标的量纲不同时,不同指标的方主成分的,这样当不同指标的量纲不同时,不同指标的方差大小差別很大,主成分会受到影响,差大小差別很大,主成分会受到影响,例如:例如:X X1 1表年收入,从万元到百万元变化,表年收入,从万元到百万元变化,X X2 2表净收入与总资产之比,从表净收入与总资产之比,从0.010.01到到0.600.60变化变化, ,那么那么X
11、X1 1的方差的绝对量将远远大于的方差的绝对量将远远大于X X2 2的方差的方差, ,这样主成分会过于照顾方差大的变量这样主成分会过于照顾方差大的变量, ,为使主成分能均为使主成分能均等地对待每一个原变量等地对待每一个原变量, ,应将原变量作标准化处理应将原变量作标准化处理. .标准化公式标准化公式: : (i=1,2, (i=1,2, P)P)这时有这时有 = =因此求因此求U U时可用时可用 的特征向量。的特征向量。还可以证明还可以证明 = =所以所以 = = =iiiXXiiSXXSXXXiiXXRXRXXRXXRXR在实际问题中,利用主成分的目的是为了减少变在实际问题中,利用主成分的目
12、的是为了减少变量的个数,所以一般不用量的个数,所以一般不用P P个主成分,而是根据如个主成分,而是根据如下方法选取前下方法选取前K K个主成分。个主成分。定义定义 为第为第i i主成分主成分Y Yi i的方差贡献率。的方差贡献率。这个值越大,说明这个主成分这个值越大,说明这个主成分Y Yi i综合原指标信息的综合原指标信息的能力越强。能力越强。piiii1主成分的方差贡献率主成分的方差贡献率定义定义 ( KPKP)为主成分为主成分Y Yl l, Y, Y2 2, , ,Y Yk k的累积方差贡献率。的累积方差贡献率。当前当前K K个主成分的累积方差贡献率达到个主成分的累积方差贡献率达到85%8
13、5%以以上时,就取上时,就取K K个主成分。这样个主成分。这样K K个主成分基本反映个主成分基本反映了原指标的信息,指标数目由了原指标的信息,指标数目由P P个减少到个减少到K K个。个。pkpiikii1111这种由讨论多个指标降为少数几个综合指标的过这种由讨论多个指标降为少数几个综合指标的过程在数学上就叫做降维。程在数学上就叫做降维。 (i=1,2, (i=1,2, P)P)对于标准化后的变量,则对于标准化后的变量,则iikikiikikikaaXY),(kikikaXY),(主成分得分主成分得分: : 当选取了当选取了n n个主成分后,把样本数据代入各主个主成分后,把样本数据代入各主成分
14、表达式可得样本的主成分得分。成分表达式可得样本的主成分得分。若主成分是由原始数据协方差阵计算的,则若主成分是由原始数据协方差阵计算的,则计算主成分得分时,用原始数据。计算主成分得分时,用原始数据。若主成分是由标准化数据计算,即由若主成分是由标准化数据计算,即由R R计算,计算,则计算主成分得分时,一定要用标准化数据,则计算主成分得分时,一定要用标准化数据,否则会出现错误。否则会出现错误。主成分的综合得分主成分的综合得分利用主成分利用主成分Y Yl l,Y,Y2 2, , Y, Yk k作线性组合,并作线性组合,并以每个主成分以每个主成分Y Yi i的方差贡献率作为权数构的方差贡献率作为权数构造
15、一个综合函数:造一个综合函数: Y= Y= 根据计算出的根据计算出的Y Y值大小进行排序。值大小进行排序。kkYYY2211主成分的计算步骤主成分的计算步骤: :原始数据矩阵原始数据矩阵1 1、原始数据标准化、原始数据标准化2 2、计算样本协差阵或相关系数矩阵、计算样本协差阵或相关系数矩阵R R3 3、求、求R R的非零特征根及对应的标准正交特征向量的非零特征根及对应的标准正交特征向量 4 4、 求出主成分求出主成分 (i=1,2, (i=1,2, P)P)根据累计方差贡献率大于等于根据累计方差贡献率大于等于80%80%,85%85%,90%90%等,确等,确 定选取主成分个数。定选取主成分个
16、数。结合专业知识将各主成分给出结合专业知识将各主成分给出恰当的解释,并运用其来判断样品的特性。恰当的解释,并运用其来判断样品的特性。1111pnnpxxXxx120ppipiiiXaXaXaY2211 例一例一 应收账款是指企业因对外销售产品、材料、提供应收账款是指企业因对外销售产品、材料、提供劳务及其它原因,应向购货单位或接受劳务的单位收取劳务及其它原因,应向购货单位或接受劳务的单位收取的款项。出于扩大销售的竞争需要,企业不得不以赊销的款项。出于扩大销售的竞争需要,企业不得不以赊销或其它优惠的方式招揽顾客,由于销售和收款的时间差,或其它优惠的方式招揽顾客,由于销售和收款的时间差,于是产生了应
17、收款项。于是产生了应收款项。 应收款赊销的效果的好坏,不仅依赖于企业的信用应收款赊销的效果的好坏,不仅依赖于企业的信用政策,还依赖于顾客的信用程度。由此,评价顾客的信政策,还依赖于顾客的信用程度。由此,评价顾客的信用等级,了解顾客的综合信用程度,对加强企业的应收用等级,了解顾客的综合信用程度,对加强企业的应收账款管理大有帮助。某企业为了了解其客户的信用程度,账款管理大有帮助。某企业为了了解其客户的信用程度,采用西方银行信用评估常用的采用西方银行信用评估常用的5C5C方法,方法,5C5C的目的是说明的目的是说明顾客违约的可能性。顾客违约的可能性。 1 1、品格(用、品格(用X X1 1表示),指
18、顾客的信誉,履行偿还义务的可能性。表示),指顾客的信誉,履行偿还义务的可能性。企业可以通过过去的付款记录得到此项。企业可以通过过去的付款记录得到此项。 2 2、能力(用、能力(用X X2 2表示),指顾客的偿还能力。即其流动资产的数量表示),指顾客的偿还能力。即其流动资产的数量和质量以及流动负载的比率。顾客的流动资产越多,其转化为现和质量以及流动负载的比率。顾客的流动资产越多,其转化为现金支付款项的能力越强。同时,还应注意顾客流动资产的质量,金支付款项的能力越强。同时,还应注意顾客流动资产的质量,看其是否会出现存货过多过时质量下降,影响其变现能力和支付看其是否会出现存货过多过时质量下降,影响其
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 成分 分析 多元 回归 ppt 课件
限制150内