应用统计学主成分分析幻灯片.ppt
应用统计学主成分分析第1页,共58页,编辑于2022年,星期六v主成分分析:将原来较多的指标简化为少数几个新的综合指标的多元统计方法。v主成分:由原始指标综合形成的几个新指标。依据主成分所含信息量的大小成为第一主成分,第二主成分等等。第2页,共58页,编辑于2022年,星期六v主成分与原始变量间的关系:1、主成分保留了原始变量绝大多数信息。2、主成分的个数大大少于原始变量的数目。3、各个主成分之间互不相关。4、每个主成分都是原始变量的线性组合。第3页,共58页,编辑于2022年,星期六v主成分分析的运用:1 1、对一组内部相关的变量作简化的描述对一组内部相关的变量作简化的描述 2 2、用来削减回归分析或群集分析、用来削减回归分析或群集分析(Cluster)Cluster)中变量的数目中变量的数目 3 3、用来检查异常点用来检查异常点 4 4、用来作多重共线性鉴定、用来作多重共线性鉴定 5 5、用来做原来数据的常态检定用来做原来数据的常态检定 第4页,共58页,编辑于2022年,星期六二、数学模型与几何解释数学模型二、数学模型与几何解释数学模型v假设我们所讨论的实际问题中,有p个指标,我们把这p个指标看作p个随机变量,记为X1,X2,Xp,主成分分析就是要把这p个指标的问题,转变为讨论p个指标的线性组合的问题,而这些新的指标F1,F2,Fk(kp),按照保留主要信息量的原则充分反映原指标的信息,并且相互独立。第5页,共58页,编辑于2022年,星期六v这种由讨论多个指标降为少数几个综合指标的过程在数学上就叫做降维。主成分分析通常的做法是,寻求原指标的线性组合Fi。第6页,共58页,编辑于2022年,星期六v满足如下的条件:1 1、每个主成分的系数平方和为、每个主成分的系数平方和为1 1。即。即 2 2、主成分之间相互独立,即无重叠的信息。即、主成分之间相互独立,即无重叠的信息。即 3 3、主成分的方差依次递减,重要性依次递减,即、主成分的方差依次递减,重要性依次递减,即F1、F2.Fp分别称为原变量的第一、第二.第p个主成分。第7页,共58页,编辑于2022年,星期六数学模型与几何解释几何解释数学模型与几何解释几何解释v为了方便,我们在二维空间中讨论主成分的几何意义:设有n个样品,每个样品有两个观测变量xl和x2,在由变量xl和x2 所确定的二维平面中,n个样本点所散布的情况如椭圆状。由图可以看出这n个样本点无论是沿着xl 轴方向或x2轴方向都具有较大的离散性,其离散的程度可以分别用观测变量xl 的方差和x2 的方差定量地表示。显然,如果只考虑xl和x2 中的任何一个,那么包含在原始数据中的经济信息将会有较大的损失。第8页,共58页,编辑于2022年,星期六v如果我们将xl 轴和x2轴先平移,再同时按逆时针方向旋转角度,得到新坐标轴Fl和F2。Fl和F2是两个新变量。第9页,共58页,编辑于2022年,星期六平移、旋转坐标轴第10页,共58页,编辑于2022年,星期六平移、旋转坐标轴第11页,共58页,编辑于2022年,星期六平移、旋转坐标轴第12页,共58页,编辑于2022年,星期六v根据旋转变换的公式:第13页,共58页,编辑于2022年,星期六v旋转变换的目的:旋转变换的目的:为了使得n个样品点在Fl轴方向上的离散程度最大,即Fl的方差最大。(变量Fl代表了原始数据的绝大部分信息,在研究某经济问题时,即使不考虑变量F2也无损大局)。经过上述旋转变换原始数据的大部经过上述旋转变换原始数据的大部分信息集中到分信息集中到F Fl l轴上,对数据中包含的信息轴上,对数据中包含的信息起到了浓缩作用。起到了浓缩作用。第14页,共58页,编辑于2022年,星期六vFl,F2除了可以对包含在Xl,X2中的信息起着浓缩作用之外,还具有不相关的性质,这就使得在研究复杂的问题时避免了信息重叠所带来的虚假性。二维平面上的个点的方差大部分都归结在Fl轴上,而F2轴上的方差很小。Fl和F2称为原始变量x1和x2的综合变量。F简化了系统结构,抓住了主要矛盾。第15页,共58页,编辑于2022年,星期六v由此可概括出主成分分析的几何意义:主成分分析的过程也就是坐标旋转的过程,各主成分表达式就是新坐标系与原坐标系的转换关系,新坐标系中各坐标轴的方向就是原始数据方差最大的方向。第16页,共58页,编辑于2022年,星期六v了解了主成分分析的基本思想、数学和几何意义后,问题的关键:1 1、如何进行主成分分析?(主成分分析的方法)、如何进行主成分分析?(主成分分析的方法)基于相关系数矩阵还是基于协方差矩阵做主成分分析。当分析中所选择的经济变量具有不同的量纲,变量水平差异很大,应该选择基于相关系数矩阵的主成分分析。2 2、如何确定主成分个数?、如何确定主成分个数?主成分分析的目的是简化变量,一般情况下主成分的个数应该小于原始变量的个数。关于保留几个主成分,应该权衡主成分个数和保留的信息。3 3、如何解释主成分所包含的经济意义?、如何解释主成分所包含的经济意义?第17页,共58页,编辑于2022年,星期六3 3 总体主成分的求解及其性质总体主成分的求解及其性质v矩阵知识回顾:矩阵知识回顾:(1 1)特征根与特征向量)特征根与特征向量A A、若对任意的若对任意的k k阶方阵阶方阵C C,有数字有数字 与向量与向量 满足:满足:,则称,则称 为为C C的特征根,的特征根,为为C C的相应于的相应于 的特征向的特征向量。量。B B、同时,方阵同时,方阵C C的特征根的特征根 是是k k阶方程阶方程 的根。的根。(2 2)任一)任一k k阶方阵阶方阵C C的特征根的特征根 的性质:的性质:第18页,共58页,编辑于2022年,星期六(3 3)任一)任一k k阶的实对称矩阵阶的实对称矩阵C C的性质:的性质:A A、实对称矩阵实对称矩阵C C的非零特征根的数目的非零特征根的数目C C的秩的秩B B、k k阶的实对称矩阵存在阶的实对称矩阵存在k k个实特征根个实特征根C C、实对称矩阵的不同特征根的特征向量是正交的实对称矩阵的不同特征根的特征向量是正交的D D、若若 是实对称矩阵是实对称矩阵C C的单位特征向量,则的单位特征向量,则若矩阵若矩阵 ,是由特征向量,是由特征向量 所构成的,则有:所构成的,则有:第19页,共58页,编辑于2022年,星期六v主成分分析的目标:主成分分析的目标:1 1、从相关的、从相关的X X1 1,X X2 2,X Xk k,求出相互独立的新综合变量(主成分)求出相互独立的新综合变量(主成分)Y Y1 1,Y,Y2 2Y Yk k。2 2、Y Y(Y Y1 1,Y,Y2 2Y Yk k )所反映信息的含量无遗漏或损失的指标所反映信息的含量无遗漏或损失的指标方差,方差,等于等于X X(X X1 1,X,X2 2X Xk k )的方差的方差 。X X与与Y Y之间的计算关系是:之间的计算关系是:如何求解主成分?如何求解主成分?第20页,共58页,编辑于2022年,星期六v一、从协方差矩阵出发求解主成分一、从协方差矩阵出发求解主成分(一)第一主成分:(一)第一主成分:设X的协方差阵为由于x为非负定的对称阵,则有利用线性代数的知识可得,必存在正交阵U,使得 第21页,共58页,编辑于2022年,星期六其中1,2,p为x的特征根,不妨假设1 2 p。而U恰好是由特征根相对应的特征向量所组成的正交阵。下面我们来看,是否由U的第一列元素所构成为原始变量的线性组合是否有最大的方差。第22页,共58页,编辑于2022年,星期六(二)(二)第二主成分第二主成分在约束条件 下,寻找第二主成分 因为所以则,对p维向量 ,有第23页,共58页,编辑于2022年,星期六所以如果取线性变换:则 的方差次大。类推第24页,共58页,编辑于2022年,星期六写为矩阵形式:第25页,共58页,编辑于2022年,星期六例:设的协方差矩阵为:从协方差矩阵出发,求解主成分()求协方差矩阵的特征根依据求解第26页,共58页,编辑于2022年,星期六()求特征根对应的特征向量()求特征根对应的特征向量第27页,共58页,编辑于2022年,星期六()主成分:()各主成分的贡献率及累计贡献率:第一主成分贡献率:第二主成分贡献率:第三主成分贡献率:第28页,共58页,编辑于2022年,星期六 第一和第二主成分的累计贡献率:由此可将以前三元的问题降维为两维问题第一和第二主成分包含了以前变量的绝大部分信息.第29页,共58页,编辑于2022年,星期六p从协方差矩阵出发求解主成分的步骤:从协方差矩阵出发求解主成分的步骤:1 1、求解各观测变量的协方差矩阵。、求解各观测变量的协方差矩阵。2 2、由协方差阵求出其特征根、由协方差阵求出其特征根。3 3、各特征根对应的特征向量。、各特征根对应的特征向量。4 4、计算累积贡献率,给出恰当的主成分个数。、计算累积贡献率,给出恰当的主成分个数。5 5、计算所选出的、计算所选出的k k个主成分的得分。个主成分的得分。第30页,共58页,编辑于2022年,星期六v二、由相关矩阵求解主成分二、由相关矩阵求解主成分 当分析中所选择的经济变量具有不同的量纲,变量水平差当分析中所选择的经济变量具有不同的量纲,变量水平差异很大,应该选择基于相关系数矩阵的主成分分析。异很大,应该选择基于相关系数矩阵的主成分分析。量纲对于主成分分析的影响及消除方法对数据进行标准化处理,以使每一个变量的均值为均值为0 0,方差为,方差为1 1。第31页,共58页,编辑于2022年,星期六数据标准化后数据标准化后,总体的协方差矩阵与总体的相关系数相等.主成分与原始变量的关系式为:第32页,共58页,编辑于2022年,星期六例:企业经济效益综合分析。用5个经济指标进行考核。用相关系数矩阵法求解主成分。其中计算出的相关系数矩阵为:第33页,共58页,编辑于2022年,星期六(1 1)计算其特征值:)计算其特征值:(2)2)各特征值的累计方差贡献率为:各特征值的累计方差贡献率为:(3 3)从以上方差贡献率看,)从以上方差贡献率看,k=2k=2时主成分个数较为合适。时主成分个数较为合适。对应的特征向量为:对应的特征向量为:第34页,共58页,编辑于2022年,星期六(4 4)建立第一和第二主成分:)建立第一和第二主成分:第35页,共58页,编辑于2022年,星期六p从相关系数矩阵出发求解主成分的步骤:从相关系数矩阵出发求解主成分的步骤:1 1、标准化各观测变量数据。、标准化各观测变量数据。2 2、求解标准化各观测变量的相关系数矩阵。、求解标准化各观测变量的相关系数矩阵。3 3、求解相关系数矩阵的特征根。、求解相关系数矩阵的特征根。4 4、求解各特征根对应的特征向量。、求解各特征根对应的特征向量。第36页,共58页,编辑于2022年,星期六 三、主成分性质三、主成分性质 1 1,主成分的协方差阵为对角阵,主成分的协方差阵为对角阵 2 2、P P个随机变量的总方差为个随机变量的总方差为协方差矩阵的所有特征根之和所有特征根之和 说明主成分分析把P个随机变量的总方差分解成为P个不相关的随机变量的方差之和。当进行相关系数矩阵求解主成分,各变量标准化后,则p个主成分总的方差之和等于p。第37页,共58页,编辑于2022年,星期六 3 3、贡献率:、贡献率:第i个主成分的方差在全部方差中所占比重 ,称为贡献率,反映了原来P个指标多大的信息,有多大的综合能力。4 4、累积贡献率:、累积贡献率:前k个主成分共有多大的综合能力,用这k个主成分的方差和在全部方差中所占比重 来描述,称为累积贡献率。第38页,共58页,编辑于2022年,星期六 5.5.原始变量与主成分之间的相关系数(因子负荷量)原始变量与主成分之间的相关系数(因子负荷量)和 的相关密切程度与对应线性组合系数向量成正比,与主成分标准差成正比,与原始变量的标准差成反比。当原始变量标准化后,标准化变量与主成分的相关关系:第39页,共58页,编辑于2022年,星期六第40页,共58页,编辑于2022年,星期六样本主成分求解样本主成分求解变量X样本协方差为总体协方差的无偏估计相关矩阵R为总体相关矩阵的估计第41页,共58页,编辑于2022年,星期六若X已标准化,则可用相关矩阵代替协方差矩阵第42页,共58页,编辑于2022年,星期六第43页,共58页,编辑于2022年,星期六为相关矩阵的为相关矩阵的特征值特征值第44页,共58页,编辑于2022年,星期六将将R R的特征根依大小顺序排列的特征根依大小顺序排列其对应的特征向量记为其对应的特征向量记为U U1 1,U U2 2,U,Up p说明说明y1y1有最大方差,有最大方差,y2y2有次大方差。有次大方差。第45页,共58页,编辑于2022年,星期六说明新的综合指标即主成分彼此说明新的综合指标即主成分彼此不相关不相关第46页,共58页,编辑于2022年,星期六样本主成分的性质:样本主成分的性质:1、第K个主成分yk的系数向量是第K个特征根k所对应的标准化特征向量。2、第K个主成分的方差为第K个特征根k,且任意两个主成分都是不相关的,也就是y1,y2,yp的样本协方差矩阵是对角矩阵3、样本主成分的总方差等于原变量样本的总方差,为p4、第K个样本主成分与第j个变量样本之间的相关系数为:(因子载荷量)第47页,共58页,编辑于2022年,星期六主成分个数的确定以及主成分分析的实现主成分个数的确定以及主成分分析的实现一、主成分个数的选取一、主成分个数的选取 1.累积贡献率达到85%以上 2.根据特征根的变化来确定数据标准化情况下:3.作碎石图描述特征值的贡献描述特征值的贡献第48页,共58页,编辑于2022年,星期六p三、主成分分析的步骤三、主成分分析的步骤1 1、根据研究问题选取初始分析变量;、根据研究问题选取初始分析变量;2 2、根据初始变量特性判断用协方差矩阵求主成分还是用相关矩阵求主成分;(量纲、根据初始变量特性判断用协方差矩阵求主成分还是用相关矩阵求主成分;(量纲不一致则将原始数据进行标准化处理用相关矩阵求主成分)不一致则将原始数据进行标准化处理用相关矩阵求主成分)3 3、求协方差矩阵或相关矩阵的特征根与相应的特征向量;、求协方差矩阵或相关矩阵的特征根与相应的特征向量;4 4、判断是否存在明显的多重共线性,若存在,返回至第、判断是否存在明显的多重共线性,若存在,返回至第1 1步;步;5 5、得到主成分表达式并确定主成分个数,依据方差贡献率选取主成分;、得到主成分表达式并确定主成分个数,依据方差贡献率选取主成分;6 6、对主成分作出合理解释,并结合其他研究法对研究问题进行深入分析、对主成分作出合理解释,并结合其他研究法对研究问题进行深入分析。第49页,共58页,编辑于2022年,星期六p三、三、SPSSSPSS操作:操作:1、analyze-description statistic-description-save standardized as variables(若需要数据标准化,则进行该操作)2、analyze-data reduction-factor 3、指定参与分析的变量 4、运行factor 过程第50页,共58页,编辑于2022年,星期六第51页,共58页,编辑于2022年,星期六第52页,共58页,编辑于2022年,星期六第53页,共58页,编辑于2022年,星期六第54页,共58页,编辑于2022年,星期六第55页,共58页,编辑于2022年,星期六第56页,共58页,编辑于2022年,星期六第57页,共58页,编辑于2022年,星期六第58页,共58页,编辑于2022年,星期六