数学建模聚类分析因子分析实.pdf
《数学建模聚类分析因子分析实.pdf》由会员分享,可在线阅读,更多相关《数学建模聚类分析因子分析实.pdf(20页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、多元统计分析中的降维方法在四川省社会福利中的应用由于计算机的发展和日益广泛的使用,多元分析方法也很快地应用到社会学、农业、医学、经济学、地质、气象等各个领域。在国外,从自然科学到社会科学的许多方面,都已证实了多元分析方法是一种很有用的数据处理方法;在我国,多元分析对于农业、气象、国家标准和误差分析等许多方面的研究工作都取得了很大的成绩,引起了广泛的注意。在许多领域的研究中,为了全面系统地分析问题,对研究对象进行综合评价,我们常常需要考虑衡量问题的多个指标(即变量),由于变量之间可能存在着相关性,如果采用一元统计方法,把多个变量分开,一次分析一个变量,就会丢失大量的信息,研究结果也会偏差很大。因
2、此需要采用多元统计分析的方法,同时对所有变量的观测数据进行分析。多元统计分析就是一种同时研究多个变量之间的相互关系,经过对变量的综合处理,充分提取变量之间的信息,进行综合分析和评价的统计方法。多元统计分析法主要包括降维、分类、回归及其他统计思想。一多元统计分析方法中降维的方法1.概述多元统计分析方法是同时对多个变量的观察数据做综合处理和分析。在不损失有价值信息的情况下,简化观测数据或数据结构,尽可能简单地将被研究对象描述出来,使得对复杂现象的解释变得更容易些。同时,采用多元统计分析中的聚类分析或判别分析可以对变量或样品进行分类与分组。根据所测量的特征和分类规则将一些“类似的”对象或变量分组。多
3、元统计分析也可以研究变量间依赖性。即对变量间关系的本质进行研究。是否所有的变量都相互独立?还是一个变量或多个变量依赖于其他变量?它们又是怎样依赖的?通过观测变量数据的散点图,我们可以建立多元回归统计模型,确定出变量之间具体的依赖关系,进而可以根据某些变量的观测值预测另一个或另一些变量的值对事物现象的发展作预测。最后我们需要构造假设,并对所建立的以多元总体参数形式陈述的多种特殊统计假设进行检验。在多元统计分析方法中数据简化或结构简化,实质上就是数学中的降维方法。多元统计分析中的降维方法主要包括聚类分析、判别分析、主成分分析、因子分析、对应分析和典型相关分析等几种方法。其中主成分分析和因子分析是在
4、作综合评价方面应用最广泛、较为有效的方法。本文主要介绍这两种多元统计分析方法的应用。2 主成分分析2.1 主成分分析的基本思想在大部分实际问题中,需要考察的变量多,变量之间是有一定的相关性的,主成分分析就是以损失很少部分信息为代价,保留绝大部分信息的前提下,将原来众多具有一定线性相关性的p个指标压缩成少数几个互不相关的综合指标(主成分),并通过原来变量的少数几个的线性组合来给出各个主成分的具有实际背景和意义的解释。由于主成分分析浓缩了众多指标的信息,降低了指标的维度,从而简化指标的结构,深刻反映问题的内在规律。2.2 主成分分析的数学模型设对某一事物的研究涉及指标(变量):12,PXXX,这p
5、项指标构成p维的随机向量12,PXXXX,其均值和协方差矩阵分别是X,。对X进行线性变换,原来的变量12,PXXX的线性组合可以形成新的综合变量,用Y表示,满足:11111221221122221122ppppppppppYuXuXuXYuXuXuXYuXuXuX矩阵表示为:YU X,其中12,pYYYY,1112112pppppuuuUuuu,12,pXXXX由于不同的线性变换得到的综合变量Y的统计特性不同,为了达到较好的效果,我们希望iiYuX的方差尽可能大且新的综合变量iY之间相互独立。由以下原则来确定新的综合变量iY:(1)222121iiiiipu uuuu(1,2,)ip;(2)i
6、Y与jY相互独立,即无重复信息cov(,)0ijYY(;,1,2,)ij ijp;(3)1Y是12,PXXX的一切线性组合(系数满足上述方程组)中方差最大的,2Y是与1Y不相关的12,PXXX的一切线性组合中方差最大的,pY与121,pYYY都不相关的12,PXXX的一切线性组合中方差最大的。在实际应用时,通常挑选前几个方差比较大的主成分,虽然这样做会丢失一部分信息,但它使我们抓住了主要矛盾进行深入分析,并从原始数据中进一步提出了某些新的信息,因而在某些实际问题的研究中得益比较大,这种既减少了变量的个数又抓住了主要矛盾的做法有利于问题的分析和处理。2.3 总体主成分的导出及性质在实际求解主成分
7、时,常常是从原始变量的协方差矩阵或相关矩阵的结构出发,而从两个出发点求解出的主成分不同。2.3.1 从协方差矩阵出发求解主成分性质1:设矩阵AA,将A的特征值12,n依大小顺序排列,不妨设12n,12,p为矩阵A各特征值对应的标准正交特征向量,则对任意向量x有10m axxx Axx x,0m innxx Axx x性质2:设随机向量12(,)pXXXX的协方差矩阵为,12p为的特征值,12,p为矩阵各特征值对应的标准正交向量,则第i个主成分为:1122iiipipYXXX(1,2,)ip,此时var()iiiiY,cov(,)0ijiiY Y。由以上性质,我们把原始变量12(,)pXXXX的
8、协方差矩阵的非零特征值120p对应的标准化特征向量12,p分别作为系数向量,即11YX,22YX,,,ppYX分别为12(,)pXXXX的第一主成分、第二主成分,,,第p主成分的充要条件是:(1)Yu X,u uI,即u为p阶正交阵;(2)Y的分量12,pYYY之间相互独立;(3)Y的p个分量12,pYYY方差依次递减。于是随机向量12(,)pXXXX与随机向量12,pYYYY之间存在关系式:11111211121222222212ppppppppppuuuuXXuuuXXuYu XXuuuXXu由于在无论的各特征值是否存在相等的情况,对应的标准化特征向量12,p总是存在,所以总是可以找到对应
9、的各特征值的相互正交的特征向量。故将主成分的求解转换为求解原始变量12(,)pXXXX的协方差阵的特征值和特征向量。性质3:第k个主成分kY的方差贡献率为1kkpiia(1,2,)kp,反映主成分kY提取原始变量总信息的百分比。性质4:主成分12,kYYY的累积贡献率为11()kiipiik(kp),反映主成分12,kYYY解释原始变量信息的百分比。性质5:1122iiipipYr XrXrX,其中211pjijr,称jir为主成分iY在原始变量jX上的载荷。它度量了jX对iY的重要程度。性质6:第i个主成分iY与原始变量jX的相关系数(,)ijYX称为因子负荷量,表示主成分iY中包含原始变量
10、jX信息的百分比,它与载荷jir成正比。2.3.2 从相关矩阵出发求解主成分为了消除原始变量不同量纲与数量级的影响,对原始变量作标准化变换:令iiiiiXZ,1,2,ip,其中i,ii分别表示变量iX的期望和方差。令111222000000ppB则原始变量进行标准化变换为:112()()ZBX显然有1211112211221211cov()()()1ppppZBBR设求解出相关阵R的特征值与对应的标准正交特征向量,则求解出的主成分与原始变量的关系式为:112()()iiiYZBX,1,2,ip2.4 样本主成分的导出在实际研究工作中,总体协方差阵与相关阵R通常是未知的,于是需要通过样本数据来估
11、计。设有n个样品,每个样品有p个指标,这样共得到np个数据,原始资料矩阵为:111212122212ppnnnpxxxxxxXxxx记11()()1nkiikiikSxxxxn,11nikikxxn,ijppRr,ijijiijjsrs s,1,2,ip样本协方差矩阵S为总体协方差阵的无偏估计,样本相关阵R为总体相关阵的估计。若原始资料矩阵X是经过标准化处理的,则由矩阵X求得的协方差阵S就是相关矩阵R。所以根据相关阵R来求解主成分。根据总体主成分的定义,主成分12,pYYYY的协方差是:cov()cov()YuXuuu其中为对角矩阵12000000p假定资料矩阵X为已经作了标准化处理后的数据矩
12、阵,则可以由相关矩阵R代替协方差矩阵,则上式可表示为:uR uRuu即1112111121111211212222122221222212121200ppppppppppppppppppprrruuuuuurrruuuuuurrruuuuuu整理为齐次方程组为11111121211211122212211112121()0()0()0pppppppppprururur urururururu即111121212222120ppppppprrrrrrRIrrr即所求的 新的 综合变 量(主 成分)的方差i(1,2,)ip是特 征方程组0RI的p个根,为相关矩阵的特征值,相应的各个iju是其特征向
13、量的分量。特征值120p,其相应的特征向量记为12,p,则相对于iY的方差为var()var()iiiYX。且协方差为:cov(,)cov(,)0ijijYYXX由此可有新的综合变量(主成分)12,pYYY彼此不相关,并且iY的方差为i,则11YX,22YX,,,ppYX分别为12(,)pXXXX的第一主成分、第二主成分,,,第p主成分。主成分的方差贡献就等于R的相应特征值。利用样本数据求解主成分的过程就转化为求解相关阵R或协方差阵S的特征值和特征向量的过程。2.5 主成分分析的步骤2.5.1 将原始变量进行标准化处理iiiiiXZ;2.5.2 计算标准化指标的相关系数矩阵R2.5.3 求解相
14、关系数矩阵R的特征向量()ijppuu和特征值120p;2.5.4 计算各个主成分的方差贡献率k及累积贡献率()k;2.5.5 确定主成分的个数;通常根据实际问题的需要由累计贡献率()85%k的前k个成分来代替原来p个变量的信息,或选取所有特征值大于1的成分作为主成分,也可根据特征值的变化来确定,即根据 SPSS 输出的碎石图的转折点来决定选取主成分的个数。2.5.6 对确定出的主成分作出实际意义的解释;2.5.7 利用所确定出的主成分的方差贡献率计算综合评价值,从而对被评价对象进行排名和比较。综 合 得 分(各 主 成 分 得 分各 主 成 分 所 对 应 的 方 差 贡 献 率)3 因子分
15、析3.1 因子分析的基本思想因子分析是根据相关性大小把原始变量进行分组,使得同组内的变量之间相关性高,而不同组的变量之间的相关性低。每组变量代表一个基本结构(即公共因子),并用一个不可观测的综合变量来表示。对于所研究的某一具体问题,原始变量分解为两部分之和。一部分是少数几个不可观测的公共因子的线性函数,另一部分是与公共因子无关的特殊因子。3.2 因子分析的数学模型设有p个指标,则因子分析数学模型为:11111221221122221122ppppppppppXr Yr YrYXr YrYrYXrYrYrY其中,12,pXXX是已标准化的可观测的评价指标。12,kFFF出现在每个指标iX的表达式
16、中,称为公共因子,公共因子是不可观测的,其含义要根据具体问题来解释。i是各个对应指标iX所特有的因子,故称为特殊因子,它与公共因子之间彼此独立。ijr是指标iX在公共因子jF上的系数,称为因子载荷,因子载荷ijr的统计含义是指标iX在公共因子jF上的相关系数,表示iX与jF线性相关程度。用矩阵形式表示为:XAF其中12(,)pXXXX,12(,)kFFFF,12(,)p,111212122212mmpppmrrrrrrArrr,A称为因子载荷矩阵。其统计含义是:A中的第i行元素12,iiimrrr说明了指标iX依赖于各个公共因子的程度。A中第j列元素12,jjm jrrr说明了公共因子jF与各
17、个指标的联系程度。故常根据该列绝对值较大的因子载荷所对应的指标来解释这个公共因子的实际意义。A中的第i行元素12,iiimrrr的平方和221miijjhr称为指标iX的共同度。A中第j列元素12,jjm jrrr的平方和221pjijigr表示公共因子jF对原始指标所提供的方差贡献的总和,衡量各个公共因子的相对重要性。称211pjjijigrpp为公共因子jF的方差贡献率,j越大,公共因子jF越重要。3.3 因子分析的步骤3.3.1 将原始变量数据进行标准化处理iiiiiXZ;3.2.2 计算标准化指标的相关系数矩阵R;3.2.3 求解相关系数矩阵R的特征向量()ijppuu和特征值120p
18、;3.2.4 确定公共因子的个数,设为m个,即选择特征值1的个数m或根据累积方差贡献率85的准则所确定的个数m为公共因子个数;3.2.5 求解初始因子载荷矩阵()()ijppijjppAau;常用的方法有:主成分法、主轴因子法、极大似然法等。本文用主成分法寻找公因子的方法如下:设从相关矩阵出发求解主成分,设有p个变量,则可以找出p个主成分,将所得的p个主成分由大到小排列,记为12,pYYY,则主成分与原始变量之间有11111221221122221122ppppppppppYrXrXrXYrXrXrXYrXrXrX其中ijr是随机变量X的相关矩阵的特征值所对应的特征向量的分量,特征向量之间正交
19、,从X到Y的转换关系的可逆得到由Y到X的转换关系11111221221122221122ppppppppppXr Yr YrYXr YrYrYXrYrYrY只保留前m个主成分,而把后面的pm个主成分用特殊因子i代替,即1111122112211222221122mmmmppppmmpXr YrYrYXrYrYrYXrYrYrY为了把iY转化为合适的公因子,需要把主成分iY变为方差为 1的变量,故令iiiYF,ijjija则1111122112211222221122mmmmppppmmpXaFaFaFXaFaFaFXaFaFaF设样本相关系数矩阵R的特征值为120p,其相应的标准正交特征向量为
20、12,p,设mp,则因子载荷矩阵A的一个估计值为:1111221211222211221122?(,)mmmmmmpppmmuuuuuuAuuu共同度的估计为:22212?iiiimhaaa。3.2.6 建立因子模型1kjijjiijZa Fa,1,2,ip其中12,kFFF为公共因子,12(,)p为特殊因子。3.2.7 对公共因子进行重新命名,并解释公共因子的实际含义当初始因子载荷矩阵A难以对公共因子的实际意义作出解释时,先要对A作方差极大正交旋转,然后再根据旋转后所得的正交因子载荷矩阵作出解释,即根据指标的因子载荷绝对值的大小,值的正负符号来说明公共因子的意义。3.2.8 对初始因子载荷矩
21、阵进行旋转由于因子载荷矩阵不唯一,旋转变换可以是使初始因子载荷矩阵的每列或每行的元素的平方值趋于 0或1,从而使得因子载荷矩阵结构简化,关系明确。如果初始因子之间不相关,公共因子jF的解释能力能够用其因子载荷平方的方差来度量时,则可采用方差极大正交旋转法;如果初始因子之间相关,则需要进行斜交旋转,通过旋转后,得到比较理想的新的因子载荷矩阵1()ijpkAr。3.2.9 将公共因子变为变量的线性组合,得到因子得分函数11221kiijijiiippjFZZZZ,1,2,im系数11B A R,iF,jiZ均为标准化的原始变量和公共因子。因子得分函数的估计值为1111111?pmmppbbXFA
22、RXbbX其中1A为因子载荷矩阵,R为原始变量的相关矩阵,X为原始变量向量。3.2.10 求综合评价值,即总因子得分估计值为1?miiiZF其中1iimjj时第i个公共因子iF的归一化权重。即:(各 因 子 得 分各 因 子 所 对 应 的 方 差 贡 献 率)综 合 得 分 各 因 子 的 方 差 贡 献 率3.2.11 根据总因子得分估计值?Z就可以对每个被评价的对象进行排名,从而进行比较。4 主成分分析与因子分析的联系和区别4.1 区别4.1.1 侧重点不同;主成分分析是通过变量的线性变换,忽略方差较小的主成分,提取前面几个方差较大 的主成 分来 解释总 体大部 分的信 息;而 因子 分
23、析是 忽略特 殊因子12(,)p,而重视少数不可观测的公共因子12,kFFF所代表的总体信息。4.1.2 数学模型不同;主成分分析中的主成分是原始变量的线性组合:YU X,其中U为系数矩阵,即1piijjjYX(,1,2,)ijp其中ij是相关矩阵的特征值所对应的特征向量矩阵中的元素,jX表示原始变量的标准化数据;而因子分析中的共同因子是将原始变量分解成公共因子和特殊因子两部分,XA F,其中A为因子载荷矩阵,即:1miijjijXa F(1,2,)ip mp,m是公共因子的个数,p是原始变量的个数,ija是因子分析过程中的初始因子载荷矩阵中的元素,jF是第个公共因子,i是第个原始变量的特殊因
24、子。4.1.3 主成分的各系数ij是唯一确定的、正交的,不可以对系数矩阵进行任何的旋转,且系数大小并不代表原变量与主成分的相关程度;而因子模型的系数矩阵是不唯一的、可以进行旋转的,且该矩阵表明了原变量和公共因子的相关程度。4.1.4 因子旋转;主成分分析,可以通过可观测的原变量X直接求得主成分Y,并具有可逆性;因子分析中的载荷矩阵是不可逆的。只能通过可观测的原变量去估计不可观测的公共因子,即公共因子得分的估计值等于因子得分系数矩阵与原观测变量标准化后的矩阵相乘的结果。还有,主成分分析不可以像因子分析那样进行因子旋转处理。4.1.5 综合排名;主成分分析一般依据第一主成分的得分排名,若第一主成分
25、不能完全代替原始变量,则需要继续选择第二个主成分、第三个等等,主成分得分是将原始变量的标准化值,代入主成分表达式中计算得到;而因子分析中因子得分是将原始变量的标准化值,代入因子得分函数中计算得到。4.2 联系因子分析是主成分分析的扩展,两种方法的出发点都是变量的相关系数矩阵,都是在损失较少的信息的前提下,把多个存在较强相关性的变量综合成少数几个综合变量,这几个综合变量之间相互独立,能代表总体绝大多数的信息,从而进行深入研究总体的多元统计方法。由于上文提到主成分可表示为原观测变量的线性组合,其系数为原始变量相关矩阵的特征值所对应的特征向量,且这些特征向量正交,因此,从X到Y的转换关系是可逆的,便
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数学 建模 聚类分析 因子分析
限制150内