数学建模因子分析.ppt
《数学建模因子分析.ppt》由会员分享,可在线阅读,更多相关《数学建模因子分析.ppt(68页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、第十四讲第十四讲 因子分析因子分析n第一部分第一部分 主成分分析主成分分析n第二部分第二部分 因子分析因子分析第一部分第一部分 主成分分析主成分分析1、主成分分析的基本原理主成分分析的基本原理2、主成分分析的数学模型主成分分析的数学模型3、主成分分析的步骤主成分分析的步骤主成分分析的基本原理主成分分析的基本原理 主成分的概念由主成分的概念由Karl Pearson在在1901年提出的。年提出的。他是考察多个变量间相关性一种多元统计方法他是考察多个变量间相关性一种多元统计方法 研研究究如如何何通通过过少少数数几几个个主主成成分分(principal component)来来解解释释多多个个变变量
2、量间间的的内内部部结结构构。即即从从原原始始变变量量中中导导出出少少数数几几个个主主分分量量,使使它它们们尽尽可可能能多多地地保留原始变量的信息,且彼此间互不相关。保留原始变量的信息,且彼此间互不相关。主成分分析的目的:数据的压缩;数据的解释主成分分析的目的:数据的压缩;数据的解释l常常被被用用来来寻寻找找判判断断事事物物或或现现象象的的综综合合指指标标,并并对对综综合合指指标所包含的信息进行适当的解释标所包含的信息进行适当的解释什么是主成分分析?什么是主成分分析?(principal component analysis)n对对这这两两个个相相关关变变量量所所携携带带的的信信息息(在在统统计
3、计上上信信息息往往往往是是指数据的变异指数据的变异)进行浓缩处理进行浓缩处理n假假定定只只有有两两个个变变量量x1和和x2,从从散散点点图图可可见见两两个个变变量量存存在相关关系,这意味着两个变量提供的信息有重叠在相关关系,这意味着两个变量提供的信息有重叠主成分分析的基本思想主成分分析的基本思想 (以两个变量为例以两个变量为例)n如如果果把把两两个个变变量量用用一一个个变变量量来来表表示示,同同时时这这一一个个新新的的变变量量又又尽尽可可能能包包含含原原来来的的两两个个变变量量的的信信息息,这这就就是是降降维维的的过程过程n椭椭圆圆中中有有一一个个长长轴轴和和一一个个短短轴轴,称称为为主主轴轴
4、。在在长长轴轴方方向向,数数据据的变化明显较大,而短轴方向变化则较小的变化明显较大,而短轴方向变化则较小 如如果果沿沿着着长长轴轴方方向向设设定定一一个个新新的的坐坐标标系系,则则新新产产生生的的两两个个变变量量和和原原始始变变量量间间存存在在一一定定的的数数学学换换算算关关系系,同同时时这这两两个个新新变变量量之之间彼此不相关,而且长轴变量携带了大部分的数据变化信息,间彼此不相关,而且长轴变量携带了大部分的数据变化信息,主成分分析的基本思想主成分分析的基本思想 (以两个变量为例以两个变量为例)短短轴轴变变量量只只携携带带了了一一小小部分变化的信息部分变化的信息(变异变异)此此时时,只只需需要
5、要用用长长轴轴方方向向的的变变量量就就可可以以代代表表原原来来两两个个变变量量的的信信息息。这这样样也也就就把把原原来来的的两两个个变变量量降降维维成成了了一一个个变变量量。长长短短轴轴相相差差越越大大,降降维维也就越合理也就越合理n多多维维变变量量的的情情形形类类似似,只只不不过过是是一一个个高高维维椭椭球球,无无法法直观地观察直观地观察n每每个个变变量量都都有有一一个个坐坐标标轴轴,所所以以有有几几个个变变量量就就有有几几主主轴轴。首首先先把把椭椭球球的的各各个个主主轴轴都都找找出出来来,再再用用代代表表大大多多数数数数据据信信息息的的最最长长的的几几个个轴轴作作为为新新变变量量,这这样样
6、,降降维维过程也就完成了过程也就完成了主成分分析的基本思想主成分分析的基本思想 (以两个变量为例以两个变量为例)n找找出出的的这这些些新新变变量量是是原原来来变变量量的的线线性性组合,叫做主成分组合,叫做主成分主成分分析的数学模型主成分分析的数学模型n数数学学上上的的处处理理是是将将原原始始的的p个个变变量量作作线线性性组组合合,作作为为新新的的变量变量n设设p个原始变量为个原始变量为 ,新的变量,新的变量(即主成分即主成分)为为 ,主成分和原始变量之间的关系表示为,主成分和原始变量之间的关系表示为主成分分析的数学模型主成分分析的数学模型主成分分析的数学模型aij为为第第i个个主主成成分分yi
7、和和原原来来的的第第j个个变变量量xj之之间间的的线线性性相相关关系系数数,称称为为载载荷荷(loading)。比比 如如,a11表表示示第第1主主成成分分和和原原来来的的第第1个个变变量量之之间间的的相相关关系系数数,a21表表示示第第2主主成成分分和和原原来来的的第第1个个变变量量之间的相关系数之间的相关系数pxxx,21pyyy,.21n选择几个主成分?选择几个主成分?选择标准是什么?选择标准是什么?n被被选选的的主主成成分分所所代代表表的的主主轴轴的的长长度度之之和和占占了了主主轴轴总程度之和的大部分总程度之和的大部分n在在统统计计上上,主主成成分分所所代代表表的的原原始始变变量量的的
8、信信息息用用其其方方差差来来表表示示。因因此此,所所选选择择的的第第一一个个主主成成分分是是所所有主成分中的方差最大者,即有主成分中的方差最大者,即Var(yi)最大最大n如如果果第第一一个个主主成成分分不不足足以以代代表表原原来来的的个个变变量量,在在考虑选择第二个主成分,依次类推考虑选择第二个主成分,依次类推n这些主成分互不相关,且方差递减这些主成分互不相关,且方差递减主成分的选择主成分的选择n究竟选择几个主成分才合适呢?究竟选择几个主成分才合适呢?n一一般般要要求求所所选选主主成成分分的的方方差差总总和和占占全全部部方方差差的的80%以以上上就就可可以以了了。当当然然,这这只只是是一一个
9、个大大体体标标准准,具体选择几个要看实际情况具体选择几个要看实际情况n如如果果原原来来的的变变量量之之间间的的相相关关程程度度高高,降降维维的的效效果果就就会会好好一一些些,所所选选的的主主成成分分就就会会少少一一些些,如如果果原原来来的的变变量量之之间间本本身身就就不不怎怎么么相相关关,降降维维的的效效果果自自然就不好然就不好n不相关的变量就只能自己代表自己了不相关的变量就只能自己代表自己了主成分的选择主成分的选择主成分分析的步骤主成分分析的步骤n对对原原来来的的p个个指指标标进进行行标标准准化化,以以消消除除变变量量在水平和量纲上的影响在水平和量纲上的影响n根根据据标标准准化化后后的的数数
10、据据矩矩阵阵求求出出相相关关系系数数矩矩阵阵n求出协方差矩阵的特征根和特征向量求出协方差矩阵的特征根和特征向量n确确定定主主成成分分,并并对对各各主主成成分分所所包包含含的的信信息息给予适当的解释给予适当的解释主成分分析的步骤主成分分析的步骤【例例】根根据据我我国国31个个省省市市自自治治区区2006年年的的6项项主主要要经经济济指指标标数数据据,进进行行主主成成分分分分析析,找找出出主主成成分分并进行适当的解释并进行适当的解释主成分分析主成分分析 (实例分析实例分析)用用SPSSSPSS进行主成分分析进行主成分分析第第1步步 选择【选择【Analyze】下拉菜单,并选择【】下拉菜单,并选择【
11、Data Reduction-Factor】,进入主对话框】,进入主对话框第第2步步 在主对话框中将所有原始变量选入【在主对话框中将所有原始变量选入【Variables】第第3步步 点击【点击【Descriptives】,在【】,在【correlation Matrix】下选择【】下选择【Coefficirnts】,点击【】,点击【Continue】回到主对话框回到主对话框第第4步步 点击【点击【Extraction】,在【】,在【Display】下选择【】下选择【Scree Plot】,点击【】,点击【Continue】回到主对话框】回到主对话框第第5步步 点击【点击【Rotation】,在
12、【】,在【Display】下选择【】下选择【Loading Plot】,点击【】,点击【Continue】回到主对话框】回到主对话框 点击【点击【OK】单变量描述统计分析。单变量描述统计分析。输出单变量的基本统输出单变量的基本统计量,包括每个变量计量,包括每个变量的均值、标准差及其的均值、标准差及其有效例数有效例数初始解。默认选项。初始解。默认选项。输出因子分析的初始输出因子分析的初始解,显示初始公共因解,显示初始公共因子方差、特征值及其子方差、特征值及其解释变量的百分比。解释变量的百分比。1、相关系数矩阵;、相关系数矩阵;2、显著性水平;、显著性水平;3、相关系数矩阵的行、相关系数矩阵的行列
13、值;列值;4、相关系数矩阵的逆、相关系数矩阵的逆矩阵;矩阵;5、再生相关系数矩阵。、再生相关系数矩阵。输出因子分析的估计量输出因子分析的估计量相关系数矩阵,并显示相关系数矩阵,并显示参差值,即原始相关系参差值,即原始相关系数矩阵与再生相关系数数矩阵与再生相关系数矩阵之间的差值;矩阵之间的差值;6、反映射相关系数矩、反映射相关系数矩阵。包括负片相关系数阵。包括负片相关系数矩阵。反映射相关系数矩阵。反映射相关系数矩阵的对角线可以显示矩阵的对角线可以显示变量的抽样适度测试值变量的抽样适度测试值KMO和球形和球形Bartlett检验。检验。分析矩阵选项:分析矩阵选项:1、相关系数、相关系数矩阵。用于指
14、矩阵。用于指定利用分析变定利用分析变量相关矩阵为量相关矩阵为提取因子的依提取因子的依据,当参与分据,当参与分析的变量测度析的变量测度单位不同时,单位不同时,选择该选项选择该选项分析矩阵选项:分析矩阵选项:2、协方差矩、协方差矩阵。指定利用阵。指定利用分析变量的协分析变量的协方差矩阵为提方差矩阵为提取因子的依据。取因子的依据。选择和因子提选择和因子提取方法有关的取方法有关的输出选项:输出选项:1、非旋转因、非旋转因子解。要求显子解。要求显示未经旋转的示未经旋转的因子载荷、公因子载荷、公共因子方差和共因子方差和特征值;特征值;选择和因子提选择和因子提取方法有关的取方法有关的输出选项:输出选项:2、
15、碎石图。每、碎石图。每个因子的方差个因子的方差图,该图利用图,该图利用特征值为两个特征值为两个坐标轴。碎石坐标轴。碎石图可以决定保图可以决定保留因子的数量留因子的数量提取因子的准提取因子的准则:则:1、特征值:该、特征值:该选项指定因子选项指定因子的特征值;的特征值;2、指定提取公、指定提取公因子的数目。因子的数目。收敛的最大迭代次数收敛的最大迭代次数因子旋转方式:因子旋转方式:1、不进行旋转;、不进行旋转;2、方差最大正交旋转、方差最大正交旋转法;法;3、直接斜交旋转方法;、直接斜交旋转方法;4、四分位最大正交旋、四分位最大正交旋转法;转法;5、等量正交旋转法;、等量正交旋转法;6、斜交旋转
16、法、斜交旋转法输出与因子旋转相关输出与因子旋转相关的信息:的信息:1、旋转解;、旋转解;2、因子载荷散点图。、因子载荷散点图。SPSSSPSS的输出结果的输出结果各变量之间的相关系数矩阵各变量之间的相关系数矩阵变量之间的存在较强的相关关系,适合作主成分分析变量之间的存在较强的相关关系,适合作主成分分析 SPSSSPSS的输出结果的输出结果(选择主成分选择主成分)表表3 各主成分所解释的原始变量的方差各主成分所解释的原始变量的方差该表是选则主成分的主要依据该表是选则主成分的主要依据n“Initial Eigenvalues”(初始特征根初始特征根)l实际上就是本例中的实际上就是本例中的6个主轴的
17、长度个主轴的长度l特特征征根根反反映映了了主主成成分分对对原原始始变变量量的的影影响响程程度度,表表示示引引入入该主成分后可以解释原始变量的信息该主成分后可以解释原始变量的信息l特特征征根根又又叫叫方方差差,某某个个特特征征根根占占总总特特征征根根的的比比例例称称为为主主成分方差贡献率成分方差贡献率l设特征根为设特征根为,则第,则第i个主成分的方差贡献率为个主成分的方差贡献率为l比比如如,第第一一个个主主成成分分的的特特征征根根为为3.963,占占总总特特征征根根的的的的比比例例(方方差差贡贡献献率率)为为66.052%,这这表表示示第第一一个个主主成成分分解解释释了了原原始始6个个变变量量6
18、6.052%的的信信息息,可可见见第第一一个个主主成成分分对对原原来的来的6个变量解释的已经很充分了个变量解释的已经很充分了根据什么选择主成分?根据什么选择主成分?=piii1lln根据主成分贡献率根据主成分贡献率l一一般般来来说说,主主成成分分的的累累计计方方差差贡贡献献率率达达到到80%以以上上的的前前几个主成分,都可以选作最后的主成分几个主成分,都可以选作最后的主成分l比如表比如表3中前两个主成分的累计方差贡献率为中前两个主成分的累计方差贡献率为95.57%n根据特特征根的大小根据特特征根的大小l一一般般情情况况下下,当当特特征征根根小小于于1时时,就就不不再再选选作作主主成成分分了了,
19、因因为为该该主主成成分分的的解解释释力力度度还还不不如如直直接接用用原原始始变变量量解解的的释释力度大力度大l比比如如表表3中中除除前前两两个个外外,其其他他主主成成分分的的特特征征根根都都小小于于1。所以所以SPSS只选择了两个主成分只选择了两个主成分l就就本本例例而而言言,两两个个主主成成分分就就足足以以说说明明各各地地区区的的经经济济发发展展状况了状况了根据什么选择主成分?根据什么选择主成分?nSPSS还还提提供供了了一一个个更更为为直直观观的的图图形形工工具具来来帮帮助助选选择择主主成成分分,即即碎碎石石图图(Scree Plot)n从从碎碎石石图图可可以以看看到到6个个主轴长度变化的
20、趋势主轴长度变化的趋势n实实践践中中,通通常常结结合合具具体体情情况况,选选择择碎碎石石图图中中变变化化趋趋势势出出现现拐拐点点的的前前几几个个主主成成分分作作为为原原先先变变量量的的代代表表,该该例例中中选选择择前前两个主成分即可两个主成分即可根据什么选择主成分?根据什么选择主成分?(Scree PlotScree Plot)拐点怎样解释主成分?怎样解释主成分?主成分的因子载荷矩阵主成分的因子载荷矩阵 l表表1中中的的每每一一列列表表示示一一个个主主成成分分作作为为原原来来变变量量线线性性组组合合的的系系数数,也也就就是是主成分分析模型中的系数主成分分析模型中的系数aijl比比如如,第第一一
21、主主成成分分所所在在列列的的系系数数0.670表表示示第第1个个主主成成分分和和原原来来的的第第一一个个变变量量(人人均均GDP)之之间间的的线线性性相相关关系系数数。这这个个系系数数越越大大,说说明明主主成成分分对对该该变量的代表性就越大变量的代表性就越大n根根据据主主成成分分分分析析模模型型和和因因子子载载荷荷,可可以以得得到到两两个个主主成成分分与与原原来来6个个变变量量之之间间的的线线性性组组合合表达式如下表达式如下 怎样解释主成分?怎样解释主成分?(主成分与原始变量的关系主成分与原始变量的关系)注意:表达式中的不是原始变量,而是标准化变量n载载荷荷图图(Loading Plot)直直
22、观观显显示示主成分对原始主成分对原始6变量的解释情况变量的解释情况n图图中中横横轴轴表表示示第第一一个个主主成成分分与与原原始始变变量量间间的的相相关关系系数数;纵纵轴轴表表示示第第二二个个主主成成分分与与原原始始变变量量之之间间的的相关系数相关系数n每每一一个个变变量量对对应应的的主主成成分分载载荷荷就就对对应应坐坐标标系系中中的的一一个个点点,比比如如,人人 均均 GDP变变 量量 对对 应应 的的 点点 是是(0.670,0.725)n第第一一个个主主成成分分很很充充分分地地解解释释了了原原始始的的6个个变变量量(与与每每个个原原始始变变量量都都有有较较强强的的正正相相关关关关系系),第
23、第二二个个主主成成分分则则较较好好地地解解释释了了居居民民消消费费水水平平、人人均均GDP和和年年末末总总人人口口这这3个个变变量量(与与它它们们的的相相关关关关系系较较高高),而而与与其其他他变变量量的的关关系系则则较较弱弱(相关系数的点靠近坐标轴相关系数的点靠近坐标轴)怎样解释主成分?怎样解释主成分?(Loading PlotLoading Plot)相关系数的点越远离坐标轴,主成分对原始变量的代表性就越大。这3个点远离主成分2的坐标第二部分第二部分 因子分析因子分析因子分析的意义和数学模型因子分析的意义和数学模型因子分析的步骤因子分析的步骤因子分析的应用因子分析的应用因子分析的意义和数学
24、模型因子分析的意义和数学模型n由由Charles Spearman于于1904年首次提出的年首次提出的n与与主主成成分分分分析析类类似似,它它们们都都是是要要找找出出少少数数几几个个新新的的变量来代替原始变量变量来代替原始变量n不不同同之之处处:主主成成分分分分析析中中的的主主成成分分个个数数与与原原始始变变量量个个数数是是一一样样的的,即即有有几几个个变变量量就就有有几几个个主主成成分分,只只不不过过最最后后我我们们确确定定了了少少数数几几个个主主成成分分而而已已。而而因因子子分分析析则则需需要要事事先先确确定定要要找找几几个个成成分分,也也称称为为因因子子(factor),然然后后将将原原
25、始始变变量量综综合合为为少少数数的的几几个个因因子子,以以再再现现原原始始变变量量与与因因子子之之间间的的关关系系,一一般般来来说说,因因子的个数会远远少于原始变量的个数子的个数会远远少于原始变量的个数什么是因子分析?什么是因子分析?(factor analysis)(factor analysis)n因因子子分分析析可可以以看看作作是是主主成成分分分分析析的的推推广广和和扩扩展展,但但它它对对问问题题的的研研究究更更深深入入、更更细细致致一一些些。实实际际上上,主主成分分析可以看作是因子分析的一个特例成分分析可以看作是因子分析的一个特例n简简言言之之,因因子子分分析析是是通通过过对对变变量量
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数学 建模 因子分析
限制150内