主成分分析和因子分析课件.pptx
《主成分分析和因子分析课件.pptx》由会员分享,可在线阅读,更多相关《主成分分析和因子分析课件.pptx(63页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、第 11 章 主成分分析和因子分析11.111.1 主成分分析主成分分析11.2 11.2 因子分析因子分析 第1页/共63页2008年8月学习目标l主成分分析和因子分析的基本原理 l主成分分析和因子分析的异同l主成分分析和因子分析的数学模型l用SPSS进行主成分分析和因子分析l用主成分分析和因子分析对实际问题进行综合评价第2页/共63页2008年8月n n在在研研究究实实际际问问题题时时,往往往往需需要要收收集集多多个个变变量量。但但这这样样会会使使多多个个变变量量间间存存在在较较强强的的相相关关关关系系,即即这这些些变变量量间间存存在在较较多多的的信信息息重重复复,直直接接利利用用它它们们
2、进进行行分分析析,不不但但模模型型复复杂杂,还还会会因因为为变变量量间间存存在在多多重重共共线线性性而而引引起起较较大的误差大的误差n n为为能能够够充充分分利利用用数数据据,通通常常希希望望用用较较少少的的新新变变量量代代替替原原来来较较多多的的旧旧变变量量,同同时时要要求求这这些些新新变变量量尽尽可可能能反反映映原变量的信息原变量的信息n n主主成成分分分分析析和和因因子子分分子子正正式式解解决决这这类类问问题题的的有有效效方方法法。它它们们能能够够提提取取信信息息,使使变变量量简简化化降降维维,从从而而使使问问题题更更加简单直观加简单直观主成分分析和因子分析(Principal Comp
3、onent Analysis&Factor Analysis)第3页/共63页2008年8月因子分析得到的是什么?因子分析方法在部分领域应用的一些例子l心理学:心理学家瑟斯登对56项测验的得分进行因子分析,得出了7中主要智利因子:词语理解能力,语言流畅能力、计数能力、空间能力、记忆力、知觉速度和推理能力l教育学:某师范大学在对以幼儿园36岁幼儿为对象,通过80名幼儿教师对480名幼儿好奇心行为特征描述的开放式问卷调查,编制出60个项目的初始问卷,对500名幼儿的初测结果进行探索性因子分析后,形成了33个项目的正式问卷,对1000名幼儿的评价结果进行验证性因子分析,结果表明:教师评价的36岁幼儿
4、好奇心结构包括敏感、对未知事物的关注、好问、喜欢摆弄、探索持久和好奇体验6个因子第4页/共63页2008年8月因子分析得到的是什么?l医学:一位研究者对山东某县20002002年3年的全死因调查资料中不同地区各恶性肿瘤标化死亡率进行因子分析后发现,该县居民恶性肿瘤的发病和死亡具有明显的地区分布。在地区分布中,各种恶性肿瘤的死亡具有一定程度的聚集性。经因子分析得到的4个主因子可以解释10种恶性肿瘤死亡率的74.54;10种恶性肿瘤中,被解释的比例最小也在62以上;而胃癌、白血病、膀胱癌、乳腺癌、结肠癌死亡率被解释的比例均在77以上,表明这10种恶性肿瘤之间存在中等偏强的内在联系和地区分布特点第5
5、页/共63页2008年8月因子分析得到的是什么?l地质学:海南岛的石绿铁矿及外围地区有透辉石透闪岩石和阳起石两种岩石。地质工作者对两种岩石标本的11种化验数据进行了因子分析,分别得到5种和4种主要因子。结果表明,透辉石透闪岩石与阳起石有明显区别,前者的元素组合属碳酸盐沉积型,后者属岩浆分异型。透辉石透闪岩石中铁的沉积与泥质成分有关,属于正常沉积。由此推断石绿铁矿的主要成矿为沉积作用,并据此提出了找矿标志和找矿方向l上市公司评价:某研究者选择35家能源类上市公司,根据2007年的12项经营指标数据,采用因子分析法分别按盈利能力、资产管理能力、偿债能力及经营业绩综合评分等方面对35家上市公司进行了
6、排名。其中:盈利能力排在前5位的是:神火股份、海油工程、兰花科创、潞安环能和中国石油;经营业绩综合得分排在前5位的是:神火股份、潞安环能、兰花科创、海油工程和开滦股份第6页/共63页11.1 主成分分析 11.1.1 主成分分析的基本原理 11.1.2 主成分分析的数学模型 11.1.3 主成分分析的步骤第 11 章 主成分分析和因子分析第7页/共63页11.1.1 主成分分析的基本原理11.1 主成分分析第8页/共63页2008年8月n主成分的概念由主成分的概念由Karl PearsonKarl Pearson在在19011901年提出年提出n考察多个变量间相关性一种多元统计方法考察多个变量
7、间相关性一种多元统计方法n研研 究究 如如 何何 通通 过过 少少 数数 几几 个个 主主 成成 分分(principal(principal component)component)来来解解释释多多个个变变量量间间的的内内部部结结构构。即即从从原原始始变变量量中中导导出出少少数数几几个个主主分分量量,使使它它们们尽尽可可能能多地保留原始变量的信息,且彼此间互不相关多地保留原始变量的信息,且彼此间互不相关n主成分分析的目的:数据的压缩;数据的解释主成分分析的目的:数据的压缩;数据的解释l l常常被被用用来来寻寻找找判判断断事事物物或或现现象象的的综综合合指指标标,并并对对综综合指标所包含的信息
8、进行适当的解释合指标所包含的信息进行适当的解释什么是主成分分析?(principal component analysis)第9页/共63页2008年8月n n对对这这两两个个相相关关变变量量所所携携带带的的信信息息(在在统统计计上上信信息息往往往往是是指数据的变异指数据的变异)进行浓缩处理进行浓缩处理n n假假定定只只有有两两个个变变量量x x1 1和和x x2 2,从从散散点点图图可可见见两两个个变变量量存存在相关关系,这意味着两个变量提供的信息有重叠在相关关系,这意味着两个变量提供的信息有重叠主成分分析的基本思想(以两个变量为例)n n如如果果把把两两个个变变量量用用一一个个变变量量来来
9、表表示示,同同时时这这一一个个新新的的变变量量又又尽尽可可能能包包含含原原来来的的两两个个变变量量的的信信息息,这这就就是是降降维维的的过程过程第10页/共63页2008年8月n n椭椭圆圆中中有有一一个个长长轴轴和和一一个个短短轴轴,称称为为主主轴轴。在在长长轴轴方方向向,数数据据的变化明显较大,而短轴方向变化则较小的变化明显较大,而短轴方向变化则较小n n如如果果沿沿着着长长轴轴方方向向设设定定一一个个新新的的坐坐标标系系,则则新新产产生生的的两两个个变变量量和和原原始始变变量量间间存存在在一一定定的的数数学学换换算算关关系系,同同时时这这两两个个新新变变量量之之间彼此不相关,而且长轴变量
10、携带了大部分的数据变化信息,间彼此不相关,而且长轴变量携带了大部分的数据变化信息,而而主成分分析的基本思想(以两个变量为例)短短轴轴变变量量只只携携带带了了一一小小部分变化的信息部分变化的信息(变异变异)n n此此时时,只只需需要要用用长长轴轴方方向向的的变变量量就就可可以以代代表表原原来来两两个个变变量量的的信信息息。这这样样也也就就把把原原来来的的两两个个变变量量降降维维成成了了一一个个变变量量。长长短短轴轴相相差差越越大大,降降维维也就越合理也就越合理第11页/共63页2008年8月n n多多维维变变量量的的情情形形类类似似,只只不不过过是是一一个个高高维维椭椭球球,无无法法直观地观察直
11、观地观察n n每每个个变变量量都都有有一一个个坐坐标标轴轴,所所以以有有几几个个变变量量就就有有几几主主轴轴。首首先先把把椭椭球球的的各各个个主主轴轴都都找找出出来来,再再用用代代表表大大多多数数数数据据信信息息的的最最长长的的几几个个轴轴作作为为新新变变量量,这这样样,降降维维过程也就完成了过程也就完成了主成分分析的基本思想(以两个变量为例)n n找找出出的的这这些些新新变变量量是是原原来来变变量量的的线线性性组合,叫做主成分组合,叫做主成分第12页/共63页11.1.2 主成分分析的数学模型11.1 主成分分析第13页/共63页2008年8月n n数数学学上上的的处处理理是是将将原原始始的
12、的p p个个变变量量作作线线性性组组合合,作作为为新新的的变量变量n n设设p p个个原原始始变变量量为为 ,新新的的变变量量(即即主主成成分分)为为 ,主成分和原始变量之间的关系表示为,主成分和原始变量之间的关系表示为主成分分析的数学模型主成分分析的数学模型aij为第i个主成分yi和原来的第j个变量xj之间的线性相关系数,称为载荷(loading)。比如,a11表示第1主成分和原来的第1个变量之间的相关系数,a21表示第2主成分和原来的第1个变量之间的相关系数第14页/共63页2008年8月n选择几个主成分?选择几个主成分?选择标准是什么?选择标准是什么?n被被选选的的主主成成分分所所代代表
13、表的的主主轴轴的的长长度度之之和和占占了了主主轴轴总程度之和的大部分总程度之和的大部分n在在统统计计上上,主主成成分分所所代代表表的的原原始始变变量量的的信信息息用用其其方方差差来来表表示示。因因此此,所所选选择择的的第第一一个个主主成成分分是是所所有主成分中的方差最大者,即有主成分中的方差最大者,即Var(yVar(yi i)最大最大n如如果果第第一一个个主主成成分分不不足足以以代代表表原原来来的的个个变变量量,在在考虑选择第二个主成分,依次类推考虑选择第二个主成分,依次类推n这些主成分互不相关,且方差递减这些主成分互不相关,且方差递减主成分的选择第15页/共63页2008年8月n究竟选择几
14、个主成分才合适呢?究竟选择几个主成分才合适呢?n一一般般要要求求所所选选主主成成分分的的方方差差总总和和占占全全部部方方差差的的80%80%以以上上就就可可以以了了。当当然然,这这只只是是一一个个大大体体标标准准,具体选择几个要看实际情况具体选择几个要看实际情况n如如果果原原来来的的变变量量之之间间的的相相关关程程度度高高,降降维维的的效效果果就就会会好好一一些些,所所选选的的主主成成分分就就会会少少一一些些,如如果果原原来来的的变变量量之之间间本本身身就就不不怎怎么么相相关关,降降维维的的效效果果自自然就不好然就不好n不相关的变量就只能自己代表自己了不相关的变量就只能自己代表自己了主成分的选
15、择第16页/共63页11.1.3 主成分分析的步骤11.1 主成分分析第17页/共63页2008年8月n对原来的p个指标进行标准化,以消除变量在水平和量纲上的影响n根据标准化后的数据矩阵求出相关系数矩阵n求出协方差矩阵的特征根和特征向量n确定主成分,并对各主成分所包含的信息给予适当的解释主成分分析的步骤第18页/共63页2008年8月【例】根据我国31个省市自治区2006年的6项主要经济指标数据,进行主成分分析,找出主成分并进行适当的解释主成分分析(实例分析)3131个地区的个地区的6 6项经济指标项经济指标第19页/共63页2008年8月第1步 选择【Analyze】下拉菜单,并选择【Dat
16、a Reduction-Factor】,进入主对话框第2步 在主对话框中将所有原始变量选入【Variables】第3步 点击【Descriptives】,在【correlation Matrix】下选择 【Coefficirnts】,点击【Continue】回到主对话框第4步 点击【Extraction】,在【Display】下选择【Scree Plot】,点击【Continue】回到主对话框第5步 点击【Rotation】,在【Display】下选择【Loading Plot】,点击【Continue】回到主对话框 点击【OK】用SPSS进行主成分分析 用用SPSSSPSS进行主成分分析进行
17、主成分分析第20页/共63页2008年8月SPSS的输出结果各变量之间的相关系数矩阵各变量之间的相关系数矩阵变量之间的存在较强的相关关系,适合作主成分分析 第21页/共63页2008年8月SPSS的输出结果(选择主成分)各主成分所解释的原始变量的方差各主成分所解释的原始变量的方差该表是选则主成分的主要依据第22页/共63页2008年8月n n“Initial EigenvaluesInitial Eigenvalues”(初始特征根初始特征根)l l实际上就是本例中的实际上就是本例中的6 6个主轴的长度个主轴的长度l l特特征征根根反反映映了了主主成成分分对对原原始始变变量量的的影影响响程程度
18、度,表表示示引引入入该主成分后可以解释原始变量的信息该主成分后可以解释原始变量的信息l l特特征征根根又又叫叫方方差差,某某个个特特征征根根占占总总特特征征根根的的比比例例称称为为主主成分方差贡献率成分方差贡献率l l设特征根为设特征根为,则第,则第i i个主成分的方差贡献率为个主成分的方差贡献率为l l比比如如,第第一一个个主主成成分分的的特特征征根根为为3.9633.963,占占总总特特征征根根的的的的比比例例(方方差差贡贡献献率率)为为66.052%66.052%,这这表表示示第第一一个个主主成成分分解解释释了了原原始始6 6个个变变量量66.052%66.052%的的信信息息,可可见见
19、第第一一个个主主成成分分对对原原来的来的6 6个变量解释的已经很充分了个变量解释的已经很充分了根据什么选择主成分?第23页/共63页2008年8月n n根据主成分贡献率根据主成分贡献率l l一一般般来来说说,主主成成分分的的累累计计方方差差贡贡献献率率达达到到80%80%以以上上的的前前几个主成分,都可以选作最后的主成分几个主成分,都可以选作最后的主成分l l比如表比如表13.313.3中前两个主成分的累计方差贡献率为中前两个主成分的累计方差贡献率为95.57%95.57%n n根据特特征根的大小根据特特征根的大小l l一一般般情情况况下下,当当特特征征根根小小于于1 1时时,就就不不再再选选
20、作作主主成成分分了了,因因为为该该主主成成分分的的解解释释力力度度还还不不如如直直接接用用原原始始变变量量解解的的释释力度大力度大l l比比如如表表13.313.3中中除除前前两两个个外外,其其他他主主成成分分的的特特征征根根都都小小于于1 1。所以。所以SPSSSPSS只选择了两个主成分只选择了两个主成分l l就就本本例例而而言言,两两个个主主成成分分就就足足以以说说明明各各地地区区的的经经济济发发展展状况了状况了根据什么选择主成分?第24页/共63页2008年8月nSPSS还提供了一个更为直观的图形工具来帮助选择主成分,即碎石图(Scree Plot)n从碎石图可以看到6个主轴长度变化的趋
21、势n实践中,通常结合具体情况,选择碎石图中变化趋势出现拐点的前几个主成分作为原先变量的代表,该例中选择前两个主成分即可根据什么选择主成分?(Scree Plot)拐点第25页/共63页2008年8月怎样解释主成分?主成分的因子载荷矩阵主成分的因子载荷矩阵 l表1中的每一列表示一个主成分作为原来变量线性组合的系数,也就是主成分分析模型中的系数aijl比如,第一主成分所在列的系数0.670表示第1个主成分和原来的第一个变量(人均GDP)之间的线性相关系数。这个系数越大,说明主成分对该变量的代表性就越大第26页/共63页2008年8月n根据主成分分析模型和因子载荷,可以得到两个主成分与原来6个变量之
22、间的线性组合表达式如下 怎样解释主成分?(主成分与原始变量的关系)注意:表达式中的不是原始变量,而是标准化变量第27页/共63页2008年8月n载荷图(Loading Plot)直观显示主成分对原始6变量的解释情况n图中横轴表示第一个主成分与原始变量间的相关系数;纵轴表示第二个主成分与原始变量之间的相关系数n每一个变量对应的主成分载荷就对应坐标系中的一个点,比如,人均GDP变量对应的点是(0.670,0.725)n第一个主成分很充分地解释了原始的6个变量(与每个原始变量都有较强的正相关关系),第二个主成分则较好地解释了居民消费水平、人均GDP和年末总人口这3个变量(与它们的相关关系较高),而与
23、其他变量的关系则较弱(相关系数的点靠近坐标轴)怎样解释主成分?(Loading Plot)相关系数的点越远离坐标轴,主成分对原始变量的代表性就越大。这3个点远离主成分2的坐标第28页/共63页11.2 因子分析 11.2.1 因子分析的意义和数学模型 11.2.2 因子分析的步骤 11.2.3 因子分析的应用第 11 章 主成分分析和因子分析第29页/共63页11.2.1 因子分析的意义和数学模型11.2 因子分析第30页/共63页2008年8月n n由由Charles SpearmanCharles Spearman于于19041904年首次提出的年首次提出的n n与与主主成成分分分分析析类
24、类似似,它它们们都都是是要要找找出出少少数数几几个个新新的的变量来代替原始变量变量来代替原始变量n n不不同同之之处处:主主成成分分分分析析中中的的主主成成分分个个数数与与原原始始变变量量个个数数是是一一样样的的,即即有有几几个个变变量量就就有有几几个个主主成成分分,只只不不过过最最后后我我们们确确定定了了少少数数几几个个主主成成分分而而已已。而而因因子子分分析析则则需需要要事事先先确确定定要要找找几几个个成成分分,也也称称为为因因子子(factor)(factor),然然后后将将原原始始变变量量综综合合为为少少数数的的几几个个因因子子,以以再再现现原原始始变变量量与与因因子子之之间间的的关关
25、系系,一一般般来来说说,因因子的个数会远远少于原始变量的个数子的个数会远远少于原始变量的个数什么是因子分析?(factor analysis)第31页/共63页2008年8月n n因因子子分分析析可可以以看看作作是是主主成成分分分分析析的的推推广广和和扩扩展展,但但它它对对问问题题的的研研究究更更深深入入、更更细细致致一一些些。实实际际上上,主主成分分析可以看作是因子分析的一个特例成分分析可以看作是因子分析的一个特例n n简简言言之之,因因子子分分析析是是通通过过对对变变量量之之间间关关系系的的研研究究,找找出出能能综综合合原原始始变变量量的的少少数数几几个个因因子子,使使得得少少数数因因子子
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 成分 分析 因子分析 课件
限制150内