第11章 主成分分析和因子分析.ppt
《第11章 主成分分析和因子分析.ppt》由会员分享,可在线阅读,更多相关《第11章 主成分分析和因子分析.ppt(64页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、作者作者 贾俊平贾俊平统计学统计学统统 计计 学学(第三版第三版)200820082008年8月11-2统计学统计学STATISTICS(第三版第三版)模型选择是艺术,而不是科学。William Navidi统计名言统计名言2008年8月第第 11 章章 主成分分析和因子分析主成分分析和因子分析11.1 主成分分析主成分分析11.2 因子分析因子分析 2008年8月11-4统计学统计学STATISTICS(第三版第三版)学习目标学习目标l主成分分析和因子分析的基本原理主成分分析和因子分析的基本原理 l主成分分析和因子分析的异同主成分分析和因子分析的异同l主成分分析和因子分析的数学模型主成分分析
2、和因子分析的数学模型l用用SPSS进行主成分分析和因子分析进行主成分分析和因子分析l用用主主成成分分分分析析和和因因子子分分析析对对实实际际问问题题进进行行综合评价综合评价2008年8月11-5统计学统计学STATISTICS(第三版第三版)n n在在研研究究实实际际问问题题时时,往往往往需需要要收收集集多多个个变变量量。但但这这样样会会使使多多个个变变量量间间存存在在较较强强的的相相关关关关系系,即即这这些些变变量量间间存存在在较较多多的的信信息息重重复复,直直接接利利用用它它们们进进行行分分析析,不不但但模模型型复复杂杂,还还会会因因为为变变量量间间存存在在多多重重共共线线性性而而引引起起
3、较较大的误差大的误差n n为为能能够够充充分分利利用用数数据据,通通常常希希望望用用较较少少的的新新变变量量代代替替原原来来较较多多的的旧旧变变量量,同同时时要要求求这这些些新新变变量量尽尽可可能能反反映映原变量的信息原变量的信息n n主主成成分分分分析析和和因因子子分分子子正正式式解解决决这这类类问问题题的的有有效效方方法法。它它们们能能够够提提取取信信息息,使使变变量量简简化化降降维维,从从而而使使问问题题更更加简单直观加简单直观主成分分析和因子分析主成分分析和因子分析(Principal Component Analysis&Factor Analysis)(Principal Comp
4、onent Analysis&Factor Analysis)2008年8月11-6统计学统计学STATISTICS(第三版第三版)因子分析得到的是什么?因子分析得到的是什么?因子分析方法在部分领域应用的一些例子因子分析方法在部分领域应用的一些例子l l心心心心理理理理学学学学:心心理理学学家家瑟瑟斯斯登登对对5656项项测测验验的的得得分分进进行行因因子子分分析析,得得出出了了7 7中中主主要要智智利利因因子子:词词语语理理解解能能力力,语语言言流流畅畅能能力力、计计数数能能力力、空空间间能能力力、记记忆忆力力、知知觉觉速速度度和和推推理理能力能力l l教教教教育育育育学学学学:某某师师范范
5、大大学学在在对对以以幼幼儿儿园园3 36 6岁岁幼幼儿儿为为对对象象,通通过过8080名名幼幼儿儿教教师师对对480480名名幼幼儿儿好好奇奇心心行行为为特特征征描描述述的的开开放放式式问问卷卷调调查查,编编制制出出6060个个项项目目的的初初始始问问卷卷,对对500500名名幼幼儿儿的的初初测测结结果果进进行行探探索索性性因因子子分分析析后后,形形成成了了3333个个项项目目的的正正式式问问卷卷,对对10001000名名幼幼儿儿的的评评价价结结果果进进行行验验证证性性因因子子分分析析,结结果果表表明明:教教师师评评价价的的3 36 6岁岁幼幼儿儿好好奇奇心心结结构构包包括括敏敏感感、对对未未
6、知知事事物物的的关关注注、好好问问、喜喜欢欢摆摆弄弄、探探索索持持久和好奇体验久和好奇体验6 6个因子个因子2008年8月11-7统计学统计学STATISTICS(第三版第三版)因子分析得到的是什么?因子分析得到的是什么?l医医医医学学学学:一一位位研研究究者者对对山山东东某某县县2000200020022002年年3 3年年的的全全死死因因调调查查资资料料中中不不同同地地区区各各恶恶性性肿肿瘤瘤标标化化死死亡亡率率进进行行因因子子分分析析后后发发现现,该该县县居居民民恶恶性性肿肿瘤瘤的的发发病病和和死死亡亡具具有有明明显显的的地地区区分分布布。在在地地区区分分布布中中,各各种种恶恶性性肿肿瘤
7、瘤的的死死亡亡具具有有一一定定程程度度的的聚聚集集性性。经经因因子子分分析析得得到到的的4 4个个主主因因子子可可以以解解释释1010种种恶恶性性肿肿瘤瘤死死亡亡率率的的74.5474.54;1010种种恶恶性性肿肿瘤瘤中中,被被解解释释的的比比例例最最小小也也在在6262以以上上;而而胃胃癌癌、白白血血病病、膀膀胱胱癌癌、乳乳腺腺癌癌、结结肠肠癌癌死死亡亡率率被被解解释释的的比比例例均均在在7777以以上上,表表明明这这1010种种恶恶性性肿肿瘤瘤之之间间存存在在中中等等偏偏强的内在联系和地区分布特点强的内在联系和地区分布特点2008年8月11-8统计学统计学STATISTICS(第三版第三
8、版)因子分析得到的是什么?因子分析得到的是什么?l l地地地地质质质质学学学学:海海南南岛岛的的石石绿绿铁铁矿矿及及外外围围地地区区有有透透辉辉石石透透闪闪岩岩石石和和阳阳起起石石两两种种岩岩石石。地地质质工工作作者者对对两两种种岩岩石石标标本本的的1111种种化化验验数数据据进进行行了了因因子子分分析析,分分别别得得到到5 5种种和和4 4种种主主要要因因子子。结结果果表表明明,透透辉辉石石透透闪闪岩岩石石与与阳阳起起石石有有明明显显区区别别,前前者者的的元元素素组组合合属属碳碳酸酸盐盐沉沉积积型型,后后者者属属岩岩浆浆分分异异型型。透透辉辉石石透透闪闪岩岩石石中中铁铁的的沉沉积积与与泥泥质
9、质成成分分有有关关,属属于于正正常常沉沉积积。由由此此推推断断石石绿绿铁铁矿矿的的主主要要成成矿矿为为沉沉积作用,并据此提出了找矿标志和找矿方向积作用,并据此提出了找矿标志和找矿方向l l上上上上市市市市公公公公司司司司评评评评价价价价:某某研研究究者者选选择择3535家家能能源源类类上上市市公公司司,根根据据20072007年年的的1212项项经经营营指指标标数数据据,采采用用因因子子分分析析法法分分别别按按盈盈利利能能力力、资资产产管管理理能能力力、偿偿债债能能力力及及经经营营业业绩绩综综合合评评分分等等方方面面对对3535家家上上市市公公司司进进行行了了排排名名。其其中中:盈盈利利能能力
10、力排排在在前前5 5位位的的是是:神神火火股股份份、海海油油工工程程、兰兰花花科科创创、潞潞安安环环能能和和中中国国石石油油;经经营营业业绩绩综综合合得得分分排排在在前前5 5位位的的是是:神神火火股股份份、潞潞安安环环能能、兰兰花花科科创创、海油工程和开滦股份海油工程和开滦股份2008年8月11.1 主成分分析主成分分析 11.1.1 主成分分析的基本原理主成分分析的基本原理 11.1.2 主成分分析的数学模型主成分分析的数学模型 11.1.3 主成分分析的步骤主成分分析的步骤第第 11 章章 主成分分析和因子分析主成分分析和因子分析2008年8月11.1.1 主成分分析的基本原理主成分分析
11、的基本原理11.1 主成分分析主成分分析2008年8月11-11统计学统计学STATISTICS(第三版第三版)n主成分的概念由主成分的概念由Karl PearsonKarl Pearson在在19011901年提出年提出n考察多个变量间相关性一种多元统计方法考察多个变量间相关性一种多元统计方法n研研 究究 如如 何何 通通 过过 少少 数数 几几 个个 主主 成成 分分(principal(principal component)component)来来解解释释多多个个变变量量间间的的内内部部结结构构。即即从从原原始始变变量量中中导导出出少少数数几几个个主主分分量量,使使它它们们尽尽可可能能
12、多地保留原始变量的信息,且彼此间互不相关多地保留原始变量的信息,且彼此间互不相关n主成分分析的目的:数据的压缩;数据的解释主成分分析的目的:数据的压缩;数据的解释l l常常被被用用来来寻寻找找判判断断事事物物或或现现象象的的综综合合指指标标,并并对对综综合指标所包含的信息进行适当的解释合指标所包含的信息进行适当的解释什么是主成分分析?什么是主成分分析?(principal component analysis)2008年8月11-12统计学统计学STATISTICS(第三版第三版)n n对对这这两两个个相相关关变变量量所所携携带带的的信信息息(在在统统计计上上信信息息往往往往是是指数据的变异指
13、数据的变异)进行浓缩处理进行浓缩处理n n假假定定只只有有两两个个变变量量x x1 1和和x x2 2,从从散散点点图图可可见见两两个个变变量量存存在相关关系,这意味着两个变量提供的信息有重叠在相关关系,这意味着两个变量提供的信息有重叠主成分分析的基本思想主成分分析的基本思想(以两个变量为例以两个变量为例)n n如如果果把把两两个个变变量量用用一一个个变变量量来来表表示示,同同时时这这一一个个新新的的变变量量又又尽尽可可能能包包含含原原来来的的两两个个变变量量的的信信息息,这这就就是是降降维维的的过程过程2008年8月11-13统计学统计学STATISTICS(第三版第三版)n n椭椭圆圆中中
14、有有一一个个长长轴轴和和一一个个短短轴轴,称称为为主主轴轴。在在长长轴轴方方向向,数数据据的变化明显较大,而短轴方向变化则较小的变化明显较大,而短轴方向变化则较小n n如如果果沿沿着着长长轴轴方方向向设设定定一一个个新新的的坐坐标标系系,则则新新产产生生的的两两个个变变量量和和原原始始变变量量间间存存在在一一定定的的数数学学换换算算关关系系,同同时时这这两两个个新新变变量量之之间彼此不相关,而且长轴变量携带了大部分的数据变化信息,间彼此不相关,而且长轴变量携带了大部分的数据变化信息,而而主成分分析的基本思想主成分分析的基本思想(以两个变量为例以两个变量为例)短短轴轴变变量量只只携携带带了了一一
15、小小部分变化的信息部分变化的信息(变异变异)n n此此时时,只只需需要要用用长长轴轴方方向向的的变变量量就就可可以以代代表表原原来来两两个个变变量量的的信信息息。这这样样也也就就把把原原来来的的两两个个变变量量降降维维成成了了一一个个变变量量。长长短短轴轴相相差差越越大大,降降维维也就越合理也就越合理2008年8月11-14统计学统计学STATISTICS(第三版第三版)n n多多维维变变量量的的情情形形类类似似,只只不不过过是是一一个个高高维维椭椭球球,无无法法直观地观察直观地观察n n每每个个变变量量都都有有一一个个坐坐标标轴轴,所所以以有有几几个个变变量量就就有有几几主主轴轴。首首先先把
16、把椭椭球球的的各各个个主主轴轴都都找找出出来来,再再用用代代表表大大多多数数数数据据信信息息的的最最长长的的几几个个轴轴作作为为新新变变量量,这这样样,降降维维过程也就完成了过程也就完成了主成分分析的基本思想主成分分析的基本思想(以两个变量为例以两个变量为例)n n找找出出的的这这些些新新变变量量是是原原来来变变量量的的线线性性组合,叫做主成分组合,叫做主成分2008年8月11.1.2 主成分分析的数学模型主成分分析的数学模型11.1 主成分分析主成分分析2008年8月11-16统计学统计学STATISTICS(第三版第三版)n n数数学学上上的的处处理理是是将将原原始始的的p p个个变变量量
17、作作线线性性组组合合,作作为为新新的的变量变量n n设设p p个个原原始始变变量量为为 ,新新的的变变量量(即即主主成成分分)为为 ,主成分和原始变量之间的关系表示为,主成分和原始变量之间的关系表示为主成分分析的数学模型主成分分析的数学模型主成分分析的数学模型主成分分析的数学模型aij为为第第i个个主主成成分分yi和和原原来来的的第第j个个变变量量xj之之间间的的线线性性相相关关系系数数,称称为为载载荷荷(loading)。比比 如如,a11表表示示第第1主主成成分分和和原原来来的的第第1个个变变量量之之间间的的相相关关系系数数,a21表表示示第第2主主成成分分和和原原来来的的第第1个个变变量
18、量之之间的相关系数间的相关系数2008年8月11-17统计学统计学STATISTICS(第三版第三版)n选择几个主成分?选择几个主成分?选择标准是什么?选择标准是什么?n被被选选的的主主成成分分所所代代表表的的主主轴轴的的长长度度之之和和占占了了主主轴轴总程度之和的大部分总程度之和的大部分n在在统统计计上上,主主成成分分所所代代表表的的原原始始变变量量的的信信息息用用其其方方差差来来表表示示。因因此此,所所选选择择的的第第一一个个主主成成分分是是所所有主成分中的方差最大者,即有主成分中的方差最大者,即Var(yVar(yi i)最大最大n如如果果第第一一个个主主成成分分不不足足以以代代表表原原
19、来来的的个个变变量量,在在考虑选择第二个主成分,依次类推考虑选择第二个主成分,依次类推n这些主成分互不相关,且方差递减这些主成分互不相关,且方差递减主成分的选择主成分的选择2008年8月11-18统计学统计学STATISTICS(第三版第三版)n究竟选择几个主成分才合适呢?究竟选择几个主成分才合适呢?n一一般般要要求求所所选选主主成成分分的的方方差差总总和和占占全全部部方方差差的的80%80%以以上上就就可可以以了了。当当然然,这这只只是是一一个个大大体体标标准准,具体选择几个要看实际情况具体选择几个要看实际情况n如如果果原原来来的的变变量量之之间间的的相相关关程程度度高高,降降维维的的效效果
20、果就就会会好好一一些些,所所选选的的主主成成分分就就会会少少一一些些,如如果果原原来来的的变变量量之之间间本本身身就就不不怎怎么么相相关关,降降维维的的效效果果自自然就不好然就不好n不相关的变量就只能自己代表自己了不相关的变量就只能自己代表自己了主成分的选择主成分的选择2008年8月11.1.3 主成分分析的步骤主成分分析的步骤11.1 主成分分析主成分分析2008年8月11-20统计学统计学STATISTICS(第三版第三版)n对原来的p个指标进行标准化,以消除变量在水平和量纲上的影响n根据标准化后的数据矩阵求出相关系数矩阵n求出协方差矩阵的特征根和特征向量n确定主成分,并对各主成分所包含的
21、信息给予适当的解释主成分分析的步骤主成分分析的步骤2008年8月11-21统计学统计学STATISTICS(第三版第三版)【例例】根据我国31个省市自治区2006年的6项主要经济指标数据,进行主成分分析,找出主成分并进行适当的解释主成分分析主成分分析(实例分析实例分析)3131个地区的个地区的个地区的个地区的6 6项经济指标项经济指标项经济指标项经济指标2008年8月11-22统计学统计学STATISTICS(第三版第三版)第第1步步 选择【Analyze】下拉菜单,并选择【Data Reduction-Factor】,进入主对话框第第2步步 在主对话框中将所有原始变量选入【Variables
22、】第第3步步 点击【Descriptives】,在【correlation Matrix】下选择 【Coefficirnts】,点击【Continue】回到主对话框第第4步步 点击【Extraction】,在【Display】下选择【Scree Plot】,点击【Continue】回到主对话框第第5步步 点击【Rotation】,在【Display】下选择【Loading Plot】,点击【Continue】回到主对话框 点击【OK】用用SPSS进行主成分分析进行主成分分析 用用用用SPSSSPSS进行主成分分析进行主成分分析进行主成分分析进行主成分分析2008年8月11-23统计学统计学ST
23、ATISTICS(第三版第三版)SPSS的输出结果的输出结果各变量之间的相关系数矩阵各变量之间的相关系数矩阵各变量之间的相关系数矩阵各变量之间的相关系数矩阵变量之间的存在较强的相关关系,适合作主成分分析变量之间的存在较强的相关关系,适合作主成分分析 2008年8月11-24统计学统计学STATISTICS(第三版第三版)SPSS的输出结果的输出结果(选择主成分选择主成分)各主成分所解释的原始变量的方差各主成分所解释的原始变量的方差各主成分所解释的原始变量的方差各主成分所解释的原始变量的方差该表是选则主成分的主要依据该表是选则主成分的主要依据2008年8月11-25统计学统计学STATISTIC
24、S(第三版第三版)n n“Initial Initial EigenvaluesEigenvalues”(初始特征根初始特征根)l l实际上就是本例中的实际上就是本例中的6 6个主轴的长度个主轴的长度l l特特征征根根反反映映了了主主成成分分对对原原始始变变量量的的影影响响程程度度,表表示示引引入入该主成分后可以解释原始变量的信息该主成分后可以解释原始变量的信息l l特特征征根根又又叫叫方方方方差差差差,某某个个特特征征根根占占总总特特征征根根的的比比例例称称为为为为主主主主成分方差贡献率成分方差贡献率成分方差贡献率成分方差贡献率l l设特征根为设特征根为,则第,则第i i个主成分的方差贡献率
25、为个主成分的方差贡献率为l l比比如如,第第一一个个主主成成分分的的特特征征根根为为3.9633.963,占占总总特特征征根根的的的的比比例例(方方差差贡贡献献率率)为为66.052%66.052%,这这表表示示第第一一个个主主成成分分解解释释了了原原始始6 6个个变变量量66.052%66.052%的的信信息息,可可见见第第一一个个主主成成分分对对原原来的来的6 6个变量解释的已经很充分了个变量解释的已经很充分了根据什么选择主成分?根据什么选择主成分?2008年8月11-26统计学统计学STATISTICS(第三版第三版)n n根据主成分贡献率根据主成分贡献率l l一一般般来来说说,主主成成
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 第11章 主成分分析和因子分析 11 成分 分析 因子分析
限制150内