spss主成分分析.ppt
《spss主成分分析.ppt》由会员分享,可在线阅读,更多相关《spss主成分分析.ppt(29页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、2023/1/41第第二二章章 主成分分析主成分分析 目录 上页 下页 返回 结束 2.1 2.1 主成分分析的基本思想与理论主成分分析的基本思想与理论2.2 2.2 主成分分析的上机实现主成分分析的上机实现2023/1/42第第二二章章 主成分分析主成分分析 目录 上页 下页 返回 结束 主成分分析主成分分析(principal components analysis)。主成分分。主成分分析是利用降维的思想,在损失很少信息的前提下把多个指标析是利用降维的思想,在损失很少信息的前提下把多个指标转化为几个综合指标的多元统计方法。通常把转化生成的综转化为几个综合指标的多元统计方法。通常把转化生成的
2、综合指标称之为主成分,其中每个主成分都是原始变量的线性合指标称之为主成分,其中每个主成分都是原始变量的线性组合,且各个主成分之间互不相关,这就使得主成分比原始组合,且各个主成分之间互不相关,这就使得主成分比原始变量具有某些更优越的性能。这样在研究复杂问题时就可以变量具有某些更优越的性能。这样在研究复杂问题时就可以只考虑少数几个主成分而不至于损失太多信息,从而更容易只考虑少数几个主成分而不至于损失太多信息,从而更容易抓住主要矛盾,揭示事物内部变量之间的规律性,同时使问抓住主要矛盾,揭示事物内部变量之间的规律性,同时使问题得到简化,提高分析效率。题得到简化,提高分析效率。2023/1/43 目录
3、上页 下页 返回 结束 2.12.1 主成分分析的基本思想主成分分析的基本思想 既然研究某一问题涉及的众多变量之间有一定的相关性,既然研究某一问题涉及的众多变量之间有一定的相关性,就必然存在着起支配作用的共同因素,根据这一点,通过就必然存在着起支配作用的共同因素,根据这一点,通过对原始变量相关矩阵或协方差矩阵内部结构关系的研究,对原始变量相关矩阵或协方差矩阵内部结构关系的研究,利用原始变量的线性组合形成几个综合指标(主成分),利用原始变量的线性组合形成几个综合指标(主成分),在保留原始变量主要信息的前提下起到降维与简化问题的在保留原始变量主要信息的前提下起到降维与简化问题的作用,使得在研究复杂
4、问题时更容易抓住主要矛盾。一般作用,使得在研究复杂问题时更容易抓住主要矛盾。一般地说,利用主成分分析得到的主成分与原始变量之间有如地说,利用主成分分析得到的主成分与原始变量之间有如下基本关系:下基本关系:1.每一个主成分都是各原始变量的线性组合;每一个主成分都是各原始变量的线性组合;2.主成分的数目大大少于原始变量的数目主成分的数目大大少于原始变量的数目2023/1/44 目录 上页 下页 返回 结束 3.主成分保留了原始变量绝大多数信息4.各主成分之间互不相关 通过主成分分析,可以从事物之间错综复杂的通过主成分分析,可以从事物之间错综复杂的关系中找出一些主要成分,从而能有效利用大量关系中找出
5、一些主要成分,从而能有效利用大量统计数据进行定量分析,揭示变量之间的内在关统计数据进行定量分析,揭示变量之间的内在关系,得到对事物特征及其发展规律的一些深层次系,得到对事物特征及其发展规律的一些深层次的启发,把研究工作引向深入。的启发,把研究工作引向深入。2023/1/45 目录 上页 下页 返回 结束 2.22.2 主成分分析的基本理论主成分分析的基本理论 设对某一事物的研究涉及个设对某一事物的研究涉及个 指标,分别用指标,分别用 表表示,这个示,这个 指标构成的指标构成的 维随机向量为维随机向量为 。设随。设随机向量机向量 的均值为的均值为 ,协方差矩阵为,协方差矩阵为 。对对 进行线性变
6、换,可以形成新的综合变量,用进行线性变换,可以形成新的综合变量,用 表示,表示,也就是说,新的综合变量可以由原来的变量线性表示,即满也就是说,新的综合变量可以由原来的变量线性表示,即满足下式:足下式:(5.1)(5.1)2023/1/46 目录 上页 下页 返回 结束 2.32.3注意的问题注意的问题 1.1.首先应当认识到主成分分析方法适用于变量之间存在较强首先应当认识到主成分分析方法适用于变量之间存在较强相关性的数据,如果原始数据相关性较弱,运用主成分分析后相关性的数据,如果原始数据相关性较弱,运用主成分分析后不能起到很好的降维作用,即所得的各个主成分浓缩原始变量不能起到很好的降维作用,即
7、所得的各个主成分浓缩原始变量信息的能力差别不大。一般认为当原始数据大部分变量的相关信息的能力差别不大。一般认为当原始数据大部分变量的相关系数都小于系数都小于0.30.3时,运用主成分分析不会取得很好的效果。时,运用主成分分析不会取得很好的效果。2 主成分分析不能有效地剔除重叠信息,但它至少可以发现原主成分分析不能有效地剔除重叠信息,但它至少可以发现原始变量是否存在着重叠信息,这对我们减少分析中的失误是有始变量是否存在着重叠信息,这对我们减少分析中的失误是有帮助的。帮助的。2023/1/47 目录 上页 下页 返回 结束 2.4 2.4 主成分分析步骤主成分分析步骤1.根据研究问题选取初始分析变
8、量;根据研究问题选取初始分析变量;2.根据初始变量特性判断由协方差阵求主成分还是由相关阵根据初始变量特性判断由协方差阵求主成分还是由相关阵求主成分;求主成分;3.求协差阵或相关阵的特征根与相应标准特征向量;求协差阵或相关阵的特征根与相应标准特征向量;4.判断是否存在明显的多重共线性,若存在,则回到第一步;判断是否存在明显的多重共线性,若存在,则回到第一步;5.得到主成分的表达式并确定主成分个数,选取主成分;得到主成分的表达式并确定主成分个数,选取主成分;6.结合主成分对研究问题进行分析并深入研究。结合主成分对研究问题进行分析并深入研究。2023/1/48 目录 上页 下页 返回 结束 主成分分
9、析的逻辑框图主成分分析的逻辑框图 特征值特征值标准正交特征向量标准正交特征向量是是否否有有接接近近0的情况的情况是是其他处理其他处理否否主成分主成分对主成分进行分析对主成分进行分析深入分析深入分析选择初始变量选择初始变量 度度量量或或取取值值范围相同?范围相同?是是否否(否)(否)对比对比分析相关阵分析相关阵分析协方差阵分析协方差阵 主成分分析主成分分析的逻辑框图见的逻辑框图见 图:图:【例例5.25.2】数据集数据集Employee dataEmployee data为为MidwesternMidwestern银行在银行在1969-1969-19711971年之间雇员情况的数据,共包括年之间
10、雇员情况的数据,共包括474474条观测及如下条观测及如下1010个变量:个变量:IdId(观测号)、(观测号)、GenderGender(性别)、(性别)、BdateBdate(出生日期)、(出生日期)、EducEduc(受教育程度(年数)、(受教育程度(年数)、JobcatJobcat(工作种类)、(工作种类)、SalarySalary(目(目前年薪)、前年薪)、SalbeginSalbegin(开始受聘时的年薪)、(开始受聘时的年薪)、JobtimeJobtime(受雇时(受雇时间(月)、间(月)、PrevexpPrevexp(受雇以前的工作时间(月)、(受雇以前的工作时间(月)、Min
11、orityMinority(是否少数民族)。下面我们用主成分分析方法处理(是否少数民族)。下面我们用主成分分析方法处理该数据,以期用少数变量来描述该地区居民的雇佣情况。该数据,以期用少数变量来描述该地区居民的雇佣情况。2023/1/49 目录 上页 下页 返回 结束 2.52.5主成分分析的上机实现主成分分析的上机实现 SPSS SPSS软件软件FACTORFACTOR模块提供了主成分分析的功能。下面先以模块提供了主成分分析的功能。下面先以SPSSSPSS软件包自带的数据软件包自带的数据Employee Employee data.savdata.sav为例介绍主成分分为例介绍主成分分析的上机
12、实现方法,在析的上机实现方法,在SPSSSPSS软件的安装目录下可以找到该数据软件的安装目录下可以找到该数据集;然后,我们举一个实际的例子介绍主成分分析的具体应用。集;然后,我们举一个实际的例子介绍主成分分析的具体应用。2023/1/410 目录 上页 下页 返回 结束 主成分分析的上机实现主成分分析的上机实现 进入进入SPSSSPSS软件,打开数据集软件,打开数据集Employee Employee data.savdata.sav。依次点。依次点选选AnalyzeDataAnalyzeData ReductionFactorReductionFactor.进入进入Factor Factor
13、 AnalysisAnalysis(因子分析)对话框。(在(因子分析)对话框。(在SPSSSPSS软件中,主成分分软件中,主成分分析与因子分析均在析与因子分析均在Factor AnalysisFactor Analysis模块中完成。此时,数据模块中完成。此时,数据集集Employee Employee data.savdata.sav中的变量名均已显示在左边的窗口中,中的变量名均已显示在左边的窗口中,依次选中变量依次选中变量educeduc、salarysalary、salbeginsalbegin、jobtimejobtime、prevexpprevexp并点向右的箭头按钮,这五个变量便进
14、入并点向右的箭头按钮,这五个变量便进入variablesvariables窗口(此窗口(此时若选中时若选中variablesvariables窗口中的变量,则窗口左侧的箭头按钮即窗口中的变量,则窗口左侧的箭头按钮即转向左侧,点此按钮即可剔除所选中变量)。点击右侧的转向左侧,点此按钮即可剔除所选中变量)。点击右侧的OKOK按钮,即可得到如下输出结果按钮,即可得到如下输出结果5-15-1。2023/1/4中国人民大学六西格玛质量管理研究中心11 目录 上页 下页 返回 结束 主成分分析的上机实现主成分分析的上机实现 输出结果输出结果5-15-1(2 2)输出结果输出结果5-15-1(1 1)202
15、3/1/412 目录 上页 下页 返回 结束 主成分分析的上机实现主成分分析的上机实现 输出结果输出结果5-15-1(3 3)2023/1/413 目录 上页 下页 返回 结束 主成分分析的上机实现主成分分析的上机实现 其中其中CommunalitiesCommunalities给出了该次分析从每个原始变量中提取的信息,表格给出了该次分析从每个原始变量中提取的信息,表格下面的注示表明,该次分析是用下面的注示表明,该次分析是用Factor analysisFactor analysis模块默认的信息提取方法即模块默认的信息提取方法即主成分分析完成的。可以看到除受教育程度信息损失较大外,主成分几乎
16、包主成分分析完成的。可以看到除受教育程度信息损失较大外,主成分几乎包含了各个原始变量至少含了各个原始变量至少90%90%的信息。的信息。Total Variance ExplainedTotal Variance Explained表则显示了各表则显示了各主成分解释原始变量总方差的情况,主成分解释原始变量总方差的情况,SPSSSPSS默认保留特征根大于默认保留特征根大于1 1的主成分,在的主成分,在本例中看到当保留本例中看到当保留3 3个主成分为宜,这个主成分为宜,这3 3个主成分集中了原始个主成分集中了原始5 5个变量信息的个变量信息的90.66%90.66%,可见效果是比较好的。实际上,主
17、成分解释总方差的百分比也可以,可见效果是比较好的。实际上,主成分解释总方差的百分比也可以由由CommunalitiesCommunalities表中计算得出,即表中计算得出,即 (0.896+0.916+0.999+0.968+0.7540.896+0.916+0.999+0.968+0.754)/5=90.66%/5=90.66%。Component MatrixComponent Matrix表中给表中给出了标准化原始变量用求得的主成分线性表示的近似表达式,我们以表中出了标准化原始变量用求得的主成分线性表示的近似表达式,我们以表中Current SalaryCurrent Salary一行
18、为例,不妨用一行为例,不妨用 来表示各个主成分,来表示各个主成分,则由则由Component MatrixComponent Matrix表可以得到:表可以得到:标准化的标准化的salary salary 2023/1/414 目录 上页 下页 返回 结束 主成分分析的上机实现主成分分析的上机实现 在上面的主成分分析中,在上面的主成分分析中,SPSSSPSS默认是从相关阵出发求解主成默认是从相关阵出发求解主成分,且默认保留特征根大于分,且默认保留特征根大于1 1的主成分,实际上,对主成分的个的主成分,实际上,对主成分的个数我们可以自己确定,方法为:进入数我们可以自己确定,方法为:进入Facto
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- spss 成分 分析
限制150内