spss学习学习教程.pptx
《spss学习学习教程.pptx》由会员分享,可在线阅读,更多相关《spss学习学习教程.pptx(90页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、因子分析的基本原理通常针对变量作因子分析,称为R型因子分析;另一种对样品作因子分析,称为Q型因子分析,这两种分析方法有许多相似之处。R型因子分析数学模型是:设原有p个变量 且每个变量(或经标准化处理后)的均值为0,标准差为1。现将每个原有变量用k()个因子 的线性组合来表示,即有:上式就是因子分析的的数学模型,也可以用矩阵的形式表示为 9.1 SPSS在因子分析中的应用第1页/共90页第一页,编辑于星期六:二十一点 五十五分。其中,X是可实测的随机向量。F称为因子,由于它们出现在每个原有变量的线性表达式中,因此又称为公共因子。A称为因子载荷矩阵,称为因子载荷。称为特殊因子,表示了原有变量不能被
2、因子解释的部分,其均值为0 因子分析的基本思想是通过对变量的相关系数矩阵内部结构的分析,从中找出少数几个能控制原始变量的随机变量 选取公共因子的原则是使其尽可能多的包含原始变量中的信息,建立模型 ,忽略 ,以F代替X,用它再现原始变量X的信息,达到简化变量降低维数的目的。9.1 SPSS在因子分析中的应用第2页/共90页第二页,编辑于星期六:二十一点 五十五分。具体步骤:将原始数据标准化,以消除变量间在数量级和量纲上的不同;求标准化数据的相关矩阵;求相关矩阵的特征值和特征向量;计算方差贡献率与累积方差贡献率;确定因子:设F1,F2,Fp为p个因子,其中前m个因子包含的 数据信息总量(即其累积贡
3、献率)不低于85%时,可取前m个因子来反映原评价指标;因子旋转:若所得的m个因子无法确定或其实际意义不是很明显,这时需将因子进行旋转以获得较为明显的实际含义;用原指标的线性组合来求各因子得分;综合得分:通常以各因子的方差贡献率为权,由各因子的线性组合得到综合评价指标函数。9.1 SPSS在因子分析中的应用第3页/共90页第三页,编辑于星期六:二十一点 五十五分。因子分析的SPSS操作详解Step01:打开主菜单选择主菜单中的【分析】【降维】【因子】命令,弹出【因子分析】对话框,如图所示,这是因子分析的主操作窗口。9.1 SPSS在因子分析中的应用第4页/共90页第四页,编辑于星期六:二十一点
4、五十五分。Step02:选择因子分析变量 在【因子分析】对话框左侧的候选变量中选择进行因子分析的变量将其添加至【变量】列表框中。如果要选择参与因子分析的样本,则需要将条件变量添加至【选择变量】框中,并单击变量值按钮输入变量值,只有满足条件的样本数据才能进行后续的因子分析。Step03:选择描述性统计量 单击【描述】按钮,弹出对话框图所示。这里可以选择输出描述性统计量及相关矩阵等内容。9.1 SPSS在因子分析中的应用第5页/共90页第五页,编辑于星期六:二十一点 五十五分。Step04:选择因子提取方法 单击【抽取】按钮,弹出对话框图9-3所示。这里可以选择提取因子的方法及相关选项。具体选项含
5、义如下:单击【方法】框中的箭头按钮,展开下拉列表,从中可以选择因子提取方法:主成份分析法:该方法假设变量是因子的纯线性组合。第一成分有最大的方差,后续的成分其可解释的方差逐个递减;不加权最小二乘法:加权最小二乘法;极大似然法:主轴因子提取法:因子提取法:映象因子提取法:9.1 SPSS在因子分析中的应用第6页/共90页第六页,编辑于星期六:二十一点 五十五分。【分析】栏输出分析矩阵:相关系数矩阵,系统默认项:协方差矩阵:【输出】栏输出与因子提取有关的选项:输出未经旋转的因子提取结果。此项为系统默认的输出方式;输出因子的碎石图:它显示了按特征值大小排列的因子序号。它有助于确定保留多少个因子。典型
6、的碎石图会有一个明显的拐点,在该点之前是与大因子连接的陡峭的折线,之后是与小因子相连的缓坡折线。9.1 SPSS在因子分析中的应用第7页/共90页第七页,编辑于星期六:二十一点 五十五分。【抽取】栏输出与提取结果有关的选择项。由于理论上因子数目与原始变量数目相等,但因子分析的目的是用少量因子代替多个原始变量,选择提取多少个因子是由本栏来决定。指定提取公因子的数目:用鼠标单击选择此项后,将指定其数目。指定因子分析收敛的最大迭代次数 在对应的参数框中指定因子分析收敛的最大迭代次数:系统默认的最大迭代次数为25。9.1 SPSS在因子分析中的应用第8页/共90页第八页,编辑于星期六:二十一点 五十五
7、分。Step05:选择因子旋转方法 单击【旋转】按钮,弹出下图所示。这里可以选择因子旋转方法及相关选项。具体选项含义如下:9.1 SPSS在因子分析中的应用第9页/共90页第九页,编辑于星期六:二十一点 五十五分。Step06:选择因子得分单击【得分】按钮,弹出对话框如下图所示。这里可以选择因子得分方法及相关选项。具体选项含义如下:9.1 SPSS在因子分析中的应用第10页/共90页第十页,编辑于星期六:二十一点 五十五分。Step07:其他选择输出单击【选项】按钮,弹出对话框图9-6所示。这里可以选择一些附加输出项。具体选项含义如下:9.1 SPSS在因子分析中的应用第11页/共90页第十一
8、页,编辑于星期六:二十一点 五十五分。实例分析:居民消费结构的变动1 实例内容 消费结构是指在消费过程中各项消费支出占居民总支出的比重。它是反映居民生活消费水平、生活质量变化状况以及内在过程合理化程度的重要标志。而消费结构的变动不仅是消费领域的重要问题,而且也关系到整个国民经济的发展。因为合理的消费结构及消费结构的升级和优化不仅反映了消费的层次和质量的提高,而且也为建立合理的产业结构和产品结构提供了重要的依据。表9-1是某市居民生活费支出费用,具体分为食品、衣着、家庭设备用品及服务、医疗保健、交通通讯、文教娱乐及服务、居住和杂项商品与服务等8个部分。请利用因子分析探讨该市居民消费结构,为产业政
9、策的制定和宏观经济的调控提供参考。9.1 SPSS在因子分析中的应用第12页/共90页第十二页,编辑于星期六:二十一点 五十五分。2 实例操作 表9-1是某市居民在食品、衣着、医疗保健等八个方面的消费数据,这些指标之间存在着不同强弱的相关性。如果单独分析这些指标,无法能够分析居民消费结构的特点。因此,可以考虑采用因子分析,将这八个指标综合为少数几个因子,通过这些公共因子来反映居民消费结构的变动情况。9.1 SPSS在因子分析中的应用第13页/共90页第十三页,编辑于星期六:二十一点 五十五分。3 实例结果及分析(1)描述性统计表 表9-2显示了食品、衣着等这八个消费支出指标的描述统计量,例如均
10、值、标准差等。这为后续的因子分析提供了一个直观的分析结果。可以看到,食品支出消费所占的比重最大,其均值等于39.4750%,其次是文化娱乐服务支出消费和交通通信支出消费。所有的消费支出中,医疗保健消费支出占的比重最低。9.1 SPSS在因子分析中的应用第14页/共90页第十四页,编辑于星期六:二十一点 五十五分。均值 标准差N 食品 39.4750 2.29705 8衣着 6.4875.86592 8家庭设备用品及服务 7.9125 2.87772 8医疗保健 6.3625 1.54729 8交通和通信 8.1750 2.61302 8文化娱乐服务 14.4750 2.30016 8居住 12
11、.1625 2.91545 8杂项商品与服务 2.9125.52491 89.1 SPSS在因子分析中的应用第15页/共90页第十五页,编辑于星期六:二十一点 五十五分。(2)因子分析共同度 表是因子分析的共同度,显示了所有变量的共同度数据。第一列是因子分析初始解下的变量共同度。它表明,对原有八个变量如果采用主成分分析法提取所有八个特征根,那么原有变量的所有方差都可被解释,变量的共同度均为1(原有变量标准化后的方差为1)。事实上,因子个数小于原有变量的个数才是因子分析的目的,所以不可能提取全部特征根。于是,第二列列出了按指定提取条件(这里为特征根大于1)提取特征根时的共同度。可以看到,所有变量
12、的绝大部分信息(全部都大于83)可被因子解释,这些变量信息丢失较少。因此本次因子提取的总体效果理想。9.1 SPSS在因子分析中的应用第16页/共90页第十六页,编辑于星期六:二十一点 五十五分。初始 抽取食品 1.000.842 衣着 1.000.842家庭设备用品及服务 1.000.976医疗保健 1.000.954交通和通信 1.000.925文化娱乐服务 1.000.953居住 1.000.978杂项商品与服务 1.000.9479.1 SPSS在因子分析中的应用第17页/共90页第十七页,编辑于星期六:二十一点 五十五分。(3)因子分析的总方差解释 接着Spss软件计算得到相关系数矩
13、阵的特征值、方差贡献率及累计方差贡献率结果如表9-4所示。在表9-4中,第一列是因子编号,以后三列组成一组,组中数据项的含义依次是特征根、方差贡献率和累计贡献率。第一组数据项(第二至第四列)描述了初始因子解的情况。可以看到,第一个因子的特征根值为4.316,解释了原有8个变量总方差的53.947。前三个因子的累计方差贡献率为94.196,并且只有它们的取值大于1。说明前3个公因子基本包含了全部变量的主要信息,因此选前3个因子为主因子即可。同时,提取后的因子方差和旋转后的因子方差部分列出了因子提取后和旋转后的因子方差解释情况。从表中看到,它们都支持选择3个公共因子。9.1 SPSS在因子分析中的
14、应用第18页/共90页第十八页,编辑于星期六:二十一点 五十五分。9.1 SPSS在因子分析中的应用第19页/共90页第十九页,编辑于星期六:二十一点 五十五分。(4)因子碎石图 图9-15是因子分析的碎石图。横坐标为因子数目,纵坐标为特征根。可以看到,第一个因子的特征值很高,对解释原有变量的贡献最大;第三个以后的因子特征根都较小,取值都小于1,说明它们对解释原有变量的贡献很小,称为可被忽略的“高山脚下的碎石”,因此提取前三个因子是合适的。9.1 SPSS在因子分析中的应用第20页/共90页第二十页,编辑于星期六:二十一点 五十五分。(5)旋转前的因子载荷矩阵 表9-5显示了因子载荷矩阵,它是
15、因子分析的核心内容。通过载荷系数大小可以分析不同公共因子所反映的主要指标的区别。从结果看,大部分因子解释性较好,但是仍有少部分指标解释能力较差,例如“食品”指标在三个因子的载荷系数区别不大。因此接着采用因子旋转方法使得因子载荷系数向0或1两极分化,使大的载荷更大,小的载荷更小。这样结果更具可解释性。9.1 SPSS在因子分析中的应用第21页/共90页第二十一页,编辑于星期六:二十一点 五十五分。(6)旋转后的因子载荷矩阵 表9-6显示了实施因子旋转后的载荷矩阵。可以看到,第一主因子在“交通和通信”和“医疗保健”等五个指标上具有较大的载荷系数,第二主因子在“居住”和“衣着”指标上系数较大,而第三
16、主因子在“杂项商品与服务”上的系数最大。此时,各个因子的含义更加突出。9.1 SPSS在因子分析中的应用第22页/共90页第二十二页,编辑于星期六:二十一点 五十五分。可以看出第一个公因子主要反映了交通和通信、医疗保健、文化娱乐服务、家庭设备用品及服务和食品上有较大载荷,说明第一个公因子综合反映这几个方面的变动情况,可以将其命名为第一基本生活消费因子,即享受性消费因子。第二个公因子在居住、衣着上的载荷系数较大,代表了这两个方面的变动趋势,可以将其命名为第二基本生活消费因子,即发展性消费因子。第三个公因子在杂项商品与服务上的消费变动较大,因此可以将第三个公因子命名为第三基本生活消费因子,即其他类
17、型消费因子。9.1 SPSS在因子分析中的应用第23页/共90页第二十三页,编辑于星期六:二十一点 五十五分。(7)因子得分系数 表9-7列出了采用回归法估计的因子得分系数。根据表中内容可写出以下因子得分函数:因子F1=-0.198X1+0.058X2-0.226X3+0.212X4+0.221X5+0.211X6+0.079X7+0.015X8;因子F2=0.123X1+0.425X2+0.200X3+0.094X4+0.008X5+0.096X6-0.498X7+0.015X8;因子F3=0.365X1-0.059X2-0.174X3+0.069X4+0.119X5-0.077X6-0.0
18、88X7+0.779X8;9.1 SPSS在因子分析中的应用第24页/共90页第二十四页,编辑于星期六:二十一点 五十五分。9.1 SPSS在因子分析中的应用第25页/共90页第二十五页,编辑于星期六:二十一点 五十五分。聚类分析的基本原理1、方法概述 聚类分析又称群分析,它是研究(样品或指标)分类问题的一种多元统计方法,所谓类,通俗地说,就是指相似元素的集合。2、聚类分析的分类根据分类对象的不同可分为样品聚类和变量聚类。(1)样品聚类 样品聚类在统计学中又称为Q 型聚类。用SPSS 的术语来说就是对事件进行聚类,或是说对观测量进行聚类。它是根据被观测的对象的各种特征,即反映被观测对象的特征的
19、各变量值进行分类。9.2 SPSS 在聚类分析中的应用第26页/共90页第二十六页,编辑于星期六:二十一点 五十五分。(2)变量聚类 变量聚类在统计学又称为R 型聚类。反映同一事物特点的变量有很多,我们往往根据所研究的问题选择部分变量对事物的某一方面进行研究。由于人类对客观事物的认识是有限的,往往难以找出彼此独立的有代表性的变量,而影响对问题的进一步认识和研究。例如在回归分析中,由于自变量的共线性导致偏回归系数不能真正反映自变量对因变量的影响等。因此往往先要进行变量聚类,找出彼此独立且有代表性的自变量,而又不丢失大部分信息。值得提出的是将聚类分析和其它方法联合起来使用,如判别分析、主成分分析、
20、回归分析等往往效果更好。9.2 SPSS 在聚类分析中的应用第27页/共90页第二十七页,编辑于星期六:二十一点 五十五分。3、距离和相似系数 为了将样品(或指标)进行分类,就需要研究样品之间关系。目前用得最多的方法有两个:一种方法是用相似系数,性质越接近的样品,它们的相似系数的绝对值越接近1,而彼此无关的样品,它们的相似系数的绝对值越接近于零。比较相似的样品归为一类,不怎么相似的样品归为不同的类。另一种方法是将一个样品看作P维空间的一个点,并在空间定义距离,距离越近的点归为一类,距离较远的点归为不同的类。但相似系数和距离有各种各样的定义,而这些定义与变量的类型关系极大。9.2 SPSS 在聚
21、类分析中的应用第28页/共90页第二十八页,编辑于星期六:二十一点 五十五分。K-均值聚类法又叫快速聚类法,可以用于大量数据进行聚类分析的情形。它是一种非分层的聚类方法。这种方法占用内存少、计算量、处理速度快,特别适合大样本的聚类分析。它的基本操作步骤如下:1、指定聚类数目k,应由用户指定需要聚成多少类,最终也只能输出关于它的唯一解。这点不同于层次聚类。2、确定k个初始类的中心。两种方式:一种是用户指定方式,二是根据数据本身结构的中心初步确定每个类别的原始中心点。3、根据距离最近原则进行分类。逐一计算每一记录到各个中心点的距离,把各个记录按照距离最近的原则归入各个类别,并计算新形成类别的中心点
22、 4、按照新的中心位置,重新计算每一记录距离新的类别中心点的距离,并重新进行归类。5、重复步骤4,直到达到一定的收敛标准。这种方法也常称为逐步聚类分析,即先把被聚对象进行初始分类,然后逐步调整,得到最终分类。9.2 SPSS 在聚类分析中的应用第29页/共90页第二十九页,编辑于星期六:二十一点 五十五分。快速聚类SPSS操作详解Step01:打开主菜单 选择主菜单中的【分析】【分类】【K均值聚类】命令,弹出【K均值聚类分析】对话框,如图所示,这是快速聚类分析的主操作窗口。9.2 SPSS 在聚类分析中的应用第30页/共90页第三十页,编辑于星期六:二十一点 五十五分。Step02:选择聚类分
23、析变量 在【K均值聚类分析】对话框左侧的候选变量中选择进行聚类分析的变量将其添加至【变量】列表框中。同时可以选择一个标识变量移入【个案标记依据】框中。Step03:确定分类个数 【聚类数】框中,可以输入确定的聚类分析数目,用户可以根据需要自行修改调整。系统默认的聚类数为2.Step04:选择聚类方法 主对话框中的【方法】栏中可以选择聚类方法。系统默认值是【迭代与分类】项。选择初始类中心:在迭代过程中不断更新聚类中心。把观测量分派到与之最近的以类中心为标志的类中去。只使用初始类中心对观测量进行分类,聚类中心始终不变。9.2 SPSS 在聚类分析中的应用第31页/共90页第三十一页,编辑于星期六:
24、二十一点 五十五分。Step05:聚类中心的输入与输出 在主对话框图中,【聚类中心】栏表示输入和输出聚类中心的对话框。用户可以指定外部文件或数据集作为初始聚类中心点,也可以将聚类分析的聚类中心结果输出到指定文件或数据集中。要求使用指定数据文件中的观测量或建立数据集作为初始类中心。要求把聚类结果中的各类中心数据保存到指定的文件或数据集中。9.2 SPSS 在聚类分析中的应用第32页/共90页第三十二页,编辑于星期六:二十一点 五十五分。在主对话框中单击【迭代】按钮,打开设置迭代参数的对话框图,这里可以进一步选择迭代参数。9.2 SPSS 在聚类分析中的应用第33页/共90页第三十三页,编辑于星期
25、六:二十一点 五十五分。Step07:输出聚类结果在主对话框中单击【保存】按钮,弹出【保存新变量】对话框,它用于选择保存新变量,见图 聚类成员:在当前数据文件中建立一个名为“qcl_1”新变量。其值表示聚类结果,即各观测量被分配到哪一类。它的取值为1、2、3的序号。与聚类中心的距离:在当前数据文件中建立一个名为“qcl_2”新变量。其值为各观测量与所属类中心之间的欧氏距离。9.2 SPSS 在聚类分析中的应用第34页/共90页第三十四页,编辑于星期六:二十一点 五十五分。Step08:其他选项输出在主对话框中单击【选项】按钮,弹出【选项】对话框,它用于指定要计算的统计量和对带有缺失值的观测量的
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- spss 学习 教程
限制150内