多元统计分析整理版.doc(15页).doc
《多元统计分析整理版.doc(15页).doc》由会员分享,可在线阅读,更多相关《多元统计分析整理版.doc(15页).doc(15页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、-1、主成分分析的目的是什么? 主成分分析是考虑各指标间的相互关系,利用降维的思想把多个指标转换成较少的几个相互独立的、能够解释原始变量绝大部分信息的综合指标,从而使进一步研究变得简单的一种统计方法。它的目的是希望用较少的变量去解释原始资料的大部分变异,即数据压缩,数据的解释。常被用来寻找判断事物或现象的综合指标,并对综合指标所包含的信息进行适当的解释。2、主成分分析基本思想?主成分分析就是设法将原来指标重新组合成一组新的互相无关的几个综合指标来代替原来指标。同时根据实际需要从中选取几个较少的综合指标尽可能多地反映原来的指标的信息。l 设p个原始变量为 ,新的变量(即主成分)为 , 主成分和原
2、始变量之间的关系表示为?3、在进行主成分分析时是否要对原来的p个指标进行标准化?SPSS软件是否能对数据自动进行标准化?标准化的目的是什么?需要进行标准化,因为因素之间的数值或者数量级存在较大差距,导致较小的数被淹没,导致主成分偏差较大,所以要进行数据标准化;进行主成分分析时SPSS可以自动进行标准化;标准化的目的是消除变量在水平和量纲上的差异造成的影响。求解步骤n 对原来的p个指标进行标准化,以消除变量在水平和量纲上的影响n 根据标准化后的数据矩阵求出相关系数矩阵n 求出协方差矩阵的特征根和特征向量n 确定主成分,并对各主成分所包含的信息给予适当的解释版本二:根据我国31个省市自治区2006
3、年的6项主要经济指标数据,表二至表五,是SPSS的输出表,试解释从每张表可以得出哪些结论,进行主成分分析,找出主成分并进行适当的解释:(下面是SPSS的输出结果,请根据结果写出结论)表一:数据输入界面表二:数据输出界面a)此表为相关系数矩阵,表示的是各个变量之间的相关关系,说明变量之间存在较强的相关系数,适合做主成分分析。观察各相关系数,若相关矩阵中的大部分相关系数小于0.3,则不适合作因子分析。表三为各成分的总解释方差表。component为各成分的序号;initial Eigenvalues是初始特征值,total是各成分的特征值,% of variance是各成分的方差占总方差的百分比(
4、贡献率)。Cumulative%是累计贡献率,表明前几个成分可以解释总方差的百分数。Extraction sums 是因子提取结果。一般来说,当特征根需大于1,主成分的累计方差贡献率达到80%以上的前几个主成分,都可以选作最后的主成分。由表可知,第一个主成分的特征根为3.963,方差贡献率为66.052%,这表示第一个主成分解释了原始6个变量66.052%的信息,可以看出前两个成分所解释的方差占总方差的95.57%,仅丢失了4.43%的信息。因此最后结果是提取两个主成分。在extraction sums of squared loadings一栏,自动提取了前两个公因子,因为前两个公因子就可以
5、解释总方差的绝大部分95.6%。表四是表示各成分特征值的碎石图。可以看出因子1与因子2,以及因子2与因子3之间的特征值之差值比较大。而因子3、4、5之间的特征值差值都比较小,可以初步得出保留两个因子将能概括绝大部分信息。明显的拐点为3,因此提取2个因子比较合适。证实了表三中的结果。碎石图(Scree Plot),从碎石图可以看到6个主轴长度变化的趋势。实践中,通常选择碎石图中变化趋势出现拐点的前几个主成分作为原先变量的代表,该例中选择前两个主成分即可。表五是初始提取的成分矩阵,它显示了原始变量与各主成分之间的相关系数,表中的每一列表示一个主成分作为原来变量线性组合的系数,也就是主成分分析模型中
6、的系数aij。比如,第一主成分所在列的系数0.670表示第1个主成分和原来的第一个变量(人均GDP)之间的线性相关系数。这个系数越大,说明主成分对该变量的代表性就越大。第一主成分(component 1)对财政收入,固定资产投资,社会消费品零售总额有绝对值较大的相关系数;第二主成分(component 2)对人均gdp,年末总人口,居民消费水平有绝对值较大的相关系数。可以分别对其进行命名。版本一:根据我国31个省市自治区2006年的6项主要经济指标数据,进行因子分析,对因子进行命名和解释,并计算因子得分和排序。表一数据输入界面:表二因子分析SPSS输出界面a)KMO统计量为0.695,接近0.
7、7,表明6个变量之间有较强的相关关系。适合作因子分析。Bartlett球度检验 统计量为277.025。检验的P值接近0,拒绝原假设,认为相关系数与单位阵有显著差异。可以因子分析。表三因子分析SPSS输出界面b)表三为公因子提取前和提取后的共同度表,initial列提取因子前的各变量的共同度;extraction列是按特定条件(如特征值1)提取公因子时的共同度,表中的共同度都很高,说明提取的成分能很好的描述这些变量。所有变量的共同度量都在80%以上,因此,提取出的公因子对原始变量的解释能力应该是很强的。 变量xi的信息能够被k个公因子解释的程度 表四因子分析SPSS输出界面c)表四为各成分的总
8、解释方差。Component表示按特征值大小排序的因子编号。Initial下分别给出了相关系数矩阵的特征值、方差贡献率和累计方差贡献率。Extraction是所提取的公因子未经旋转情况下的特征值,方差贡献了和累计方差贡献率。 Rotation项下是旋转后的。“Rotation Sums of Squared Loadings”部分是因子旋转后对原始变量方差的解释情况。旋转后的累计方差没有改变,只是两个因子所解释的原始变量的方差发生了一些变化。95.57%表明提取的两个公共因子的方差可以解释总方差的95.57%。第j个公因子对变量xi的提供的方差总和,反映第j个公因子的相对重要程度旋转后成分矩阵
9、。第一个因子与年末总人口、固定资产投资、社会消费品零售总额、财政收入这几个载荷系数较大,主要解释了这几个变量。从实际意义上看,可以把因子1姑且命名为“经济水平”因子。而第二个因子与人均GDP、居民消水平这两个变量的载荷系数较大,主要解释了这两个变量,从实际意义看,可以将因子2姑且命名为“消费水平”因子表五是因子得分系数矩阵。根据因子得分和原始变量的标准化值可计算每个观测量的各因子的分数。4、因子分析基本思想?因子分析是利用降维的思想,由研究原始变量相关矩阵内部的依赖关系出发,把一些具有错综复杂关系的变量归结为少数几个综合因子的一种多变量统计分析方法。因子分析的基本思想是根据相关性的大小将原始变
10、量分组,使得组内的变量之间相关性较高,而不同组的变量之间相关性较低。每组变量代表一个基本结构,并用一个不可观测的综合变量表示,这个基本结构就称为公共因子。对于所研究的某一具体问题,原始变量可以分解为两部分之和的形式,一部分是少数几个不可测的所谓公共因子的线性函数,另一部分是与公共因子无关的特殊因子。l 设p个原始变量为 ,要寻找的m个因子(mk)为 ,因子和原始变量之间的关系表达式为?系数aij为第个i变量与第k个因子之间的线性相关系数,反映变量与因子之间的相关程度,也称为载荷(loading)。由于因子出现在每个原始变量与因子的线性组合中,因此也称为公因子。e为特殊因子,代表公因子以外的因素
11、影响 5、因子分析的目的是什么?因子分析是从多个变量指标中选择出少数几个综合变量指标,以较少的几个因子反映原始资料的大部分信息的一种降维的多元统计方法。求解步骤1) 对原始数据标准化2) 建立相关系数矩阵R(因子提取)3) 求R的单位特征根与特征向量U;4) 因子旋转求因子载荷矩阵A;5) 写出因子模型X=AF+E 6)建立因子得分矩阵P7)写出因子得分模型F=PX(因子提取的方法:主成分法、不加权最小平方法、加权最小平方法、最大似然法、主轴因子法;旋转方法为:方差最大正交旋转、四次方最大正交旋转、平方最大正交旋转、斜交旋转、Promax:该方法在方差最大正交旋转的基础上进行斜交旋转)6、什么
12、是变量共同度?写出变量共同度的表达式。变量xi的信息能够被k个公因子解释的程度,用 k个公因子对第i个变量xi的方差贡献率表示 7、什么是公共因子方差贡献率?写出公共因子方差贡献率表达式。第j个公因子对变量xi的提供的方差总和,反映第j个公因子的相对重要程度8、因子分析中KMO检验主要检验什么?KMO越接近1,变量间的相关性越强KMO在0.8以上,说明该问题适合做因子分析。KMO统计量在0.7以上时,因子分析效果较好; KMO统计量在0.5以下时,因子分析效果很差KMO(Kaiser-Meyer-Olkin)检验统计量是用于比较原始变量间简单相关系数和偏相关系数的指标。当所有变量间的简单相关系
13、数平方和远远大于偏相关系数平方和时,KMO值接近1,KMO越接近1,变量间的相关性越强。当所有变量间的简单相关系数平方和接近0时,KMO值接近0.KMO值越接近于0,意味着变量间的相关性越弱,原有变量越不适合作因子分析。Kaiser给出了常用的kmo度量标准:0.9以上表示非常适合;0.8表示适合;0.7表示一般;0.6表示不太适合;0.5以下表示极不适合。Bartlett球度检验:以变量的相关系数矩阵为基础,假设相关系数矩阵是单位阵(对角线元素不为0,非对角线元素均为0)。如果相关矩阵是单位阵,则各变量是独立的,无法进行因子分析。9、因子分析中公因子个数确定的依据是什么?用公因子方差贡献率提
14、取:一般累计方差贡献率达到80%以上的前几个因子可以作为最后的公因子用特征根提取:一般要求因子对应的特征根要大于1,因为特征根小于1说明该公因子的解释力度太弱,还不如使用原始变量的解释力度大碎石图中变化趋势出现拐点的前几个主成分10、因子分析中因子旋转(factor rotation)的目的是什么?什么是因子得分(factor score)?因子旋转的目的使得因子载荷系数尽可能两极分化,使因子载荷系数向1或0靠近,使得某一个变量值在某一个因子上的载荷系数大,从而更清楚地看出各因子与原始变量的相关性大小,使因子的含义更加清楚,以便于对因子的命名和解释。因子得分就是每个观测量的共同因子的值。根据因
15、子得分系数和原始变量的标准化值可以计算每个观测量的各因子的分数,因子得分=x1*对应权重+x2*对应权重+xn*对应权重,根据因子得分我们可以写出因子表达式。因子得分是各变量的线性组合 11、简述因子分析与主成分分析的区别。主成分分析和因子分析是两种把变量维度降低以便于描述、理解和分析的方法。1 在SPSS分析中,因子分析必须进行因子旋转,主成分分析不一定要旋转。故公共因子往往可以找到实际意义,而主成分一般不能解释实际意义;2 因子分析法是对你所分析的变量的抽取(因子),主成分分析法是对你所分析的变量的概括(指标);3 因子模型中除了公共因子还有特殊因子,公共因子只解释了原变量的部分方差,而主
16、成分解释了原变量全部方差;4 因子分析是把变量表示成各因子的线性组合,而主成分则是把主成分表示成各变量的线性组合;5 主成分分析中不需要有一些专门假设,因子分析则需要一些假设。因子分析的假设包括:各个共同因子之间不相关,特殊因子之间也不相关,共同因子和特殊因子之间也不相关;6 提取主因子的方法不仅有主成分法,还有极大似然法,基于这些不同算法得到的结果一般也不同。而主成分只能用主成分法提取;7 主成分分析中,当给定的协方差矩阵或者相关矩阵的特征值唯一时,主成分一般是固定的;而因子分析中,因子不是固定的,可以旋转得到不同的因子;8 在因子分析中,因子个数需要分析者指定(spss根据一定的条件自动设
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 多元 统计分析 整理 doc 15
限制150内