主成分与因子分析-新版分解优秀PPT.ppt
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_05.gif)
《主成分与因子分析-新版分解优秀PPT.ppt》由会员分享,可在线阅读,更多相关《主成分与因子分析-新版分解优秀PPT.ppt(34页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、第第8章章 主成分与因子分析主成分与因子分析 主成分分析与因子分析主成分分析与因子分析的目的在于降降维维,即在众多存在的相关性的变量中,找出少数几个综合性变量,来反映原来变量所反映的主要信息,使问题简化。主要作用主要作用o能降低所探讨的数据空间的维数;o可用于分析筛选回来变量,构造回来模型;o可用于综合评价;o可对变量进行分类 导入案例:如何对学生成果进行综合评价 我国历来是接受原始分数报告学生的学习成果,并作为选拔考试择优录用的重要依据。由于各科试题难度不同,学生各科成果分布也不相同,因而用学生各科原始分数相加后的总分来反映学生个体在总体中的相对位置有较大的局限性。为了克服这种局限性,我国在
2、1998年高考中起先实行用标准分录用新生。它是高考制度具体措施的一大改革。标准分是一种由原始分推导出来的相对地位量数,它是用来说明原始分在所属的那批分数中的相对位置的。但是截止到2007年,只有海南省还在运用标准分,其它省份都运用原始分录用新生。主要内容主要内容8.1 主成分分析主成分分析8.2 因子分析因子分析8.3 主成分分析和因子分析的区分主成分分析和因子分析的区分8.4 用用SPSS进行因子分析进行因子分析8.1 主成分分析主成分分析8.1.1 主成分分析的数学模型1.主成分主成分(Principal Components)含义:含义:例:上衣尺寸主要包括领长、袖长、衣长、例:上衣尺寸
3、主要包括领长、袖长、衣长、号号 领围、肩宽、臂围、胸围、腰围、臀围、袖宽等领围、肩宽、臂围、胸围、腰围、臀围、袖宽等 14 型型个变量,明显它们是相关的,因此可以找出反映上衣特个变量,明显它们是相关的,因此可以找出反映上衣特征的两个不相关的综合变量,就是上衣的号和型。征的两个不相关的综合变量,就是上衣的号和型。如:(男)如:(男)180/100A、175/96A;(女);(女)165/84A等等 F1 *2.如何实现:如何实现:儿童身高儿童身高(X1)和体重和体重(X2)两个两个变变量之量之间间的关系可以用散点的关系可以用散点图图表示出来,如表示出来,如图图8.1所示。所示。明明显显,这这两个
4、两个变变量之量之间间存在存在线线性关系。性关系。现现在以直在以直线线P1为为横坐横坐标标,以,以该轴该轴的垂直的垂直线线P2为纵为纵坐坐标标,建立一个新的平面直角坐,建立一个新的平面直角坐标标系,系,则则全部全部观测观测点均在坐点均在坐标轴标轴P1四周四周(即沿即沿该该方向方向观测值观测值方差最方差最大大),而在坐,而在坐标轴标轴P2方向上的波方向上的波动动很小,可以忽很小,可以忽视视。这样这样,二,二维问题维问题即可以降即可以降为为一一维问题维问题,只取一个,只取一个综综合合变变量量P1(主成分主成分)即可。即可。X2F2 *X1 相当于在平面上做一个坐标变换,即按逆时针方向旋转角度,依据旋
5、转变换公式,新旧坐标之间有如下关系 主成分就是P个原始变量的某种线性组合;从几何意义上看,这些线性组合正是由X1,X2,XP构成的坐标系经旋转而产生的新坐标系,新坐标系使之通过变差最大的方向(或者说具有最大的样本方差)。3.建立主成分分析的数学模型:建立主成分分析的数学模型:假设观测 p 项变量(指标),记为X1,X2,Xp,取n件样品,原始数据资料阵为指标1(X1)指标2(X2)指标p(Xp)第1次观测值第n次观测值 为找出主成分,寻求原变量X1,X2,Xp的线性组合Fi,其数学模型 模型可简写为P=u1X1+u2X2+upXp=UTX若令式中U=(u1,u2,up)T,X=(X1,X2,X
6、P)T满足如下的条件:(1)Pi和Pj不相关,即(2)主成分的方差依次递减,重要性依次递减,即称Pi为第i主成分(i=1,2,p)。(3)总方差不变,即(4)每个主成分的系数平方和为1,即4主成分的求法(见板书)5主成分个数的提取为简化问题,通常提取q(qp)个主成分,原则是这q个主成分能够反映出原来P个变量的绝大部分的方差。几个概念:1)主成分的方差贡献率第i个主成分的方差在全部方差中所占的比重:称为第i个主成分的方差贡献率,反映了第i个主成分综合原来P个变量信息的实力。2)主成分的累积方差贡献率 前q个主成分共有多大的信息综合实力,用这q个主成分的方差和在全部方差中所占比重来描述,称为前q
7、个主成分的即即学问要点提示1:主成分的计算 须要说明的是,从协差阵和相关阵计算主成分一般是不同的,当变量取值范围彼此相差很大或度量单位不同时,可以考虑标准化,以便使计算结果有合理的说明,避开出现误会。如没有上述度量单位和数量级的差异,从协差阵和相关阵动身计算的结果对主成分的说明或计算方差贡献时,一般不会冲突。学问要点提示2:主成分分析的数据要求 无论是从原始变量协差阵动身求解主成分,还是从相关阵求解主成分,均没有涉及总体分布问题。也就是说,与很多多元统计方法不同,主成分分析不要求数据来自正态总体。主成分分析就是对矩阵结构的分析。对多元随机变量而言,其协差阵或其相关阵都是非负定的,这样就可以依据
8、求解主成分的步骤求出其特征值、标准正交特征向量,进而求出主成分,达到缩减数据维数的目的。主成分分析的这一特性大大扩展了其应用范围,对多维数据,只要是涉及降维的处理,我们都可以尝试用主成分分析,而不用花太多精力考虑其分布状况。8.1.2 主成分分析的步骤及应用1.主成分分析的步骤第一步:确定分析变量,收集数据资料。其次步:对原始数据进行标准化。第三步:对标准化后的样本数据资料计算协差阵或相关阵。第四步:计算或R的特征值及相应的特征向量Ui,并按i 的大小排序(i=1,2,p)。第五步:计算主成分的贡献率及累计贡献率。第六步:确定主成分个数。1.取累计贡献率80%的前q个主成分2.选用特征值1的前
9、q个主成分。第七步:将样本数据代入前q个主成分的表达式,可分别计 算出各单位前q个主成分的得分。2.主成分分析的应用【例8.1】某地区为了对14家工业企业进行经济效益的综合评估,选择了8项不同的利润指标,包括净产值利润率X1(%)、固定资产利润率X2(%)、总产值利润率X3(%)、销售收入利润率X4(%)、产品成本利润率X5(%)、物耗利润率X6(%)、人均利润率X7(%)、流淌资金利润率X8(%)。统计数据资料如下表8-1所示。(见书)8.2 因子分析8.2.1 因子分析的数学模型 1因子分析的含义因子分析是主成分分析的推广,它是探讨存在相关关系的变量之间,是否存在不能干脆观测到但对可观测指
10、标的变化起支配作用的潜在因子(factor)的分析方法。2因子分析的基本原理因子分析就是通过变量的相关系数矩阵内部结构的探讨,找出能限制全部变量的少数几个公共因子去描述多个变量之间的相关关系,然后依据相关性的大小把变量分组.共享这4个公共因子,但是每个变量又有自己的特性,即不被包含的特殊因子例:某公司聘请人才,对每位应聘者进行外貌、求职信的形式、例:某公司聘请人才,对每位应聘者进行外貌、求职信的形式、专业实力、讨人宠爱的实力、自信念、洞察力、恳切、推销本专业实力、讨人宠爱的实力、自信念、洞察力、恳切、推销本事、阅历、主动性、志向、理解实力、潜在实力、实际实力、事、阅历、主动性、志向、理解实力、
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 成分 因子分析 新版 分解 优秀 PPT
![提示](https://www.taowenge.com/images/bang_tan.gif)
限制150内