《主成分分析与因子分析讲稿.ppt》由会员分享,可在线阅读,更多相关《主成分分析与因子分析讲稿.ppt(50页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、主成分分析与因子分析主成分分析与因子分析第一页,讲稿共五十页哦学习主成分分析的意义?v研究多个变量之间的依研究多个变量之间的依存关系是统计分析的一存关系是统计分析的一个重要任务。个重要任务。v分析多个变量之间的依分析多个变量之间的依存关系时,经常遇到两存关系时,经常遇到两个问题:个问题:n指标个数过多指标个数过多n指标之间指标之间“高度高度”相关相关X1X2X3Y图图1 多元线性回归分析多元线性回归分析Y=0 +1 X1 +2 X2 +3 X3 +123第二页,讲稿共五十页哦医学研究中广泛存在多指标问题v在心理学研究中: n描述儿童气质的指标:描述儿童气质的指标:9 9个个n描述儿童性格的指标
2、:描述儿童性格的指标:1212个个n描述儿童活动能力的指标:描述儿童活动能力的指标:6 6个个n描述儿童精细活动能力的指标:描述儿童精细活动能力的指标:1111个个v在临床医学研究中:n描述牙槽弓形形态特征的指标:描述牙槽弓形形态特征的指标:2222个个n衡量甲状腺机能的指标:衡量甲状腺机能的指标:2121个个n鉴别阑尾炎病型的指标:鉴别阑尾炎病型的指标:2727个个n描述儿童生长发育的指标:描述儿童生长发育的指标:1212个个 分析难度增加分析难度增加 multivariate第三页,讲稿共五十页哦儿童生长发育指标v 身高,腿长,臂长身高,腿长,臂长 长度长度v 肩宽,胸宽,臀骨宽肩宽,胸宽
3、,臀骨宽 宽度宽度v 胸围,臂围,大腿围胸围,臂围,大腿围 围度围度 v 如果分别用每一个指标对儿童的生长发育做评价,评价孤立,如果分别用每一个指标对儿童的生长发育做评价,评价孤立,非综合。非综合。v 如果仅选用其中的几个独立的指标,失去了许多有用的信息,如果仅选用其中的几个独立的指标,失去了许多有用的信息,容易得出片面结论。容易得出片面结论。第四页,讲稿共五十页哦医学研究中广泛存在多重共线性问题multicollinearity分析结果分析结果不稳定不稳定无统计学意义无统计学意义符号错误符号错误第五页,讲稿共五十页哦自变量共线性引起的问题之一:显著性消失自变量共线性引起的问题之一:显著性消失
4、例:儿童心象面积的研究例:儿童心象面积的研究 Y Y: 心象面积心象面积( (平方厘米平方厘米) ) X1 X1:性别(男:性别(男=1=1,女,女=2=2) X2X2:年龄:年龄( (月月) ) X3 X3:身高:身高( (厘米厘米) ) X4 X4:体重:体重( (公斤公斤) ) X5 X5:胸围:胸围( (厘米厘米) )第六页,讲稿共五十页哦例例1 1的相关系数表的相关系数表 心象 性别 年龄 身高 体重 胸围 y x1 x2 x3 x4 x5 性别 -0.08 1.00 年龄 0.87 -0.06 1.00 身高 0.93 0.00 0.86 1.00 体重 0.91 -0.02 0.
5、89 0.95 1.00 胸围 0.89 -0.08 0.86 0.91 0.97 1.00Multicollinearity !第七页,讲稿共五十页哦例1 的回归分析结果:模型总体检验:p=0.0002,R-sq=0.95参数估计和检验Var DF Est SE t Prob |T|Int 1 54.58 124.3 0.439 0.6737X1 1 -7.76 8.07 -0.962 0.3679X2 1 0.12 0.18 0.672 0.5231X3 1 0.29 0.42 0.693 0.5104X4 1 1.12 2.26 0.497 0.6343X5 1 -0.94 2.33 -
6、0.404 0.6985Non-significant !第八页,讲稿共五十页哦自变量共线性引起的问题之二:符号错误自变量共线性引起的问题之二:符号错误 例例2 2:吸氧效率的研究:吸氧效率的研究 Y Y:吸氧效率:吸氧效率X1X1:年龄:年龄X2X2:跑:跑1.51.5公里所需的时间公里所需的时间( (分钟)分钟)X3X3:跑步时的心跳率:跑步时的心跳率X4X4:最高心跳率:最高心跳率第九页,讲稿共五十页哦例例2的相关系数表的相关系数表 吸氧 年龄 跑步 跑步 最高 效率 时间 心跳率 心跳率 y X1 X2 X3 X4X1 -0.20 1.00 X2 -0.80 -0.15 1.00X3
7、-0.49 -0.32 0.36 1.00X4 -0.37 -0.42 0.28 0.93 1.00Negative correlatedHigh correlated第十页,讲稿共五十页哦例例2的分析结果:的分析结果:模型总体检验:p=0.0001,R-sq=0.85参数估计和检验Var DF Est SE T Prob |T| int 1 96.61 12.2 7.91 0.0001X1 1 -0.19 0.09 -1.99 0.0574 X2 1 -2.88 0.35 -8.14 0.0001 X3 1 -0.34 0.12 -2.95 0.0068X4 1 0.28 0.13 2.06
8、 0.0493 Error Sign第十一页,讲稿共五十页哦问问 题题寻找一种合理的综合性方法,使得:寻找一种合理的综合性方法,使得:v 减少指标变量的个数。减少指标变量的个数。v尽量不损失或者稍损失原指标变量中所包含尽量不损失或者稍损失原指标变量中所包含的信息。的信息。( (用方差衡量用方差衡量) )v使得原本相关的指标转化为彼此不相关(用相使得原本相关的指标转化为彼此不相关(用相关系数阵衡量)关系数阵衡量)第十二页,讲稿共五十页哦多元统计分析中存在的问题和解决方法主要存在问题主要存在问题多指标问题多指标问题主要解决方法主要解决方法主成分分析主成分分析因子分析因子分析结构方程模型结构方程模型
9、multivariate第十三页,讲稿共五十页哦什么是主成分分析?v将彼此相关的指标变量转化为彼此不相关的指标变量;v将个数较多的指标变量转化为个数较少的指标变量。v将意义单一的指标变量转化为意义综合的指标变量。第十四页,讲稿共五十页哦第一节 主成分分析的基本原理最简情形:最简情形:相关数据的散点图:相关数据的散点图:序号序号 胸围胸围 体重体重IdId x x1 1x x2 2 1 1 14 1453.553.52 2 13 1352.052.0n n 25 2558.058.0第十五页,讲稿共五十页哦基本原理原坐标系:原坐标系:。x1,x2x1,x2相关相关。x1,x2x1,x2变异均匀变
10、异均匀新坐标系:新坐标系:。Z1,Z2Z1,Z2不相关不相关。Z1,Z2Z1,Z2变异不均匀变异不均匀 var(Z1)var(Z2)var(Z1)var(Z2) 坐标变换公式:坐标变换公式: z1= cosx1 + sinx2 + c1 z2=-sinx1 + cosx2 + c2 坐标变换坐标变换忽略不计忽略不计1Z2Z第十六页,讲稿共五十页哦基本原理坐标变换公式:坐标变换公式:Z Z1 1= cosX= cosX1 1+sinX+sinX2 2Z Z2 2=-sinX=-sinX1 1+cosX+cosX2 2Z1= a11 X1 +a12 X2Z2= a21 X1 +a22 X2XZ线性
11、变换线性变换线性变换线性变换标准化变量:标准化变量:X1X2Z1Z20。图2c 标准化数据坐标转换第十七页,讲稿共五十页哦主成分分析的基本原理主成分分析的基本原理 Basic PrincipleBasic Principle寻找一个适当的线性变换:v将彼此相关的变量转变为彼此不相关的新变量;v方差较大的几个新变量就能综合反应原多个变量所包含的主要信息;v新变量各自带有独特的专业含义。第十八页,讲稿共五十页哦v对应m个变量的q个主成分(qm)xmaxaxazm1212111.1xmaxaxazm2222212.1xmaxaxazmmmmm.2211 PCA数学模型数学模型第十九页,讲稿共五十页哦
12、PCA解法及性质vCov(X )Av Var( Z1)vA Var( Z2) v v Var( Zm)求主成分实际上就是要求满足正交矩阵A即求随机变量X的协方差矩阵Cov(X )的特征根(eigenvalue)和特征向量(eigenvector)。第二十页,讲稿共五十页哦主成分的性质1)E(Zi)=0 2)var(Zi) =i - V(X)的特征值3)Var(Z1)var(Z2)var(Zk)4)var(Z1)+var(Zk)=k5)corr(Zi Zj )=06)corr(Zi, Xj )=ai j * (i )1/ 27)(ai1)2+(ai2)2+(aik)2=1第二十一页,讲稿共五十页
13、哦第三节 主成分分析的方法步骤v估计主成分;v确定主成分个数;v解释主成分意义;第二十二页,讲稿共五十页哦任务任务1 1:估计主成分:估计主成分estimate the principal componentsestimate the principal componentsv将指标变量标准化为X;v计算X的方差协方差矩阵Var(X);v计算矩阵Var(X)的特征值;v计算所有特征值对应的特征向量a。第二十三页,讲稿共五十页哦任务任务2 2:确定主成分的个数:确定主成分的个数determine the number of componentsdetermine the number of co
14、mponents1。根据主成分的累计贡献率来确定-原则:累计贡献率原则:累计贡献率70%-85%70%-85%2。根据特征值来确定-原则:特征值原则:特征值1 1第二十四页,讲稿共五十页哦任务任务3 3:解释主成分实际意义:解释主成分实际意义explain the real meaning of the componentsexplain the real meaning of the componentsva aijij表示第表示第j j个指标变量个指标变量X Xj j与第与第i i个主成分个主成分Z Zi i 的相关的相关程度,程度,|a|aijij| |值越大,说明值越大,说明X Xj
15、j对对Z Zi i 的贡献越大。的贡献越大。v用绝对值大的用绝对值大的a aijij对应的指标变量来解释新变量对应的指标变量来解释新变量Zi Zi 的综合意义。的综合意义。主成分主成分: Zi=ai1X1+aijXj+aikXk第二十五页,讲稿共五十页哦第四节第四节 主成分分析在医学中的应用主成分分析在医学中的应用v减少指标变量的个数v解决多重相关性问题These are frequently happened problems In the multivariate statistical analysis 第二十六页,讲稿共五十页哦总 结v用不相关的变量取代相关的变量;v合并变量信息、减少
16、变量个数。第二十七页,讲稿共五十页哦因子分析因子分析Factor AnalysisFactor Analysis第二十八页,讲稿共五十页哦第一节第一节 引言引言 因子分析(factor analysis)与主成分分析有很大的不同:n主成分分析不能作为一个模型来描述,它只是作为一般的变量变换,主成分是可观测的原始变量的线性组合;n因子分析需要构造一个因子模型,公共因子一般不能表示为原始变量的线性组合。第二十九页,讲稿共五十页哦因子分析的目的是,用几个不可观测的隐变量来解释原始变量间的协方差关系。例例: 林登(Linden)根据他收集的来自139名运动员的比赛数据,对第二次世界大战以来奥林匹克十项
17、全能比赛的得分作了因子分析研究。第三十页,讲稿共五十页哦100米跑铅球 跳高 400米跑 110米跨栏铁饼 撑杆跳远 标枪 1500米1x2x3x4x5x6x7x8x9x10 x这十项全能项目为:这十项全能项目为:1021,xxxX经标准化后做因子分析经标准化后做因子分析,十项得分基本可归结于十项得分基本可归结于:短跑速度短跑速度爆发性臂力爆发性臂力爆发性腿力爆发性腿力耐力耐力每一方面都称为一个因子每一方面都称为一个因子第三十一页,讲稿共五十页哦 十项得分与这四个因子之间的关系可以十项得分与这四个因子之间的关系可以描述为如下的因子模型:描述为如下的因子模型:10, 2 , 1,44332211
18、iefafafafaxiiiiiii 其中其中 表示四个因子,称为公共表示四个因子,称为公共因子(因子(common factor),), 称为称为 在因子在因子 上的载荷(上的载荷(loading),), 是是 的均值,的均值, 是是 不能被四个因子解释的部分,称为特殊因子。不能被四个因子解释的部分,称为特殊因子。4221,ffffijaixjfiixieix第三十二页,讲稿共五十页哦因子模型与线性回归模型的区别:因子模型与线性回归模型的区别: 回归模型中的自变量是可以被观测得到的,而因子模型中的 是不可观测的隐变量;再者,两个模型的参数意义也很不相同。4221,ffff第三十三页,讲稿共五
19、十页哦第二节第二节 因子模型因子模型设有 维可观测的随机向量 ,其均值为 ,协方差矩阵为 pTpxxx,21xTp,21ijpmpmppppmmmmefafafaxefafafaxefafafax221122222121221121211111因子分析的一般模型为因子分析的一般模型为一、数学模型一、数学模型第三十四页,讲稿共五十页哦用矩阵表示为eAf x 公共因子向量 为特殊因子向量 称为因子载荷矩阵因子载荷矩阵Tmffff,21Tp,21mpaAij:第三十五页,讲稿共五十页哦因子模型的性质因子模型的性质1、 的协方差矩阵的协方差矩阵 的分解的分解x2、模型不受单位的影响、模型不受单位的影响
20、3、因子载荷是不唯一的、因子载荷是不唯一的 第三十六页,讲稿共五十页哦三、因子载荷矩阵的统计意义三、因子载荷矩阵的统计意义1、 的元素的元素 原始变量原始变量 与公与公共因子共因子 之间的协方差函数之间的协方差函数Aijaixjf 若若 为各分量已标准化了的随机向量,则为各分量已标准化了的随机向量,则 与与 的相关系数的相关系数xixjf此时此时 表示表示 与与 之间的相关系数。之间的相关系数。ijaixjf第三十七页,讲稿共五十页哦2、 的行元素平方和的行元素平方和 公共因子对原始变量公共因子对原始变量 的方差贡献的方差贡献Amjijiah122ixpmpmpppmmmmfafafaxfaf
21、afaxfafafax2211222221212112121111第三十八页,讲稿共五十页哦 反映了公共因子对反映了公共因子对 的影响,可以看的影响,可以看成是公共因子对成是公共因子对 的方差贡献,称为共性方的方差贡献,称为共性方差(差(communality);而);而 是特殊因子是特殊因子 对对 的方差贡献,称为特殊方差(的方差贡献,称为特殊方差(specific variance)。)。ixixi2iix2ih122iih当当 为各分量已标准化了的随机向量时,为各分量已标准化了的随机向量时, ,此时有,此时有x1ii第三十九页,讲稿共五十页哦3、 的列元素平方和的列元素平方和 公共因子公
22、共因子 对对 的贡献的贡献Apiijjag122ifx其中其中mjagpiijj, 2 , 1,122pmpmpppmmmmfafafaxfafafaxfafafax2211222221212112121111 反映了公共因子反映了公共因子 对对 的影响,是衡量公共因子的影响,是衡量公共因子 重要性的一个尺重要性的一个尺度,可视为公共因子度,可视为公共因子 对对 的总方差贡献。的总方差贡献。2jgjfpxxx,21jfjfpxxx,21第四十页,讲稿共五十页哦v 计算原始数据计算原始数据x x的均值和方差,进行标准的均值和方差,进行标准化计算(处理);化计算(处理);v 求样本相关系数矩阵求样
23、本相关系数矩阵R=(rR=(rijij) );v 求相关系数矩阵的特征根求相关系数矩阵的特征根i i ( (1 1, ,2 2,p p0) 0) 表20-9和相应的标准正交的特征向量和相应的标准正交的特征向量l li i;第四十一页,讲稿共五十页哦因子分析提取因子的方法因子分析提取因子的方法v主成分法主成分法(principal component factorprincipal component factor)NoImage1,2,., ;1,2,.,ijj jialip jm 每一个公共因子的载荷系数之平方和等于对应的特征根,即该公共因子的方差。221pjijjiag第四十二页,讲稿共五
24、十页哦v极大似然法(maximum likelihood factor) 假定原变量服从正态分布,公共因子和特殊因子也服从正态分布,构造因子负荷和特殊方差的似然函数,求其极大,得到唯一解。第四十三页,讲稿共五十页哦v主因子法(principal factor) 设原变量的相关矩阵为R=(rij),其逆矩阵为R-1=(rij)。各变量特征方差的初始值取为逆相关矩阵对角线元素的倒数,i=1/rii。则共同度的初始值为(hi)2=1- i=1-1/rii。第四十四页,讲稿共五十页哦以以(h(hi i) )2 2代替相关矩阵中的对角线上的元素,得到代替相关矩阵中的对角线上的元素,得到约化相关矩阵。约化
25、相关矩阵。 (h(h1 1) )2 2 r r1212 r r1p1p r r2121 (h (h2 2) )2 2 r r2p2p R R= . . = . . . . . . . . . . r rp1p1 r rp2p2 (h (hp p) )2 2R R的前的前m m个特征根及其对应的单位化特征向量就是个特征根及其对应的单位化特征向量就是主因子解。主因子解。第四十五页,讲稿共五十页哦v迭代主因子法(iterated principal factor) 主因子的解很不稳定。因此,常以估计的共同度为初始值,构造新的约化矩阵,再计算其特征根及其特征向量,并由此再估计因子负荷及其各变量的共同度
26、和特殊方差,再由此新估计的共同度为初始值继续迭代,直到解稳定为止。第四十六页,讲稿共五十页哦v 累积贡献率累积贡献率=确定公共因子数;确定公共因子数;v 计算公共因子的共性方差计算公共因子的共性方差h hi i2 2 表表20-1220-12v 对载荷矩阵进行旋转,以求能更好地解对载荷矩阵进行旋转,以求能更好地解释公共因子;释公共因子;第四十七页,讲稿共五十页哦因子旋转因子旋转v目的:使因子负荷两极分化,要么接近于目的:使因子负荷两极分化,要么接近于0 0,要么接近于,要么接近于1 1。v常用的旋转方法:常用的旋转方法:第四十八页,讲稿共五十页哦(1 1)方差最大正交旋转)方差最大正交旋转(v
27、arimax orthogonal rotationvarimax orthogonal rotation)v基本思想:使公共因子的相对负荷(基本思想:使公共因子的相对负荷(l lijij/h/hi i2 2)的)的方差之和最大,且保持原公共因子的正交性和公方差之和最大,且保持原公共因子的正交性和公共方差总和不变。共方差总和不变。v可使每个因子上的具有最大载荷的变量数最小,可使每个因子上的具有最大载荷的变量数最小,因此可以简化对因子的解释。因此可以简化对因子的解释。第四十九页,讲稿共五十页哦(2 2)斜交旋转)斜交旋转(oblique rotationoblique rotation)v因子斜交旋转后,各因子负荷发生了较大变化,因子斜交旋转后,各因子负荷发生了较大变化,出现了两极分化。各因子间不再相互独立,而出现了两极分化。各因子间不再相互独立,而彼此相关。各因子对各变量的贡献的总和也发彼此相关。各因子对各变量的贡献的总和也发生了改变。生了改变。v适用于大数据集的因子分析。适用于大数据集的因子分析。第五十页,讲稿共五十页哦
限制150内