主成分分析法课件.ppt
《主成分分析法课件.ppt》由会员分享,可在线阅读,更多相关《主成分分析法课件.ppt(37页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、关于主成分分析法现在学习的是第1页,共37页4.1 主成分分析法的基本原理主成分分析法的基本原理 主成分分析(Principal Components Analysis)是由Hotelling于1933年首先提出的,它是利用降维的思想,把多指标转化为少数几个综合指标的多元统计分析方法。现在学习的是第2页,共37页4.1.1 基本思想基本思想 对原始变量相关矩阵结构关系进行研究,找出影响某一经济过程的几个综合指标,使综合指标变为原来变量的线性组合,从而不仅保留了原始变量的主要信息,彼此之间又不相关,更有助于抓住主要矛盾。现在学习的是第3页,共37页 借助于一个正交变换T,将其分量相关的原随机向量
2、x=(x1,x2,L,xp)T,转化成其分向量不相关的新随机向量u=(u1,u2,L,up)T ,这在代数上表现为将x的协方差阵变换成对角形阵,在几何上表现为将远坐标系变换成新的正交坐标系,使之指向样本点散布最开的p个正交方向,然后对多维变量系统进行降维处理,使之能以一个较高的精度转换成低维度变量系统,再通过构造适当的价值函数,进一步把低维系统转化成一维系统。现在学习的是第4页,共37页 定义: 称为第k主成分分量的方差贡献率, 称为前k个主成分分量的累计方差贡献率。 11pkii111pkiiii现在学习的是第5页,共37页 例:儿童身高和体重两个变量之间的关系。下表表示儿童身高与体重数据
3、: 变量观测量身高h体重w1h1w12h2w23h3w3nhnwn现在学习的是第6页,共37页使用散点图表示儿童身高与体重 y1y2 wh i=1,2,n 现在学习的是第7页,共37页 以该直线为一个坐标轴y1,以该轴的垂直线为另一个坐标轴y2。因为所有观测点均在坐标轴y1周围,而 y1 与 y2 是两个相互垂直的坐标轴,因此彼此不相关。 上述也可以看成是将h轴和w轴同时按逆时针方向旋转角度,得到新的坐标轴y1和 y2 ,y1和 y2是两个新的变量。现在学习的是第8页,共37页 根据旋转公式 y1=h cos+ w sin y2=-h sin+ w cos 我们看到新变量 y1和 y2 是原变
4、量h和w的线性组合,它的矩阵表示形式为 y1 cos sin h = =Ux y2 一sin cos w其中其中U为正交矩阵,即有为正交矩阵,即有U=U-1,U U-1=I现在学习的是第9页,共37页 旋转变换的目的是为了使得n个样本点在 y1 轴方向上的离散程度最大,即 y1的方差最大。变量 y1 代表了原始数据的绝大部分信息,即把原始数据的信息集中到 y1轴上,对数据中包含的信息起到了浓缩作用。 y1和 y2 可称为原始变量h和w的综合变量。由于n个点在 y1 轴上的方差最大,因而将二维空间的点的描述用 y1这个综合变量来代替,所损失的信息最小,由此称 y1 为第一主成分,y2为第二主成分
5、。 现在学习的是第10页,共37页 4.1.2 主成分分析法与因子分析法主成分分析法与因子分析法 主成分分析通过线性组合将原变量综合主成分分析通过线性组合将原变量综合成几个主成分,用较少的综合指标来代替原成几个主成分,用较少的综合指标来代替原来较多的指标来较多的指标(变量变量)。在多变量分析中,某些。在多变量分析中,某些变量间往往存在相关性。是什么原因使变量变量间往往存在相关性。是什么原因使变量间有关联呢?是否存在不能直接观测到的、间有关联呢?是否存在不能直接观测到的、但影响可观测变量变化的公共因子?但影响可观测变量变化的公共因子? 因子分析法因子分析法(Factor Analysis)就是寻
6、找就是寻找这些公共因子的模型分析方法,它是在主成这些公共因子的模型分析方法,它是在主成分的基础上构筑若干意义较为明确的公因子,分的基础上构筑若干意义较为明确的公因子,以它们为框架分解原变量,以此考察原变量以它们为框架分解原变量,以此考察原变量间的联系与区别。间的联系与区别。现在学习的是第11页,共37页 4.1.2 主成分分析法与因子分析法主成分分析法与因子分析法 例如,随着年龄的增长,儿童的身高、体重会随着变化,具有一定的相关性,身高和体重之间为何会有相关性呢?因为存在着一个同时支配或影响着身高与体重的生长因子。那么,我们能否通过对多个变量的相关系数矩阵的研究,找出同时影响或支配所有变量的共
7、性因子呢?因子分析就是从大量的数据中“由表及里”、“去粗取精”,寻找影响或支配变量的多变量统计方法。 可以说,因子分析是主成分分析的推广,也是一种把多个变量化为少数几个综合变量的多变量分析方法,其目的是用有限个不可观测的隐变量来解释原始变量之间的相关关系。 因子分析主要用于:1、减少分析变量个数;2、通过对变量间相关关系探测,将原始变量进行分类。即将相关性高的变量分为一组,用共性因子代替该组变量。现在学习的是第12页,共37页现在学习的是第13页,共37页现在学习的是第14页,共37页 4.2 主成分分析的一般数学模型主成分分析的一般数学模型 变量观测量X1X2X3X4Xm1X11X12X13
8、X14X1m2X21X22X23X24X2mnXn1Xn2Xn3Xn4Xnm 推广到一般情况,实测变量X1Xm,共测得n个样品 :现在学习的是第15页,共37页原始数据矩阵为 : X11 X12 X1m X21 X22 X2m Xn1 Xn2 XnmX= 现在学习的是第16页,共37页 在原始变量的m维空间中,找到新的m个坐标轴,新变量与原始变量的关系可以表示为:y1=u11x1+u12x2+ +u1mxmy2=u21x1+u22x2+ +u2mxm ym=um1x1+um2x2+ +ummxm 并且满足uk12 + uk22 + + ukm2=1 k=1,2, ,m现在学习的是第17页,共3
9、7页系数uij由下列原则来确定: (1)yi与yj (i j, i, j=1,2, ,p)相互无关。 (2)y1是x1、x2、xp的一切线性组合中方差最大者; y2是与y1不相关的x1、x2、xp的所有线性组合中方差最大者; yp是与y1、y2、yp-1都不相关的x1、x2、xp的所有线性组合中方差最大者。 如此决定的综合变量y1、y2、yp分别称为原始变量的第1、第2、第p个主成分。其中y1在总方差中占的比重最大,综合变量y1、y2、yp的方差依次递减,在具体分析时只挑选前几个方差最大的主成分,从而达到简化系统结构的目的。现在学习的是第18页,共37页4.3 主成分分析法的算法主成分分析法的
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 成分 分析 课件
限制150内