最新多元课件第七章精品课件.ppt
《最新多元课件第七章精品课件.ppt》由会员分享,可在线阅读,更多相关《最新多元课件第七章精品课件.ppt(114页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、北大数学学院北大数学学院2第七章第七章 主成分分主成分分析析目目 录录7.1 总体的主成分总体的主成分7.2 样本的主成分样本的主成分7.3 主成分分析的应用主成分分析的应用北大数学学院北大数学学院北大数学学院北大数学学院北大数学学院北大数学学院北大数学学院北大数学学院北大数学学院北大数学学院北大数学学院北大数学学院北大数学学院北大数学学院9第七章第七章 7.17.1总体的主成分总体的主成分什么是主成分什么是主成分 或者说或者说,若原变量包含有一定的信息若原变量包含有一定的信息,则则全体主成分包含与原变量相同的信息全体主成分包含与原变量相同的信息. 方差反映了变量取值的离散程度,方差方差反映了
2、变量取值的离散程度,方差大小表示了变量包含信息的多少大小表示了变量包含信息的多少. 第一主成分包含了尽可能多的信息第一主成分包含了尽可能多的信息, 不同的主成分包含的信息互不重复不同的主成分包含的信息互不重复; 第二主成分包含除第一主成分外剩余第二主成分包含除第一主成分外剩余信息中尽可能多的信息信息中尽可能多的信息; 其余主成分都有类似的性质其余主成分都有类似的性质.北大数学学院北大数学学院10第七章第七章 7.17.1总体的主成分总体的主成分主成分的定义主成分的定义 定义定义7.1.17.1.1 设设X=(=(X1,Xp)为为p维维随机向量随机向量. .称称 Zi= =aiX 为为X的第的第
3、i 主成分主成分( (i=1,2,=1,2,p),),如果如果: : aiai=1 (=1 (i=1,2,=1,2,p);); 当当i 1 1时时 aiaj=0 ( =0 ( j=1,=1,i-1); -1); Var( Var(Zi)= Max Var()= Max Var(X X).). =1,=1,aj =0( =0(j=1,=1,i-1)-1) 北大数学学院北大数学学院11第七章第七章 7.17.1总体的主成分总体的主成分主成分的几何意义主成分的几何意义 从代数学观点看主成分就是从代数学观点看主成分就是p个变量的一些个变量的一些特殊的线性组合特殊的线性组合,而从几何上看这些线性组合正而
4、从几何上看这些线性组合正是把是把X1,Xp构成的坐标系旋转产生的新坐标构成的坐标系旋转产生的新坐标系系,新坐标轴使之通过样本变差最大的方向新坐标轴使之通过样本变差最大的方向(或或者说具有最大的样本方差者说具有最大的样本方差). 设有设有n个观测个观测,每个观测有每个观测有p个变量个变量X1,Xp , 它们的综合指标它们的综合指标(主成分主成分)记为记为Z1 1,Zp . 当当p=2时原变量为时原变量为X1, X2.设设(X1, X2 )服从二元服从二元正态分布正态分布,则样品点则样品点X(i) =(xi1, xi2 ) (i=1,2,n)的的散布图散布图(见下面图形见下面图形)在一个椭圆内分布
5、着在一个椭圆内分布着.北大数学学院北大数学学院12第七章第七章 7.17.1总体的主成分总体的主成分主成分的几何意义主成分的几何意义 Z1Z2北大数学学院北大数学学院13第七章第七章 7.17.1总体的主成分总体的主成分主成分的几何意义主成分的几何意义 对于二元正态随机向量对于二元正态随机向量,n个点散布在一个椭个点散布在一个椭圆内圆内(当当X1, X2相关性越强相关性越强,这个椭圆就越扁这个椭圆就越扁). 若取椭圆的长轴为坐标轴若取椭圆的长轴为坐标轴Z1,椭圆的短轴为椭圆的短轴为Z2,这相当于在平面上作一个坐标变换这相当于在平面上作一个坐标变换,即按逆时针即按逆时针方向旋转一个角度方向旋转一
6、个角度a a, 根据旋转变换公式根据旋转变换公式,新老新老坐标之间有关系坐标之间有关系: Z1=Cos a aX1 1+ + Sin Sin a aX2 2 Z2= -Sin a aX1 1+ + Cos Cos a aX2 2Z1 Z2 是原变量是原变量X1 1和和X2 2 的特殊线性组合的特殊线性组合. .北大数学学院北大数学学院14第七章第七章 7.17.1总体的主成分总体的主成分主成分的几何意义主成分的几何意义 从图上可以看出二维平面上从图上可以看出二维平面上n个点的波动个点的波动(用二个变量的方差和表示用二个变量的方差和表示)大部分可以归结为大部分可以归结为在在Z1方向的波动方向的波
7、动,而在而在Z2 方向上的波动很小方向上的波动很小,可可以忽略以忽略.这样一来这样一来,二维问题可以降为一维了二维问题可以降为一维了,只只取第一取第一 个综合变量个综合变量Z1即可即可,而而Z1是椭圆的长轴是椭圆的长轴. 一般情况一般情况,p个变量组成个变量组成p维空间维空间,n个样品点个样品点就是就是p维空间的维空间的n个点个点.对于对于p元正态分布变量来元正态分布变量来说说,找主成分的问题就是找找主成分的问题就是找p维空间中椭球的主维空间中椭球的主轴问题轴问题.北大数学学院北大数学学院15第七章第七章 7.17.1总体的主成分总体的主成分主成分分析的内容主成分分析的内容 主成分分析的计算一
8、般是从原变量的协主成分分析的计算一般是从原变量的协差阵或相关矩阵出发进行差阵或相关矩阵出发进行,包含以下内容:包含以下内容: 1. 各主成分的构成各主成分的构成 ; 2. 各主成分的方差及其在总方差中所占的各主成分的方差及其在总方差中所占的比例比例(贡献率贡献率) ; 3. 每个观测在各个主成分下的得分值每个观测在各个主成分下的得分值; 4. 各主成分与原变量的相关性各主成分与原变量的相关性 .北大数学学院北大数学学院16第七章第七章 7.17.1总体的主成分总体的主成分主成分的求法主成分的求法 设设p维随机向量维随机向量X的均值的均值E(E(X)=0,)=0,协差阵协差阵D(D(X)=)=0
9、.0.由定义由定义7.1.1,7.1.1,求第一主成分求第一主成分Z1 1= = a1 1X的问题就是求的问题就是求a1 1=(=(a1111, ,a2121,ap1 1),),使得使得在在a1 1a1 1=1=1下下,Var(,Var(Z1 1) )达最大达最大. . 这是条件极值问题这是条件极值问题, ,用拉格朗日乘数法用拉格朗日乘数法. .令令 ( (a1 1)=Var()=Var(a1 1X)-()-(a1 1a1 1-1)-1) = = a1 1a1 1-(-(a1 1Ipa1 1-1),-1),由由(7.1.4)( (见附录见附录(8.3)(8.3)式式) )北大数学学院北大数学学
10、院17第七章第七章 7.17.1总体的主成分总体的主成分主成分的求法主成分的求法 因因a1 10,0,故故| |- -I|=0,|=0,求解求解(7.1.4),(7.1.4),其实就其实就是求是求的特征值和特征向量问题的特征值和特征向量问题. .设设=1是是的的最大特征值最大特征值, ,则相应的单位特征向量则相应的单位特征向量a1 1即为所求即为所求. . 一般地一般地, ,求求X的第的第i主成分就是求主成分就是求的第的第i大特征大特征值对应的单位特征向量值对应的单位特征向量. . 定理定理7.1.17.1.1 设设X=(=(X1,Xp)是是p维随机向维随机向量量, ,且且D(D(X)=,)=
11、,的特征值的特征值1 12 2p p ,a1 1, ,a2 2,ap为相应的单位正交特征向量为相应的单位正交特征向量, ,则则X的的第第i主成分为主成分为 Zi= = aiX ( (i=1,2,=1,2,p).).北大数学学院北大数学学院18第七章第七章 7.17.1总体的主成分总体的主成分回顾附录中回顾附录中定理定理7.2 定理定理7.2 设设B是是p阶对称阵阶对称阵,i=chi(B)是是B的第的第i大的特征值,大的特征值,li 是相应于是相应于i的的B的标准化特征向的标准化特征向量量(i1,p), x为任一非零为任一非零p维向量,那么有维向量,那么有)5 . 7() 1 (1xxBxxp右
12、边不等式的等号当右边不等式的等号当x=cl1时成立,左边不等式时成立,左边不等式的等号当的等号当x=clp时成立,这里时成立,这里c是非零常数是非零常数.北大数学学院北大数学学院19第七章第七章 7.17.1总体的主成分总体的主成分回顾附录中回顾附录中定理定理7.2 (2)记记2=(lr+1,lp ),即即2是由是由lr+1,lp 张成的空间张成的空间,则则 )6 . 7(max10+rxxxxBxx2且当且当x=clr+1 时达到最大值,这里时达到最大值,这里c非零常非零常数数.北大数学学院北大数学学院20第七章第七章 7.17.1总体的主成分总体的主成分定理定理7.1.1的证明的证明1 a
13、aaap定理定理7.1.1证明证明 因因为对称阵,利用附录为对称阵,利用附录中定理中定理7.2的结论的结论(1),可知对任意非零向量可知对任意非零向量a有有且最大值在且最大值在a=a1时达到时达到.故在故在a1a1 =1的约的约束条件下束条件下,使得使得11111)(Var)(VaraaXaZ达极大值达极大值.北大数学学院北大数学学院21第七章第七章 7.17.1总体的主成分总体的主成分定理定理7.1.1的证明的证明raaaaaa 0max 根据主成分的定义根据主成分的定义7.1.1,Z1= a1 X为为X的的第一主成分第一主成分. 对对r=2,3,p,记记r (ar,ap),利用利用附录中的
14、定理附录中的定理7.2的结论的结论(2)即得即得r且最大值在且最大值在a=ar时达到时达到.北大数学学院北大数学学院22第七章第七章 7.17.1总体的主成分总体的主成分定理定理7.1.1的证明的证明故在故在arar =1的约束条件下的约束条件下, ar 满足满足且使得且使得rrrrraaXaZ)(Var)(Var达极大值达极大值. 根据主成分的定义根据主成分的定义7.1.1,Zr= ar X为为X的第的第r主成分主成分. (证毕证毕) 1, 1(0rjaaaaaajrjjjrjr北大数学学院北大数学学院23第七章第七章 7.17.1总体的主成分总体的主成分定理定理7.1.1的推论的推论 设设
15、Z=(Z1, Z2 , Z p )为为p维随机向量,则维随机向量,则其分量其分量Zi (i=1,2, p) 依次是依次是X的第的第i主成分主成分的充分必要条件是:的充分必要条件是: Z=AX,A为正交阵;为正交阵; D(Z)=diag(1 , 2 , , p ),即随机向量,即随机向量Z的协差阵为对角阵;的协差阵为对角阵; 12p 0 . 北大数学学院北大数学学院24第七章第七章 7.17.1总体的主成分总体的主成分主成分的性质主成分的性质 主成分主成分Zi就是以就是以的单位特征向量的单位特征向量ai为系数的为系数的线性组合线性组合,它们互不相关它们互不相关,且方差且方差Var(Zi)= i
16、. 记记=(=(ij),=diag(),=diag(1 1, ,2 2,p p),), 其中其中1 12 2p p为为的特征值的特征值, , a1 1, ,a2 2,ap是相应的单位正交特征向量是相应的单位正交特征向量. .主成分向量主成分向量Z = (= (Z1 1,Zp), ), 其中其中 Zi= =aiX ( (i=1,2,=1,2,p) )总体主成分有如下性质总体主成分有如下性质: :北大数学学院北大数学学院25第七章第七章 7.17.1总体的主成分总体的主成分主成分的性质主成分的性质piipiii11 (1) (1) D(D(Z)=,)=,即即p个主成分的方差为:个主成分的方差为:
17、Var(Var(Zi)=)=i , ,且它们是互不相关且它们是互不相关 (2) (2) piii1通常称通常称 为原总体为原总体X的总方差的总方差,该性质说该性质说明原总体明原总体X的总方差可分解为不相关的主的总方差可分解为不相关的主成分的方差和成分的方差和.北大数学学院北大数学学院26第七章第七章 7.17.1总体的主成分总体的主成分主成分的性质主成分的性质 即即p个原变量所提供的总信息个原变量所提供的总信息( (总方差总方差) )的的绝大部分只须用前绝大部分只须用前m个主成分来代替。这说明个主成分来代替。这说明若前几个主成分集中了大部分信息,则后几个若前几个主成分集中了大部分信息,则后几个
18、主成分的方差都很小,包含的信息也很少主成分的方差都很小,包含的信息也很少. 在实际应用时就可用前面较少的几个主成分在实际应用时就可用前面较少的几个主成分来代替原来代替原p个变量来描述数据的变化个变量来描述数据的变化.且存在且存在miipiiipm11,使北大数学学院北大数学学院27第七章第七章 7.17.1总体的主成分总体的主成分主成分的性质主成分的性质), 2 , 1,(),(pikaXZiiikkik (3) (3)主成分主成分Zk与原始变量与原始变量Xi的相关系数的相关系数 证明证明 : Var(Xi) =ii Var(Zk) = k k Cov( Cov( Xi , ,Zk )=Cov
19、()=Cov(eiX, , ak X) ) = = ei ak = = ei (k k ak ) ) = = k k aik (ei是第是第i个元素为个元素为1,其余为其余为0的单位向量的单位向量)iiikkkiiikkikaaXZ),(北大数学学院北大数学学院28第七章第七章 7.17.1总体的主成分总体的主成分主成分的性质主成分的性质 常把主成分常把主成分Zk与原始变量与原始变量Xi的相关系数称为的相关系数称为因因子负荷量子负荷量( (或因子载荷量或因子载荷量).).利用因子载荷量利用因子载荷量, ,可对可对指标分类指标分类. .如果把主成分与原始变量的相关系数如果把主成分与原始变量的相关
20、系数列成表列成表7.17.1的形式,则由相关系数的公式,还可的形式,则由相关系数的公式,还可得出性质得出性质(4)(4)和和(5).(5).表表7.1北大数学学院北大数学学院29第七章第七章 7.17.1总体的主成分总体的主成分主成分的性质主成分的性质), 2 , 1(1),()4(12piXZpkik,AAAA 因因Xi也可表成也可表成Z1 1,Zp的线性组合的线性组合, ,且且 Z1 1, , Zp相互独立,由回归分析的知识相互独立,由回归分析的知识, , Xi 与与 Z1 1,Zp的的全相关系数的平方和等于全相关系数的平方和等于1 1,即表,即表7.17.1中每一行的平方中每一行的平方和
21、均为和均为1.1.事实上事实上,由由 故有故有. 1),(,),(12121211pkiiikkikpkpkikkipiipiiiaXZaaaaa即北大数学学院北大数学学院30第七章第七章 7.17.1总体的主成分总体的主成分主成分的性质主成分的性质 因因Zk可表成可表成X1 1,Xp的线性组合的线性组合, ,但但X1 1,Xp 一般有相关性,由一般有相关性,由Zk与与Xi的相的相关系数的公式,可得出表关系数的公式,可得出表7.17.1中中Zk对应的对应的每一列关于各变量方差的加权平方和为每一列关于各变量方差的加权平方和为k (即即Var(Var(Zk)=)=k).).北大数学学院北大数学学院
22、31第七章第七章 7.17.1总体的主成分总体的主成分主成分的贡献率主成分的贡献率 主成分分析的目的是为了简化数据主成分分析的目的是为了简化数据结构(即减少变量的个数)结构(即减少变量的个数), ,故在实故在实际应用中一般不用际应用中一般不用p个主成分个主成分, ,而选用而选用前前m( (mp) )个主成分个主成分. .m取多大取多大, ,这是这是一个很实际的问题一个很实际的问题. .为此为此, ,我们引进贡我们引进贡献率的概念献率的概念. .北大数学学院北大数学学院32第七章第七章 7.17.1总体的主成分总体的主成分主成分的贡献率主成分的贡献率 定义定义7.1.27.1.2 称称k / 1
23、 +. +m +p 为主成分为主成分Zk的贡献率的贡献率; ;又称又称 fm= = 1 +2 +. +m/ 1 +2 +. +m +p 为为 主成分主成分Z1 1,Zm( (mp) )的累计贡献率的累计贡献率. . 通常取通常取m, ,使累计贡献率达到使累计贡献率达到70%70%或或80%80%以上以上, ,累计贡献率的大小表达累计贡献率的大小表达m个主成分提取了个主成分提取了X1 1, , , ,Xp的多少信息的多少信息, ,但它没有表达某个变量被提取但它没有表达某个变量被提取了多少信息了多少信息, ,为此又引入另一个概念为此又引入另一个概念. .北大数学学院北大数学学院33第七章第七章 7
24、.17.1总体的主成分总体的主成分主成分的贡献率主成分的贡献率 定义定义7.1.37.1.3 前前m个主成分个主成分Z1 1,Zm 对对原变量原变量Xi的贡献率的贡献率i(m) 定义为定义为 Xi 与与Z1 1, , , ,Zm 的相关关系数的平方的相关关系数的平方, ,它等于它等于),(1212)(mkikmkiiikkmiXZa北大数学学院北大数学学院34第七章第七章 7.17.1总体的主成分总体的主成分主成分的贡献率主成分的贡献率-例子例子 例例7.1.1 7.1.1 设随机向量设随机向量X=(X1,X2,X3)的协差阵为的协差阵为1 -2 0-2 5 00 0 2=试求试求X的主成分及
25、其对变量的主成分及其对变量Xi的贡献率的贡献率i(i=1,2,3). 解解 的特征值为的特征值为 1=3+ 81/2, 2=2, 3=3-81/2.由相应标准化特征向量可得出主成分由相应标准化特征向量可得出主成分:北大数学学院北大数学学院35第七章第七章 7.1 7.1 总体的主成分总体的主成分主成分的贡献率主成分的贡献率-例子例子 Z1=0.383 X1-0.924X2 , Z2= X3 (X3本身就是一个主分量,它与本身就是一个主分量,它与X1,X2不相关不相关), Z3=0.924X1+0.383 X2.当取当取m=1=1或或m=2=2时时, ,主成分主成分对对X的贡献率可达的贡献率可达
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 最新 多元 课件 第七 精品
限制150内