数理统计12主成分分析.ppt
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_05.gif)
《数理统计12主成分分析.ppt》由会员分享,可在线阅读,更多相关《数理统计12主成分分析.ppt(42页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、第七章第七章 主成分分析与因子分析主成分分析与因子分析 多元问题的复杂性:指标多元问题的复杂性:指标(变量变量)多多,指标间存在相关性。指标间存在相关性。问题问题能否构造出一些综合指标使满足如下条件能否构造出一些综合指标使满足如下条件 指标个数尽可能少,指标个数尽可能少,指标间相互独立,指标间相互独立,尽可能多地包含原指标所含的关于总体的信息。尽可能多地包含原指标所含的关于总体的信息。例如例如做一件上衣要测量的指标有做一件上衣要测量的指标有身长、袖长、胸围、身长、袖长、胸围、腰围、肩宽、肩厚等等十几项指标。某服装厂生产一批新腰围、肩宽、肩厚等等十几项指标。某服装厂生产一批新型服装,需将十几项指
2、标综合为型服装,需将十几项指标综合为3 3项指标项指标(分别反应长度、分别反应长度、胖瘦、特体胖瘦、特体),用作分类的型号。,用作分类的型号。7.1 主成分分析主成分分析 主成分(主分量主成分(主分量)分析是将原来众多分析是将原来众多具有相关性的指标化为少数几个相互独具有相关性的指标化为少数几个相互独立的综合指标的一种统计方法。立的综合指标的一种统计方法。化高维为低维化高维为低维 降维降维 化相关为独立化相关为独立 追源追源1、主成分的求法、主成分的求法设设 为为 维随机向量,维随机向量,那么如何将这那么如何将这 个指个指标综合成很少的几个指标标综合成很少的几个指标且要尽可能反映原来指标的作用
3、,又彼此不相且要尽可能反映原来指标的作用,又彼此不相关呢?一个自然的方法是寻找指标关呢?一个自然的方法是寻找指标的一个综合指标的一个综合指标 线性组合。线性组合。我们先来考虑第一个综合指标我们先来考虑第一个综合指标其中其中 是待定的常向量。现在的任务是选取适是待定的常向量。现在的任务是选取适当当 的使得的使得 最大限度地反映原来指标用,最大限度地反映原来指标用,这就相当于要求这就相当于要求 要有尽可能大的方差,即选要有尽可能大的方差,即选取取 使得使得尽可能地大。尽可能地大。说明说明 是是 的无界函数。的无界函数。然而不能通过加大向量然而不能通过加大向量 的长度使的长度使 的方差变的方差变因为
4、对任意的常数因为对任意的常数 ,有,有因此如果对因此如果对 不加不加大,大,即只要即只要 变长变长 倍,相应的方差就扩大倍,相应的方差就扩大 倍,也倍,也限制,问题就会变得毫无意义。限制,问题就会变得毫无意义。一个自然的限一个自然的限制是令制是令即要求即要求 是单位向量。是单位向量。问题变为:问题变为:在在 的条件下,求使的条件下,求使达到最大的达到最大的 。定理定理1设总体设总体 的均值和协方差阵分别为的均值和协方差阵分别为是总体是总体 的的 个指标,令个指标,令其中其中 ,则使得,则使得 的方差的方差和和达到最大的达到最大的 正好是矩阵正好是矩阵 的最大特征根的最大特征根 所所对应的特征向
5、量。对应的特征向量。证明证明用用Lagrange乘数法来证明。令乘数法来证明。令则有则有令令可得可得这样就有这样就有由于由于根据克莱姆法则知,上述齐次线性根据克莱姆法则知,上述齐次线性方程有非零解的充要条件是系数行列式为零,方程有非零解的充要条件是系数行列式为零,即即这说明这说明 是矩阵是矩阵 的特征根,且由的特征根,且由 可知可知是对应于是对应于 特征根特征根 的特征向量。的特征向量。又由又由可知欲使可知欲使 的方差的方差 最大,只要取最大,只要取为的最大特征根即可,这样为的最大特征根即可,这样 就是对应的单就是对应的单位特征向量。位特征向量。第一个综合指标为第一个综合指标为其中其中 是的对
6、应于矩阵是的对应于矩阵 最大特征值最大特征值 的单位的单位特征向量,称特征向量,称 为为第一主成分第一主成分。若协方差矩阵若协方差矩阵 即是非负定的,由矩阵论即是非负定的,由矩阵论知它有知它有 个非负的特征根,不妨设为个非负的特征根,不妨设为 是对应的是对应的 个特征向量。个特征向量。自然自然 应为应为 的第二大特征根的第二大特征根 所对应的单位所对应的单位特征向量,并称特征向量,并称 为为第二主成分第二主成分。类似地,第二个综合指标可以取为类似地,第二个综合指标可以取为重复以上过程,可得重复以上过程,可得 的第的第 个综合指标个综合指标称为称为 的的第第 个主成分个主成分。总之,我们可得到总
7、之,我们可得到 个主成分个主成分且且其中其中 是协方差阵是协方差阵 的非零特征根并的非零特征根并有有而而 是是对应的单位特征向量。对应的单位特征向量。若用矩阵可表示如下若用矩阵可表示如下其中其中且且即矩阵即矩阵 是行正交矩阵。是行正交矩阵。因此,主成分分析也可以看作是对原来因此,主成分分析也可以看作是对原来的的 个指标个指标 进行了一次正交变进行了一次正交变换换而得到而得到 个互不相关的综合指标,即主个互不相关的综合指标,即主成分成分寻找总体寻找总体 的主成分就转化为求的主成分就转化为求 的协差阵的协差阵 的特征值和相应的单位特征向量问题。的特征值和相应的单位特征向量问题。求主成分的步骤:求主
8、成分的步骤:1.求求 的协方差阵的协方差阵 的特征值,记为的特征值,记为2.求求 对应的单位特征向量对应的单位特征向量3.获得第获得第 个主成分个主成分在实际应用时,经常会遇到在实际应用时,经常会遇到 个指标的量个指标的量纲不尽相同,或取值差异很大的问题,处理纲不尽相同,或取值差异很大的问题,处理的一般方法是先将各指标进行标准化,即的一般方法是先将各指标进行标准化,即 的协差阵为的协差阵为即为相关矩阵即为相关矩阵其中其中求求 的主成分就是求的主成分就是求 的特征值和相应的特征值和相应的单位特征向量,然后可得的单位特征向量,然后可得 的分量的线性的分量的线性组合,即为所求的主成分。组合,即为所求
9、的主成分。2主成分的几何意义主成分的几何意义3、贡献率和主成分的解释、贡献率和主成分的解释构造综合指标的目的是想用尽可能少的主构造综合指标的目的是想用尽可能少的主成分成分来代替原有的来代替原有的 个指标,个指标,且能对原始资料所具有的意义做出合理的解释。且能对原始资料所具有的意义做出合理的解释。那么到底应该选择多少主成分才合理呢?下面那么到底应该选择多少主成分才合理呢?下面就来讨论总体主成分个数的选取问题,对样本就来讨论总体主成分个数的选取问题,对样本主成分也有类似的分析。主成分也有类似的分析。设设 维总体维总体 的协方差阵为的协方差阵为的第的第 个主成分为个主成分为由于这些主成分由于这些主成
10、分 时互不相关的,因时互不相关的,因此有此有这说明这说明 的的“总方差总方差”(即个分量的方差之和即个分量的方差之和)等于等于 个互不相关的随机变量个互不相关的随机变量 的方的方差之和,其中差之和,其中 具有最大的方差具有最大的方差 ,次之且次之且有方差有方差具有最小方差具有最小方差这样主成这样主成分依次集中了分依次集中了 各分量的变化的主要部分,第各分量的变化的主要部分,第一主成分一主成分 的方差最大,即是以变化最大的方的方差最大,即是以变化最大的方向向量为系数所得到的线性函数作为向向量为系数所得到的线性函数作为比值比值表明了方差表明了方差 在在“全部方差全部方差”中所占的比重,中所占的比重
11、,显显然这个比值越大,表明然这个比值越大,表明 这个变量这个变量“综合综合”原始原始资料资料 的能力越强。通常称这个比值的能力越强。通常称这个比值为第一主成分的贡献率。类似地称为第一主成分的贡献率。类似地称为第为第 个主成分的贡献率。而称个主成分的贡献率。而称为前为前 个主成分的累计贡献率。个主成分的累计贡献率。这就是说,贡献率约达,则对应的主成分这就是说,贡献率约达,则对应的主成分反映反映 的能力就越强,反之则弱。因此,在实的能力就越强,反之则弱。因此,在实用常常略去那些贡献率小的主成分。经验指出:用常常略去那些贡献率小的主成分。经验指出:一般要求前一般要求前 个主成分的累计贡献率超过个主成
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数理统计 12 成分 分析
![提示](https://www.taowenge.com/images/bang_tan.gif)
限制150内