主成分分析完整版讲稿.ppt
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_05.gif)
《主成分分析完整版讲稿.ppt》由会员分享,可在线阅读,更多相关《主成分分析完整版讲稿.ppt(28页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、第一页,讲稿共二十八页哦主成分分析的基本思想主成分分析的基本思想主成分的计算主成分的计算主成分分析的应用主成分分析的应用第二页,讲稿共二十八页哦主成分分析的基本思想主成分分析的基本思想 主成分分析就是把原有的多个指标转化成少数几个代表性主成分分析就是把原有的多个指标转化成少数几个代表性较好的综合指标,这少数几个指标能够反映原来指标较好的综合指标,这少数几个指标能够反映原来指标大部分大部分的的信息(信息(85%以上以上),并且各个指标之间保持独立,避免出),并且各个指标之间保持独立,避免出现重叠信息。主成分分析主要起着现重叠信息。主成分分析主要起着降维降维和和简化数据结构简化数据结构的作的作用。
2、用。1 1 基本思想基本思想第三页,讲稿共二十八页哦 主成分分析是把各变量之间互相关联的复杂关系进行简化分析的主成分分析是把各变量之间互相关联的复杂关系进行简化分析的方法。方法。 在社会经济的研究中,为了全面系统的分析和研究问题,必须考虑许多在社会经济的研究中,为了全面系统的分析和研究问题,必须考虑许多经济指标,这些指标能从不同的侧面反映我们所研究的对象的特征,但在经济指标,这些指标能从不同的侧面反映我们所研究的对象的特征,但在某种程度上存在信息的重叠,具有一定的相关性。某种程度上存在信息的重叠,具有一定的相关性。 主成分分析试图在力保数据信息丢失最少的原则下,对这种多变主成分分析试图在力保数
3、据信息丢失最少的原则下,对这种多变量的截面数据表进行最佳综合简化,也就是说,量的截面数据表进行最佳综合简化,也就是说,对高维变量空间进对高维变量空间进行降维处理。行降维处理。 很显然,识辨系统在一个低维空间要比在一个高维空间容易得多。很显然,识辨系统在一个低维空间要比在一个高维空间容易得多。第四页,讲稿共二十八页哦基于相关系数矩阵基于相关系数矩阵/协方差矩阵做主成分分析?协方差矩阵做主成分分析?选择几个主成分?选择几个主成分?如何解释主成分所包含的实际意义?如何解释主成分所包含的实际意义? 在力求数据信息丢失最少的原则下,对高维的变量空间降维,即在力求数据信息丢失最少的原则下,对高维的变量空间
4、降维,即研究指标体系的少数几个线性组合,并且这几个线性组合所构成的研究指标体系的少数几个线性组合,并且这几个线性组合所构成的综合指标将尽可能多地保留原来指标变异方面的信息。这些综合指综合指标将尽可能多地保留原来指标变异方面的信息。这些综合指标就称为主成分。标就称为主成分。要讨论的问题是:要讨论的问题是:第五页,讲稿共二十八页哦2 2 数学模型与几何解释数学模型与几何解释 假设我们所讨论的实际问题中,有假设我们所讨论的实际问题中,有p个指标,我们把这个指标,我们把这p个指标看个指标看作作p个随机变量,记为个随机变量,记为X1,X2,Xp,主成分分析就是要把这,主成分分析就是要把这p个个指标的问题
5、,转变为讨论指标的问题,转变为讨论 m 个新的指标个新的指标F1,F2,Fm(mp),按),按照保留主要信息量的原则充分反映原指标的信息,并且相互独立。照保留主要信息量的原则充分反映原指标的信息,并且相互独立。 npnnppXXXXXXXXXX212222111211 pXXX21 niiiiXXXX21其中其中第六页,讲稿共二十八页哦ppppppppppXaXaXaFXaXaXaFXaXaXaF 22112222112212211111 这种由讨论这种由讨论多个指标多个指标降为降为少数几个少数几个综合指标的过程在数学上就叫做综合指标的过程在数学上就叫做降降维维。主成分分析通常的做法是,。主成
6、分分析通常的做法是,寻求原指标的线性组合寻求原指标的线性组合Fi。满足如下的条件:满足如下的条件:122221 piiiaaapjijiFFCovji,),(210 )()(21pFVarFVarFVar )(主成分之间相互独立,即无重叠的信息。即主成分之间相互独立,即无重叠的信息。即主成分的方差依次递减,重要性依次递减,即主成分的方差依次递减,重要性依次递减,即每个主成分的系数平方和为每个主成分的系数平方和为1。即。即第七页,讲稿共二十八页哦2x2x1F2F主成分分析的几何解释主成分分析的几何解释旋转坐标轴旋转坐标轴 2121212211cossinsincoscossinsincosxxF
7、FxxFxxF 旋转变换的目的是为了使得旋转变换的目的是为了使得n个样本点个样本点在在F1轴方向上的离散程度最大,即轴方向上的离散程度最大,即F1的方差最大,变量的方差最大,变量F1代表了原始数据的代表了原始数据的绝大部分信息,在研究某经济问题时,即绝大部分信息,在研究某经济问题时,即使不考虑变量使不考虑变量F2也损失不多的信息。也损失不多的信息。F1与与F2除起了浓缩作用外,还具有除起了浓缩作用外,还具有不相关性。不相关性。F1称为第一主成分,称为第一主成分,F2称为第二主成称为第二主成分。分。第八页,讲稿共二十八页哦先讨论二维情形先讨论二维情形212122211211XXXXXXXXXnn
8、求第一主成分求第一主成分F1和和F2。21,xx 我们已经把主成分我们已经把主成分F1和和F2 的坐标原点放在平的坐标原点放在平均值均值 所在处,从而使得所在处,从而使得F1和和F2 成为中心化的成为中心化的变量,即变量,即F1和和F2 的样本均值都为零。的样本均值都为零。第九页,讲稿共二十八页哦因此F1可以表示为)()(222111111xxaxxaF),(2111aa关键是,寻找合适的单位向量 ,使F1的方差最大。1问题的答案是:X的协方差矩阵S 的最大特征根 所对应的单位特征向量即为 。并且 就是F1的方差。2111,aa1第十页,讲稿共二十八页哦同样,同样,F2可以表示为可以表示为)(
9、)(222211122xxaxxaF),(2212aa寻找合适的单位向量寻找合适的单位向量 ,使,使F2与与F1独立,且使独立,且使F2的方差(除的方差(除F1之外)最大。之外)最大。2问题的答案问题的答案是:是:X的协方差矩阵的协方差矩阵S 的第二大特征根的第二大特征根 所所对应的单位特征向量即为对应的单位特征向量即为 。并且。并且 就是就是F2的的方差。方差。2212,aa2第十一页,讲稿共二十八页哦)()(222111111xxaxxaF)()(222211122xxaxxaF其中,其中,aij称为因子载荷量称为因子载荷量因子载荷量:主成分与变量间的相关系数,因子载荷量:主成分与变量间的
10、相关系数,即:因子载荷量的大小和它前面的正负号直接反映了即:因子载荷量的大小和它前面的正负号直接反映了主成分与相应变量之间关系的密切程度和方向。从而可以说明主成分与相应变量之间关系的密切程度和方向。从而可以说明各主成分的意义各主成分的意义第十二页,讲稿共二十八页哦求解主成分的步骤:求解主成分的步骤:1. 求样本均值求样本均值 和样本协方差矩阵和样本协方差矩阵S;),(21xxX 2. 求求S的特征根的特征根求解特征方程求解特征方程 ,其中,其中I是单位矩阵,解得是单位矩阵,解得2个特征根个特征根 0 IS2121,3. 求特征根所对应的单位特征向量求特征根所对应的单位特征向量4. 写出主成分的
11、表达式写出主成分的表达式)()(222111111xxaxxaF)()(222211122xxaxxaF第十三页,讲稿共二十八页哦身高身高x1(cm)胸围胸围x2(cm)体重体重x3(kg)149.5162.5162.7162.2156.5156.1172.0173.2159.5157.769.577.078.587.574.574.576.581.574.579.038.555.550.865.549.045.551.059.543.553.5例例1 下表是下表是10位学生的身高位学生的身高1x、胸围、胸围2x、体重、体重3x的数据。的数据。对此进行主成分分析。对此进行主成分分析。 第十四页
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 成分 分析 完整版 讲稿
![提示](https://www.taowenge.com/images/bang_tan.gif)
限制150内