《主成分分析》PPT课件 (2).ppt
《《主成分分析》PPT课件 (2).ppt》由会员分享,可在线阅读,更多相关《《主成分分析》PPT课件 (2).ppt(57页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、主成分分析主成分分析宁波大学商学院综合得分:引言引言变量太多会增加计算的复杂性变量太多给分析问题和解释问题带来困难变量提供的信息在一定程度上会有所重叠用为数较少的互不相关的新变量来反映原变量所提供的绝大部分信息引言引言总体主成分总体主成分设 为某实际问题所涉及的 个随机变量。记 ,其协方差矩阵为 它是一个 阶负定矩阵。设 为 个常数向量,考虑如下线性组合:总体主成分总体主成分易知有 我们希望用 代替原来 个变量 ,这就要求 尽可能地反映原来 个变量的信息。这里用方差来度量。即要求 达到最大。对任意常数 ,若取 ,则 。总体主成分总体主成分 因此,必须对 加以限制,否则 无界。最方便的限制是要求
2、 具有单位长度,即我们在约束条件 之下,求 使 达到最大,因此 所确定的随机变量 称为 的第一主成分。总体主成分总体主成分如果第一主成分 还不足以反映原变量的信息,进一步求 。在约束条件 求使 达到最大。第二主成分第二主成分:依次类推 总体主成分的求法总体主成分的求法设 是 的协方差矩阵,的特征值及相应的正交单位化特征向量分别为 及 ,则 的第 个主成分为 其中 。易见:事实上,令 ,则 为一正交矩阵,且总体主成分的求法总体主成分的求法设 为X的第一主成分,其中 。令 则 并且当 时,等号成立。这时 总体主成分的求法总体主成分的求法在约束条件 下,当 时,达到最大,且 设 为X的第二主成分,则
3、有 即有 且 总体主成分的求法总体主成分的求法令 则有 从而 并且当 ,即 时,。由此知,当 时,满足 ,且使 达到最大。总体主成分的性质总体主成分的性质主成分的协方差矩阵及总方差 记 为主成分向量,则 ,其中 ,且 由此得主成分的方差为总体主成分的性质总体主成分的性质第 个主成分 的贡献率:前 个主成分的累计贡献率:总体主成分的性质总体主成分的性质主成分 与变量 的相关系数 由于 ,故 ,从而 由此可得 与 的相关系数为各主成分与原始变量间的相关各主成分与原始变量间的相关系数系数原变量主成分例例4.14.1设随机变量 的协方差矩阵为 求 的各主成分。解解 易求得 的特征值及相应的正交单位化特
4、征向量分别为例例4.14.1因此 的主成分为 如果我们只取第一主成分,则贡献率为 若取前两个主成分,则累计贡献率为例例4.14.1进一步可求得前两个主成分与各原始变量的相关系数 同理,可求得 即 与 ,高度相关而与 不相关;与 ,以概率1呈完全线性关系。标准化变量的主成分标准化变量的主成分在实际问题中,不同的变量往往有不同的量纲,由于不同的量纲会引起各变量取值的分散程度差异较大,这时总体方差则主要受方差较大的变量的控制。若用 求主成分,则优先照顾了方差大的变量,有时会造成很不合理的结果。为了消除由于量纲的不同带来的影响,常采用变量标准化的方法,即令 其中 。标准化变量的主成分标准化变量的主成分
5、这时,的协方差矩阵便是 的相关矩阵 ,其中 利用 的相关矩阵 作主成分分析,可以得到如下结论:标准化变量的主成分标准化变量的主成分设 为标准化的随机向量,其协方差矩阵(即 的相关矩阵)为 ,则 的第 个主成分为 并且 其中 为 的特征值,为相应于特征值 的正交单位化特征向量 。这时,第 个主成分的贡献率为 ,前 个主成分的累计贡献率为 ,与 的相关系数为例例4.24.2设 的协方差矩阵为 相应的相关矩阵为 分别从 和 出发,作主成分分析。例例4.24.2解解 如果从 出发作主成分分析,易求得其特征值和相应的正交单位化特征向量为 的两个主成分分别为 第一主成分的贡献率为例例4.24.2 与 ,的
6、相关系数分别是 我们可以看到,由于 的方差很大,它完全控制了提取信息量占99.2的第一主成分(在 中的系数为0.999),淹没了变量 的作用。如果从 出发求主成分,可求得其特征值和相应的正交单位化特征向量为例例4.24.2 的两个主成分分别为 此时,第一个主成分的贡献率有所下降,为 注:当涉及的各变量的变化范围差异较大时,从 出发求主成分比较合理。样本主成分样本主成分设 为取自 的一个容量为 的简单随机样本,则样本协方差矩阵及样本相关矩阵分别为 其中样本主成分样本主成分设 是样本协方差矩阵,其特征值为 相应的正交单位化特征向量为 ,这里 。则第 个样本主成分为 其中 为X的任一观测值。当依次代
7、入X的n个观测值 时,便得到第i个样本主成分 的n个观测值 ,我们称为第i个主成分的得分得分。有样本主成分样本主成分第 个样本主成分的贡献率定义为 ,前 个样本主成分的累计贡献率定义为 。样本主成分样本主成分同样,为了消除量纲的影响,我们可以对样本进行标准化,即令 则标准化数据的样本协方差矩阵即为原数据的样本相关矩阵 。由 出发所求得的样本主成分称为标准化样本主成分。只要求出 的特征值及相应的正交单位化特征向量,类似上述结果可求得标准化样本主成分。这时标准化样本总方差为 。样本主成分样本主成分实际应用中,将样本 代入各主成分 中,可得到各样本主成分的观测值 原变量主成分12序号 PROC PR
8、INCOMP可对输入资料文件做主成分分析输入资料文件可以是原始数据、相关系数矩阵或样本协方差矩阵等输出包括相关矩阵或协方差矩阵、特征值、特征向量及标准化的主成分值等PROC PRINCOMPProc princomp 选项串;var 变量名称串;partial 变量名称串;freq 变量名称串;weight 变量名称串;by 变量名称串;PROC PRINCOMPProc princomp options;data=sas data set:指出要分析的sas数据集名称。这个数据集可以是原始观测值的sas数据集,也可以是相关矩阵(typecorr)或协方差矩阵(typecov)。若省略数据集选
9、项,则自动使用最新建立的sas数据集。PROC PRINCOMPProc princomp options;outsas data set:命名一个输出的sas数据集,其中包含原始数据以及各主成分的得分(即各主成分的观测值)。outstatsas data set:命名一个包含各变量的均值、标准差、相关矩阵或协方差矩阵、特征值和特征向量的输出sas数据集。PROC PRINCOMPProc princomp options;covariance(或COV):要求从协方差矩阵出发作主成分分析。若省略此选项,则从相关矩阵出发进行分析。除非各变量的度量单位是可比较的或已经过某种方式的标准化,否则不宜
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 主成分分析 主成分分析PPT课件 2 成分 分析 PPT 课件
限制150内