主成分分析法精华讲义及其实例.doc
《主成分分析法精华讲义及其实例.doc》由会员分享,可在线阅读,更多相关《主成分分析法精华讲义及其实例.doc(10页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、.*主成分分析类型:一种处理高维数据的方法。降维思想:在实际问题的研究中,往往会涉及众多有关的变量。但是,变量太多不但会增加计算的复杂性,而且也会给合理地分析问题和解释问题带来困难。一般说来,虽然每个变量都提供了一定的信息,但其重要性有所不同,而在很多情况下,变量间有一定的相关性,从而使得这些变量所提供的信息在一定程度上有所重叠。因而人们希望对这些变量加以“改造”,用为数极少的互补相关的新变量来反映原变量所提供的绝大部分信息,通过对新变量的分析达到解决问题的目的。一、总体主成分1.1 定义设 X1,X2,Xp 为某实际问题所涉及的 p 个随机变量。记X=(X1,X2,,Xp)T,其协方差矩阵为
2、 它是一个 p 阶非负定矩阵。设 (1)则有 (2)第 i 个主成分:一般地,在约束条件 及下,求 li 使 Var(Yi)达到最大,由此 li 所确定的 称为 X1,X2,Xp 的第 i 个主成分。1.2 总体主成分的计算设 是的协方差矩阵,的特征值及相应的正交单位化特征向量分别为 及则 X 的第 i 个主成分为 (3)此时 1.3 总体主成分的性质1.3.1 主成分的协方差矩阵及总方差记 为主成分向量,则 Y=PTX,其中,且 由此得主成分的总方差为即主成分分析是把 p 个原始变量 X1,X2,Xp 的总方差分解成 p 个互不相关变量 Y1,Y2,Yp的方差之和,即而 。第 k 个主成分的
3、贡献率:;前m个主成分累计贡献率:,它表明前 m 个主成分Y1,Y2,Ym综合提供 X1,X2,Xp中信息的能力。1.3.2 主成分 Yi 与变量 Xj 的相关系数由于 Y=PTX,故 X=PY,从而由此可得 Yi 与 Xj 的相关系数为 (4)1.4 标准化变量的主成分在实际问题中,不同的变量往往有不同的量纲,由于不同的量纲会引起各变量取值的分散程度差异较大,这时总体方差则主要受方差较大的变量的控制。为了消除由于量纲的不同可能带来的影响,常采用变量标准化的方法,即令 (5)其中 这时 的协方差矩阵便是的相关矩阵 ,其中 (6)利用 X 的相关矩阵 作主成分分析,有如下结论:设 为标准化的随机
4、向量,其协方差矩阵(即 X 的相关矩阵)为 ,则 的第 i 个主成分为 (7)并且 (8)其中 为 的特征值,为相应于特征值 的正交单位特征向量。第 i 个主成分的贡献率:;前 m 个主成分的累计贡献率:;与的相关系数为 。二、样本主成分前面讨论的是总体主成分,但在实际问题中,一般 (或)是未知的,需要通过样本来估计。设为取自 的一个容量为n的简单随机样本,则样本协方差矩阵及样本相关矩阵分别为 (9)其中分别以 S 和 R 作为 和的估计,然后按总体主成分分析的方法作样本主成分分析。三、 例 题某市为了全面分析机械类个企业的经济效益,选择了8个不同的利润指标,14企业关于这8个指标的统计数据如
5、下表所示,试进行主成分分析。表1 14家企业的利润指标的统计数据变量企业序号净产值利润率(%)xi1 固定资产利润率(%)xi2 总产值利润率(%)xi2 销售收入利润率(%)xi3 产品成本利润率(%)xi5物耗利润率(%)xi6人均利润率xi7(千元/人)流动资金利润率(%)xi8140.424.77.26.18.38.72.44220.0225.012.711.211.012.920.23.5429.1313.23.33.94.34.45.50.5783.6422.36.75.63.76.07.40.1767.3534.311.87.17.18.08.91.72627.5635.612.
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 成分 成份 分析 精华 精髓 菁华 讲义 及其 实例
限制150内