主成分分析和因子分析.pdf
《主成分分析和因子分析.pdf》由会员分享,可在线阅读,更多相关《主成分分析和因子分析.pdf(28页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、主成分分析和因子分析史 会 峰华北电力大学(保定)2014年6月14日史会峰(华北电力大学)华北电力大学数学建模俱乐部2014年6月14日1/28主成分分析Principal components analysis PCA主成分分析是一种分析、简化数据集的技术。主成分分析经常用于减少数据集的维数,同时保持数据集中的对方差贡献最大的特征。这是通过保留低阶主成分,忽略高阶主成分做到的。主成分分析是最简单的以特征量分析多元统计分布的方法,其方法主要是通过对协方差矩阵进行特征分解,以得出数据的主成分(特征向量)与它们的权值(特征值)。PCA提供了一种降低数据维度的有效办法;如果分析者在原数据中除掉最小
2、的特征值所对应的成分,那么所得的低维度数据必定是最优化的,也就是,这样降维必定是失去讯息最少的方法。史会峰(华北电力大学)华北电力大学数学建模俱乐部2014年6月14日2/28具体例子为了评价企业的经济效益,选用了8个指标作为经济效益评价的指标体系:1固定资产利税率,2资金利税率,3销售收入利税率,4资金利润率,5固定资产产值率,6流动资金周转天数,7万元产值能耗,8全员劳动生产率.其中指标1,2,3,4,5,8是正向指标,它们的取值越大越好,而指标6,7是反向指标,它们的数值越大反而越不好,这时采用它们的倒数.下表是15家企业的8项指标的数据:史会峰(华北电力大学)华北电力大学数学建模俱乐部
3、2014年6月14日3/2812345678116.6827.7531.8418.4053.255528.831.75219.7027.5632.9419.2059.825532.922.87315.2023.4032.9816.2446.786541.691.5347.258.9721.304.7634.396239.281.63529.4556.4940.7443.6875.326926.682.14632.9342.7849.9833.8766.465032.872.60725.3937.8536.7627.5668.186335.792.43815.0519.4927.2114.215
4、6.137635.761.75史会峰(华北电力大学)华北电力大学数学建模俱乐部2014年6月14日4/2812345678919.8228.7833.4120.1759.257139.131.831021.1335.2039.1626.5252.476235.081.731116.7528.7229.6219.2355.765830.081.521215.8328.0326.4017.4361.196132.754.601316.5329.7332.4920.6350.416937.571.311422.2454.5931.0537.0067.956332.331.571512.9220.82
5、25.1212.5451.076639.181.83史会峰(华北电力大学)华北电力大学数学建模俱乐部2014年6月14日5/28这样关于这8个指标有15个样本观察值,将指标按照下面公式进行标准化=,其中=11515=1,=11415=1()2样本,和 2,的相关系数定义为15=1()()15=1()215=1()2(1)计算指标 1,2,.,8的相关系数矩阵为史会峰(华北电力大学)华北电力大学数学建模俱乐部2014年6月14日6/2810.8490.9250.9020.8500.3250.4910.58610.6930.9880.8600.1170.6100.52510.7760.6150.3
6、670.3490.52210.8560.1290.6070.31710.0990.6200.97610.2840.50410.1941史会峰(华北电力大学)华北电力大学数学建模俱乐部2014年6月14日7/28计算相关系数矩阵的特征值,并按照从大到小次序排列得,前三个特征值之和就占总和8的91.17%,因此选用三个指标就可综合8个指标的91.17%的信息,这三个特征值和对应的特征向量分别为:5.2360,1.2153,0.8420(0.4163,0.4038,0.3651,0.4014,0.4153,0.1522,0.2792,0.3092)(0.0169,0.2519,0.0775,0.32
7、79,0.0166,0.7273,0.1786,0.5114)(0.0096,0.0199,0.0729,0.1195,0.3741,0.5193,0.5698,0.4956)史会峰(华北电力大学)华北电力大学数学建模俱乐部2014年6月14日8/281=0.41631+0.40382+0.36513+0.40144+0.41535+0.15226+0.27927+0.309282=0.01691 0.25192+0.07753 0.32794 0.01665+0.72736 0.17867+0.511483=0.00961+0.01992 0.07293 0.11954+0.37415 0.
8、51936 0.56987+0.49568史会峰(华北电力大学)华北电力大学数学建模俱乐部2014年6月14日9/28这三个的值反映了工厂的三个方面的状况,从的表达式中的系数就可以看出主要体现哪些的内容.所以1反映的是企业的盈利能力,对应的指标为1,2,3,4,5;2反映的是企业的资金,人力利用,对应的指标为6,8;3反映的是企业的产值,能耗方面对1,2,3按照它们各自的贡献律作为权重进行加权计算出的结果作为企业的评价结果.史会峰(华北电力大学)华北电力大学数学建模俱乐部2014年6月14日10/28设有个指标1,2,.,这个指标反映了客观对象的各个特性,每个对象观察到的个指标值就是一个样本值
9、,它是一个维的向量.如果观察了个对象,就有个维向量,用矩阵表示为1112.12122.2.12.史会峰(华北电力大学)华北电力大学数学建模俱乐部2014年6月14日11/28对于已知的数据矩阵,能否找到几个指标1,2,.,的线性函数=1,它们能够最好第反映指标1,2,.,的变化状况.也就是把个变量在样本上的差异,能否用他们的一个线性函数的差异来综合表示.如果可以,这个线性函数就是一个代表性好的指标,它就是这个指标的主要成分,找出主要成分的方法称为主成份分析法.如果把个指标看作是随机变量,它们的期望向量为()=(1)(2).()=12.(2)史会峰(华北电力大学)华北电力大学数学建模俱乐部201
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 成分 分析 因子分析
限制150内