关于主成分分析做综合评价的改进.pdf
《关于主成分分析做综合评价的改进.pdf》由会员分享,可在线阅读,更多相关《关于主成分分析做综合评价的改进.pdf(5页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、文章编号:1002-1566(2001)02-0052-04关于主成分分析做综合评价的改进?叶双峰(黄山林校,安徽245041)摘要:本文结合具体事例,讨论并改进利用主成分分析做综合评价的方法。关健词:主成分分析;综合评价;改进中图分类号:O212.4文献标识码:A一、引言利用主成分分析进行综合评价的基本思路是:首先求出原始 P 个指标的 P 个主成分,然后按一定的要求筛选几个主成分,来代替原始指标,再将所选取的主成分用适当的形式进行综合,得到综合评价值,依据它对被评价对象进行比较排序。1 2 6 研究并讨论了实际问题,提出了部分改进方法。本文在其基础上提出新改进方法,以希商榷。二、改进原始数
2、据的无量纲化主成分综合评价方法的关健是求主成分,其工具是协方差矩阵。由于协方差矩阵易受指标的量纲和数量级的影响,经常要对原始数据进行标准化处理,标准化使协方差矩阵变成了相关系数矩阵。但在消除量纲与数量级影响的同时,也消除了各指标变异程度上的差异信息。由于原始数据中包含两部分信息:一部分是各指标变异程度的差异信息,由各指标的方差大小来反映;另一部分是各指标间相互影响程度上的相关信息,由相关系数矩阵来体现。标准化使各指标的方差变成 1,消除了各指标变异程度上的差异,因此从标准化的数据提取的主成分,实际上只包含了各指标间相互影响这一部分信息,不能准确反映原始数据所包含的全部信息。所以必须改进原始数据
3、的无量纲化方法,均值法方法就是其中较好的一种。设有N 个被评价的对象,及 P 个指标,原始数据为(Xij)n*p,各指标的均值为 Xj均值化就是用各指标的均值去除它们相应的原始数据,即 Zij=Xji/Xj均值化后,数据的协方差矩阵V=(uij)pp的元素为uij=1n-1?nl=1(zli-zi)(zlj-zj)由上式可知,均值化后各指标的均值为 1,可得uij=1n-1?nl=1(zli-1)(zlj-1)=1n-1?nl=1(xli-xi)(xlj-xj)xixj=sijxixj式中Sij 为原始数据的协方差。特别当 i=j 时为:52数据统计与管理20 卷2 期2001 年?收稿日期:
4、2000-01-15uij=siix2i=(siixi)2sii=1n?nl=1(xli-xi)2因此,均值化后数据的协方差矩阵的对角元素是各指标的变异系数 Sii/Xi的平方,它反映各指标变异程度上的差异。均值化前,反映各指标相互影响程度的相关系数 rij 的计算公式为:rij=sijsiisjj均值化后的相关系数 rij的计算公式为:rij=uijuiiuj j将公式 Uij 代入可知:rij=sijxixj/siixisjjxj=sijsiisj j=rij这就证明了均值化处理不改变各指标间的相关系数,相关系数矩阵的全部信息都在相应的协方差矩阵中得到反映。均值化处理后的协方差矩阵不仅消除
5、了指标量纲与数量级的影响,还能包含原始数据的全部信息,因此在用主成分分析方法做综合评价时,应用均值化方法进行无量纲化处理。三、改进主成分分析的“线性化”传统主成分分析方法存在两个不足之外:一是综合评价的实际结果与评价指标间的相关程度高低成正比,评价指标间相关程度越高,主成分分析的结果越好,当指标间相关性小时,每一个主成分承载的信息量就少,为满足累计方差贡献率达到一定水平(通常为 85%以上),可能需选取较多的主成分,此时主成分分析的降维作用就不明显。二是主成分分析只是一种“线性”降维技术,只能处理线性问题:一方面主成分是原始指标的线性组合,另一方面对原始数据进行标准化处理,使协方差矩阵变为相关
6、系数矩阵,而相关系数矩阵只能反映指标间的“线性”相关程度。研究实际问题时,不仅指标间有非线性关系,有时主成分与原始数据之间也呈非线性关系,如果简单地进行线性处理,必然导致评价结果的偏差。因此有必要对传统主成分的“线性化”进行改进。非线性主成分分析法有很多种 5 6,本文只介绍“对数中心化”的非线性主成分分析方法。对数中心化的基本方法为:设有P 个指标的原始数据为(xij)n*p。1.对原始数据作中心对数化变换:yij=logxy j-1P?pl=1logxil53关于主成分分析做综合评价的改进2.计算对数中心化的样本协方差矩阵 S=(Sij)ppsij=1n-1?nl=1(yli-yi)(yl
7、j-yj)式中yi=1n?nl=1yli3.从 S 出发求主成分设?1?2?3?p是 S 的 P 个特征根,a1,a2,a3ap是相应的标准化特征向量,则第 i 个非线性主成分为:Fl=?pj=1aljlogxlj余下的处理同于传统的主成分分析。从上述分析可知,非线性主成分分析与传统主成分分析相比有两处改进:一是通过对原始数据作对数中心化变换,将主成分表示为原始数据的非线性组合;二是分析的出发点是协方差矩阵,不再是相关系数矩阵。通过这两处改进,会明显提高降维效果,用更少的主成分更多的反映原始指标的信息。表 11991 年各地区全部独立核算工业企业 7 项效益指标地区X1X2X3X4X5X6X7
8、北京144.5321.8919.515.158.0210.073.08天津152.2913.7112.2193.774.343.1河北107.578.447.867.841.611.852.85山西76.977.678.039.973.544.212.63内蒙古80.27.577.179.441.92.252.34辽宁130.738.878.768.551.191.382.91吉林98.578.677.938.791.752.022.48黑龙江92.919.249.039.953.193.822.54上海177.8923.2919.4313.095.827.163.67江苏198.2414.4
9、11.537.262.292.633.45浙江228.5320.7215.639.074.134.823.37安徽134.3912.0911.1490.420.493.36福建164.3918.3215.8411.154.555.533.56江西130.1210.649.498.181.772.042.79山东131.2311.8410.419.023.053.583.08河南104.2211.0610.2810.611.561.842.83湖北123.7613.8412.7811.193.74.482.85湖南126.5914.4913.3211.451.621.942.94广东150.75
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 关于 成分 分析 综合 评价 改进
限制150内