主成分分析及其改进--文献综述.doc
沈阳农业大学学士学位论文文献综述文 献 综 述 题 目: 主成分分析及其改进方法 主成分分析及其改进方法摘要:本文先叙述了主成分分析方法的研究背景,介绍主成分分析使用降维方法,用较少的变量来代替原有的较多的变量的映射原理,并归纳总结出了实现主成分分析的6个主要步骤,同时指出主成分分析方法在经济政治文化等领域的应用。接着本文着重指出了主成分分析方法目前存在的三个主要问题,其中包括数据的无量纲化,只适用线性问题的局限和第一主成分不够高不宜进行单独评价几个问题。然后又针对主成分分析存在的三个问题提出了相应的一种改进方法:用均值法来改变数据的无量纲化,用“对数中心化”的非线性主成分分析方法代替原有方法,用加权法改进第一主成分不够高不宜单独评价的问题。本文在最后对主成分分析方法做出了整体评价。关键词:主成分分析;综合评价;企业竞争力;预测;改进 1 前言在基于无监督统计方法中,主成分分析是用得最多的方法1,主成分分析从可观测的显式变量中提取信息,组成不可直接观测的隐含变量。它是一种线性映射方法,采用的原则是使方差最大,以尽可能多地保留原变量所包含的信息,同时又能用尽可能少的主成分替代原有变量,从而达到降维的目的2。由于这种方法既可以消除各指标不同量纲的影响,也可以消除由各指标间相关性所带来的信息重叠,起到降维的作用,从而简化指标的结构,使分析问题简单、直观、有效,故目前已广泛应用于许多领域。特别是在经济领域中,人们经常利用主成分分析方法综合评价企业的经济效益、技术进步效益,并收到了一定的效果3。2 主成分分析原理及步骤2.1 主成分分析原理主成分分析主要是使用降维的方法,使用较少的变量来代替原有的较多的变量。在变量转换过程中,采用了映射的原理。也就是说,较少的变量是原有较多属性变量的线性表示4。主成分分析是在模型计算时首先利用最小二乘法原理,抛弃细小的、无序的差异,保留最大的、有序的差异,最终得到只有少数几个主成分的数学模型,并使数据变得简单并容易理解和展示5。从主成分的导出和计算上看, 主成分是从原始数据的协方差矩阵或者相关系数矩阵出发, 主成分的协方差矩阵应该是一个对角矩阵, 主成分表达式系数矩阵A 应该是一个正交矩阵为条件,导出主成分的协方差矩阵的对角线元素是协方差矩阵或相关矩阵的特征值, 主成分的方差就是原始数据协方差矩阵或相关矩阵的特征值, 主成分表达式系数就是协方差矩阵或相关矩阵特征值对应的特征向量6。第一主成分能够最大限度地反映样本间的差异,是概括指标差异信息的最佳线性函数价,可以用第一主成分对样本综合排序7。2.2 主成分分析主要步骤主成分分析的具体步骤可以分为以下几步:(1)建立原始变量矩阵X, 由m个样本的n个引因子构成。 (1)( 2) 对原始变量矩阵X 进行标准化处理(目的是为了消除原始数据量纲和数量级的影响)。采用Z- S core变换进行标准化, 其标准化公式为: ,其中,。 ( 3) 计算出标准化数据的相关系数矩阵, 并求出其特征根。 ( 4) 确定主成分个数。根据累积方差贡献率来进行确定, 即按照方差占总方差的比例 (通常取85% )来选取, p为主成分的个数。 ( 5) 确定主成分的表达式。 ( 6)确定综合评价函数8-13。3 主成分分析的应用企业竞争力评价一直是实业界和学术界研究的热点。其结果将直接影响到企业战略的制定、战略方向的转移、标杆学习企业的选择等。就企业而言,综合、客观、准确地评价其竞争力是提升企业竞争实力首先要解决的问题14 。郝会会等人曾以国内上市16 家商业银行作为样本,使用SPSS 对数据进行处理,研究评价各银行的综合竞争力并对部分银行未来的发展做出预测15。 田波平等人应用一种客观赋权的动态评价方法, 利用上市公司年度报告所提供的财务指标, 应用多元统计中的主成分分析方法对40 样本股票的分多指标表现进行综合16。刘丹等人以26 家上市运输型物流企业财务数据指标值作为分析样本,运用主成分分析法研究企业竞争力评价,得出现代物流与区域经济发展有着紧密的联系和运输型物流企业通过实现服务的多元化提高竞争力的结论17。主成分分析的应用不仅仅局限在企业的综合评价上,通过主成分分析, 还可以可以全方位地了解各个地区社会经济系统的发展水平及其差距18。在对城镇化动力因素理论分析的基础上, 采用主成分分析法单位耕地农业机械总动力、第三产业产值比重、农民人均纯收入、乡村劳动力数、非国有部门就业率这几个因子对城镇化作用较大, 从而可帮助有关部门在推进城镇化进程时把握主要方向19。通过主成分分析还可以对对我国普通高等教育发展水平进行评价,反映了各地区高教发展背景的变化情况和各地区高校的办学规模,可以得到各地区“高教发展现状”的排名,尽管各地区高等教育的发展不尽相同, 但从总体上来看, 我国高等教育的发展基本上是健康、协调的20。4 目前存在的问题及改进方法4.1 主成分分析目前存在的问题(一)特征向量的方向对用都对主成分分析做综合评价造成影响21。在实际应用中, 为了消除变量量纲的影响, 往往对原始数据标准化,但是标准化在消除量纲或数量级影响的同时, 也抹杀了各指标变异程度的差异信息.事实上, 原始指标包含两方面的信息: 一是各指标变异程度的差异信息, 二是各指标之间相互影响程度上的信息22。(二)主成分分析只是一种“线性”降维技术, 只能处理线性问题: 一方面主成分是原始指标的线性组合, 另一方面对原始数据进行标准化处理, 使协方差矩阵变为相关系数矩阵, 而相关系数矩阵只能反映指标间的“线性” 相关程度。研究实际问题时, 不仅指标间有非线性关系, 有时主成分与原始数据之间也呈非线性关系, 如果简单地进行线性处理, 必然导致评价结果的偏差。因此有必要对传统主成分的“线性化”进行改进23。(三)另外,由于统计分析作为一种“由表及里”的数学手段,强调的是它的客观性,而评价理论对客观事物的看法则建立在评价者价值判断的基础上24。全局主成分分析是研究时序立体数据表的主成分分析法, 被用来研究多指标的动态数据, 其第一( 全局) 主成分的方差贡献率往往不够高, 故不宜单独用来进行评价20。4.2 对主成分分析的改进方法(一)改进原始数据的无量纲化方法, 均值法方法就是其中较好的一种,设有N 个被评价的对象, 及P 个指标, 原始数据为( Xij) n* p, 各指标的均值为 ,均值化就是用各指标的均值去除它们相应的原始数据, 即= / ,均值化处理不改变各指标间的相关系数, 相关系数矩阵的全部信息都在相应的协方差矩阵中得到反映。均值化处理后的协方差矩阵不仅消除了指标量纲与数量级的影响,还能包含原始数据的全部信息, 因此在用主成分分析方法做综合评价时, 应用均值化方法进行无量纲化处理25。(二)非线性主成分分析法有很多种 , 本文只介绍“对数中心化”的非线性主成分分析方法。对数中心化的基本方法为:设有P 个指标的原始数据为。1) 对原始数据作中心对数化变换:。2) 计算对数中心化的样本协方差矩阵,其中。3) 从S 出发求主成分设是S 的P 个特征根是相应的标准化特征向量, 则第i 个非线性主成分为:,余下的处理同于传统的主成分分析. 非线性主成分分析与传统主成分分析相比有两处改进: 一是通过对原始数据作对数中心化变换, 将主成分表示为原始数据的非线性组合; 二是分析的出发点是协方差矩阵, 不再是相关系数矩阵。通过这两处改进, 会明显提高降维效果, 用更少的主成分更多的反映原始指标的信息26-28。(三)在很多情况下, 第一主成分F1的方差贡献率不够高, 需要考虑多个主成分F1、F2、Fr . 为了对样品进行排序, 流行的方法是以各个主成分Fi的方差贡献率为权数, 构造主成分的“综合得分”:,然后利用样本的主成分综合得分进行排序11.加权法强调的是各被选方案的一致性,突出了评价指标较小值的作用,具有“一丑遮百俊”的特征,而权重系数的作用则不如线性加权综合法,其对指标值变动的反映也更敏感,有助于体现被选方案的差异29。5 对主成分分析的评价1). 由数理统计中的大数定律得知, 随着被评价对象的增加, 评价指标的平均水平和离散程度趋于稳定, 因而协方差矩阵也趋于稳定, 增加评价结果的准确性, 因此主成分分析适宜于大样本容量的综合评价。2). 由于同一被评价对象在不同样本集合体中的均值和离散程度是变化的, 因而协方差矩阵也是变化的, 由此计算的主成分与方差贡献率是不同的, 所以综合评价的结果是变化的, 因此主成分分析方法只适用于一次性评价。3). 改进与提高主成分分析做综合评价的效果的方法有很多, 但在研究具体问题时应首先研究指标之间的特征, 选择合适的数据处理方式, 再进行主成分分析, 才能得到正确的评价结果30-34。参考文献1 Jolliffe I. Principal component analysisM. John Wiley & Sons, Ltd, 2005.2 张九龙,邓筱楠,张志禹.概率核主成分分析及其应用J.计算机工程与应用,2011,47(4):165-167.3 洪素珍.如何有效利用主成分分析中的主成分D.武汉:华中师范大学,2008.4 陶思羽.基于主成分分析和粗糙集的聚类分析在经济指标数据中的应用D.吉林大学,2012.5 阿基业.代谢组学数据处理方法-主成分分析J.中国临床药理学与治疗学,2010(5):481-489.6 傅德印.主成分分析中的统计检验问题J.统计教育,2007(9):4-7.7 郭亚军.综合评价理论与方法M.北京:科学出版社,2002.8 王群妹,梁雪春.基于主成分分析的水质评价研究J.水资源与水工程学报,2010,21(006): 140-142.9 张鹏.基于主成分分析的综合评价研究D.中国优秀硕士学位论文全文数据库,2004.10 程铁信,吴浩刚等.一种基于主成分分析的评标方法J.系统工程理论与实践,2000,2:118-121.11 何亮.主成分分析在SPSS中的应用J.山西农业大学学报:社会科学版,2007(5):20-22.12 李玉珍,王宜怀.主成分分析及算法J.苏州大学学报:自然科学版,2005,21(1):32-36.13 岳斯玮.主成分分析在生态城市建设能力评价中的应用研究D.成都理工大学,2011.14 赵冬梅,周荣征.基于多层主成分分析的企业竞争力评价J.西南交通大学学报:社会科学版, 2008,8(6):83-87.15 郝会会,王章留,徐恒.基于主成分分析的上市银行竞争力评价研究C/Proceedings of 2010 International Conference on Management Science and Engineering (MSE 2010)(Volume 5). 2010.16 田波平,王勇等.主成分分析在中国上市公司综合评价中的作用J.数学的实践与认识,2004, 34(4):74-80.17 刘丹,陈丽芳.基于主成分分析的运输型物流企业竞争力研究J.武汉理工大学学报:信息与管理工程版,2013,34(6):742-745.18 冯利华,马未宇.主成分分析法在地区综合实力评价中的应用J.地理与地理信息科学,2005, 20(6):73-75.19 杨贞.城镇化动力因素的主成分分析以河南为例J.河南农业科学,2006 (5):5-7.20 徐雅静,汪远征.变量聚类-全局主成分分析在我国普通高等教育发展水平评价中的应用J. 数理统计与管理, 2006, 25(5): 566-573.21 阎慈琳.关于用主成分分析做综合评价的若干问题J.数理统计与管理,1998,17(2):22-25.22 徐雅静,汪远征.主成分分析应用方法的改进J.数学的实践与认识,2006,36(6):68-75.23 黄宁.关于主成分分析应用的思考J.数理统计与管理,1999,18(5):44-46.24 李靖华,郭耀煌.主成分分析用于多指标评价的方法研究主成分评价J.管理工程学报, 2002,16(1):39-43.25 方开泰.实用多元统计分析M.上海:华东师范大学出版社,1989.26 张崇甫,陈述云.成分数据主成分分析及其应用J.数理统计与管理,1996,15(3):11-14.27 Abraham B. and J. Ledolier . Statistical for ecasting. New York: 1983.28 吴国富,项静恬.多个变量分类和综合的多元分析方法(非线性复杂系统的综合技术 VI)J.数理统计与管理,1995,14(6):52-59.29 郭亚军.综合评价理论与方法M.北京:科学出版社,2002.30 叶双峰.关于主成分分析做综合评价的改进J.数理统计与管理,2001,20(2):52-55.31 Klaassen F J G M. Improving GARCH volatility forecasts M. Tilburg University, 1998.32 Li D X. Value at Risk based on the Volatility, Skewness and Kurtosis J. Risk metrics Group, 1999.33 Bollerslev T, Engle R F, Nelson D B. ARCH models J. Handbook of econometrics, 1994, 4: 2959-3038.34 Engle R F, Ng V K, Rothschild M. Asset pricing with a factor-ARCH covariance structure: Empirical estimates for treasury bills J. Journal of Econometrics, 1990, 45(1): 213-237.5