主成分分析及其改进--文献综述.doc
《主成分分析及其改进--文献综述.doc》由会员分享,可在线阅读,更多相关《主成分分析及其改进--文献综述.doc(7页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、沈阳农业大学学士学位论文文献综述文 献 综 述 题 目: 主成分分析及其改进方法 主成分分析及其改进方法摘要:本文先叙述了主成分分析方法的研究背景,介绍主成分分析使用降维方法,用较少的变量来代替原有的较多的变量的映射原理,并归纳总结出了实现主成分分析的6个主要步骤,同时指出主成分分析方法在经济政治文化等领域的应用。接着本文着重指出了主成分分析方法目前存在的三个主要问题,其中包括数据的无量纲化,只适用线性问题的局限和第一主成分不够高不宜进行单独评价几个问题。然后又针对主成分分析存在的三个问题提出了相应的一种改进方法:用均值法来改变数据的无量纲化,用“对数中心化”的非线性主成分分析方法代替原有方法
2、,用加权法改进第一主成分不够高不宜单独评价的问题。本文在最后对主成分分析方法做出了整体评价。关键词:主成分分析;综合评价;企业竞争力;预测;改进 1 前言在基于无监督统计方法中,主成分分析是用得最多的方法1,主成分分析从可观测的显式变量中提取信息,组成不可直接观测的隐含变量。它是一种线性映射方法,采用的原则是使方差最大,以尽可能多地保留原变量所包含的信息,同时又能用尽可能少的主成分替代原有变量,从而达到降维的目的2。由于这种方法既可以消除各指标不同量纲的影响,也可以消除由各指标间相关性所带来的信息重叠,起到降维的作用,从而简化指标的结构,使分析问题简单、直观、有效,故目前已广泛应用于许多领域。
3、特别是在经济领域中,人们经常利用主成分分析方法综合评价企业的经济效益、技术进步效益,并收到了一定的效果3。2 主成分分析原理及步骤2.1 主成分分析原理主成分分析主要是使用降维的方法,使用较少的变量来代替原有的较多的变量。在变量转换过程中,采用了映射的原理。也就是说,较少的变量是原有较多属性变量的线性表示4。主成分分析是在模型计算时首先利用最小二乘法原理,抛弃细小的、无序的差异,保留最大的、有序的差异,最终得到只有少数几个主成分的数学模型,并使数据变得简单并容易理解和展示5。从主成分的导出和计算上看, 主成分是从原始数据的协方差矩阵或者相关系数矩阵出发, 主成分的协方差矩阵应该是一个对角矩阵,
4、 主成分表达式系数矩阵A 应该是一个正交矩阵为条件,导出主成分的协方差矩阵的对角线元素是协方差矩阵或相关矩阵的特征值, 主成分的方差就是原始数据协方差矩阵或相关矩阵的特征值, 主成分表达式系数就是协方差矩阵或相关矩阵特征值对应的特征向量6。第一主成分能够最大限度地反映样本间的差异,是概括指标差异信息的最佳线性函数价,可以用第一主成分对样本综合排序7。2.2 主成分分析主要步骤主成分分析的具体步骤可以分为以下几步:(1)建立原始变量矩阵X, 由m个样本的n个引因子构成。 (1)( 2) 对原始变量矩阵X 进行标准化处理(目的是为了消除原始数据量纲和数量级的影响)。采用Z- S core变换进行标
5、准化, 其标准化公式为: ,其中,。 ( 3) 计算出标准化数据的相关系数矩阵, 并求出其特征根。 ( 4) 确定主成分个数。根据累积方差贡献率来进行确定, 即按照方差占总方差的比例 (通常取85% )来选取, p为主成分的个数。 ( 5) 确定主成分的表达式。 ( 6)确定综合评价函数8-13。3 主成分分析的应用企业竞争力评价一直是实业界和学术界研究的热点。其结果将直接影响到企业战略的制定、战略方向的转移、标杆学习企业的选择等。就企业而言,综合、客观、准确地评价其竞争力是提升企业竞争实力首先要解决的问题14 。郝会会等人曾以国内上市16 家商业银行作为样本,使用SPSS 对数据进行处理,研
6、究评价各银行的综合竞争力并对部分银行未来的发展做出预测15。 田波平等人应用一种客观赋权的动态评价方法, 利用上市公司年度报告所提供的财务指标, 应用多元统计中的主成分分析方法对40 样本股票的分多指标表现进行综合16。刘丹等人以26 家上市运输型物流企业财务数据指标值作为分析样本,运用主成分分析法研究企业竞争力评价,得出现代物流与区域经济发展有着紧密的联系和运输型物流企业通过实现服务的多元化提高竞争力的结论17。主成分分析的应用不仅仅局限在企业的综合评价上,通过主成分分析, 还可以可以全方位地了解各个地区社会经济系统的发展水平及其差距18。在对城镇化动力因素理论分析的基础上, 采用主成分分析
7、法单位耕地农业机械总动力、第三产业产值比重、农民人均纯收入、乡村劳动力数、非国有部门就业率这几个因子对城镇化作用较大, 从而可帮助有关部门在推进城镇化进程时把握主要方向19。通过主成分分析还可以对对我国普通高等教育发展水平进行评价,反映了各地区高教发展背景的变化情况和各地区高校的办学规模,可以得到各地区“高教发展现状”的排名,尽管各地区高等教育的发展不尽相同, 但从总体上来看, 我国高等教育的发展基本上是健康、协调的20。4 目前存在的问题及改进方法4.1 主成分分析目前存在的问题(一)特征向量的方向对用都对主成分分析做综合评价造成影响21。在实际应用中, 为了消除变量量纲的影响, 往往对原始
8、数据标准化,但是标准化在消除量纲或数量级影响的同时, 也抹杀了各指标变异程度的差异信息.事实上, 原始指标包含两方面的信息: 一是各指标变异程度的差异信息, 二是各指标之间相互影响程度上的信息22。(二)主成分分析只是一种“线性”降维技术, 只能处理线性问题: 一方面主成分是原始指标的线性组合, 另一方面对原始数据进行标准化处理, 使协方差矩阵变为相关系数矩阵, 而相关系数矩阵只能反映指标间的“线性” 相关程度。研究实际问题时, 不仅指标间有非线性关系, 有时主成分与原始数据之间也呈非线性关系, 如果简单地进行线性处理, 必然导致评价结果的偏差。因此有必要对传统主成分的“线性化”进行改进23。
9、(三)另外,由于统计分析作为一种“由表及里”的数学手段,强调的是它的客观性,而评价理论对客观事物的看法则建立在评价者价值判断的基础上24。全局主成分分析是研究时序立体数据表的主成分分析法, 被用来研究多指标的动态数据, 其第一( 全局) 主成分的方差贡献率往往不够高, 故不宜单独用来进行评价20。4.2 对主成分分析的改进方法(一)改进原始数据的无量纲化方法, 均值法方法就是其中较好的一种,设有N 个被评价的对象, 及P 个指标, 原始数据为( Xij) n* p, 各指标的均值为 ,均值化就是用各指标的均值去除它们相应的原始数据, 即= / ,均值化处理不改变各指标间的相关系数, 相关系数矩
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 成分 分析 及其 改进 文献 综述
限制150内