欢迎来到淘文阁 - 分享文档赚钱的网站! | 帮助中心 好文档才是您的得力助手!
淘文阁 - 分享文档赚钱的网站
全部分类
  • 研究报告>
  • 管理文献>
  • 标准材料>
  • 技术资料>
  • 教育专区>
  • 应用文书>
  • 生活休闲>
  • 考试试题>
  • pptx模板>
  • 工商注册>
  • 期刊短文>
  • 图片设计>
  • ImageVerifierCode 换一换

    第六讲主成分分析优秀PPT.ppt

    • 资源ID:84148674       资源大小:5.64MB        全文页数:143页
    • 资源格式: PPT        下载积分:18金币
    快捷下载 游客一键下载
    会员登录下载
    微信登录下载
    三方登录下载: 微信开放平台登录   QQ登录  
    二维码
    微信扫一扫登录
    下载资源需要18金币
    邮箱/手机:
    温馨提示:
    快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。
    如填写123,账号就是123,密码也是123。
    支付方式: 支付宝    微信支付   
    验证码:   换一换

     
    账号:
    密码:
    验证码:   换一换
      忘记密码?
        
    友情提示
    2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
    3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
    4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
    5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。

    第六讲主成分分析优秀PPT.ppt

    第六讲主成分分析1第一页,本课件共有143页主要内容1 主成分分析的基本思想2 数学模型与几何解释3 主成分的推导4 主成分的性质5 主成分分析的步骤6主成分分析的应用第二页,本课件共有143页1 主成分分析基本思想(案例)(案例)主成分分析的典型案例是美国统计学家斯通(stone)在1947年关于国民经济的研究依据美国1929一1938年的数据,利用了17个反映国民收入与支出的变量要素,例如雇主补贴、消费资料和生产资料、纯公共支出、净增库存、股息、利息外贸平衡等经过主成分分析,用三个新变量取代原17个变量。根据经济学知识,斯通给这三个新变量分别命名为总收总收入入F1、总收入变化率总收入变化率F2和经济发展或衰退的趋势经济发展或衰退的趋势F3。精度达97.4有意思的是这三个变量都可以直接测量。斯通将得到的主成分与实际测量的总收入总收入I、总收入变化率总收入变化率I以及时间时间t因素做相关分析,得到下表:第三页,本课件共有143页F1F2F3I ItF11F201F3001I0.995-0.0410.0571 I-0.0560.948-0.124-0.1021t-0.369-0.282-0.836-0.414-0.1121主成分与实测变量的相关分析第四页,本课件共有143页实践中遇到的问题为了全面系统的分析和研究问题,必须考虑许多分析指标,这些指标从不同的侧面反映所研究对象的特征,但在某种程度上存在信息的重叠,具有一定的相关性信息的重叠,具有一定的相关性主成分分析是把各变量之间互相关联的复杂关系进行简化分析的方法在力保数据信息丢失最少数据信息丢失最少的原则下,对多变量的截面数据进行最佳综合简化,对高维变量空间进行降维处理很显然,识辨系统在一个低维空间要比在一个高维空间容易得多主成分分析基本思想(问题)(问题)第五页,本课件共有143页处理的思路建立研究指标体系的少数几个线性组合,这几个线性组合所构成的综合指标将尽可能多地保留原来指标变异方面的信息。这些综合指标就是主成分主成分选取新指标选取新指标 F1,F2,Fk (kp)的原则)的原则按照保留主要信息量的原则,充分反映原指标的信息新指标之间相互独立主成分分析基本思想第六页,本课件共有143页假设实际问题有p 个指标,我们把这p 个指标看作p 个随机变量,记为X1,X2,Xp主成分分析就是要把这p 个指标的问题,转变为讨论p个指标的线性组合线性组合的问题,即2 数学模型与几何解释第七页,本课件共有143页满足的条件:满足的条件:主成分之间相互独立,即无重叠的信息。即主成分的方差依次递减,重要性依次递减,即每个主成分的系数平方和为1。即第八页,本课件共有143页基于相关系数矩阵还是基于协方差矩阵做主成分分析当分析中所选择的经济变量具有不同的量纲,变量水平差异很大,应该选择基于相关系数矩阵的主成分分析选择几个主成分主成分分析的目的是简化变量,一般情况下主成分的个数应该少于原始变量的个数。关于保留几个主成分,应该权衡主成分个数和保留的信息。如何解释主成分所包含的经济意义主成分分析涉及的问题第九页,本课件共有143页设有6个样品,每个样品有两个观测变量Xl和X2,观测数据如下主成分的几何意义X1123456X224681012上述数据的散点图如下所示以二维空间为例以二维空间为例表1第十页,本课件共有143页61210864254321OX1X2 F2F1图1 散点图注意:6个样点完全落在同一条直线上,这条直线的方程是X22X1在这条直线上建立F1数轴,并在图1中的F1OF2坐标系中考察这考察这考察这考察这6 6个样品点个样品点个样品点个样品点,显然F2轴是不必要的。于是,原来用(X1,X2)两个变量表述的样本点,可用一个新的变量F1来代替。第十一页,本课件共有143页F1新变量的6个样品值依次列入下表:表2由此可见,表1中数据的全部(即100)信息都含在表2的数据中。用变量F1代替变量(X1,X2),变量的维数就从2降为1在实际问题中,两个变量的样品点完全落在同一条直线上的情形最少见的。在一般情况下,n个样本点所散布的情况如椭圆状,见下图。主成分分析法的简单直观说明第十二页,本课件共有143页图中显示:n个样点无论是沿着X1轴方向或X2轴方向都具有较大的离散性,其离散的程度可以分别用观测变量Xl的方差和X2的方差定量地表示如果只考虑Xl和X2中的任何一个,那么包含在原始数据中的经济信息将会有较大的损失。图2散点图第十三页,本课件共有143页平移、旋转坐标轴平移、旋转坐标轴将X1轴和X2轴先平移,再同时按逆时针方向旋转 角度,得到新坐标轴Fl和F2。Fl和F2是两个新变量。n个观测值在新坐标系下的分布图如下所示可以看出:-样点的F1坐标变化幅度很大,或者说F1的方差较大;而F2的变化幅度相对较小,或者说F2的方差较小。可以说,变量变量(xl,x2)的信息大部分集中在新变量的信息大部分集中在新变量F1,而小部分集中在新变,而小部分集中在新变量量F2上上。称F1是(xl,x2)的第一主成分,F2是(x1,x2)的第二主成分-在一定条件下,可以舍掉F2,只用第一主成分F1度量原来的全部样品,从而维数由2降为l-与此类似,3维变量可以降为2维或1维,第十四页,本课件共有143页主成分分析的几何解释平移、旋转坐标轴第十五页,本课件共有143页主成分分析的几何解释平移、旋转坐标轴第十六页,本课件共有143页主成分分析的几何解释平移、旋转坐标轴第十七页,本课件共有143页主成分分析的几何解释平移、旋转坐标轴第十八页,本课件共有143页主成分分析的几何解释平移、旋转坐标轴第十九页,本课件共有143页旋转变换的目的-使得n个样点在Fl轴方向上的离散程度最大,即Fl的方差最大-由于变量Fl代表了原始数据的绝大部分信息,在问题的研究中,即使不考虑变量F2也无损大局旋转变换的作用-经过旋转变换,原始数据的大部分信息集中到Fl轴上,对数据中包含的信息起到了浓缩作用-Fl,F2具有不相关不相关的性质,这使得在研究复杂的问题时避免了信息重叠所带来的虚假性第二十页,本课件共有143页旋转变换的公式:旋转变换的公式:平移、旋转坐标轴即Fl,F2是原变量x1和x2的线性组合,用矩阵表示是U为旋转变换矩阵,它是正交矩阵正交矩阵,即有第二十一页,本课件共有143页3 主成分的推导一、线性代数的两个结论两个结论两个结论两个结论1、若A是p阶实对称阵实对称阵,则一定可以找到正交阵正交阵U,使其中i,i=1,2,.,p 是A的特征根。第二十二页,本课件共有143页2、若上述矩阵A的特征根所对应的单位特征向量为u1,up由于实对称阵A 属于不同特征根所对应的特征向量是正交的,因而有令即U是正交阵第二十三页,本课件共有143页 二、主成分的推导二、主成分的推导 (一)(一)第一主成分第一主成分设X=(X1,X2,Xp)的协方差阵为由于X为非负定的对称阵,利用线性代数的知识可得,必存在正交阵U,使得第二十四页,本课件共有143页其中1,2,p为x的特特征征根根,不妨假设12p。而U恰好是由特征根相对应的特征向量所组成的正交阵。下面我们来看,由U的第一列元素所构成的原始变量的线性组合是否有最大的方差。第二十五页,本课件共有143页设有p个p维单位正交向量a1,a2,.,ap,其中ai=(a1i,a2i,.,api),则变量F1的方差,是一个数第二十六页,本课件共有143页第二十七页,本课件共有143页(ai为单位向量)第二十八页,本课件共有143页即其中当且仅当a1=u1时,即时,有最大的方差1。事实上,当a1=u1时,有(其中 )第二十九页,本课件共有143页(二)(二)第二主成分第二主成分在约束条件Cov(F1,F2)=0下,寻找第二主成分所以因为如果第一主成分的信息不够,则需要寻找第二主成分(其中 )n 在约束条件下,向量在约束条件下,向量a2必须与向量必须与向量u1正交正交12B第三十页,本课件共有143页对p维向量 ,有(其中 )其中第三十一页,本课件共有143页同样,如果取线性变换:则F2的方差次大。类推第三十二页,本课件共有143页写为矩阵形式:其中第三十三页,本课件共有143页一、均值二、方差为所有特征根之和,且4主成分的性质证明:(U为正交阵,有UU I)第三十四页,本课件共有143页说明:由于协方差矩阵x 的对角线上的元素之和等于特征根之和。所以,主成分分析把p 个随机变量X 的总方差分解成为p 个不相关的随机变量F的方差之和(tr(AB)=tr(BA))(正交变换,为对角阵)第三十五页,本课件共有143页1)贡献率:第i个主成分的方差在全部方差中所占比重称为贡献率贡献率,反映第i个主成分指标综合X1,.,Xp信息能力的大小。2)累积贡献率:反映前k个主成分的综合能力,用这k个主成分的方差之和在全部方差中所占比重来描述,称为累积贡献率累积贡献率。三、精度分析三、精度分析第三十六页,本课件共有143页主成分分析的目的之一是希望用尽可能少的主成分F1,F2,Fk(kp)代替原来的P个指标。在实际工作中,主成分个数的多少以能够反映原来变量80%以上的信息量为依据,即当累积贡献率80%时的主成分的个数就足够了。最常见的情况是主成分为2到3个。主成分个数的选择第三十七页,本课件共有143页四、原始四、原始变量与主成分之间的相关系数变量与主成分之间的相关系数矩阵形式为因而第三十八页,本课件共有143页可见,Xi 和Fj 相关的密切程度取决于对应线性组合系数uij 的大小。F Fi i与与与与F Fj j不相关不相关不相关不相关又所以第三十九页,本课件共有143页主成分原始变量F1F2FpX1X2Xp原始变量与主成分之间的相关系数第四十页,本课件共有143页五、原始变量被主成分的提取率前面我们讨论了主成分的贡献率和累计贡献率,他度量了F1,F2,Fm分别从原始变量X1,X2,XP中提取了多少信息。问题:问题:X1,X2,XP中每个变量各有多少信息被F1,F2,Fm提取了?应该用什么指标来度量?当讨论F1分别与X1,X2,XP的关系时,可以讨论F1分别与X1,X2,XP的相关系数,由于相关系数有正有负,所以只有考虑相关系数的平方第四十一页,本课件共有143页如果我们仅仅提出了m个主成分,则第第第第i i 原始变量原始变量原始变量原始变量X Xi i信息的被提取率为:是第第i 原始变量原始变量 Xi 的方差能被的方差能被 Fj 说明的部分说明的部分是Fj 提取的第提取的第i 原始变量原始变量 Xi 信息的比重信息的比重则因为第四十二页,本课件共有143页例例例例设X=(X1,X2,X3),X的协方差矩阵为解得特征根为1=5.83,2=2.00,3=0.17第一个主成分的贡献率为5.83/(5.83+2.00+0.17)=72.875%,尽管第一个主成分的贡献率并不小,但在本题中第一主成分不含第三个原始变量的信息,所以应该取两个主成分。第四十三页,本课件共有143页Xi与与F1的的相关系数相关系数平方平方Xi与与F2的的相关系数相关系数平方平方信息提信息提取率取率Xi10.9250.855000.8552-0.9980.996000.996300111则其他结果计算相同,见下表第四十四页,本课件共有143页(该题无公共因子)定义:定义:如果一个主成分仅仅对某一个原始变量有作用,则称为特殊成分特殊成分。如果一个主成分对所有的原始变量都起作用称为公共成分公共成分。六、载荷矩阵六、载荷矩阵称矩阵为载荷矩阵第四十五页,本课件共有143页在实际问题中,X的协差阵 X通常是未知的,可用其估计值S(样本协差阵)代替。即5主成分分析的步骤其中sij表示变量Xi与变量Xj的样本协方差,且13A一、基于协方差矩阵第四十六页,本课件共有143页第二步第二步第二步第二步:求出分别所对应的特征向量u1,u2,up第三步第三步第三步第三步:计算累积贡献率,给出恰当的主成分个数第四步第四步第四步第四步:计算选出的k个主成分的得分将原始数据的中心化值:代入前k个主成分的表达式,分别计算出各样品样品k个主成分的得分第第第第一一一一步步步步:由X的协方差阵x求出其特征根,即解方程|XI|=0,可得特征根第四十七页,本课件共有143页二、基于相关系数矩阵 如果变量有不同的量纲,则必须基于相关系数矩阵进行主成分分析。设原始资料阵为:第四十八页,本课件共有143页当原始变量 标准化后,协方差为则注意:基于相关系数的主成分分析在计算主成分得分时应采用标准化后的数据。其中X*=(x*ij)np第四十九页,本课件共有143页【例例例例1 1 1 1】对全国对全国3030个省市自治区经济发展基本情况的八项指标作个省市自治区经济发展基本情况的八项指标作主成分分析,原始数据如下:主成分分析,原始数据如下:第五十页,本课件共有143页续表续表第五十一页,本课件共有143页续表续表第一步建立指标之间的相关系数阵R如下:第二步求R的特征值和特征向量(见表)。根据题意,可知p8,n30第五十二页,本课件共有143页X1X2X3X4X5X6X7X8X1X2X3X4X5X6X7X81.000.267.951.191.617-.274-.264.874.2671.000.426.718-.151-.234-.593.363.951.4261.000.400.431-.282-.359.792.191.718.4001.000-.356-.134-.539.104.617-.151.431-.3561.000-.255.022.659-.274-.234-.282-.134-.2551.000.760-.126-.264-.593-.359-.539.022.7601.000-.192.874.363.792.104.659-.126-.1921.000相关系数阵相关系数阵相关系数阵相关系数阵R第五十三页,本课件共有143页从上表看,前前3 3个特征值累计贡献率已达个特征值累计贡献率已达89.56489.564,说明前3个主成分基本包含全部指标的绝大部分信息取前3个特征值,并计算出相应的特征向量(见下表)。主成分主成分特征值特征值方差贡献率方差贡献率累计贡献率累计贡献率123456783.7552.1951.2140.4030.2130.1396.594E-021.462E-0246.94327.44315.1785.0332.6601.7370.8240.18346.94374.38689.56494.59697.25698.99399.817100.00相关系数矩阵相关系数矩阵R R的特征值的特征值第五十四页,本课件共有143页u1u2u30.4706410.4567080.4247120.319440.3127290.2508020.2404810.262670.1079950.2585120.2875360.4009310.404310.4988010.488680.1673920.192410.1098190.192410.3975250.245050.247770.3321790.723351特征向量表特征向量表第五十五页,本课件共有143页主成分分析主成分分析第一主成分:第一主成分:F1的表达式中,指标X1,X2,X3的系数较大,这三个指标起主要作用。所以,第一主成分可以看成是由国内生产总值、固定资产投资和居民消费水平所刻划的的综合指标,反映经济发展状况经济发展状况经济发展状况经济发展状况F1=0.470641X10.456708X20.424712X30.31944X40.312729X50.250802X60.240481X70.26267X8第五十六页,本课件共有143页第二主成分:第二主成分:在第二主成分中,指标X4,X5,X6,X7的影响大,且指标X6,X7的影响尤其大,可将之看成是反映物价指数、职工工资和货物周转量的综合指标;F2=0.107995X10.258512X20.287536X30.400931X40.40431X50.498801X60.48868X70.167392X8第五十七页,本课件共有143页第三主成分:第三主成分:在第三主成分中,第八项指标影响最大,远超过其它指标的影响,可单独看成是工业总产值的影响。F3=0.19241X1 0.109819X2 0.19241X3 0.397525X4 0.24505X5 0.24777X6 0.332179X7 0.723351X8第五十八页,本课件共有143页【例例例例2 2】分析某农业生态经济系统,共选取9项指标,分别是:x1人口密度(人/km2)x2人均耕地面积(ha)x3森林覆盖率(%)x4农民人均纯收入(元/人)x5人均粮食产量(kg/人)x6经济作物占农作物播面比例(%)x7耕地占土地面积比例(%)x8果园与林地面积之比(%)x9灌溉田占耕地面积之比(%)根据表1中给出的数据,做主成分分析。第五十九页,本课件共有143页样本序号x1x2x3x4x5x6x7x8x91363.90.35216.101192.11295.326.72418.4922.23126.2622141.51.68424.3011752.35452.332.31414.4641.45527.0663100.71.06765.6011181.54270.118.2660.1627.47412.4894143.71.33633.2051436.12354.317.48611.8051.89217.5345131.41.62316.6071405.09586.640.68314.4010.30322.932668.3372.03276.2041540.29216.398.1284.0650.0114.861795.4160.80171.106926.35291.528.1354.0630.0124.862862.9011.65273.3071501.24225.2518.3522.6450.0343.201986.6240.84168.904897.36196.3716.8615.1760.0556.1671091.3940.81266.502911.24226.5118.2795.6430.0764.4771176.9120.85850.302103.52217.0919.7934.8810.0016.1651251.2741.04164.609968.33181.384.0054.0660.0155.4021368.8310.83662.804957.14194.049.114.4840.0025.79表表表表1 1 1 1 某农业生态经济系统各区域单元的有关数据某农业生态经济系统各区域单元的有关数据某农业生态经济系统各区域单元的有关数据某农业生态经济系统各区域单元的有关数据 第六十页,本课件共有143页样本序号x1x2x3x4x5x6x7x8x91477.3010.62360.102824.37188.0919.4095.7215.0558.4131576.9481.02268.0011255.42211.5511.1023.1330.013.4251699.2650.64560.7021251.03220.914.3834.6150.0115.59317118.5050.66163.3041246.47242.1610.7066.0530.1548.70118141.4730.73754.206814.21193.4611.4196.4420.01212.94519137.7610.59855.9011124.05228.449.5217.8810.06912.65420117.6121.24554.503805.67175.2318.1065.7890.0488.46121122.7810.73149.1021313.11236.2926.7247.1620.09210.078表表表表1 1 1 1 某农业生态经济系统各区域单元的有关数据(续)某农业生态经济系统各区域单元的有关数据(续)某农业生态经济系统各区域单元的有关数据(续)某农业生态经济系统各区域单元的有关数据(续)第六十一页,本课件共有143页分析步骤如下:分析步骤如下:(1)将表1中的数据代入公式计算相关系数矩阵表2相关系数矩阵 第六十二页,本课件共有143页由表3可知,第一,第二,第三主成分的累计贡献率已高达86.596%(大于85%),故只需要求出第一、第二、第三主成分z1,z2,z3即可表表3 3特征值及主成分贡献率特征值及主成分贡献率 (2)由相关系数矩阵计算特征值,以及各个主成分的贡献率与累计贡献率(见表3)。第六十三页,本课件共有143页(3)(3)对于特征值对于特征值 1 1=4.6610,=4.6610,2 2=2.0890,=2.0890,3 3=1.0430=1.0430,分别求出其特,分别求出其特征向量征向量e e1 1,e e2 2,e e3 3,再用公式计算各变量,再用公式计算各变量x x1 1,x x2 2,x x9 9在主成分在主成分z z1 1,z z2 2,z z3 3上的载荷(表上的载荷(表4 4)。)。表4 主成分载荷 第六十四页,本课件共有143页第一主成分z1与x1,x5,x6,x7,x9呈现出较强的正相关,与x3呈现出较强的负相关,而这几个变量则综合反映了生态经济结构状况,因此可以认为第一主成分z1是生态经济结构生态经济结构的代表。第二主成分z2与x2,x4,x5呈现出较强的正相关,与x1呈现出较强的负相关,其中,除了x1为人口总数外,x2,x4,x5都反映了人均占有资源量的情况,因此可以认为第二主成分z2代表了人均资源量人均资源量分析:分析:第六十五页,本课件共有143页显然,用三个主成分z1、z2、z3代替原来9个变量(x1,x2,x9),描述农业生态经济系统,可以使问题更进一步简化、明了第三主成分z3,与x8呈显出的正相关程度最高,其次是x6,而与x7呈负相关,因此可以认为第三主成分在一定程度上代表了农业经济结构农业经济结构 另外,表4中最后一列(占方差的百分数),在一定程度反映了三个主成分z1、z2、z3包含原变量(x1,x2,x9)的信息量多少第六十六页,本课件共有143页1、品格(用X1表示),指顾客的信誉,履行偿还义务的可能性。企业可以通过过去的付款记录得到此项。2、能力(用X2表示),指顾客的偿还能力。即其流动资产的数量和质量以及流动负载的比率。3、资本(用X3表示),指顾客的财务势力和财务状况,表明顾客可能偿还债务的背景。4、附带的担保品(用X4表示),指借款人以容易出售的资产做抵押。5、环境条件(用X5表示),指企业的外部因素,即指非企业本身能控制或操纵的因素。【例例3】某企业为了了解其客户的信用程度,采用西方银行信用评估常用的5C方法,5C的目的是说明顾客违约的可能性。第六十七页,本课件共有143页 企业指标12345678910X176.581.57675.871.78579.280.384.476.5X270.67367.668.178.5949487.589.592X390.787.39181.58084.666.968.864.866.4X477.573.670.969.874.857.760.457.460.865X585.668.57062.276.57069.271.764.968.9首先抽取了10家具有可比性的同类企业作为样本,又请8位专家分别给10个企业的5个指标打分,然后分别计算企业5个指标的平均值,如表。第六十八页,本课件共有143页Total Variance=485.31477778 Eigenvalues of the Covariance Matrix(协方差矩阵的(协方差矩阵的特征值特征值特征值特征值)Eigenvalue Difference Proportion Cumulative PRIN1 410.506 367.242 0.845854 0.84585 PRIN2 43.264 22.594 0.089146 0.93500 PRIN3 20.670 12.599 0.042591 0.97759 PRIN4 8.071 5.266 0.016630 0.99422 PRIN5 2.805 .0.005779 1.00000 Eigenvectors(特征向量特征向量特征向量特征向量)PRIN1 PRIN2 PRIN3 PRIN4 PRIN5 X1 0.468814 -.830612 0.021406 0.254654 -.158081 X2 0.484876 0.329916 0.014801 -.287720 -.757000 X3 0.472744 -.021174 -.412719 -.588582 0.509213 X4 0.461747 0.430904 -.240845 0.706283 0.210403 X5 0.329259 0.122930 0.878054 -.084286 0.313677第六十九页,本课件共有143页在正确评估了顾客的信用等级后,就能正确制定出对顾客的信用期、收帐政策等,这对于加强应收帐款的管理大有帮助。序号序号12345678910得分得分3.1613.6-9.0135.925.1-10.3-4.36-33.8-6.41-13.8排序排序43712851069第一主成份的贡献率为84.6%,第一主成份为Z1=0.469X1+0.485X2+0.473X3+0.462X4+0.329X5各项系数大致相等,且均为正数,说明第一主成份对所有的信用评价指标都有近似的载荷,是对所有指标的一个综合测度,可以作为综合的信用等级指标。将原始数据的值中心化后,代入第一主成份Z1的表示式,计算各企业的得分,并按分值大小排序:第七十页,本课件共有143页1主成分分析能降低所研究的数据空间的维数-即用研究m维的Y空间代替p维的X空间(mp),而低维的Y空间代替高维的X空间所损失的信息很少-即使只有一个主成分Yl(即m1)时,这个Yl仍是使用全部X变量(p个)得到的。例如要计算Yl的均值也得使用全部X的均值-在所选的前m个主成分中,如果某个Xi的系数近似于零的话,就可以把这个Xi删除,这也是一种删除多余变量的方法。6主成分分析主要有以下几方面的应用第七十一页,本课件共有143页2有时可通过因子负荷u uij ij的结构,弄清的结构,弄清X X变量间的某变量间的某些关系。些关系。3.3.多维数据的一种图形表示方法。多维数据的一种图形表示方法。-当维数大于3时便不能画出几何图形,多元统计研究的问题大都多于3个变量。要把研究的问题用图形表示出来是不可能的。然而,经过主成分分析后,我们可以选取前两个主成分或其中某两个主成分,根据主成分的得分,画出n个样品在二维平面上的分布况,由图形可直观地看出各样品在主分量中的地位。第七十二页,本课件共有143页4由主成分分析法构造回归模型。即把各主成分作为新自变量代替原来自变量X做回归分析。5用主成分分析筛选回归变量。回归变量的选择有着重要的实际意义,为了使模型本身易于做结构分析、控制和预报,好从原始变量所构成的子集合中选择最佳变量,构成最佳变量集合。用主成分分析筛选变量,可以用较少的计算量来选择量,获得选择最佳变量子集合的效果。第七十三页,本课件共有143页主成分回归介绍第七十四页,本课件共有143页 国际旅游外汇收入是国民收入,是国民经济发展的重要国际旅游外汇收入是国民收入,是国民经济发展的重要组成部分,影响一个国家或地区旅游收入的因素包括自然、组成部分,影响一个国家或地区旅游收入的因素包括自然、文化、社会、经济、交通等多方面的因素。中国统计年鉴文化、社会、经济、交通等多方面的因素。中国统计年鉴把第三次产业划分为把第三次产业划分为12个组成部分,分别为:个组成部分,分别为:一、提出问题一、提出问题x1:农林牧渔服务业:农林牧渔服务业 x2:地质勘查水利管理业:地质勘查水利管理业x3:交通运输仓储和邮电通讯业:交通运输仓储和邮电通讯业 x4:批发零售贸易和餐食业:批发零售贸易和餐食业x5:金融保险业:金融保险业 x6:房地产业:房地产业 x7:社会服务业:社会服务业 第七十五页,本课件共有143页x8:卫生体育和社会福利业:卫生体育和社会福利业 x9:教育文艺和广播:教育文艺和广播 x10:科学研究和综合艺术:科学研究和综合艺术x11:党政机关:党政机关 x12:其他行业:其他行业根据根据19981998年我国年我国3131个省、市、自治区的数据,以旅游外个省、市、自治区的数据,以旅游外汇收入(百万美元)为因变量,自变量的单位为亿元人汇收入(百万美元)为因变量,自变量的单位为亿元人民币。(数据略)民币。(数据略)第七十六页,本课件共有143页Intercep截距Coefficients-205.236116.8459-1.756460.096008标准误差tStatP-valueXVariable1-1.4004522.8676-0.061240.951842XVariable22.67500118.575080.144010.887092XVariable33.3008772.4645561.3393390.197128XVariable4-0.944021.296117-0.728340.475774XVariable5-5.50164.508593-1.220250.238117XVariable64.0544343.9537451.0254670.318728XVariable74.1425.0699840.8169650.42463XVariable8-15.364910.82589-1.419270.172905XVariable917.367668.353372.0791210.052178XVariable109.07888310.147280.8947110.38275XVariable11-10.585.610696-1.885690.075582XVariable121.3507095.0015040.270060.790186第七十七页,本课件共有143页线性回归模型的方差分析表线性回归模型的方差分析表方差来源自由度离差平方和方差F统计量显著性水平回归分析1211690140974178.310.51335 8.15025E-06残差18166789992661.04总计3113358039利用主成分的互不相关性来建立应变量与主成分的回归,在理论上可以达到消除多重共线性。这个模型是不理想的,一个最严重的问题是多重共线性的问题。第七十八页,本课件共有143页二、主成分回归方法二、主成分回归方法第七十九页,本课件共有143页原始数据观测矩阵主成分系数矩阵第八十页,本课件共有143页主成分得分矩阵第八十一页,本课件共有143页根据最小二乘估计,则基于协方差矩阵的主成分回归基于相关系数矩阵的主成分回归对于第八十二页,本课件共有143页主成分回归系数的协方差矩阵主成分回归系数的协方差矩阵第八十三页,本课件共有143页第八十四页,本课件共有143页第八十五页,本课件共有143页第八十六页,本课件共有143页三、主成分回归的实例Y:进口总额X1:GDPX2:积累总额X3:消费总额1、经济分析数据求进口总额与GDP、积累总额和消费总额之间的回归方程。第八十七页,本课件共有143页dataa;inputx1-x3y;cards;149.34.2108.115.9161.24.1114.816.4171.53.1123.219.0175.53.1126.919.1180.81.1132.118.8190.72.2137.720.4202.12.1146.022.7212.45.6154.126.5226.15.0162.328.1231.95.1164.327.6239.00.7167.626.3;procregoutest=b;modely=x1-x3/pcomit=1,2outvif;procprintdata=b;procstandarddata=aout=cmean=0std=1;varx1-x3y;procprincompdata=cout=dprefix=z;varx1-x3;procregdata=d;modely=z1z2/noint;run;第八十八页,本课件共有143页Analysis of Variance(方差分析)(方差分析)Sum of Mean Source DF Squares Square F Value Pr F Model 3 204.77614 68.25871 285.61|t|Intercept 1 -10.12799 1.21216 -8.36 F Model 2 9.88278 4.94139 379.38|t|F1 1 0.68998 0.02552 27.03 10时,多重共线性是严重的。可见,系数的符号没有与经济概念相悖。注:PARMS:直接建立的回归方程;PCOMIT:主成分个数;IPCVIF:不包含截距;RMSE:剩余均方差(详见计量经济学)方差膨胀因子(VIP)用于测度多重共线性,计算公式为第九十五页,本课件共有143页2、朗莱根据美国19471962年数据作主成分回归分析,该例是主成分回归用得较早的例子。Y美国联邦政府雇员人数X1国民总产出隐含平减指数X2国民总产出X3失业人数X4武装力量人数X514岁及以上非慈善机构人口数X6时间变量第九十六页,本课件共有143页第九十七页,本课件共有143页 Eigenvalues of the Correlation Matrix(相关系数矩阵的特征根)(相关系数矩阵的特征根)Eigenvalue Difference Proportion Cumulative (特征根)(特征根)(差值)差值)(贡献率)贡献率)(累计贡献率)(累计贡献率)1 4.60337745 3.42803711 0.7672 0.7672 2 1.17534035 0.97191518 0.1959 0.9631 3 0.20342517 0.18849689 0.0339 0.9970 4 0.01492828 0.01237624 0.0025 0.9995 5 0.00255204 0.00217533 0.0004 0.9999 6 0.00037671 0.0001 1.0000第九十八页,本课件共有143页 Eigenvectors(特征向量)(特征向量)Prin1 Prin2 Prin3 Prin4 Prin5 Prin6 x1 0.461835 0.057843 -.149120 -.792874 0.337934 -.135193 x2 0.461504 0.053211 -.277681 0.121625 -.149550 0.818485 x3 0.321317 -.595513 0.728306 -.007645 0.009235 0.107451 x4 0.201510 0.798193 0.561607 0.077255 0.024253 0.017970 x5 0.462279 -.045544 -.195985 0.589743 0.548569 -.311589 x6 0.464940 0.000619 -.128116 0.052285 -.749556 -.450388第九十九页,本课件共有143页Prin1Prin2Prin3Prin4Prin5Prin6Prin1Prin2Prin3Prin4Prin5Prin63.47885-0.75147-0.307950.164240.008797-0.0025793.47885-0.75147-0.307950.164240.008797-0.0025793.01051-0.84904-0.64223-0.125920.061546-0.0119803

    注意事项

    本文(第六讲主成分分析优秀PPT.ppt)为本站会员(石***)主动上传,淘文阁 - 分享文档赚钱的网站仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知淘文阁 - 分享文档赚钱的网站(点击联系客服),我们立即给予删除!

    温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。




    关于淘文阁 - 版权申诉 - 用户使用规则 - 积分规则 - 联系我们

    本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知淘文阁网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

    工信部备案号:黑ICP备15003705号 © 2020-2023 www.taowenge.com 淘文阁 

    收起
    展开