欢迎来到淘文阁 - 分享文档赚钱的网站! | 帮助中心 好文档才是您的得力助手!
淘文阁 - 分享文档赚钱的网站
全部分类
  • 研究报告>
  • 管理文献>
  • 标准材料>
  • 技术资料>
  • 教育专区>
  • 应用文书>
  • 生活休闲>
  • 考试试题>
  • pptx模板>
  • 工商注册>
  • 期刊短文>
  • 图片设计>
  • ImageVerifierCode 换一换

    实验八 主成分分析.doc

    • 资源ID:69466122       资源大小:473KB        全文页数:15页
    • 资源格式: DOC        下载积分:15金币
    快捷下载 游客一键下载
    会员登录下载
    微信登录下载
    三方登录下载: 微信开放平台登录   QQ登录  
    二维码
    微信扫一扫登录
    下载资源需要15金币
    邮箱/手机:
    温馨提示:
    快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。
    如填写123,账号就是123,密码也是123。
    支付方式: 支付宝    微信支付   
    验证码:   换一换

     
    账号:
    密码:
    验证码:   换一换
      忘记密码?
        
    友情提示
    2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
    3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
    4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
    5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。

    实验八 主成分分析.doc

    课时授课计划课次序号: 20 一、课题:实验八 主成分分析 二、课型:上机实验三、目的要求:1.能利用原始数据与相关矩阵、协主差矩阵作主成分分析,并能理解标准化变量主成分与原始数据主成分的联系与区别;2.掌握利用主成分分析的SAS过程解决有关实际问题. 能根据SAS输出结果选出满足要求的几个主成分.四、教学重点、教学难点:理解标准化主成分与原始数据主成分的区别,会求主成分,能解释主成分的含义,即给综合指标以解释.五、教学方法及手段:传统教学与上机实验相结合六、参考资料:1.实用统计方法,梅长林,周家良编,科学出版社;2.SAS统计分析应用,董大钧主编,电子工业出版社七、作业: 4.5 4.6八、授课记录:授课日期班次九、授课效果分析:实验八 主成分分析 (1学时)一、实验目的和要求 能利用原始数据与相关矩阵、协主差矩阵作主成分分析,并能理解标准化变量主成分与原始数据主成分的联系与区别;能根据SAS输出结果选出满足要求的几个主成分二、实验内容 1.主成分分析的SAS过程PROC PRINCOMP过程PROC PRINCOMP过程即可以从原始观测数据集出发,也可从相关系数或协方差矩阵出发做主成分分析默认输出结果包括相关系数矩阵或协方差矩阵,其正交单位化特征向量及特征值,各主成分的贡献率等另外,还可以按要求输出各主成分的观测值(主成分得分)等基本语句形式:PROC PRINCOMP <DATASAS数据集1> <OUT=SAS 数据集2> <OUTSTAT=SAS 数据集3> <COV> <N=n> <PREFIX=name> /* 指出要进行分析的SAS集名称、输出集等 */VAR 变量名称; /* VAR后面列出数据集中参与主成分分析的变量名称,若省略此句,则被分析数据集中所有数值变量均参与分析*/RUN;PROC PRINCOMP后面选项:l DATASAS数据集1:指出要分析的SAS数据集名称可以是原始观测值的SAS数据集,也可以是相关系数矩阵或协方差矩阵若是后者,需要在数据集名称后加上“(type=corr)”或“(type=cov)”若省略此句,则自动分析最新建立的SAS数据集l OUT=SAS 数据集2:命名一个输出SAS数据集,包括原始数据以及各主成分得分(即主成分的观测值)若输入的数据是相关系数矩阵或协方差矩阵,则不能生成该数据集l OUTSTAT=SAS数据集3:命令一个包含变量的均值、标准差、相关系数矩阵或协方差阵、特征值、特征向量的输出SAS集注意:当输入矩阵为相关系数或协方差矩阵时,为创建OUTSTAT数据集3需要指定两个新的字符变量“_TYPE_”和“_NAME_”,一般在输入数据集语句后根据输入数据是相关系数或协方差矩阵分别写上“_TYPE_='CORR'” “_TYPE_='COV'”,而在“INPUT”语句后面添加变量“_NAME_ $ ”,其取值可指定为输入的变量名这时OUTSTAT数据集3就包含一个由输入变量和用“_NAME_ ”变量命名的变量之间的相关系数或协方差矩阵l COV:要求从协方差矩阵出发做主成分分析若省略此项,则从相关系数矩阵出发做主成分分析l N=n: 指定要计算的主成分个数默认值为参与分析的变量个数l STD:要求在out的数据集里把主成份得分标准化为单位方差如果没有规定此项,主成份得分的方差等于相应的特征值l NOINT:要求在模型中不含截距l NOPRINT:不打印输出分析结果注意:命令大小写一样2.总体主成分分析(1)基于协方差矩阵的总体主成分的求法 维随机变量,协方差阵 非负定主成分定义:满足:(1)系数向量单位化; (2)各主成分不相关,无重叠信息,;(3)主成分方差由此递减求总体主成分步骤:1)解,求的p个特征值;2)对应的正交单位化的特征向量分别为;其中 ,3)的第个主成分为 ;为个主成分构成的随机向量,则,其中为正交矩阵,且故主成分向量的协方差阵为 各主成分的总方差 4)主成分的贡献率与累计贡献率第k个主成分的贡献率它反映了第k个主成分提取全部信息的多少 前k个主成分的累积贡献率它反映了前k个主成分共同提取全部信息的多少(2)基于相关系数矩阵的主成分分析标准化变量的主成分对标准化随机向量作主成分分析即为基于相关系数矩阵的主成分分析,由标准化 ,则令,的协方差矩阵恰为的相关系数矩阵,以代替即可主成分分析步骤(略): 例4.1 设随机向量协方差矩阵为,(1)从协方差矩阵出发,求的主成分;(2)从相关系数矩阵出发,求主成分,并比较解:(1)程序如下:data examp4_1 (type=cov); /* 建立数据集,数据集为协方差矩阵要加上(type=cov) */_type_='cov' /* 输入数据集为协方差矩阵要加上_type_=cov */input _name_ $ x1-x3; /* 输入变量要加上_name_ $,取值可指定为输入的变量名 */cards;x1 1 -2 0x2 -2 5 0x3 0 0 2;run;proc princomp data=examp4_1 cov outstat=bb; /* 调用主成分分析的princomp过程,从协方差阵出发进行主成分分析,命令一个含变量均值、协方差阵、特征值、特征向量的输出SAS集bb */var x1-x3; /* 参与分析变量为x1-x3 */run;proc print data=bb; run;结果输出: SAS 系统 10:24 Sunday, November 2, 2008 1 The PRINCOMP Procedure Observations 10000 Variables 3 Total Variance 总变差=8协方差矩阵的特征值、各主成分的贡献率、累计贡献率 Eigenvalues of the Covariance Matrix Eigenvalue Difference Proportion Cumulative 特征值 贡献率 累计贡献率 1 5.82842712 3.82842712 0.7286 0.7286 2 2.00000000 1.82842712 0.2500 0.9786 3 0.17157288 0.0214 1.0000协方差矩阵特征值排序的正交化特征向量 Eigenvectors 第一主成分 第二主成分 第三主成分 Prin1 Prin2 Prin3 x1 -.382683 0.00000 0.923880 x2 0.923880 0.00000 0.382683 x3 0.000000 1.00000 0.000000输出数据集 含各变量均值、观测数据个数1000、协方差阵、特征值和特征向量等 SAS 系统 10:24 Sunday, November 2, 2008 2 Obs _TYPE_ _NAME_ x1 x2 x3 1 MEAN 0.00 0.00 0.00观测个数默认10000 2 N 10000.00 10000.00 10000.00 协方差矩阵 3 COV x1 1.00 -2.00 0.00 4 COV x2 -2.00 5.00 0.00 5 COV x3 0.00 0.00 2.00 特征值 6 EIGENVAL 5.83 2.00 0.17 主成分 7 SCORE Prin1 -0.38 0.92 0.00 主成分 8 SCORE Prin2 0.00 0.00 1.00 9 SCORE Prin3 0.92 0.38 0.00由结果得出,的特征值及正交单位化的特征向量分别为, , 第一主成分的贡献率为 前两个主成分的累计贡献率为若用前两个主成分代替原来三个变量,其信息损失仅为2%,很小(2)留作练习proc princomp data=examp4_1 cov outstat=bb; 中去掉COV即可.如果直接给的是相关系数矩阵,在第一行和第二行命令中改为:data examp4_1 (type=corr); _type_='corr'换成即可3.样本主成分的协方差矩阵(或相关系数矩阵)未知,可用样本协方差矩阵或样本相关系数矩阵作为或的估计进行主成分分析(1)基于样本协方差矩阵的主成分分析来自于总体的容量为的样本观测数据 ,样本协方差矩阵其中 , 为的样本均值步骤:1)求样本协方差矩阵特征值; 2)相应的正交单位化特征向量,; 3)第个样本主成分 , 4) 第k个样本主成分的贡献率 前k个主成分的累积贡献率5)第个样本主成分的个观测值称为第个样本主成分的得分,可以依据得分对各组样本观测数据进行排序:()样本主成分的观测数据(得分向量)(2)基于样本相关系数矩阵的主成分分析从样本相关系数矩阵 出发进行主成分分析,相当于从标准化样本的样本协方差矩阵出发进行主成分分析,求出的特征值和正交单位化的特征向量即可样本总方差为 步骤:1)求的特征值2)相应的正交单位化特征向量,3)第个样本主成分 , 4) 第k个样本主成分的贡献率 前k个主成分的累积贡献率5)第个样本主成分的得分()表4.1 个变量的原始数据及其主成分得分 序号 原变量 主成分 1 2 例4.3 对10名男中学生的身高()、胸围()、体重()进行测量,得数据如表4.2,对其做主成分分析表4.2 10名男中学生的身高、胸围及体重数据 序号 身高X1(cm) 胸围X2(cm) 体重X3(kg) 1 149.5 69.5 38.52 162.5 77.0 55.53 162.7 78.5 50.84 162.2 87.5 65.55 156.5 74.5 49.06 156.1 74.5 45.57 172.0 76.5 51.08 173.2 81.5 59.59 159.5 74.5 43.510 157.7 79.0 53.5 解:利用SAS proc princomp 过程,从样本协方差矩阵出发做主成分分析data examp4_3; /* 建立数据集,变量x1-x3,观测个数n=10 */input x1-x3;cards;149.5 69.5 38.5162.5 77.0 55.5162.7 78.5 50.8162.2 87.5 65.5156.5 74.5 49.0156.1 74.5 45.5172.0 76.5 51.0173.2 81.5 59.5159.5 74.5 43.5157.7 79.0 53.5;run;proc princomp cov data=examp4_3; /* 调用主成分分析的princomp过程,从协方差阵出发进行主成分分析*/var x1-x3; /* 参与分析变量为x1-x3*/run;SAS 系统 10:24 Sunday, November 2, 2008 5 The PRINCOMP Procedure Observations 10 Variables 3 Simple Statistics(简单统计量 样本均值 标准差) x1 x2 x3 Mean 161.1900000 77.30000000 51.23000000 StD 7.1934306 4.84309359 7.85465891 Covariance Matrix(样本协方差矩阵S) x1 x2 x3 x1 51.74544444 18.98666667 34.41922222 x2 18.98666667 23.45555556 36.19555556 x3 34.41922222 36.19555556 61.69566667 Total Variance 136.89666667样本协方差矩阵S的特征值、各主成分贡献率及累计贡献率 Eigenvalues of the Covariance Matrix Eigenvalue Difference Proportion Cumulative特征值 贡献率 累计贡献率 1 110.004139 84.679659 0.8036 0.8036 2 25.324480 23.756432 0.1850 0.9885 3 1.568048 0.0115 1.0000样本协方差矩阵S按特征值排序的正交化特征向量 Eigenvectors Prin1 Prin2 Prin3第一主成分 第二主成分 x1 0.559157 0.827674 0.047960 x2 0.421287 -.333483 0.843390 x3 0.714046 -.451382 -.535157得样本协方差矩阵由于样本各变量的样本方差差距不大,直接从出发做主成分分析由SAS proc princomp 过程求得的特征值和正交单位化特征向量为, , , 各主成分的贡献率分别为 由此,前两个主成分的累计贡献率达98.86%,提取前两个主成分即可 大小因子,反映学生身材是否魁梧,魁梧则大 形状因子,反映学生的体型特征,瘦高型的大例4.4 为全面了解我国西北某省的十家上市公司的获利能力和经营发展能力,特选取公司如下六个指标进行分析:每股净收益; :净资产收益率; :主营业务收益率;:主营业务增长率; :净资产增长率; :总资产增长率其中前三个变量反映了上市公司的获利能力,后三个变量反映了公司的经营发展能力表4.3给出了这10家公司关于六个指标在过去三年取值的加权平均,对其做主成分分析,并按第一主成分对这10家公司的综合能力进行排序表4.3 10家上市公司的获利和发展能力数据 公司编号 X1 X2 X3 X4 X5 X6 1 0.021 26.806 57.311 -39.819 -39.819 8.819 2 -0.142 -7.179 16.335 -11.359 -4.766 -4.626 3 -0.737 -62.417 7.359 -18.378 -19.165 12.2894 0.320 7.276 17.372 39.506 19.858 41.939 5 0.160 4.820 38.323 37.113 23.744 34.063 6 0.351 11.842 23.118 14.725 11.616 9.516 7 0.243 5.173 17.515 14.435 123.101 79.489 8 -0.190 -10.912 8.236 -2.746 -7.439 -10.502 9 0.173 7.543 23.978 17.122 21.318 25.701 10 0.367 9.352 16.048 55.621 27.861 18.918 解:程序如下:data examp4_4;input id x1-x6; /* 输入id是为了要对样本进行排序,可以是字符型变量 */cards; 1 0.021 26.806 57.311 -39.819 -39.819 8.819 2 -0.142 -7.179 16.335 -11.359 -4.766 -4.626 3 -0.737 -62.417 7.359 -18.378 -19.165 12.289 4 0.320 7.276 17.372 39.506 19.858 41.939 5 0.160 4.820 38.323 37.113 23.744 34.063 6 0.351 11.842 23.118 14.725 11.616 9.516 7 0.243 5.173 17.515 14.435 123.101 79.489 8 -0.190 -10.912 8.236 -2.746 -7.439 -10.502 9 0.173 7.543 23.978 17.122 21.318 25.701 10 0.367 9.352 16.048 55.621 27.861 18.918;run;proc corr cov nosimple data=examp4_4; /* 调用协方差分析的corr过程,计算协方差矩阵,不输出每个变量的简单统计量的值*/var x1-x6;run;proc princomp data=examp4_4 prefix=y out=bb; /* 调用主成分分析的princomp过程,从相关系数矩阵出发进行主成分分析,主成分名称y,输出集bb */var x1-x6;run;proc plot data=bb; /* 画第一、第二主成分散点图,可依此直观对样本分类、排序等 */plot y2*y1 $ id=*;proc sort data=bb; /* 对数据集数据集bb进行排序,按照prin1降序排列 */by descending y1; run;proc print data=bb; /* 打印输出数据集bb */var id y1 y2 x1-x6;run;(1)调用协方差分析的corr过程,计算协方差矩阵及相关系数矩阵SAS 系统 10:24 Sunday, November 2, 2008 6 CORR 过程 6 变量: x1 x2 x3 x4 x5 x6 样本协方差矩阵S,自由度 = 9 x1 x2 x3 x4 x5 x6x1 0.115856 7.038086 1.469550 6.606916 7.176540 3.832540x2 7.038086 574.072521 227.762290 181.962655 202.129706 127.455392x3 1.469550 227.762290 225.355308 -112.974155 -161.181280 15.099194x4 6.606916 181.962655 -112.974155 853.528265 653.378961 323.896329x5 7.176540 202.129706 -161.181280 653.378961 1896.138991 972.852413x6 3.832540 127.455392 15.099194 323.896329 972.852413 673.171848由样本协方差矩阵看出,各指标的样本方差差异很大,因此从样本相关系数矩阵出发进行主成分分析(即求标准化的样本主成分)由SAS proc printcomp 过程得样本相关系数矩阵如下:Pearson 样本相关系数矩阵R及检验对应的两个变量是否相关的检验p值 Pearson 相关系数, N = 10 当 H0: Rho=0 时,Prob > |r| x1 x2 x3 x4 x5 x6 x1 1.00000 0.86300 0.28760 0.66440 0.48419 0.43397 0.0013<0.05相关 0.4204 0.0361 0.1562 0.2102 x2 0.86300 1.00000 0.63323 0.25995 0.19374 0.20503 0.0013 0.0494 0.4683 0.5918 0.5699 x3 0.28760 0.63323 1.00000 -0.25759 -0.24657 0.03877 0.4204 0.0494 0.4724 0.4922 0.9153 x4 0.66440 0.25995 -0.25759 1.00000 0.51360 0.42730 0.0361 0.4683 0.4724 0.1289 0.2181 x5 0.48419 0.19374 -0.24657 0.51360 1.00000 0.86109 0.1562 0.5918 0.4922 0.1289 0.0014 x6 0.43397 0.20503 0.03877 0.42730 0.86109 1.00000 0.2102 0.5699 0.9153 0.2181 0.0014(2)调用主成分分析的princomp过程,从相关系数矩阵出发进行主成分分析,输出集bb SAS 系统 10:24 Sunday, November 2, 2008 7 The PRINCOMP Procedure Observations 10 Variables 6 Simple Statistics(简单统计量 均值、标准差) x1 x2 x3 x4 x5 x6Mean 0.0566000000 -0.76960000 22.55950000 10.62200000 15.63090000 21.56060000StD 0.3403766541 23.95981054 15.01183892 29.21520605 43.54467810 25.94555545Correlation Matrix(样本相关系数矩阵R) x1 x2 x3 x4 x5 x6 x1 1.0000 0.8630 0.2876 0.6644

    注意事项

    本文(实验八 主成分分析.doc)为本站会员(asd****56)主动上传,淘文阁 - 分享文档赚钱的网站仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知淘文阁 - 分享文档赚钱的网站(点击联系客服),我们立即给予删除!

    温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。




    关于淘文阁 - 版权申诉 - 用户使用规则 - 积分规则 - 联系我们

    本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知淘文阁网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

    工信部备案号:黑ICP备15003705号 © 2020-2023 www.taowenge.com 淘文阁 

    收起
    展开