实验八 主成分分析.doc
《实验八 主成分分析.doc》由会员分享,可在线阅读,更多相关《实验八 主成分分析.doc(15页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、课时授课计划课次序号: 20 一、课题:实验八 主成分分析 二、课型:上机实验三、目的要求:1.能利用原始数据与相关矩阵、协主差矩阵作主成分分析,并能理解标准化变量主成分与原始数据主成分的联系与区别;2.掌握利用主成分分析的SAS过程解决有关实际问题. 能根据SAS输出结果选出满足要求的几个主成分.四、教学重点、教学难点:理解标准化主成分与原始数据主成分的区别,会求主成分,能解释主成分的含义,即给综合指标以解释.五、教学方法及手段:传统教学与上机实验相结合六、参考资料:1.实用统计方法,梅长林,周家良编,科学出版社;2.SAS统计分析应用,董大钧主编,电子工业出版社七、作业: 4.5 4.6八
2、、授课记录:授课日期班次九、授课效果分析:实验八 主成分分析 (1学时)一、实验目的和要求 能利用原始数据与相关矩阵、协主差矩阵作主成分分析,并能理解标准化变量主成分与原始数据主成分的联系与区别;能根据SAS输出结果选出满足要求的几个主成分二、实验内容 1.主成分分析的SAS过程PROC PRINCOMP过程PROC PRINCOMP过程即可以从原始观测数据集出发,也可从相关系数或协方差矩阵出发做主成分分析默认输出结果包括相关系数矩阵或协方差矩阵,其正交单位化特征向量及特征值,各主成分的贡献率等另外,还可以按要求输出各主成分的观测值(主成分得分)等基本语句形式:PROC PRINCOMP ;
3、/* 指出要进行分析的SAS集名称、输出集等 */VAR 变量名称; /* VAR后面列出数据集中参与主成分分析的变量名称,若省略此句,则被分析数据集中所有数值变量均参与分析*/RUN;PROC PRINCOMP后面选项:l DATASAS数据集1:指出要分析的SAS数据集名称可以是原始观测值的SAS数据集,也可以是相关系数矩阵或协方差矩阵若是后者,需要在数据集名称后加上“(type=corr)”或“(type=cov)”若省略此句,则自动分析最新建立的SAS数据集l OUT=SAS 数据集2:命名一个输出SAS数据集,包括原始数据以及各主成分得分(即主成分的观测值)若输入的数据是相关系数矩阵
4、或协方差矩阵,则不能生成该数据集l OUTSTAT=SAS数据集3:命令一个包含变量的均值、标准差、相关系数矩阵或协方差阵、特征值、特征向量的输出SAS集注意:当输入矩阵为相关系数或协方差矩阵时,为创建OUTSTAT数据集3需要指定两个新的字符变量“_TYPE_”和“_NAME_”,一般在输入数据集语句后根据输入数据是相关系数或协方差矩阵分别写上“_TYPE_=CORR” “_TYPE_=COV”,而在“INPUT”语句后面添加变量“_NAME_ $ ”,其取值可指定为输入的变量名这时OUTSTAT数据集3就包含一个由输入变量和用“_NAME_ ”变量命名的变量之间的相关系数或协方差矩阵l C
5、OV:要求从协方差矩阵出发做主成分分析若省略此项,则从相关系数矩阵出发做主成分分析l N=n: 指定要计算的主成分个数默认值为参与分析的变量个数l STD:要求在out的数据集里把主成份得分标准化为单位方差如果没有规定此项,主成份得分的方差等于相应的特征值l NOINT:要求在模型中不含截距l NOPRINT:不打印输出分析结果注意:命令大小写一样2.总体主成分分析(1)基于协方差矩阵的总体主成分的求法 维随机变量,协方差阵 非负定主成分定义:满足:(1)系数向量单位化; (2)各主成分不相关,无重叠信息,;(3)主成分方差由此递减求总体主成分步骤:1)解,求的p个特征值;2)对应的正交单位化
6、的特征向量分别为;其中 ,3)的第个主成分为 ;为个主成分构成的随机向量,则,其中为正交矩阵,且故主成分向量的协方差阵为 各主成分的总方差 4)主成分的贡献率与累计贡献率第k个主成分的贡献率它反映了第k个主成分提取全部信息的多少 前k个主成分的累积贡献率它反映了前k个主成分共同提取全部信息的多少(2)基于相关系数矩阵的主成分分析标准化变量的主成分对标准化随机向量作主成分分析即为基于相关系数矩阵的主成分分析,由标准化 ,则令,的协方差矩阵恰为的相关系数矩阵,以代替即可主成分分析步骤(略): 例4.1 设随机向量协方差矩阵为,(1)从协方差矩阵出发,求的主成分;(2)从相关系数矩阵出发,求主成分,
7、并比较解:(1)程序如下:data examp4_1 (type=cov); /* 建立数据集,数据集为协方差矩阵要加上(type=cov) */_type_=cov; /* 输入数据集为协方差矩阵要加上_type_=cov */input _name_ $ x1-x3; /* 输入变量要加上_name_ $,取值可指定为输入的变量名 */cards;x1 1 -2 0x2 -2 5 0x3 0 0 2;run;proc princomp data=examp4_1 cov outstat=bb; /* 调用主成分分析的princomp过程,从协方差阵出发进行主成分分析,命令一个含变量均值、协
8、方差阵、特征值、特征向量的输出SAS集bb */var x1-x3; /* 参与分析变量为x1-x3 */run;proc print data=bb; run;结果输出: SAS 系统 10:24 Sunday, November 2, 2008 1 The PRINCOMP Procedure Observations 10000 Variables 3 Total Variance 总变差=8协方差矩阵的特征值、各主成分的贡献率、累计贡献率 Eigenvalues of the Covariance Matrix Eigenvalue Difference Proportion Cumu
9、lative 特征值 贡献率 累计贡献率 1 5.82842712 3.82842712 0.7286 0.7286 2 2.00000000 1.82842712 0.2500 0.9786 3 0.17157288 0.0214 1.0000协方差矩阵特征值排序的正交化特征向量 Eigenvectors 第一主成分 第二主成分 第三主成分 Prin1 Prin2 Prin3 x1 -.382683 0.00000 0.923880 x2 0.923880 0.00000 0.382683 x3 0.000000 1.00000 0.000000输出数据集 含各变量均值、观测数据个数1000
10、、协方差阵、特征值和特征向量等 SAS 系统 10:24 Sunday, November 2, 2008 2 Obs _TYPE_ _NAME_ x1 x2 x3 1 MEAN 0.00 0.00 0.00观测个数默认10000 2 N 10000.00 10000.00 10000.00 协方差矩阵 3 COV x1 1.00 -2.00 0.00 4 COV x2 -2.00 5.00 0.00 5 COV x3 0.00 0.00 2.00 特征值 6 EIGENVAL 5.83 2.00 0.17 主成分 7 SCORE Prin1 -0.38 0.92 0.00 主成分 8 SCO
11、RE Prin2 0.00 0.00 1.00 9 SCORE Prin3 0.92 0.38 0.00由结果得出,的特征值及正交单位化的特征向量分别为, , 第一主成分的贡献率为 前两个主成分的累计贡献率为若用前两个主成分代替原来三个变量,其信息损失仅为2%,很小(2)留作练习proc princomp data=examp4_1 cov outstat=bb; 中去掉COV即可.如果直接给的是相关系数矩阵,在第一行和第二行命令中改为:data examp4_1 (type=corr); _type_=corr;换成即可3.样本主成分的协方差矩阵(或相关系数矩阵)未知,可用样本协方差矩阵或样
12、本相关系数矩阵作为或的估计进行主成分分析(1)基于样本协方差矩阵的主成分分析来自于总体的容量为的样本观测数据 ,样本协方差矩阵其中 , 为的样本均值步骤:1)求样本协方差矩阵特征值; 2)相应的正交单位化特征向量,; 3)第个样本主成分 , 4) 第k个样本主成分的贡献率 前k个主成分的累积贡献率5)第个样本主成分的个观测值称为第个样本主成分的得分,可以依据得分对各组样本观测数据进行排序:()样本主成分的观测数据(得分向量)(2)基于样本相关系数矩阵的主成分分析从样本相关系数矩阵 出发进行主成分分析,相当于从标准化样本的样本协方差矩阵出发进行主成分分析,求出的特征值和正交单位化的特征向量即可样
13、本总方差为 步骤:1)求的特征值2)相应的正交单位化特征向量,3)第个样本主成分 , 4) 第k个样本主成分的贡献率 前k个主成分的累积贡献率5)第个样本主成分的得分()表4.1 个变量的原始数据及其主成分得分 序号 原变量 主成分 1 2 例4.3 对10名男中学生的身高()、胸围()、体重()进行测量,得数据如表4.2,对其做主成分分析表4.2 10名男中学生的身高、胸围及体重数据 序号 身高X1(cm) 胸围X2(cm) 体重X3(kg) 1 149.5 69.5 38.52 162.5 77.0 55.53 162.7 78.5 50.84 162.2 87.5 65.55 156.5
14、 74.5 49.06 156.1 74.5 45.57 172.0 76.5 51.08 173.2 81.5 59.59 159.5 74.5 43.510 157.7 79.0 53.5 解:利用SAS proc princomp 过程,从样本协方差矩阵出发做主成分分析data examp4_3; /* 建立数据集,变量x1-x3,观测个数n=10 */input x1-x3;cards;149.5 69.5 38.5162.5 77.0 55.5162.7 78.5 50.8162.2 87.5 65.5156.5 74.5 49.0156.1 74.5 45.5172.0 76.5
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 实验八 主成分分析 实验 成分 分析
限制150内