第五讲SAS的多元统计分析.ppt





《第五讲SAS的多元统计分析.ppt》由会员分享,可在线阅读,更多相关《第五讲SAS的多元统计分析.ppt(34页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、第五讲SAS的多元统计分析现在学习的是第1页,共34页SAS多元统计分析概论多元统计分析概论多元统计分析是统计学的重要应用工具,多元统计分析是统计学的重要应用工具,SAS实现了许多常用的多元统实现了许多常用的多元统计分析方法。计分析方法。SAS用于多变量分析的过程有用于多变量分析的过程有PRINCOMP(主分量分析)(主分量分析)、FACTOR(因子分析)、(因子分析)、CANCORR(典型相关分析)、(典型相关分析)、MDS(多维标度过程)、(多维标度过程)、MULTTEST(多重检验)、(多重检验)、PRINQUAL(定性(定性数据的主分量分析)、数据的主分量分析)、CORRESP(对应分
2、析),用于判别分析的(对应分析),用于判别分析的过程有过程有DISCRIM(判别分析)、(判别分析)、CANDISC(典型判别)、(典型判别)、STEPDISC(逐步判别),用于聚类分析的过程有(逐步判别),用于聚类分析的过程有CLUSTER(谱(谱系聚类)、系聚类)、FASTCLUS(K均值快速聚类)、均值快速聚类)、MODECLUS(非参(非参数聚类)、数聚类)、VARCLUS(变量聚类)、(变量聚类)、TREE(画谱系聚类的结果(画谱系聚类的结果谱系图并给出分类结果)。我们主要介绍一些最常见的多元统计方谱系图并给出分类结果)。我们主要介绍一些最常见的多元统计方法。法。现在学习的是第2页,
3、共34页SAS多元统计分析概论多元统计分析概论现实中的统计对象经常用多个指标来表示,比如人口普查,就可以现实中的统计对象经常用多个指标来表示,比如人口普查,就可以有姓名、性别、出生年月日、籍贯、婚姻状况、民族、政治面貌、有姓名、性别、出生年月日、籍贯、婚姻状况、民族、政治面貌、地区等,企业调查,可以有净资产、负债、盈利、职工人数、还贷地区等,企业调查,可以有净资产、负债、盈利、职工人数、还贷情况等等。多个指标(变量)可以分别进行分析,但是,我们往往情况等等。多个指标(变量)可以分别进行分析,但是,我们往往希望综合使用这些指标,这时,有主分量分析、因子分析等方法可希望综合使用这些指标,这时,有主
4、分量分析、因子分析等方法可以把数据的维数降低,同时又尽量不损失数据中的信息。以把数据的维数降低,同时又尽量不损失数据中的信息。现在学习的是第3页,共34页SAS多元统计分析概论多元统计分析概论I.主分量分析主分量分析 一、理论介绍一、理论介绍主分量分析的目的是从原始的多个变量取若干线性组合,能尽主分量分析的目的是从原始的多个变量取若干线性组合,能尽可能多地保留原始变量可能多地保留原始变量 中的信息。从原始变量到新变量是一个中的信息。从原始变量到新变量是一个正交变换(坐标变换)。设有正交变换(坐标变换)。设有 是一个 维随机变量,有二阶矩,记维随机变量,有二阶矩,记,。考虑它的线性变换。考虑它的
5、线性变换现在学习的是第4页,共34页现在学习的是第5页,共34页现在学习的是第6页,共34页现在学习的是第7页,共34页现在学习的是第8页,共34页SASSAS的的的的PRINTCOMPPRINTCOMP过程有如下功能:过程有如下功能:过程有如下功能:过程有如下功能:l完成主分量分析。完成主分量分析。l主分量的个数可以由用户自己确定,主分量的名字可以用户自己规主分量的个数可以由用户自己确定,主分量的名字可以用户自己规定,主分量得分是否标准化可自己规定。定,主分量得分是否标准化可自己规定。l输入数据集可以是原始数据集、相关阵、协方差阵或叉积阵。输入为输入数据集可以是原始数据集、相关阵、协方差阵或
6、叉积阵。输入为原始数据时,用户还可以规定从协方差阵出发还是从相关阵出发进行分原始数据时,用户还可以规定从协方差阵出发还是从相关阵出发进行分析。由协方差阵出发时方差大的变量在分析中起到更大的作用。析。由协方差阵出发时方差大的变量在分析中起到更大的作用。l计算结果有:简单统计量,相关阵或协方差阵,从大到小排序的特征计算结果有:简单统计量,相关阵或协方差阵,从大到小排序的特征值和相应特征向量,每个主分量解释的方差比例,累计比例等。可生成值和相应特征向量,每个主分量解释的方差比例,累计比例等。可生成两个输出数据集:一个包含原始数据及主分量得分,另一个包含有关统两个输出数据集:一个包含原始数据及主分量得
7、分,另一个包含有关统计量,类型为计量,类型为TYPE=CORR或或COV。l可揭示变量间的共线关系。若某特征值特别接近可揭示变量间的共线关系。若某特征值特别接近0说明变量线性相关,说明变量线性相关,这时用这些变量作回归自变量可能得到错误的结果。这时用这些变量作回归自变量可能得到错误的结果。现在学习的是第9页,共34页lPRINCOMP主要使用主要使用PROC PRINCOMP语句与语句与VAR语句。语句。PROC PRINCOMP语句用来规定输入输出和一些运行选项,包括:语句用来规定输入输出和一些运行选项,包括:lDATA=输入数据集,可以是原始数据集,也可以是输入数据集,可以是原始数据集,也
8、可以是TYPE=CORR,COV的数据集的数据集lOUT=输出包含原始数据和主分量得分的数据集输出包含原始数据和主分量得分的数据集lOUTSTAT=统计量输出数据集统计量输出数据集lCOV 要求从协方差阵出发计算主分量。缺省为从相关阵出发计算。要求从协方差阵出发计算主分量。缺省为从相关阵出发计算。lN=要计算的主分量个数。缺省时全算。要计算的主分量个数。缺省时全算。lNOINT 要求在模型中不使用截距项。这时统计量输出数据集类型为要求在模型中不使用截距项。这时统计量输出数据集类型为TYPE=UCORR或或UCOV。lSTD 要求在要求在OUT=的数据集中把主分量得分标准化为单位方差。不规的数据
9、集中把主分量得分标准化为单位方差。不规定时方差为相应特征值。定时方差为相应特征值。l用用VAR语句指定原始变量。必须为数值型(区间变量)。语句指定原始变量。必须为数值型(区间变量)。现在学习的是第10页,共34页三、应用举例三、应用举例例例1一月和七月平均气温的主分量分析一月和七月平均气温的主分量分析在数据集TEMPERAT中存放有美国一些城市一月和七月的平均气温。我们希望对这两个气温进行主成分分析,希望用一个统一的温度来作为总的可比的温度,所以进行主分量分析。程序如下:SAS多元统计分析概论多元统计分析概论现在学习的是第11页,共34页l/*EXAMPLE 1*/*EXAMPLE 1*/lD
10、ATADATA TEMPERAT;l INPUT CITY$1 1-1515 JANUARY JULY;l CARDS;lMOBILE 51.2 81.6lPHOENIX 51.2 91.2lLITTLE ROCK 39.5 81.4lSACRAMENTO 45.1 75.2lDENVER 29.9 73.0lHARTFORD 24.8 72.7lWILMINGTON 32.0 75.8lWASHINGTON DC 35.6 78.7lJACKSONVILLE 54.6 81.0lMIAMI 67.2 82.3lATLANTA 42.4 78.0lBOISE 29.0 74.5lCHICAGO
11、 22.9 71.9lPEORIA 23.8 75.1lINDIANAPOLIS 27.9 75.0lDES MOINES 19.4 75.1lWICHITA 31.3 80.7lLOUISVILLE 33.3 76.9lNEW ORLEANS 52.9 81.9lPORTLAND,MAINE 21.5 68.0lBALTIMORE 33.4 76.6lBOSTON 29.2 73.3lDETROIT 25.5 73.3lSAULT STE MARIE 14.2 63.8lDULUTH 8.5 65.6lMINNEAPOLIS 12.2 71.9lJACKSON 47.1 81.7lKANSA
12、S CITY 27.8 78.8lST LOUIS 31.3 78.6lGREAT FALLS 20.5 69.3lOMAHA 22.6 77.2lRENO 31.9 69.3lCONCORD 20.6 69.7lATLANTIC CITY 32.7 75.1lALBUQUERQUE 35.2 78.7lALBANY 21.5 72.0lBUFFALO 23.7 70.1lNEW YORK 32.2 76.6lCHARLOTTE 42.1 78.5lRALEIGH 40.5 77.5lBISMARCK 8.2 70.8lCINCINNATI 31.1 75.6lCLEVELAND 26.9 7
13、1.4lCOLUMBUS 28.4 73.6lOKLAHOMA CITY 36.8 81.5lPORTLAND,OREG 38.1 67.1lPHILADELPHIA 32.3 76.8lPITTSBURGH 28.1 71.9lPROVIDENCE 28.4 72.1lCOLUMBIA 45.4 81.2lSIOUX FALLS 14.2 73.3lMEMPHIS 40.5 79.6lNASHVILLE 38.3 79.6lDALLAS 44.8 84.8lEL PASO 43.6 82.3lHOUSTON 52.1 83.3lSALT LAKE CITY 28.0 76.7lBURLING
14、TON 16.8 69.8lNORFOLK 40.5 78.3lRICHMOND 37.5 77.9lSPOKANE 25.4 69.7lCHARLESTON,WV 34.5 75.0lMILWAUKEE 19.4 69.9lCHEYENNE 26.6 69.1l;lPROCPROC PRINCOMPPRINCOMP COV OUT=PRIN;l VAR JULY JANUARY;lRUNRUN;现在学习的是第12页,共34页组成分得分输出到了数据集组成分得分输出到了数据集PRIN中,在中,在INSIGHT中打开中打开WORK.PRIN,分别绘制,分别绘制JULY对对JANUARY、PRIN2
15、对对PRIN1的散的散点图。从图可以看出主分量为原始变量的一个正交旋转。点图。从图可以看出主分量为原始变量的一个正交旋转。图 1 一月、七月气温的散点图和主分量散点图一月、七月气温的散点图和主分量散点图现在学习的是第13页,共34页l The SAS System 02:18 Wednesday,October 26,2005 1l The PRINCOMP Procedurel Observations 64l Variables 2l Simple Statisticsl JULY JANUARYl Mean 75.60781250 32.09531250l StD 5.12761910
16、11.71243309l Covariance Matrixl JULY JANUARYl JULY 26.2924777 46.8282912l JANUARY 46.8282912 137.1810888l Total Variance 163.47356647l Eigenvalues of the Covariance Matrixl Eigenvalue Difference Proportion Cumulativel 1 154.310607 145.147647 0.9439 0.9439l 2 9.162960 0.0561 1.0000l Eigenvectorsl Pri
17、n1 Prin2l JULY 0.343532 0.939141l JANUARY 0.939141 -.343532显示结果如下:现在学习的是第14页,共34页l输出中,第一部分为简单统计量(均值和标准差),第二部分为协方输出中,第一部分为简单统计量(均值和标准差),第二部分为协方差的特征值(注意我们在过程中用了差的特征值(注意我们在过程中用了COV选项,无此选项用相关阵),选项,无此选项用相关阵),从这里可以看到贡献率(从这里可以看到贡献率(Proportion)和累计贡献率()和累计贡献率(Cumulative),),第三部分为特征向量。按本结果的特征向量值及用第三部分为特征向量。按本结
18、果的特征向量值及用COV选项规定使用选项规定使用协方差阵,我们可以知道两个主分量如此计算:协方差阵,我们可以知道两个主分量如此计算:lPRIN1=0.326866(JULY-75.92)+0.945071(JANUARY-32.55)lPRIN2=0.945071(JULY-75.92)+(-0.326866)(JANUARY-32.55)l如果没有用如果没有用COV选项,原始变量还需要除以标准差。由系数可见,第一选项,原始变量还需要除以标准差。由系数可见,第一主分量是两个月份的加权平均,代表了一个地方的气温水平,第二主分量主分量是两个月份的加权平均,代表了一个地方的气温水平,第二主分量系数一
19、正一负,反应了冬季和夏季的气温差别。系数一正一负,反应了冬季和夏季的气温差别。现在学习的是第15页,共34页例2美国各种类型犯罪的主分量分析在数据集CRIME中有美国各个州的各种类型犯罪的犯罪率数据。希望对这些犯罪率数据进行主分量分析以概括犯罪情况。程序如下:SAS多元统计分析概论多元统计分析概论现在学习的是第16页,共34页l/*EXAMPLE 2*/*EXAMPLE 2*/lDATADATA CRIME;l TITLE 各州每十万人的犯罪率;l INPUT STATE$1 1-1515 MURDER RAPE ROBBERY ASSAULT BURGLARY LARCENY AUTO;l
20、CARDS;lALABAMA 14.2 25.2 96.8 278.3 1135.5 1881.9 280.7lALASKA 10.8 51.6 96.8 284.0 1331.7 3369.8 753.3lARIZONA 9.5 34.2 138.2 312.3 2346.1 4467.4 439.5lARKANSAS 8.8 27.6 83.2 203.4 972.6 1862.1 183.4lCALIFORNIA 11.5 49.4 287.0 358.0 2139.4 3499.8 663.5lCOLORADO 6.3 42.0 170.7 292.9 1935.2 3903.2 47
21、7.1lCONNECTICUT 4.2 16.8 129.5 131.8 1346.0 2620.7 593.2lDELAWARE 6.0 24.9 157.0 194.2 1682.6 3678.4 467.0lFLORIDA 10.2 39.6 187.9 449.1 1859.9 3840.5 351.4lGEORGIA 11.7 31.1 140.5 256.5 1351.1 2170.2 297.9lHAWAII 7.2 25.5 128.0 64.1 1911.5 3920.4 489.4lIDAHO 5.5 19.4 39.6 172.5 1050.8 2599.6 237.6l
22、ILLINOIS 9.9 21.8 211.3 209.0 1085.0 2828.5 528.6lINDIANA 7.4 26.5 123.2 153.5 1086.2 2498.7 377.4lIOWA 2.3 10.6 41.2 89.8 812.5 2685.1 219.9lKANSAS 6.6 22.0 100.7 180.5 1270.4 2739.3 244.3lKENTUCKY 10.1 19.1 81.1 123.3 872.2 1662.1 245.4lLOUISIANA 15.5 30.9 142.9 335.5 1165.5 2469.9 337.7lMAINE 2.4
23、 13.5 38.7 170.0 1253.1 2350.7 246.9lMARYLAND 8.0 34.8 292.1 358.9 1400.0 3177.7 428.5lMASSACHUSETTS 3.1 20.8 169.1 231.6 1532.2 2311.3 1140.1lMICHIGAN 9.3 38.9 261.9 274.6 1522.7 3159.0 545.5lMINNESOTA 2.7 19.5 85.9 85.8 1134.7 2559.3 343.1lMISSISSIPPI 14.3 19.6 65.7 189.1 915.6 1239.9 144.4lMISSOU
24、RI 9.6 28.3 189.0 233.5 1318.3 2424.2 378.4lMONTANA 5.4 16.7 39.2 156.8 804.9 2773.2 309.2lNEBRASKA 3.9 18.1 64.7 112.7 760.0 2316.1 249.1lNEVADA 15.8 49.1 323.1 355.0 2453.1 4212.6 559.2lNEW HAMPSHIRE 3.2 10.7 23.2 76.0 1041.7 2343.9 293.4lNEW JERSEY 5.6 21.0 180.4 185.1 1435.8 2774.5 511.5lNEW MEX
25、ICO 8.8 39.1 109.6 343.4 1418.7 3008.6 259.5lNEW YORK 10.7 29.4 472.6 319.1 1728.0 2782.0 745.8lNORTH CAROLINA 10.6 17.0 61.3 318.3 1154.1 2037.8 192.1lNORTH DAKOTA 0.9 9.0 13.3 43.8 446.1 1843.0 144.7lOHIO 7.8 27.3 190.5 181.1 1216.0 2696.8 400.4lOKLAHOMA 8.6 29.2 73.8 205.0 1288.2 2228.1 326.8lORE
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 第五 SAS 多元 统计分析

限制150内