简单统计分析与过程课件.ppt
关于简单统计分析与过程现在学习的是第1页,共43页一、假设检验与一、假设检验与SAS过程过程平均每户消费支出5006007008009001000家庭数8153025139例题例题6.1:为了了解农村居民家庭消费水平是否有所提高,2008年,某市对其农村居民家庭进行了一次抽样调查,其中100户被抽样家庭的调查结果如下表:表6.1 2008年某市农村居民家庭月均消费水平若3年前该市农村居民家庭月均消费支出服从N(720,17580),假定2008年月均消费支出服从正态分布,问该市农村居民家庭月均消费支出是否有显著提高?(显著性水平0.05)即在方差未知的情况下检验即在方差未知的情况下检验现在学习的是第2页,共43页统计量的计算值、临界值、显著性水平及检验概率之统计量的计算值、临界值、显著性水平及检验概率之间的关系间的关系假定假定检验统计量检验统计量Z服从正态分布服从正态分布统计量的计算值:统计量的计算值:一次抽样观测值代入统计量一次抽样观测值代入统计量Z后得后得到的数值到的数值Z0.临界值:临界值:在给定的显著性水平下,由在给定的显著性水平下,由现在学习的是第3页,共43页统计量的计算值、临界值、显著性水平及检验概率统计量的计算值、临界值、显著性水平及检验概率之间的关系之间的关系检验概率检验概率:由临界值和检验概率的计算公式,可知由临界值和检验概率的计算公式,可知因此,判断接受或拒绝因此,判断接受或拒绝H0只需看只需看p大于还是小于大于还是小于现在学习的是第4页,共43页单样本和两样本下的假设检验单样本和两样本下的假设检验单样本的假设检验单样本的假设检验(一)单样本的参数假设检验(正态分布总体)(一)单样本的参数假设检验(正态分布总体)总体均值的假设检验总体均值的假设检验检验统计量检验统计量:拒绝域:拒绝域:现在学习的是第5页,共43页检验统计量检验统计量:拒绝域:拒绝域:现在学习的是第6页,共43页对于总体均值的假设检验,可转化为均值是否为零的检验均值是否为零的检验,可通过PROC MEANS过程实现,只需在选项中选择t,prt,和clm,alpha。例6.1程序:data consume;input expend number;dif=expend-720;cards;500 8 600 15 750 30 800 25 900 13 1000 9;proc means mean t prt;var dif;freq number;output out=meant t=tv;run;现在学习的是第7页,共43页由于检验变量由于检验变量dif=expend-720的的t值值=3.17,概率概率pr|t|的值为的值为0.0020,小于显著性水平,小于显著性水平0.05,故,故在在0.05的显著性水平下推断出的显著性水平下推断出dif的均值显著不为的均值显著不为0,也即居民月均,也即居民月均消费支出显著不等于消费支出显著不等于720.现在学习的是第8页,共43页data a;set meant;k=_freq_-1;p=1-probt(tv,k);t1=tinv(0.95,k);proc print;run;p=1-probt(t,k)t1=tinv(0.95,k);计算计算t分布的分布的0.95分位数分位数显然,显然,tv的值的值t1且且p值也值也0.05,故在故在0.05的显著性水平下拒绝原假设,的显著性水平下拒绝原假设,也即接受居民月均消费支出显著大于也即接受居民月均消费支出显著大于720.现在学习的是第9页,共43页 总体方差的假设检验总体方差的假设检验检验统计量:检验统计量:拒绝域:拒绝域:现在学习的是第10页,共43页例例6.2:检验例检验例6.1中居民消费支出的方差是否有变化,中居民消费支出的方差是否有变化,即是否仍为即是否仍为17580。proc means var;var expend;freq number;output out=test var=varex;run;data A(drop=_type_);set test;k=_freq_-1;chisq=k*varex/17580;p=1-probchi(chisq,k);ci1=cinv(0.025,k);ci2=cinv(0.975,k);proc print data=a noobs;run;现在学习的是第11页,共43页程序说明:程序说明:ci1=cinv(0.025,k);ci2=cinv(0.975,k);chisq=k*varex/17580;p=1-probchi(chisq,k);分别计算分别计算分布的分布的0.025和和0.975分位数。分位数。由于由于 chisq统计量值满足统计量值满足ci1chisq0.05也表明,在也表明,在0.05的显著性水平下,的显著性水平下,接受原假设。接受原假设。现在学习的是第12页,共43页(二)单样本的非参数假设检验(二)单样本的非参数假设检验K.Pearson提出以下统计量:提出以下统计量:总体分布的拟合优度检验总体分布的拟合优度检验拟合优度检验是根据样本的经验分布对总体分布作出拟合优度检验是根据样本的经验分布对总体分布作出的估计。的估计。拒绝域:现在学习的是第13页,共43页表表6.3 订单频数分布表订单频数分布表星期一星期一星期二星期二星期三星期三星期四星期四星期五星期五合计合计 7 1215111560问:该企业的订单在每星期问:该企业的订单在每星期5天中是否服从均匀分布?(显著性水天中是否服从均匀分布?(显著性水平平0.05)例例6.3 某企业欲了解其产品订单的分布情况,在随机选某企业欲了解其产品订单的分布情况,在随机选择的一周中发现,其订单频数分布如下表:择的一周中发现,其订单频数分布如下表:现在学习的是第14页,共43页程序实现:程序实现:data chisq;input foi fei;dif=(foi-fei);div=dif*dif/fei;cards;7 12 12 12 15 12 11 12 15 12;proc means sum;var div;output out=test sum=chisq;run;data A;set test;k=_freq_-1;p=1-probchi(chisq,k);ci1=cinv(0.025,k);ci2=cinv(0.975,k);proc print data=a noobs;run;现在学习的是第15页,共43页程序说明程序说明:ci1=cinv(0.025,k);ci2=cinv(0.975,k);div=dif*dif/fei;proc means sum;var div;output out=test sum=chisq;p=1-probchi(chisq,k);分别计算分布的0.025和0.975分位数。现在学习的是第16页,共43页由于由于 chisq统计量值满足统计量值满足ci1chisq0.05也表明,在也表明,在0.05的显著性水平下,的显著性水平下,接受原假设。接受原假设。现在学习的是第17页,共43页 总体均值的非参数检验(总体不服从正态分布)总体均值的非参数检验(总体不服从正态分布)利用利用UNIVARIATE过程中的符号检验与威尔克森秩和检过程中的符号检验与威尔克森秩和检验。验。data consume;input expend number;dif=expend-720;cards;500 8 600 15 750 30 800 25 900 13 1000 9;proc univariate alpha=0.1;var dif;freq number;run;现在学习的是第18页,共43页总体不服从正态分布,利用符号检验与威尔克森秩和检验总体不服从正态分布,利用符号检验与威尔克森秩和检验(符号秩检验)。(符号秩检验)。由于由于Pr=|M|的的P值小于值小于0.0001,Pr=|S|的的P值为值为0.002,都小于给定的显著性水平,都小于给定的显著性水平,故拒绝原假设,认为故拒绝原假设,认为dif均值不为零,与即认为居民家庭月均消费均值不为零,与即认为居民家庭月均消费支出显著大于支出显著大于720.现在学习的是第19页,共43页两样本的假设检验两样本的假设检验(一)两独立组的假设检验(一)两独立组的假设检验独立组:两样本来自于两个独立总体独立组:两样本来自于两个独立总体样本需满足以下两个条件:正态性,方差齐次性。样本需满足以下两个条件:正态性,方差齐次性。检验统计量:检验统计量:拒绝域拒绝域检验可通过检验可通过Proc ttest实现实现现在学习的是第20页,共43页 满足正态性而不满足方差齐次性时,采用参数的近满足正态性而不满足方差齐次性时,采用参数的近似似T检验或非参数的威尔克森秩和检验检验或非参数的威尔克森秩和检验。两个条件都不满足时,采用非参数的威尔克森秩和检验。两个条件都不满足时,采用非参数的威尔克森秩和检验。(proc nparlway wilcoxon;);)现在学习的是第21页,共43页满足正态分布条件满足正态分布条件表表6.4 地区地区A和和B家庭平均收入水平情况家庭平均收入水平情况A地地区区2.52.93.25.33.84.24.03.93.33.14.54.74.25.75.13.04.92.73.84.6B地地区区3.74.14.33.63.93.84.74.45.35.1 3.83.76.05.52.93.45.23.84.84.6问:这两个地区的家庭平均收入是否有显著差异?(显著性水平问:这两个地区的家庭平均收入是否有显著差异?(显著性水平0.05)例例6.4:某银行考虑在两个相邻地区某银行考虑在两个相邻地区A和和B之间开设一个新的之间开设一个新的营业网点。银行所关心的时这两个地区家庭平均收入是否相营业网点。银行所关心的时这两个地区家庭平均收入是否相同。为此,在这两个地区分别抽取了同。为此,在这两个地区分别抽取了20户居民家庭进行调查,户居民家庭进行调查,调查结果如下表:调查结果如下表:现在学习的是第22页,共43页data income;input area$income;cards;A 2.5 B 3.7 A 3.2 B 4.3 A 3.8 B 3.9 A 4.0 B 4.7 A 3.3 B 5.3A 4.5 B 3.8 A 4.2 B 6.0 A 5.1 B 2.9 A 4.9 B 5.2 A 3.8 B 4.8A 2.9 B 4.1 A 5.3 B 3.6 A 4.2 B 3.8 A 3.9 B 4.4 A 3.1 B 5.1A 4.7 B 3.7 A 5.7 B 5.5 A 3.0 B 3.4 A 2.7 B 3.8 A 4.6 B 4.6;proc sort;by area;run;proc univariate normal;var income;by area;run;proc ttest;class area;var income;run;现在学习的是第23页,共43页area=A的正态性检验结果area=B的正态性检验结果由于由于W检验的检验的P值都大于给定的显著性水平,故接受原假设,认为值都大于给定的显著性水平,故接受原假设,认为都服从正态分布。都服从正态分布。现在学习的是第24页,共43页又由方差是否相等(又由方差是否相等(Equality of Variances)的的F检验:检验:F值值=1.31,P值值PrF=0.5658(0.05),故认为两组方差相等。),故认为两组方差相等。因此可用因此可用T检验对两组均值是否相等进行检验,对应检验对两组均值是否相等进行检验,对应T检验的检验的T值值=-1.32,P值值Pr|T|=0.1938(0.05),接受原假设,即,接受原假设,即A,B两地区家庭收入没有显著差异。两地区家庭收入没有显著差异。现在学习的是第25页,共43页正态性不满足正态性不满足data zichfz;input type$rate;cards;pt 99.4 pt 94.8 pt 38.4 pt 52.7 pt 92.1pt 87.9 pt 334.2 pt 86.9 pt 134.5 pt 74.9pt 69.9 pt 48.0 pt 104.9 pt 67.8 pt 60.8pt 59.5 pt 62.0 pt 75.4 pt 715.2 pt 15.3pt 224.6 pt 90.6 pt 86.7 pt 65.4 pt 77.1pt 354.2 pt 59.7nopt 31.3 nopt 54.7 nopt 29.7 nopt 40.0 nopt 55.1nopt 32.6 nopt 59.2 nopt 46.9 nopt 52.9 nopt 29.1nopt 64.8 nopt 35.0 nopt 56.6 nopt 44.5 nopt 52.3nopt 21.8 nopt 52.0 nopt 28.0 nopt 24.0 nopt 13.5nopt 29.8 nopt 67.1 nopt 17.1 nopt 48.1 nopt 30.8nopt 32.6 nopt 24.1;proc sort;by type;run;proc univariate normal;var rate;by type;run;proc npar1way wilcoxon;class type;var rate;run;见课本例见课本例6.6现在学习的是第26页,共43页type=nopt的正态性检验结果type=pt的正态性检验结果由于由于W检验的检验的P值值0.24880.05,故接受原假设,认为服从正态分布,故接受原假设,认为服从正态分布。由于由于W检验的检验的P值值0.0001,故拒绝原假设,认为不服从正态分布。,故拒绝原假设,认为不服从正态分布。现在学习的是第27页,共43页采用非参数检验采用非参数检验Wilcoxon Two-Sample Test检验中的近似检验中的近似Z检验和近似检验和近似T检验的双侧检验的双侧检验的检验的P值都值都0.001,故拒绝原假设,即,故拒绝原假设,即两类公司的资产负债率有显著差异。两类公司的资产负债率有显著差异。现在学习的是第28页,共43页又由于又由于nopt类公司资产负债率类公司资产负债率rate的均值的均值39.7629630显然小于显然小于Pt类公司的均值类公司的均值,故故Pt类公司的资产负债率显著高于类公司的资产负债率显著高于nopt类公类公司的资产负债率。司的资产负债率。现在学习的是第29页,共43页(二)成对组的假设检验(二)成对组的假设检验成对组:两样本来自于同一总体在不同时间或不同处理成对组:两样本来自于同一总体在不同时间或不同处理下的数据。下的数据。差值来自正态总体:用差值来自正态总体:用MEANS过程中过程中T检验检验来自其它分布总体:用来自其它分布总体:用UNIVARIATE过程中的符号检验或过程中的符号检验或符号秩检验。符号秩检验。现在学习的是第30页,共43页课本例课本例6.7data package;input sale1 sale2;dif=sale2-sale1;cards;66 72 70 75 75 68 79 87 65 84 90 73 85 70 82 8397 95 95 90 92 82 73 78 71 69 69 74 77 86;proc univariate normal;var dif;run;现在学习的是第31页,共43页课本例6.8data stock(keep=rate1 rate2 dif);input price1 price2;rate1=(price1-lag(price1)/lag(price1)*100;rate2=(price2-lag(price2)/lag(price2)*100;dif=rate2-rate1;cards;25.79 24.90 24.37 24.88 23.24 25.20 22.11 25.1022.00 24.99 22.12 24.78 20.29 24.90 19.70 24.8020.46 26.05 19.98 25.41 20.68 25.46;proc univariate normal;var rate1 rate2 dif;run;现在学习的是第32页,共43页相关分析与相关分析与CORR过程过程两连续型变量:两连续型变量:Pearson积矩相关系数积矩相关系数两有序变量:两有序变量:(1)Spearman等级相关系数等级相关系数(或秩序相关系数)(或秩序相关系数)(2)Kendalls tau_b相关系数相关系数两分类变量:列联系数两分类变量:列联系数相关关系的度量相关关系的度量现在学习的是第33页,共43页主要功能:主要功能:计算变量间的相关系数:包括计算变量间的相关系数:包括Pearson相关系数,相关系数,Spearman等级相关系数、等级相关系数、Kendalls tau_b相关系数、相关系数、Hoeffding的相关性度量的相关性度量D.还可以计算偏相关和还可以计算偏相关和Cronbach系数及一些单变量的系数及一些单变量的描述性统计量。描述性统计量。CORR(相关)过程(相关)过程现在学习的是第34页,共43页CORR(相关)过程的一般格式(相关)过程的一般格式PROC CORR;VAR variable-list;WITH variable-list;PARTIAL variable-list;WEIGHT variable;FREQ variable;BY variable-list;现在学习的是第35页,共43页 CORR(相关)过程中语句说明:(1)PROC CORR语句语句一般格式为:一般格式为:PROC CORR;有以下几类:数据集选项:数据集选项:DATA=SAS-data-set;OUTP=SAS-data-set;创建存放Pearson统计量的数据集,需同时使用PEARSON选项。OUTS=SAS-data-set;创建存放Spearman统计量的数据集,需同时使用SPEARMAN选项。现在学习的是第36页,共43页 OUTH=SAS-data-set;创建存放Hoeffding统计量的数据集,需同时使用HOEFFDING选项。OUTK=SAS-data-set;创建存放Kendall的tau_b统计量的数据集,需同时使用KENDALL选项。相关类型选项:相关类型选项:Pearson相关系数;没有规定选项,即默认为Pearson相关系数。Spearman秩序相关系数;Kendall等级相关系数tau_b;Hoeffding的相关性度量;现在学习的是第37页,共43页(2)VAR语句语句一般格式为:一般格式为:VAR variable-list;如:var a b c;(3)WITH语句语句一般格式为:一般格式为:WITH variable-list;该句与该句与VAR语句一起使用,得到变量间特殊组合的相关系语句一起使用,得到变量间特殊组合的相关系数。数。如:如:var a b c;with x y;现在学习的是第38页,共43页(4)PARTIAL语句语句一般格式为:一般格式为:PARTIAL variable-list;计算计算Pearson偏相关,偏相关,Spearman偏秩序相关和偏秩序相关和Kendall的偏的偏tau_b,给给出偏出去(即固定)的变量名。出偏出去(即固定)的变量名。偏相关是控制一个或几个固定变量的影响后两个变量间偏相关是控制一个或几个固定变量的影响后两个变量间相关程度强弱的度量。相关程度强弱的度量。如:如:var a b;partial c;现在学习的是第39页,共43页data jumin;input income expend;cards;802 685 931 828 1089 916 1431 1119 1568 1261 1686 1387 1925 1554 2356 1826 3027 2336 3979 3179 4283 3893 4839 3919 5160 4186 5425 4332 5854 4616 6280 4953 6860 5309;proc corr;var income expend;title 我国内地城镇居民收入与消费之间相关分析我国内地城镇居民收入与消费之间相关分析;run;例例6.8 我国内地城镇居民家庭人均收入(我国内地城镇居民家庭人均收入(income)和人和人均消费支出均消费支出(expend)的相关性分析。的相关性分析。现在学习的是第40页,共43页我国内地城镇居民和人均消费的相关性分析结果我国内地城镇居民和人均消费的相关性分析结果收入与消费之间的收入与消费之间的Perason相关系数相关系数=0.99679,两者相关系数为,两者相关系数为0的概的概率率0.0001,从而可知,收入与消费之间高度相关,从而可知,收入与消费之间高度相关。现在学习的是第41页,共43页例例6.9 老年人总幸福度与各因素间相关分析老年人总幸福度与各因素间相关分析proc corr data=cjl.newhappy spearman kendall;var B;with C D E F G H I J K;run;现在学习的是第42页,共43页感感谢谢大大家家观观看看现在学习的是第43页,共43页