数据分析方法第一章幻灯片.ppt
数据分析方法第一章数据分析方法第一章第1页,共111页,编辑于2022年,星期六1.1.1 表示位置的数字特征表示位置的数字特征1.1.2 表示分散性的数字特征表示分散性的数字特征1.1.3 表示分布形状的数字特征表示分布形状的数字特征n1.1 一维数据的数字特征一维数据的数字特征n设有一维数据:设有一维数据:x1,x2,xn是研究对象的样本观测值,是研究对象的样本观测值,数据分析的数据分析的任务任务是对样本观测值进行分析,提取数据中所是对样本观测值进行分析,提取数据中所包含的有用的信息,进一步对总体的信息做出推断;首先包含的有用的信息,进一步对总体的信息做出推断;首先用某些简单的量概括它的主要信息或特征用某些简单的量概括它的主要信息或特征数字特征:数字特征:数据的集中位置、分散程度、数据分布的形状特征数据的集中位置、分散程度、数据分布的形状特征等等。等等。2第2页,共111页,编辑于2022年,星期六n n1.1.1 1.1.1 1.1.1 1.1.1 表示位置的数字特征(统计量)表示位置的数字特征(统计量)表示位置的数字特征(统计量)表示位置的数字特征(统计量)n n 如果要用简单的数字来概括一组观测数据如果要用简单的数字来概括一组观测数据x x1 1 1 1,.,x xn n n n,可以使用,可以使用,可以使用,可以使用“位置统计量位置统计量位置统计量位置统计量”来作为数据的总体代表,来作为数据的总体代表,常见的位置常见的位置统计量统计量统计量统计量有:有:均值、中位数、分位数、众数均值、中位数、分位数、众数等。等。等。等。1.1.均值均值(Mean):是所有观测值的平均值,是所有观测值的平均值,是描述数据取值中心位置的一个度量是描述数据取值中心位置的一个度量:n均值能够概括反映所有各项数据的均值能够概括反映所有各项数据的平均水平平均水平。n有许多的优良的统计性质,但当数据中存在有许多的优良的统计性质,但当数据中存在异常值时,它则缺乏异常值时,它则缺乏抗扰性抗扰性(稳健性稳健性)易受异常易受异常值的影响而使其值有较大变化。值的影响而使其值有较大变化。3第3页,共111页,编辑于2022年,星期六n n设设设设x x1 1,.,xn是是是是n n个观测值个观测值个观测值个观测值,它们的次序统计量为,它们的次序统计量为,它们的次序统计量为,它们的次序统计量为x x(1)1),x x(2),x x(n)n),即即即即n n x x(1)x x(2)x x(n)n)n nx x(1)1)为最小次序统计量,为最小次序统计量,为最小次序统计量,为最小次序统计量,x x(n)n)为最大次序统计量,为最大次序统计量,为最大次序统计量,为最大次序统计量,4第4页,共111页,编辑于2022年,星期六n n2.中位数(中位数(Median或或Med)表示一组数据按表示一组数据按照大小的顺序排列时中间位置的数值照大小的顺序排列时中间位置的数值n n中位数中位数是描述观测值数据中心位置的统计量,是描述观测值数据中心位置的统计量,大体上比中位数大(小)的数据为观测值的大体上比中位数大(小)的数据为观测值的一半。中位数的一个优点具有一半。中位数的一个优点具有稳健性稳健性。计算计算方法方法是:首先将数据从小到大排序为:是:首先将数据从小到大排序为:x(1),.,x(n),然后计算,然后计算5第5页,共111页,编辑于2022年,星期六n n3.3.分位数(分位数(PercentilePercentile)根据变量值由小到大的顺序排列根据变量值由小到大的顺序排列分割成若干等分,其分界位置上的各个数值实际上是一种分割成若干等分,其分界位置上的各个数值实际上是一种分割值。分割值。n n分位数分位数分位数分位数也是描述数据分布和位置的统计量。对也是描述数据分布和位置的统计量。对也是描述数据分布和位置的统计量。对也是描述数据分布和位置的统计量。对0p1,0p1,0p1,0p1,数据数据数据数据x x1 1,.,x xn n的的的的p p p p分位数是分位数是分位数是分位数是n0.50.5分位数就是中位数,分位数就是中位数,0.750.75分位数和分位数和0.250.25分位数又分分位数又分别称为上、下四分位数,并分别记为别称为上、下四分位数,并分别记为QQ3 3=M=M0.750.75和和QQ1 1 =M=M0.250.25 。4.4.三均值三均值 n各数字特征从不同侧重点反映了数据的位置特征,各数字特征从不同侧重点反映了数据的位置特征,结合应用可以研究数据某些更本质的特性,如利用中位数结合应用可以研究数据某些更本质的特性,如利用中位数与各分位数可以考察数据的对称性与各分位数可以考察数据的对称性6第6页,共111页,编辑于2022年,星期六n n设数据是总体设数据是总体设数据是总体设数据是总体X X X X的样本,总体的分布函数是的样本,总体的分布函数是的样本,总体的分布函数是的样本,总体的分布函数是F(x x),),设总体的均值设总体的均值设总体的均值设总体的均值为为为为=E(X)=E(X),由大数定律,当,由大数定律,当,由大数定律,当,由大数定律,当n n较大时,样本均值可以作为总体均较大时,样本均值可以作为总体均较大时,样本均值可以作为总体均较大时,样本均值可以作为总体均值的估计:值的估计:值的估计:值的估计:设总体分布设总体分布F(x)是连续分布是连续分布,0p1,称满足称满足的的p为总体分布为总体分布F(x)的的p分位数,分位数,当总体当总体p分位数为分位数为唯一的情况时,在一定条件下,样本的唯一的情况时,在一定条件下,样本的p分位数分位数M p是总体分位数是总体分位数p相合估计,即当相合估计,即当n充分大时,充分大时,p M p 7第7页,共111页,编辑于2022年,星期六n n1.1.2 1.1.2 表示分散性的数字特征表示分散性的数字特征表示分散性的数字特征表示分散性的数字特征n n1.1.1.1.方差方差方差方差(Variance(Variance(Variance(Variance或或或或Var)Var)Var)Var):是由各观测值到均值距离的平是由各观测值到均值距离的平方和除以观测量组数减方和除以观测量组数减1 1,是数据对于均值的偏差平,是数据对于均值的偏差平方和的平均,方差的量纲是原变量的平方;方和的平均,方差的量纲是原变量的平方;n n方差的开方称为方差的开方称为标准差标准差标准差标准差(Standard deviation(Standard deviation或或或或Std Dev):Std Dev):n n标准差的量纲与原变量一致。标准差的量纲与原变量一致。标准差的量纲与原变量一致。标准差的量纲与原变量一致。8第8页,共111页,编辑于2022年,星期六n n变异系数(变异系数(Coefficient of Variation或或CV):是将标准是将标准差表示为均值的百分数,是观测数据相对分散性的一差表示为均值的百分数,是观测数据相对分散性的一个度量,它在比较用不同单位测量的数据的分散性时个度量,它在比较用不同单位测量的数据的分散性时是有用的是有用的,无量纲量:无量纲量:变异系数的值越大,说明数据集变异系数的值越大,说明数据集变异系数的值越大,说明数据集变异系数的值越大,说明数据集中相对于均值的变化就越大。中相对于均值的变化就越大。中相对于均值的变化就越大。中相对于均值的变化就越大。2.极差(极差(Range)与半极差()与半极差(Interquartile range)极差就是数据中的最大值和最小值之间的差:极差就是数据中的最大值和最小值之间的差:极差极差=x(n)-x(1)=maxxi minxi上上、下下四四分分位位数数之之差差R R3 3=Q=Q3 3 QQ1 1称称为为四四分分位位极极差差或或半半极极差差,它它描描述述了了中中间间半半数数观观测测值值的的散散布布情情况况,具具有有抗抗扰扰性性稳稳健健性性;极极差差有有许许多多特特殊殊的的应应用用,如如质质量量控控制制图图中的极差图,提供证券市场行情等。中的极差图,提供证券市场行情等。9第9页,共111页,编辑于2022年,星期六 设数据是总体设数据是总体设数据是总体设数据是总体X的样本,则数据的方差的样本,则数据的方差的样本,则数据的方差的样本,则数据的方差s s2 2、标准差、标准差、标准差、标准差s s、变异、变异、变异、变异系数系数系数系数CVCV分别是总体方差分别是总体方差分别是总体方差分别是总体方差 2=Var(X)=Var(X)、总体标准差、总体标准差、总体标准差、总体标准差、总体变、总体变、总体变、总体变异系数异系数异系数异系数r=/r=/的相合估计:即当样本容量的相合估计:即当样本容量的相合估计:即当样本容量的相合估计:即当样本容量n n充分大时,有充分大时,有充分大时,有充分大时,有 2 2 s2,s,rCV,s,rCV 正态总体正态总体正态总体正态总体N(,(,2)的上、下四位数分别为的上、下四位数分别为 0.750.75=+0.6745,=+0.6745,0.25=-0.6745 总体的总体的四分位极差四分位极差四分位极差四分位极差为为为为r r r r1 1=0.750.75-0.25=1.349,=1.349,则有则有则有则有 =r r r r1 1 1 1/1.349 总体标准差总体标准差的一个抗扰性的估计的一个抗扰性的估计四分位数标准四分位数标准差:差:10第10页,共111页,编辑于2022年,星期六 3 3.上、下截断点上、下截断点:用来用来用来用来判断异常值判断异常值的简便方法:的简便方法:的简便方法:的简便方法:Q3+1.5 R1 1 ,QQ1 1-1.5 R1 1n n大于上截断点的数据为特大值,小于下截断点的数据为大于上截断点的数据为特大值,小于下截断点的数据为大于上截断点的数据为特大值,小于下截断点的数据为大于上截断点的数据为特大值,小于下截断点的数据为特小值,都视为异常值。特小值,都视为异常值。特小值,都视为异常值。特小值,都视为异常值。n n 总体为总体为总体为总体为正态分布正态分布NN(,(,2)时,上、下截断点分别为时,上、下截断点分别为n n 0.75 0.75+1.5 r+1.5 r1 =-2.698,=-2.698,n n 0.25 0.25-1.5 r1 =-2.698=-2.698 n n数据落在上、下截断点之外的概率为数据落在上、下截断点之外的概率为数据落在上、下截断点之外的概率为数据落在上、下截断点之外的概率为0.00698,0.00698,即对容量即对容量即对容量即对容量n n较较较较大的数据,异常值的比率约为大的数据,异常值的比率约为大的数据,异常值的比率约为大的数据,异常值的比率约为0.006980.0069811第11页,共111页,编辑于2022年,星期六n n1.1.3 1.1.3 表示数据分布形状的统计量表示数据分布形状的统计量表示数据分布形状的统计量表示数据分布形状的统计量n n 偏度和峰度偏度和峰度偏度和峰度偏度和峰度是描述数据分布形状的指标。是描述数据分布形状的指标。是描述数据分布形状的指标。是描述数据分布形状的指标。n n1.1.偏度(偏度(偏度(偏度(skewnessskewness):偏度是刻画数据对称性的指标。偏偏度是刻画数据对称性的指标。偏偏度是刻画数据对称性的指标。偏偏度是刻画数据对称性的指标。偏度的计算公式为:度的计算公式为:度的计算公式为:度的计算公式为:n n关于均值对称的数据其偏度为关于均值对称的数据其偏度为g1=0;n n左侧更为分散的数据,其偏度为负(左侧更为分散的数据,其偏度为负(g10),称为右偏。称为右偏。12第12页,共111页,编辑于2022年,星期六n n2.2.峰度峰度kurtosiskurtosis:峰度描述数据向分布尾端散布峰度描述数据向分布尾端散布的趋势的趋势 n n利用峰度研究数据分布的形状是以正态分布为标准(假定利用峰度研究数据分布的形状是以正态分布为标准(假定利用峰度研究数据分布的形状是以正态分布为标准(假定利用峰度研究数据分布的形状是以正态分布为标准(假定正态分布的方差与所研究分布的方差相等)比较两端极端正态分布的方差与所研究分布的方差相等)比较两端极端正态分布的方差与所研究分布的方差相等)比较两端极端正态分布的方差与所研究分布的方差相等)比较两端极端数据的分布情况,若数据的分布情况,若数据的分布情况,若数据的分布情况,若1 1 近似于标准正态分布,则近似于标准正态分布,则峰度接近于零;峰度接近于零;2 2 尾部较正态分布更分散,则尾部较正态分布更分散,则峰度为正,称为轻尾;峰度为正,称为轻尾;3 3 尾部较正态分布更集中,则尾部较正态分布更集中,则峰度为负,称为厚尾。峰度为负,称为厚尾。13第13页,共111页,编辑于2022年,星期六14第14页,共111页,编辑于2022年,星期六n n 设设设设x x1 1,.,x xn n是总体是总体是总体是总体X X的样本,的样本,的样本,的样本,3 3、4分别表示总体分别表示总体分别表示总体分别表示总体X X的的的的3 3、4 4阶中心矩,即阶中心矩,即阶中心矩,即阶中心矩,即 3 3=E(X-X-)3 3,4 4=E=E(X-X-)3 3其中其中=E(X X),则,则,则,则 总体偏度为总体偏度为总体偏度为总体偏度为:G:G 1 1=3 3/3 3 总体峰度为总体峰度为总体峰度为总体峰度为:G:G 2 2=(=(4 4/4 4)-3且数据的偏度且数据的偏度且数据的偏度且数据的偏度g g1 1和峰度和峰度和峰度和峰度g g2分别是总体偏度分别是总体偏度分别是总体偏度分别是总体偏度G G 1 1和总体峰度和总体峰度和总体峰度和总体峰度G G 2 的的的的相合估计,即当相合估计,即当相合估计,即当相合估计,即当n n充分大时,有充分大时,有充分大时,有充分大时,有 G G 1 g1 1 ,G G 2 2 g2 2总体偏度是总体偏度是度量总体分布是否偏向某一侧的指标;度量总体分布是否偏向某一侧的指标;度量总体分布是否偏向某一侧的指标;度量总体分布是否偏向某一侧的指标;总体峰度是总体峰度是以同方斋戒的正态分布为标准,比较总体分布以同方斋戒的正态分布为标准,比较总体分布尾部分散性的指标;结论与数据偏度与峰度相同尾部分散性的指标;结论与数据偏度与峰度相同15第15页,共111页,编辑于2022年,星期六n n在在SASSAS中计算一维数据的数字特征中计算一维数据的数字特征n n1 PROC MEANS过程过程n n2 PROC UNIVARIATE过程过程16第16页,共111页,编辑于2022年,星期六n n1.1.1.1.MEANSMEANS过程过程过程过程n n(1)MEANS过程的一般格式:过程的一般格式:n nPROC MEANS 选择项选择项 统计量关键字列表统计量关键字列表;n nVAR 变量表变量表;要分析的变量名列要分析的变量名列要分析的变量名列要分析的变量名列n nBY 变量表变量表;按变量名列分组统计,按变量名列分组统计,按变量名列分组统计,按变量名列分组统计,n n 要求数据集已按变量名列排序要求数据集已按变量名列排序要求数据集已按变量名列排序要求数据集已按变量名列排序n nCLASS 变量表变量表;按变量名列分组统计,不要求数据集排序按变量名列分组统计,不要求数据集排序按变量名列分组统计,不要求数据集排序按变量名列分组统计,不要求数据集排序n nFREQ FREQ 变量表变量表变量表变量表;表明该变量为分析变量的频数表明该变量为分析变量的频数n nWEIGHT WEIGHT 变量表变量表变量表变量表;表明分析变量在统计时要按该变量权重表明分析变量在统计时要按该变量权重表明分析变量在统计时要按该变量权重表明分析变量在统计时要按该变量权重n nID 变量表变量表;输出时加上该变量作为索引输出时加上该变量作为索引输出时加上该变量作为索引输出时加上该变量作为索引n nOUTPUT OUT=数据集数据集 统计关键字统计关键字=变量名变量名;n n 指定统计量的输出数据集名指定统计量的输出数据集名指定统计量的输出数据集名指定统计量的输出数据集名n n关键字关键字关键字关键字=.;.;指定统计量对应的新变量名指定统计量对应的新变量名指定统计量对应的新变量名指定统计量对应的新变量名 17第17页,共111页,编辑于2022年,星期六n n二、选择项说明二、选择项说明二、选择项说明二、选择项说明 n nDATA=SASDATA=SAS数据集数据集数据集数据集 将计算出的统计量输出到一个数据集。将计算出的统计量输出到一个数据集。所有所有PROC MEANSPROC MEANS语句中可用统计量均可在此指定。语句中可用统计量均可在此指定。n nNOPRINT NOPRINT 说明不输出任何描述性统计值。说明不输出任何描述性统计值。说明不输出任何描述性统计值。说明不输出任何描述性统计值。n nMAXDEC=n MAXDEC=n 指出指出指出指出MEANSMEANSMEANSMEANS用于输出结果的最大小数位(用于输出结果的最大小数位(用于输出结果的最大小数位(用于输出结果的最大小数位(0 0 0 0),缺省值为,缺省值为,缺省值为,缺省值为7 7 7 7。n nFW=n FW=n n n n n为输出统计量时的字段宽度,缺省值为为输出统计量时的字段宽度,缺省值为为输出统计量时的字段宽度,缺省值为为输出统计量时的字段宽度,缺省值为12121212。n nVARDEF=N|DF|WGT|WDF VARDEF=N|DF|WGT|WDF 指定方差计算所用的分母。指定方差计算所用的分母。指定方差计算所用的分母。指定方差计算所用的分母。N表示观察值的总数表示观察值的总数表示观察值的总数表示观察值的总数;WGTWGT表示权重和表示权重和表示权重和表示权重和WDFWDF表示权重和减表示权重和减表示权重和减表示权重和减1 1;DF表示自由度表示自由度表示自由度表示自由度N-1N-1n nMISSING 指定指定指定指定MEANSMEANSMEANSMEANS过程将缺失值视为一个特殊分组处过程将缺失值视为一个特殊分组处过程将缺失值视为一个特殊分组处过程将缺失值视为一个特殊分组处理,否则缺失值将被剔除。理,否则缺失值将被剔除。理,否则缺失值将被剔除。理,否则缺失值将被剔除。n n统计量统计量 用来指定进行计算的描述性统计量。用来指定进行计算的描述性统计量。缺省统计量选缺省统计量选缺省统计量选缺省统计量选择项时,择项时,择项时,择项时,只输出只输出只输出只输出N N N N、MINMINMINMIN、MAXMAXMAXMAX、MEANMEANMEANMEAN、STDSTDSTDSTD。18第18页,共111页,编辑于2022年,星期六n n三、三、MEANSMEANS过程中常用的统计量关键字有:过程中常用的统计量关键字有:l l 基本统计量基本统计量基本统计量基本统计量 N MEAN STD CV SUM VAR RANG MIN MAX N MEAN STD CV SUM VAR RANG MIN MAX USS CSSUSS CSSl 与假设检验有关的统计量与假设检验有关的统计量与假设检验有关的统计量与假设检验有关的统计量 STDERR(STDERR(标准误)标准误)标准误)标准误)T PRT(T PRT(与与与与t t对应的对应的对应的对应的p p值值值值)LCLM()LCLM(可信区间下限可信区间下限可信区间下限可信区间下限)UCLM()UCLM(可信区间上限可信区间上限可信区间上限可信区间上限)四、四、PROC MEANS过程中的其他语句过程中的其他语句 l lVAR语语句句:列列入入变变量量表表的的数数据据集集变变量量将将被被MEANS过过程程分分析析、若若无无次次句句,则则计计算算输输入入数数据据集集中中除除BY、ID、CLASS、FREQ、WEIGHT语句中的变量之外的所有变量的统计量。语句中的变量之外的所有变量的统计量。l l BY语语句句:指指定定变变量量进进行行分分组组处处理理。(事事先先必必须须按按BY语语句句指定的变量将输入数据集按升序排序)指定的变量将输入数据集按升序排序)19第19页,共111页,编辑于2022年,星期六 可以计算的描述性统计量关键字及其含义见下表。可以计算的描述性统计量关键字及其含义见下表。可以计算的描述性统计量关键字及其含义见下表。可以计算的描述性统计量关键字及其含义见下表。关键字关键字关键字关键字所代表的含义所代表的含义所代表的含义所代表的含义关键字关键字关键字关键字所代表的含义所代表的含义所代表的含义所代表的含义n n有效数据有效数据有效数据有效数据记录记录记录记录数数数数rangerange极差极差极差极差nmissnmiss缺失数据缺失数据缺失数据缺失数据记录记录记录记录数数数数skewnessskewness偏度偏度偏度偏度meanmean均均均均值值值值kurtosiskurtosis峰度峰度峰度峰度stdstd标标标标准差准差准差准差t t分布位置假分布位置假分布位置假分布位置假设检验设检验设检验设检验之之之之t t统计统计统计统计量量量量stderrstderr标标标标准准准准误误误误probtprobt上述上述上述上述t t统计统计统计统计量量量量对应对应对应对应的概率的概率的概率的概率值值值值varvar方差方差方差方差q1q1第一四分位数第一四分位数第一四分位数第一四分位数medianmedian中位数中位数中位数中位数q3q3第三四分位数第三四分位数第三四分位数第三四分位数modemode众数众数众数众数qrangeqrange四分位数四分位数四分位数四分位数间间间间距距距距cvcv变变变变异系数异系数异系数异系数p1p1第一百分位数第一百分位数第一百分位数第一百分位数maxmax最大最大最大最大值值值值p5p5第五百分位数第五百分位数第五百分位数第五百分位数minmin最小最小最小最小值值值值p10p10第十百分位数第十百分位数第十百分位数第十百分位数sumsum总计总计总计总计p90p90第九十百分位数第九十百分位数第九十百分位数第九十百分位数sumwgtsumwgt加加加加权值总计权值总计权值总计权值总计p95p95第九十五百分位数第九十五百分位数第九十五百分位数第九十五百分位数csscss校正平方和校正平方和校正平方和校正平方和p99p99第九十九百分位数第九十九百分位数第九十九百分位数第九十九百分位数ussuss未校正平方和未校正平方和未校正平方和未校正平方和20第20页,共111页,编辑于2022年,星期六n n(3)(3)使用使用CLASSCLASS语句和语句和BYBY语句语句n n 使用使用CLASSCLASS语句和语句和BYBY语句可以分组计算分语句可以分组计算分析变量的描述统计量值,由析变量的描述统计量值,由CLASSCLASS语句和语句和BYBY语句指定的变量在分析中起分组(类)的语句指定的变量在分析中起分组(类)的作用,被称为分类变量。两个语句的区别作用,被称为分类变量。两个语句的区别是:是:使用使用BYBY语句时要求数据集须按语句时要求数据集须按BYBY变量排变量排序,使用序,使用CLASSCLASS语句无此要求。语句无此要求。使用使用BYBY语句时输出按语句时输出按BYBY变量的每个值分变量的每个值分别提供一个表,使用别提供一个表,使用CLASSCLASS语句则将所有结语句则将所有结果排列在一个表之中。果排列在一个表之中。21第21页,共111页,编辑于2022年,星期六使用使用BY语句之前先排序,如下代码可以在上语句之前先排序,如下代码可以在上例中按变量例中按变量R_Id分组统计:分组统计:proc sort data=mylib.sryzc;by R_Id;run;proc means data=mylib.sryzc n mean median p1 p5 p95 p99 q1 q3 max min;var Income;by R_Id;run;22第22页,共111页,编辑于2022年,星期六n n 使用使用CLASS语句分组较为简单,如下语句分组较为简单,如下代码也可以在上例中按变量代码也可以在上例中按变量R_Id分组统分组统计:计:n nproc means data=mylib.sryzc n mean median p1 p5 p95 p99 q1 q3 max min;var Income;class R_Id;RUN;23第23页,共111页,编辑于2022年,星期六l l FREQ FREQ语句:语句:指定某一变量,表示同一观察的出现指定某一变量,表示同一观察的出现指定某一变量,表示同一观察的出现指定某一变量,表示同一观察的出现次数。次数。次数。次数。l l l l OUTPUT OUT=OUTPUT OUT=数据集:数据集:数据集:数据集:将将将将MEANSMEANS过程的结果过程的结果过程的结果过程的结果输出给指定的数据集中。输出给指定的数据集中。输出给指定的数据集中。输出给指定的数据集中。八、缺失数据处理八、缺失数据处理 1VAR变变量量:MEANS过过程程在在开开始始计计算算某某一一变变量量的的描描述述性性统统计计之之前前,先先将将那那些些在在变变量量上上有有缺缺失失的的数数据据的的观观察察删删除除。被被删删除除的的观观察察若若在在其其它它变变量量上上没没有有缺缺失失数数据,则会纳入其它变量的计算过程中。据,则会纳入其它变量的计算过程中。2变变量量:若若观观察察在在BY变变量量上上有有缺缺失失数数据据,则则MEANS过过程程会会为为这这些些观观察察另另形形成成一一个个分分组组,同同样样进进行行计计算分析。算分析。24第24页,共111页,编辑于2022年,星期六n n3.UNIVARIATE过程n n UNIVARIATE过程与过程与MEANS的功能大的功能大同小异,他们都可以可对数值变量进行一同小异,他们都可以可对数值变量进行一般性的统计描述,但般性的统计描述,但UNIVARIATE过程还过程还给出变量的峰度、偏度、众数、中位数、给出变量的峰度、偏度、众数、中位数、四分位数、数据分布的正态性检验、符号四分位数、数据分布的正态性检验、符号秩检验等统计量。而且秩检验等统计量。而且UNIVARIATE过程过程中具有绘图功能。中具有绘图功能。n n 其中,其中,HISTOGRAM语句用来指示语句用来指示SAS对对其后所指定的变量绘制直方图,其后的选其后所指定的变量绘制直方图,其后的选项用来指示项用来指示SAS添加不同类型的拟合图形添加不同类型的拟合图形(如正态分布的分布密度曲线)(如正态分布的分布密度曲线)25第25页,共111页,编辑于2022年,星期六n nUNIVARIATE过程的一般格式为过程的一般格式为:n nPROC UNIVARIATE 选择项选择项;n nVAR 变量表变量表;指定要分析的变量名列指定要分析的变量名列n nBY 变量表变量表;按变量名列分组统计,要求数据集已按按变量名列分组统计,要求数据集已按该变量名列排序该变量名列排序n nFREQ 变量变量;表明该变量为分析变量的频数表明该变量为分析变量的频数n nWEIGHT 变量变量;表明分析变量在统计时要按该变量表明分析变量在统计时要按该变量权重权重n nID 变量表变量表;输出时加上该变量作为索引输出时加上该变量作为索引n nOUTPUT OUT=SAS数据集数据集 关键字关键字=名称名称;指定统计指定统计量的输出数据集名量的输出数据集名n n关键字关键字=.指定统计量对应的新变量名指定统计量对应的新变量名n nPCTLPTS=n nPCTLPRE=;指定所需百分位数对应指定所需百分位数对应的输出变量名的输出变量名 26第26页,共111页,编辑于2022年,星期六n n二、选择项说明二、选择项说明n nDATA=数据集数据集 该选择项指定该选择项指定PROC UNIVARIATE使用的使用的SAS数据集。缺省值数据集。缺省值为最新建立的数据集。为最新建立的数据集。n nNOPRINT 指定抑制产生报表。指定抑制产生报表。n nPLOT 指定给出三幅数据图:指定给出三幅数据图:茎叶图(或水茎叶图(或水平棒图)、盒状图和正态概率图平棒图)、盒状图和正态概率图。n nFREQ 该选择项给出变量值、频数、百分该选择项给出变量值、频数、百分数、累计百分数组成的频数表。数、累计百分数组成的频数表。27第27页,共111页,编辑于2022年,星期六n nNORMAL 指定假设输入数据来自正态分布总体,指定假设输入数据来自正态分布总体,然后给出统计检验量,并输出统计检验量的端值。然后给出统计检验量,并输出统计检验量的端值。n n正态检验正态检验正态检验正态检验:若在过程中指定若在过程中指定若在过程中指定若在过程中指定NORMALNORMAL选择项时,过程选择项时,过程选择项时,过程选择项时,过程将数据视作取自正态分布的随机样本并给出一个统计检验。将数据视作取自正态分布的随机样本并给出一个统计检验。将数据视作取自正态分布的随机样本并给出一个统计检验。将数据视作取自正态分布的随机样本并给出一个统计检验。当样本量小于当样本量小于当样本量小于当样本量小于20002000时,计算时,计算时,计算时,计算Shapiro-WilkShapiro-Wilk统计量统计量统计量统计量WW,WW值值值值在在在在0 0与与与与1 1之间,之间,之间,之间,WW值越小越拒绝值越小越拒绝值越小越拒绝值越小越拒绝H0H0假设;当样本容量假设;当样本容量假设;当样本容量假设;当样本容量n n大于大于大于大于6 6时,时,时,时,WW的显著水平由的显著水平由的显著水平由的显著水平由RoystonRoyston近似正态变换获得;当样本近似正态变换获得;当样本近似正态变换获得;当样本近似正态变换获得;当样本量大于量大于量大于量大于20002000时,计算时,计算时,计算时,计算KolomogorovKolomogorov统计量。统计量。统计量。统计量。WW值值值值越大越表示数据来自正态分布。越大越表示数据来自正态分布。越大越表示数据来自正态分布。越大越表示数据来自正态分布。PrWPrW给出了概给出了概给出了概给出了概率(率(率(率(0P10P1)值)值)值)值P P,P P值越接近值越接近值越接近值越接近0 0,则表示越拒绝数据来,则表示越拒绝数据来,则表示越拒绝数据来,则表示越拒绝数据来自正态分布的假设。自正态分布的假设。自正态分布的假设。自正态分布的假设。28第28页,共111页,编辑于2022年,星期六n nPCDLDEF=1|2|3|4|5 指定计算百分位数指定计算百分位数的方法。缺省此项,则的方法。缺省此项,则PCDLDEF=4。n nVARDEF=DF|N|WEIGHT或或WGT|WDF 指定计算方差时的分母。指定计算方差时的分母。DF是以自由度是以自由度N-1做分母;做分母;N是以观察值数是以观察值数N做分母;做分母;WGT是以权重和做分母;是以权重和做分母;WDF是以权重和减是以权重和减1做做分母。缺省值为分母。缺省值为VARDEF=DF。n nROUND=舍入单位。舍入单位。29第29页,共111页,编辑于2022年,星期六n n三、过程中常用的统计量关键字三、过程中常用的统计量关键字n nSAS中用关键字来指定所需要的统计量,事中用关键字来指定所需要的统计量,事实上结果输出中用的就是各种关键字,常实上结果输出中用的就是各种关键字,常用的关键字有:用的关键字有:n n基本统计量基本统计量 N MEAN STD(标准误标准误)CV SUM VAR(方差方差)RANG 等等n n百分位数描述百分位数描述 MIN P1 P5 P10 Q1 MEDIAN Q3 P90 P95 P99 MAX n n与假设检验有关的统计量与假设检验有关的统计量 STD MEAN(标准标准误误)T 30第30页,共111页,编辑于2022年,星期六n n 输出包括五个部分。输出包括五个部分。n n 第一部分是矩统计量,各统计量已在第一部分是矩统计量,各统计量已在前面作了介绍。前面作了介绍。n n 第二部分为基本的位置和分散程度统第二部分为基本的位置和分散程度统计量,位置统计量包括均值、中位数、众计量,位置统计量包括均值、中位数、众数,分散程度统计量包括标准差、方差、数,分散程度统计量包括标准差、方差、极差、四分位间距极差、四分位间距n n 第三部分为关于均值等于零的三种检第三部分为关于均值等于零的三种检验的结果,包括验的结果,包括t t检验、符号检验和符号秩检验、符号检验和符号秩检验。检验。n n 第四部分为各个重要的分位数。第四部分为各个重要的分位数。n n 第五部分是观测数据的五个最低值和五第五部分是观测数据的五个最低值和五个最高值。个最高值。31第31页,共111页,编辑于2022年,星期六data examp1_1;data examp1_1;input x;cards;cards;74.3 78.8 68.8 78.0 70.4 80.5 80.5 69.7 71.2 73.574.3 78.8 68.8 78.0 70.4 80.5 80.5 69.7 71.2 73.579.5 75.6 75.0 78.8 72.0 72.0 72.0 74.3 71.2 72.075.0 73.5 78.8 74.3 75.8 65.0 74.3 71.2 69.7 68.073.5 75.0 72.0 64.3 75.8 80.3 69.7 74.3 73.5 73.573.5 75.0 72.0 64.3 75.8 80.3 69.7 74.3 73.5 73.575.8 75.8 68.8 76.5 70.4 71.2 81.2 75.0 70.4 68.070.4 72.0 76.5 74.3 76.5 77.6 67.3 72.0 75.0 74.373.5 79.5 73.5 74.7 65.0 76.5 81.6 75.4 72.7 72.773.5 79.5 73.5 74.7 65.0 76.5 81.6 75.4 72.7 72.767.2 76.5 72.7 70.4 77.2 68.8 67.3 67.3 67.3 72.775.8 73.5 75.0 72.7 73.5 73.5 72.7 81.6 70.3 74.375.8 73.5 75.0 72.7 73.5 73.5 72.7 81.6 70.3 74.373.5 79.5 70.4 76.5 72.7 77.2 84.3 75.0 76.5 70.473.5 79.5 70.4 76.5 72.7 77.2 84.3 75.0 76.5 70.4;例例1.132第32页,共111页,编辑于2022年,星期六n nproc univariate data=examp1_1 noprint;n nvar x;n noutput out=out mean=mean median=median Q1=Q1 Q3=Q3 p99=p99 p95=p95 p90=p90 p10=p10 p5=p5 p1=p1;n nproc print data=out;n nrun;n ndata a;n nset out;n nQ=0.25*Q1+0.25*Q3+0.5*Median;n nrun;n nproc print data=a;var Q;*只输出只输出Q;没有输;没有输出所有的出所有的an nrun;33第33页,共111页,编辑于2022年,星期六proc univariate data=examp1_1 noprint;var x;Output out=out mean=mean Me