书签分享收藏举报版权申诉 / 56

立即下载

当前位置：首页 > 教育专区 > 大学资料 > 统计软件基础课件.ppt

统计软件基础课件.ppt

上传人：石***

文档编号：49857205

上传时间：2022-10-11

格式：PPT

页数：56

大小：2.87MB

( 4.5 )

《统计软件基础课件.ppt》由会员分享，可在线阅读，更多相关《统计软件基础课件.ppt（56页珍藏版）》请在淘文阁 - 分享文档赚钱的网站上搜索。

1、统计软件基础统计软件基础2022/10/101第1页，此课件共56页哦描述统计概述描述统计概述描述统计概述描述统计概述在对数据进行深入加工之前，应该对数据有所印象。可以借助于图在对数据进行深入加工之前，应该对数据有所印象。可以借助于图形和简单的运算，来了解数据的一些特征。形和简单的运算，来了解数据的一些特征。由于数据是从总体中产生的，其特征也反映了总体的特征。对由于数据是从总体中产生的，其特征也反映了总体的特征。对数据的描述也是对其总体的一个近似的描述。数据的描述也是对其总体的一个近似的描述。大量的数字既繁琐又不直观；我们可以用大量的数字既繁琐又不直观；我们可以用“平均平均”，“差距差距”或百

2、分比等来概括大量数字。或百分比等来概括大量数字。由于定性变量主要是计数，比较简单，常用的概括就是比例或由于定性变量主要是计数，比较简单，常用的概括就是比例或百分比。下面主要介绍关于定量变量的数字描述。百分比。下面主要介绍关于定量变量的数字描述。2022/10/102第2页，此课件共56页哦常用的位置统计量常用的位置统计量常用的位置统计量常用的位置统计量“位置位置”一般是关于数据中某变量观测值的一般是关于数据中某变量观测值的“中心位置中心位置”或或者数据分布的中心（者数据分布的中心（center或或center tendency）。和这种）。和这种“位位置置”有关的统计量就称为位置统计量有关的统

3、计量就称为位置统计量(location statistic)。位。位置统计量不一定都是描述置统计量不一定都是描述“中心中心”了，比如百分位数。了，比如百分位数。常用的位置统计量有：样本均值常用的位置统计量有：样本均值(mean)；样本中位数；样本中位数(median)，它是数据按照大小排列之后位于中间的那个数它是数据按照大小排列之后位于中间的那个数(如果样本量为奇数如果样本量为奇数)，或者中间两个数目的平均，或者中间两个数目的平均(如果样本量为偶数如果样本量为偶数)，由于中位数，由于中位数不易被极端值影响，所以中位数比均值稳健不易被极端值影响，所以中位数比均值稳健(robust)；上下四分；上

4、下四分位数（或分别称为第一四分位数和第三四分位数，位数（或分别称为第一四分位数和第三四分位数，first quantile,third quantile）则分别位于（按大小排列的）数据）则分别位于（按大小排列的）数据的上下四分之一的地方；样本中出现最多的数值，称为众的上下四分之一的地方；样本中出现最多的数值，称为众数数(mode)。2022/10/103第3页，此课件共56页哦数值的分散程度数值的分散程度数值的分散程度数值的分散程度数据中数值的分散程度由尺度统计量（数据中数值的分散程度由尺度统计量（scale statistic）来描述。）来描述。尺度统计量是描述数据散布，即描述集中与分散程度

5、或变化尺度统计量是描述数据散布，即描述集中与分散程度或变化（spread或或variability）的度量。统计中有许多尺度统计量。一）的度量。统计中有许多尺度统计量。一般来说，数据越分散，尺度统计量的值越大。般来说，数据越分散，尺度统计量的值越大。极差极差(range)；就是极大值和极小值之间的差。；就是极大值和极小值之间的差。两个四分位数之差，称为四分位数极差或四分位间距两个四分位数之差，称为四分位数极差或四分位间距(interquantile range)；它描述了中间半数观测值的散布情况。；它描述了中间半数观测值的散布情况。另一个常用的尺度统计量为样本标准差另一个常用的尺度统计量为样本

6、标准差(standard deviation)。度量样本中各数值到均值距离的一种平均。标准差实际上是度量样本中各数值到均值距离的一种平均。标准差实际上是方差方差(variance)的平方根。如果记样本中的观测值为的平方根。如果记样本中的观测值为x1,xn，则样本方差为则样本方差为 2022/10/104第4页，此课件共56页哦分布形状分布形状分布形状分布形状反映分布形状，通常用偏度和峰度统计量。反映分布形状，通常用偏度和峰度统计量。偏度是用于衡量分布的不对称程度或偏斜程度的指标当偏度是用于衡量分布的不对称程度或偏斜程度的指标当 0时为正偏或时为正偏或右偏，长尾巴拖在右边；当右偏，长尾巴拖在右边

7、；当中位数中位数众数，左偏时相反，即众数众数，左偏时相反，即众数中位数中位数平均数。正态分布三者相等。平均数。正态分布三者相等。峰度是用于衡量分布的集中程度或分布曲线的尖峭程度的指标。峰度是用于衡量分布的集中程度或分布曲线的尖峭程度的指标。峰度指标峰度指标的计算公式如下：的计算公式如下：峰度指标峰度指标 0时，表示分布比正态分布更集中在平均数周围，分布时，表示分布比正态分布更集中在平均数周围，分布呈尖峰状态；呈尖峰状态；0分布为正态分布；分布为正态分布；2000 时，结果以时，结果以Kolmogorov Smirnov（D 检验）为准。检验）为准。对于对于K-S检验检验,SAS还可由还可由

8、UNIVARIATE过程的过程的HISTOGRAM语句语句带上表示分布的关键词选项来实现对相应分布的检验。带上表示分布的关键词选项来实现对相应分布的检验。HISTOGRAM语句与分布对应的关键字选项有：语句与分布对应的关键字选项有：beta:分布分布,具有具有,参数和参数和,形状参数形状参数;exponential:指数分布指数分布,具有具有,两个参数两个参数;gamma:分布分布,具有具有,参数参数;lognormal:对数正态分对数正态分布布,具有具有,参数参数;normal:正态分布正态分布,具有具有,参数参数;weibulll:韦伯分韦伯分布布,具有具有,c参数。参数。2022/10/

9、107第7页，此课件共56页哦描述统计的实现方法描述统计的实现方法描述统计的实现方法描述统计的实现方法描述性统计就是主要分析变量集中、离散趋势以及探索变量的描述性统计就是主要分析变量集中、离散趋势以及探索变量的分布。分布。SAS中有多种方法过程可以实现描述统计，这里简要中有多种方法过程可以实现描述统计，这里简要介绍两种。介绍两种。UNIVARIATE等过程来计算描述性统计量。等过程来计算描述性统计量。UNIVARIATE过程的一般形式：过程的一般形式：PROC UNIVARIATE 选择项选择项;VAR 变量表变量表;BY 变量表变量表:FREQ 变量变量;WEIGHT 变量变量;ID 变量表

10、变量表;OUTPUT 选择项选择项;RUN;2022/10/108第8页，此课件共56页哦UnivariateUnivariate过程过程过程过程语法说明语法说明语法说明语法说明选择项选择项:为可选项，常用选项如下。为可选项，常用选项如下。1)data=:指定指定SAS数据集，如果省略这一项，则指定最新建立的数据集，如果省略这一项，则指定最新建立的数据集。数据集。2)noprint:不打印输出到输出窗口。不打印输出到输出窗口。3)Vardef=df|wgt|n|wdf:方差计算中规定除数，方差计算中规定除数，df表示除数使用自由表示除数使用自由度度(n-1),为默认值。为默认值。weightw

11、gt表示用权数和作为除数。表示用权数和作为除数。n表示观测个表示观测个体数体数(样本含量样本含量)做除数。做除数。wdf表示用权数和减表示用权数和减1做除数。做除数。4)Freq:要求生产包含变量值、频数、百分数和累计频数的频数表。要求生产包含变量值、频数、百分数和累计频数的频数表。5)Normal:要求计算关于输入数据服从正态分布的假设的检验统计量。要求计算关于输入数据服从正态分布的假设的检验统计量。6)plot:生成直方图或茎叶图，一个盒形图和一个正态概率图。生成直方图或茎叶图，一个盒形图和一个正态概率图。7)Pctldef=值值:规定计算百分位数方法，取值为规定计算百分位数方法，取值为1

12、,2,3,4和和5.8)Round=:指定变量数值四舍五入的单位。指定变量数值四舍五入的单位。2022/10/109第9页，此课件共56页哦示例示例示例示例某地区家庭中随机抽查了某地区家庭中随机抽查了100户居民，调查到每户家庭人均收入数户居民，调查到每户家庭人均收入数据（单位：百元），试用据（单位：百元），试用UNIVARIATE等过程对上述数据进行描等过程对上述数据进行描述统计。述统计。程序如下程序如下data income;input x;cards;271 396 287 399 466 269 295 330 425 324 228 113 226 176 320 230 404 4

13、87 127 74 234 523 164 336 343 330 436 141 388 293 464 200 392 265 403 259 426 262 221 355 324 374 347 261 287 113 135 291 176 342 443 239 302 483 231 292 373 346 293 236 223 371 287 400 314 468 337 308 359 352 273 267 277 184 286 214 351 270 330 238 248 419 330 319 440 427 314 414 299 265 318 415 37

14、2 238 323 412 493 286 313 412run;proc univariate data=income plot normal;var x;run;输出结果分类整理为输出结果分类整理为“矩矩”、“位置和变异性基本测度位置和变异性基本测度”、“位置检验位置检验”、“正态性检验正态性检验”、“分位数分位数”、“极值观测极值观测”、“图图”七部分内容。七部分内容。2022/10/1010第10页，此课件共56页哦对示例做对示例做对示例做对示例做KSKS检验检验检验检验proc univariate data=income noprint;/*调用调用UNIVARIATE过程过程*/

15、var x;/*指定分析的变量指定分析的变量*/histogram/noplot /*HISTOGRAM语句语句,不显示直方图不显示直方图*/normal(mu=est sigma=est)/*检验正态分布检验正态分布,参数使用估计值参数使用估计值*/lognormal(zeta=est sigma=est theta=est)/*检验对数正态检验对数正态*/exponential(sigma=est theta=est)/*检验指数分布检验指数分布*/weibull(sigma=est c=est theta=est);/*检验韦伯分布检验韦伯分布*/run;2022/10/1011第11页

16、，此课件共56页哦过程过程过程过程FREQFREQ变量可分为数值型变量（连续型变量）和分类变量（离散型变量）变量可分为数值型变量（连续型变量）和分类变量（离散型变量）;而分而分类变量又分为名义变量（如性别分为：男、女，种族分为白、类变量又分为名义变量（如性别分为：男、女，种族分为白、黄、黑）和有序变量（年级分为一、二、三、四，成绩等级分黄、黑）和有序变量（年级分为一、二、三、四，成绩等级分为优、良、中、差）。为优、良、中、差）。对对分类分类变量计算均值变量计算均值一般是无意义的一般是无意义的(0-1变量的均值可看作占比变量的均值可看作占比)，即便用即便用数值数值表示类别也表示类别也只是某些特征

17、的代号，没有数值计算的意义。只是某些特征的代号，没有数值计算的意义。对这些变量，重要的是了解它们取哪些值以及取每个值的频数。过对这些变量，重要的是了解它们取哪些值以及取每个值的频数。过程程FREQ就提供了这些方面的功能。就提供了这些方面的功能。FREQ过程产生一维至过程产生一维至n维的频数表和列联表，对二维表计算统计量并维的频数表和列联表，对二维表计算统计量并进行检验，对进行检验，对n维表则作分层分析并在层内计算统计量。通过维表则作分层分析并在层内计算统计量。通过FREQ过程可以帮助分析变量值在数据中如何分布。过程可以帮助分析变量值在数据中如何分布。FREQ过程还可用拟合优度检验方法讨论单个离

18、散变量的分布，检验过程还可用拟合优度检验方法讨论单个离散变量的分布，检验两个离散变量的独立性残联表检验，有序变量的关联性度量。两个离散变量的独立性残联表检验，有序变量的关联性度量。2022/10/1012第12页，此课件共56页哦FreqFreq常用语法语法常用语法语法常用语法语法常用语法语法FREQ过程常用语法语法格式过程常用语法语法格式PROC FREQ 选择项选择项;TABLES 变量表式变量表式/选择项选择项;WEIGHT 权重变量权重变量;OUTPUT 选择项选择项;BY 变量表变量表;RUN:其中的其中的TABLES语句是实现上述任务的关键。语句是实现上述任务的关键。TABLES语

19、句变量语句变量表式空格分隔的单独变量名或表式空格分隔的单独变量名或“*”连接的几个变量名组成，如：连接的几个变量名组成，如：TABLES A*B A*C；（等价于（等价于TABLES A*(B C)；）。；）。WEIGHT 语句通过权重变量来确定汇总的统计项目所对应的原始记语句通过权重变量来确定汇总的统计项目所对应的原始记录数。录数。2022/10/1013第13页，此课件共56页哦FREQFREQ语法简要说明语法简要说明语法简要说明语法简要说明1)FREQ语句的语句的选择项选择项:为可选项，常用选项如下。为可选项，常用选项如下。Data=:指定指定SAS数据集。用来说明要做数据集。用来说明要

20、做FREQ的数据集名，如果省的数据集名，如果省略这一项，则指定最新建立的数据集。略这一项，则指定最新建立的数据集。ORDER=FREQ|DATA|INTERNAL|FORMATTED:此选项规定变量此选项规定变量水平的记录排列次序。水平的记录排列次序。ORDER=FREQ表示按频数下降的次序排列，表示按频数下降的次序排列，最大的频数的水平第一个出现最大的频数的水平第一个出现;ORDER=DATA表示按输入数据集中表示按输入数据集中出现的次序排列出现的次序排列;ORDER=INTERNAL表示按非格式化值的次序排表示按非格式化值的次序排列；列；ORDER=FORMATTED表示按格式化值的次序，

21、默认时为表示按格式化值的次序，默认时为RDER=INTERNAL.2)BY:指定分组变量。指定分组变量。3)TABLES:指定需条件频数的变量表；可选的指定需条件频数的变量表；可选的/选择项选择项提供一些提供一些专门的统计项目。专门的统计项目。4)WEIGHT:指定权重变量。指定权重变量。5)OUTPUT:指定输出结果到数据集。指定输出结果到数据集。2022/10/1014第14页，此课件共56页哦TABLESTABLES语句的语句的语句的语句的常用常用常用常用选项选项选项选项TABLES语句的选项放在语句的选项放在“/”的后面，主要有：的后面，主要有：CHISQ选项选项:对每组变量作卡方检验

22、对每组变量作卡方检验,包括包括Pearson卡方、似然比卡方和卡方、似然比卡方和Mantel-Haenszel卡方卡方,还还有有与检验有关的关联指标包括与检验有关的关联指标包括Phi系数、列联系系数、列联系数和数和Cramers V;对于对于22表表,给出给出Fisher精确概率；精确概率；(注意：一般对单元格内最小频数注意：一般对单元格内最小频数T和样本总量和样本总量n，当，当T5且且n40 选选Person卡方检验，卡方检验，当当1T40选连续校正卡方检验，当选连续校正卡方检验，当n40或或T，所以接受，所以接受H0,说明事故发生与星期几没有关系。说明事故发生与星期几没有关系。注：检验的是

23、等概率情形时，选项注：检验的是等概率情形时，选项testp=（）可以省略。（）可以省略。2022/10/1019第19页，此课件共56页哦两个离散变量的列联表独立性检验两个离散变量的列联表独立性检验两个离散变量的列联表独立性检验两个离散变量的列联表独立性检验检验两个离散变量的取值是否独立检验两个离散变量的取值是否独立-列联表卡方检验列联表卡方检验。检验的零假设为检验的零假设为H0：离散变量：离散变量X与变量与变量Y相互独立相互独立。检验统计量检验统计量：另外属性变量因为没有数值概念所以不能计算相关系数，但对于另外属性变量因为没有数值概念所以不能计算相关系数，但对于两个有序变量两个有序变量，SA

24、S可以在可以在FREQ语句后用语句后用measures选项计算类似于相关系数的关联性量度。其中选项计算类似于相关系数的关联性量度。其中一种关联性量度叫做一种关联性量度叫做Kendal Tau-b统计量，取值在统计量，取值在-1到到1之间，值接近于之间，值接近于1表示正关联，表示正关联，接近于接近于-1 表示负关联，接近于表示负关联，接近于0表示没有相关关系；并且该统计量值加减两倍渐近标准误表示没有相关关系；并且该统计量值加减两倍渐近标准误差差ASE约可作为约可作为Kendall Tau-b的的95%置信区间。置信区间。无序分类变量相关性度量无序分类变量相关性度量：系数系数(在在2x2表格中值为

25、表格中值为-11,但行或列数但行或列数2时时,无界无界)；列联系数列联系数c(|c|2x2表格表格)关联度关联度。proc freq data=数据集;tables row*column/chisq measures;weight num;run;注意：若某单元格内频数注意：若某单元格内频数 5或总数或总数 30,应使用应使用Fisher精确检验精确检验。2022/10/1020第20页，此课件共56页哦列联表卡方检验示例列联表卡方检验示例列联表卡方检验示例列联表卡方检验示例为了探讨吸烟与慢性支气管炎有无关系，调查了为了探讨吸烟与慢性支气管炎有无关系，调查了339人，情况表。人，情况表。患慢性

26、支气管炎患慢性支气管炎未患慢性支气管炎未患慢性支气管炎吸烟吸烟43162不吸烟不吸烟13121程序为：data bron;input smoke$bron$num;label smoke=吸烟 bron=慢支病 num=频数;cards;吸烟患病 43 吸烟不患病 162不吸烟患病 13 不吸烟不患病 121run;proc freq data=bron;tables smoke*bron/chisq exact measures;weight num;run;2022/10/1021第21页，此课件共56页哦结果分析结果分析结果分析结果分析零假设零假设H0：吸烟与慢性支气管炎相互独立

27、：吸烟与慢性支气管炎相互独立由输出结果中由输出结果中peraons卡方独立性检验统计量为卡方独立性检验统计量为2=7.4688,p=0.0063，对于给定的显著性水平对于给定的显著性水平=0.05，p t/2(n-1)=设由已经得到的样本计算得到的设由已经得到的样本计算得到的t值为值为t0，若，若|t0|t/2(n-1)，则拒绝，则拒绝H0，否则接受，否则接受H0。对大量重复试验而言，。对大量重复试验而言，t是随机变量，且服从是随机变量，且服从t分布分布t(n-1)。当。当|t0|t0Pr|t|t/2(n-1)=。令。令p=Pr|t|t0,则则|t0|。所以，。所以，P值检验法值检验法为：对给

28、定的显著水平为：对给定的显著水平，当，当p时，接受时，接受H0。2022/10/1036第36页，此课件共56页哦univariateunivariate过程检验均值估计置信区间过程检验均值估计置信区间过程检验均值估计置信区间过程检验均值估计置信区间在在SAS中可用中可用univariate过程检验均值，默认做均值为零（过程检验均值，默认做均值为零（0=0）的的t检验，若要检验检验，若要检验=0，则用过程选项，则用过程选项“mu0=数值数值”。另外，。另外，如要估计均值的置信区间，可再加上过程选项如要估计均值的置信区间，可再加上过程选项“cibasic(alpha=p值值)”示例示例Proc

29、univariate data=sashelp.class mu0=60 cibasic(alpha=0.01);Var weight;Run;单变量方差的检验在单变量方差的检验在SAS中没有直接的过程给予计算，可自中没有直接的过程给予计算，可自己编程实现。在己编程实现。在SAS9.3之前之前INSIGHT和和Analyst模块中都可以模块中都可以方便实现计算，但方便实现计算，但SAS9.4后都不支持了。后都不支持了。2022/10/1037第37页，此课件共56页哦单变量方差检验示例（检验单变量方差检验示例（检验单变量方差检验示例（检验单变量方差检验示例（检验DX=10;DX=10DX=10

30、;DX=0.05，故接受零假设，即有故接受零假设，即有95%把握认为把握认为x正态。正态。零假设为零假设为Ho：健康组的血磷值变量：健康组的血磷值变量x服从正态分布，其中健康组的服从正态分布，其中健康组的shapiro-wilk检验的统计量为检验的统计量为w=0.927983，检验的，检验的p=0.3207=0.05，故，故接受零假设，即有接受零假设，即有95%把握认为把握认为x正态。正态。(2)因此可采用两独立样本均值的因此可采用两独立样本均值的T检验。由检验。由ttest过程输出先作方差齐性过程输出先作方差齐性检验如下：检验如下：0：患者组和健康组来自方差相等的总体，即：患者组和健康组来自

31、方差相等的总体，即检验的统计量检验的统计量F=1.01，P=1.000=0.05，故应接受零假设，即有，故应接受零假设，即有95%把握认为患者组和健康把握认为患者组和健康组方差满足齐性。组方差满足齐性。再作再作T检验。检验。H0：患者组和健康组来自均值相等的总体，即：患者组和健康组来自均值相等的总体，即。选择。选择方差齐性一行的结果知方差齐性一行的结果知t=2.51,p=0.02=0.05，故，故应应接受零假接受零假设设，即有即有95%把握把握认为认为x正正态态。故采用两相关故采用两相关样样本均本均值值T 检验检验。H0：治治疗疗前后的差前后的差值变值变量量x的均的均值为值为0。由。由输输出

32、出结结果知果知T检验检验的的统计统计量量t=5.879298，双，双边边检验检验的的p值为值为0.0011=0.05，故拒故拒绝绝原假原假设设，即有，即有95%的把握的把握认为认为治治疗疗后血清蛋白有下降。后血清蛋白有下降。2022/10/1044第44页，此课件共56页哦示例示例示例示例检验一种新的复合肥料和原来使用的肥料相比是否显著地提高了小麦检验一种新的复合肥料和原来使用的肥料相比是否显著地提高了小麦的产量，在一个农场中选择了的产量，在一个农场中选择了10块田地，每块等分为两部分，其中任指定一块田地，每块等分为两部分，其中任指定一部分使用新的复合肥料，另一部分使用原肥料，小麦成熟后称得各

33、部分小麦的产部分使用新的复合肥料，另一部分使用原肥料，小麦成熟后称得各部分小麦的产量如量如表。表。用符号检验法检验新复合肥是否会显著提高小麦产量？用符号检验法检验新复合肥是否会显著提高小麦产量？(=0.05)田田块块12345678910新肥新肥459 367303392310362421450430412原肥原肥414 306321443281301353391401380程序程序为为：data xiaomai;input x1 x2;diff=x1-x2;cards;459 414 367 306 303 321 392 443 310 281 362 301 421 353 450391

34、 430 401 412 380run;proc univariate data=xiaomai normal;var diff;run;分析：先作正分析：先作正态态性性检验检验如下：如下：由由输输出出结结果知果知shapiro-wilk检验检验的的统计统计量量为为w=0.835307，检验检验的的p=0.0388=0.05，故，故应应拒拒绝绝零假零假设设，即有，即有95%把握把握认为认为差差值变值变量量diff不服从不服从正正态态分布。分布。故采用符号秩非参数故采用符号秩非参数检验检验。H0：差：差值变值变量量diff的均的均值为值为0。由。由输输出出结结果知符号秩果知符号秩检验检验的的统计

35、统计量量S=20.5，双，双边边检验检验的的p值为值为0.0332=0.05,故接受故接受Ho,即第即第1组数据服从正态组数据服从正态分布。分布。类似可得第二、三、四、五组数据的类似可得第二、三、四、五组数据的shapiro-wilk统计量为统计量为w=0.937882、0.964898、0.985353、0.935122,检验的检验的p=0.6415、0.8097、0.9326、0.6248=0.05,故这四组数据也服从正态分布。故这四组数据也服从正态分布。（2）方差齐性检验。）方差齐性检验。Ho：5组数据的方差相等。正态分布由组数据的方差相等。正态分布由Leneve方差齐性检验的方差齐性检

36、验的F=1.53,p=0.2451=0.05，故这，故这5组数据满足方差齐性。组数据满足方差齐性。（3）方差分析。）方差分析。Ho：5组数据的均值相等。由方差分析表中组数据的均值相等。由方差分析表中F=4.31,p=0.0162=0.05，故拒绝，故拒绝Ho,即不同品种的油菜的平均亩产有显著差异。即不同品种的油菜的平均亩产有显著差异。2022/10/1051第51页，此课件共56页哦非参数单因素方差分析非参数单因素方差分析非参数单因素方差分析非参数单因素方差分析方差分析中的正态性或方差齐性不能满足时，可采用非参数检验方方差分析中的正态性或方差齐性不能满足时，可采用非参数检验方法，如法，如Kru

37、shal-Wallis 检验。检验。这种检验不要求数据来自正态总体，也不要求各组的方差齐，这种检验不要求数据来自正态总体，也不要求各组的方差齐，甚至指标可以是有序变量（只有大小，没有差距如大、中、小，甚至指标可以是有序变量（只有大小，没有差距如大、中、小，或很好、好、一般、不好，很不好等）。或很好、好、一般、不好，很不好等）。在在SAS软件中可以使用软件中可以使用npar1way过程，过程，用选项用选项wilcoxon进行非进行非参数参数Krushal-Wakkus检验检验(多组数据多组数据)或或wilcoxon 检验检验(两组数两组数据据)。2022/10/1052第52页，此课件共56页哦

38、npar1waynpar1way过程过程过程过程一般格式为：一般格式为：Proc npar1way data=数据集数据集 wilcoxon;Class 因素变量；因素变量；Var 指标变量指标变量;Run;注：这种用法与注：这种用法与4.1.3节中两个独立样本比较是完全一样的，节中两个独立样本比较是完全一样的，当因素为两个水平时，当因素为两个水平时，npar1way过程执行过程执行wilxocon的秩和检的秩和检验，当多个水平时执行验，当多个水平时执行Krushal-Wallis检验。检验。原理说明：原理说明：H0：各处理方法的效果无显著差异，：各处理方法的效果无显著差异，H1：各处：各处理

39、方法的效果有显著差异理方法的效果有显著差异。Kruskal-Wallis检验统计量检验统计量：2022/10/1053第53页，此课件共56页哦示例示例示例示例对上例采用对上例采用Krushal-Wallis检验法，检验不同品种的油菜的平均检验法，检验不同品种的油菜的平均亩产是否相同。（亩产是否相同。（=0.05）程序：程序：proc npar1way data=a wilcoxon;class pz;var x;run;分析：分析：H0:不同品种的油菜的平均亩产相同，由输出结果中的不同品种的油菜的平均亩产相同，由输出结果中的Krushal-Wallis检验的检验的2统计量为统计量为9.918

40、5 p=0.0418=0.05，故，故拒绝拒绝H0,即不同品种的油菜的平均亩产有显著不同。即不同品种的油菜的平均亩产有显著不同。注：在同等条件下注：在同等条件下Krushal-Wallis检验的功效比方差分析工效低，检验的功效比方差分析工效低，所以此处所以此处p值值0.0418比方差分析中的比方差分析中的p值值0.0162要大。要大。2022/10/1054第54页，此课件共56页哦多因素方差分析多因素方差分析多因素方差分析多因素方差分析SAS还提供了若干个方差分析过程，可考虑多个因素、有交互作用、还提供了若干个方差分析过程，可考虑多个因素、有交互作用、有嵌套等情况的方差分析。接下来我们只介绍

41、用有嵌套等情况的方差分析。接下来我们只介绍用anova过程进行均过程进行均衡设计的多因素方差分析。衡设计的多因素方差分析。原理说明：双因素方差分析模型：原理说明：双因素方差分析模型：检验因素检验因素A的主效应显著性的原假的主效应显著性的原假设为：设为：注注：对非对非均衡设计的方差分析均衡设计的方差分析可用可用glm过程进行分析。过程进行分析。PROC GLM ;CLASS variables ;MODEL dependents=effects ;MEANS effects;RUN;2022/10/1055第55页，此课件共56页哦示例示例示例示例为了提高一种橡胶的定强，考虑三种不同的促进剂（因

42、素为了提高一种橡胶的定强，考虑三种不同的促进剂（因素A）、四种）、四种不同分量的氧化锌（因素不同分量的氧化锌（因素B）对定强的影响。对配方的每种组合重复试）对定强的影响。对配方的每种组合重复试验两次，总共试验了验两次，总共试验了24次，得到如下结果：次，得到如下结果：A:促促进进剂剂B:氧化氧化锌锌1234131,3334,3635,3639,38233,3436,3737,3838,41335,3737,3839,4042,44试分析因素试分析因素A和因素和因素B的主效应和的主效应和交互效应，以及最好的实验配方。交互效应，以及最好的实验配方。输输入数据程序入数据程序为为：data rubber;input a$b$stren;cards;a1 b1 31 a1 b1 33 a1 b2 34 a1 b2 36 a1 b3 35 a1 b3 36 a1 b4 39 a1 b4 38a2 b1 33 a2 b1 34 a2 b2 36 a2 b2 37 a2 b3 37 a2 b3 39 a2 b4 38 a2 b4 41a3 b1 35 a3 b1 37 a3 b2 37 a3 b2 38 a3 b3 39 a3 b3 40 a3 b4 42 a3 b4 44run;2022/10/1056第56页，此课件共56页哦

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

18 金币

版权申诉 word格式文档无特别注明外均可编辑修改；预览文档经过压缩，下载后原文更清晰！ 立即下载

配套讲稿：: 如PPT文件的首页显示word图标，表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
特殊限制：: 部分文档作品中含有的国旗、国徽等图片，仅作为作品整体效果示例展示，禁止商用。设计者仅对作品中独创性部分享有著作权。
关键词：: 统计软件基础课件

淘文阁 - 分享文档赚钱的网站所有资源均是用户自行上传分享，仅供网友学习交流，未经上传用户书面授权，请勿作他用。

限制150内

关于本文

本文标题：统计软件基础课件.ppt
链接地址：https://www.taowenge.com/p-49857205.html