SAS备课笔记_非参数检验(14页).doc
《SAS备课笔记_非参数检验(14页).doc》由会员分享,可在线阅读,更多相关《SAS备课笔记_非参数检验(14页).doc(14页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、-SAS备课笔记_非参数检验-第 14 页非参数检验非参数统计分析方法(Non-parametric statistics)是相对参数统计分析方法而言的,又称为不拘分布(distribution-free statistics)的统计分析方法或无分布形式假定(assumption free statistics)的统计分析方法。其中包括Wilcoxon秩和检验、Kruskal-Wallis秩和检验、friedman秩和检验等,它们分别对应不同设计类型的资料。SAS中对于非参数分析方法功能的实现主要由npar1way过程来完成,从过程名字就可以看出,在此过程的处理进程中,只能一次指定一个因素进行
2、分析。下面我们先来了解一下npar1way过程的语句格式以及各语句和选项的基本功能。一、npar1way过程语句格式简介npar1way过程属于SAS的STAT模块,对于统计学教科书上所涉及的非参数统计方法几乎都可以通过此过程来完成。Npar1way过程的基本语句格式如下。PROC NPAR1WAY ; BY 变量名; CLASS变量名; EXACT 统计量选项 ; FREQ变量名; OUTPUT ; VAR 变量名; RUN;QUIT;Proc npar1way语句标志npar1way过程的开始,默认情况下(不列举任何选项):npar1way过程对最新创建的数据集进行分析,将缺失数据排除在分
3、析过程之外;执行方差分析过程(等同于ANOVA选项),对样本分布位置的差异进行检验(与选项WILCOXON, MEDIAN, SAVAGE以及VW等效),并进行经验分布函数检验(等同于EDF选项)。此语句后可用的选项见下表。Proc npar1way语句选项及其含义选项名称选项功能或含义AB运用Ansari-Bradley评分进行分析DATA=数据集名指定要进行分析的数据集MEDIAN运用中位数评分进行分析,即进行中位数检验NOPRINT禁止所有的输出,用在仅需要创建输出数据集时ST运用Siegel-Tukey评分进行分析ANOVA对原始数据进行方差分析EDF要求计算基于经验分布的统计量MIS
4、SING指定分组变量的缺失值为一有效的分组水平SAVAGE运用Savage评分进行分析VW运用Van der Waerden评分进行分析计算CORRECT=NO在两样本时,禁止Wilcoxon和Siegel-Tukey检验的连续性校正过程KLOTZ运用Klotz评分进行分析MOOD运用Mood评分进行分析SCORES=DATA以原始数据为评分值进行分析WILCOXON对两样本进行Wilcoxon秩和检验,对多样本进行Kruskal-Wallis检验1. exact语句exact语句要求SAS对指定的统计量(选项)进行精确概率的计算。其后的统计量选项可为以下项目,分别对应相应的统计计算方式(可参
5、见上表)。AB,KLOTZ,KS,MEDIAN,MOOD,SAVAGE,SCORES=DATA,ST,WILCOXON,VW等。运算选项为精确概率的计算过程指定一些控制项目,如选项“mc”要求以Monte Carlo方法计算精确概率。2. output语句output语句与其它过程中相应的语句大同小异,不同之处在于语句最后的选项。此处的选项绝大多数包括在上表中,指定在输出数据集中包含所指定项目所对应的统计量。3. var语句var语句用以指定要进行分析的变量,变量必须为数值型。若省略此语句,SAS将对除by语句、class语句以及freq语句中指定的变量之外的所有数值型变量进行分析。二、不同类
6、型资料的非参数检验方法1. 两独立样本差别的秩和检验两独立样本的非参数检验是在对总体分布不了解的情况下,通过分析样本数据,推断样本来自的两个独立总体的分布是否存在显著差异,一般来说是推断两个独立总体的均值或中位数是否存在显著差异。关于样本是否为独立的,主要看在一个总体中抽取样本对在另一个总体中抽取样本有无影响。如果没有影响,则可以认为这两个总体是独立的。零假设:样本来自的两独立总体的分布没有显著差异检验方法有多种:(1)两独立样本的威克逊等级和检验(Wilcoxon秩和检验),也被称为Mann-Whitney U检验。曼-惠特尼U检验(Mann-Whitney U),该检验主要是通过对平均秩的
7、研究来实现推断的。其基本思路是:首先,将两组样本数据和混合并按升序排序(m和n分别为两组样本的样本容量,求出每个数据各自的秩;然后,分别对和的秩求平均,得到两个平均秩和,如果这两个平均秩相差甚远,则倾向于拒绝零假设。(2)两独立样本的K-S检验(KolmogorovSmirnov Z),该检验首先将两组样本混合并按升序排序;然后,分别计算两组样本秩的累计频数和每个点上的累计频率;最后,将两个累计频率相减,得到差值序列数据。(3)沃尔德沃尔福威茨游程检验(Wlad-Wolfwitz runs),该检验将两组样本混合并按升序排序,在数据排序的同时,两组样本的每个观察值对应的样本组标志值序列也随之重
8、新排列;然后,对这个标志值序列求游程。如果样本所属的两总体的分布形态存在较大差距,那么计算出的游程数会相对比较小。如果游程数比较大,则应该是由于两样本数据充分混合的结果,那么它们的分布应该不存在显著差异。【例1】下表为来自两个样本A、B的测量数据,经检验知两样本方差不齐,试做非参数检验比较两组数据的差别。两独立样本A、B测量数据A组714223640486398B组3561017182039【程序】对该资料,应选用Wilcoxon秩和检验(rank sum test)方法,编制SAS程序如下:data ; do g=1 to 2; input x; output; end; datalines
9、; 7 3 14 5 22 6 36 10 40 17 48 18 63 20 98 39 ;proc npar1way wilcoxon; class g; var x;run;程序中因素“g”分组因素,“1”代表A组,“2”代表B组,“x”为待分析的变量。Proc npar1way语句后的选项“Wilcoxon”指定SAS进行Wilcoxon秩和检验。【结果】SAS给出两组数据的基本信息(样本量、秩和等);给出在零假设下各组统计量(Sum of scores项)的期望值(Expected Under H0项)及标准差(Std Dev Under H0项),最后还给出以近似z检验以及近似t检
10、验所得的统计量和所对应的单、双侧概率值。另外,默认状态下,SAS同时给出Kruskal-Wallis检验的结果。所不同的是,在两样本量相同时,SAS以秩和较大者作为对象统计量进行概率值的计算,而非医学统计学教材上所说的以较小秩和为对象统计量。在两样本量不同时,SAS以样本量较小组的秩和为对象统计量,这一点则与教材上的相同。如果去掉“wilcoxon”:data sasuser.data10_01; do g=1 to 2; input x; output; end; datalines; 7 3 14 5 22 6 36 10 40 17 48 18 63 20 98 39proc npar1
11、way; class g; var x;run;则SAS给出所以方法的执行结果:【例2】为了鉴别新旧两种生产方法对生产效率的影响,随机抽取了22人用旧生产方法生产,25人用新生产方法生产,每人平均日产量(件)资料如下:旧方法:20 31 27 18 10 26 39 45 41 24 22 23 14 11 32 37 40 46 49 55 54 19新方法:36 39 31 25 26 28 20 21 24 21 58 55 56 41 37 49 44 40 12 16 15 24 23 28 11问两种方法对日产量影响有无显著差异()?【数据摆放】【程序】proc npar1way
12、data2 wilcoxom; class g; var x;run;【运行结果】【例3】用某药治疗不同病情的老年慢性支气管炎病人, 疗效见下表,比较该药对两种病情的疗效。某药对两种不同病情的支气管炎疗效疗效单纯型单纯型合并肺气肿控制6542显效186有效3023近控1311【程序】对于此例,将疗效看成待分析的变量x,从“控制”到“近控”分别对其赋值1、2、3、4,病情则作为分组因素,同时需引入一个频度因素f,以代表不同取值状态下x的频数。编制程序如下:data ; do x=1 to 4; do g=1 to 2; input f; output; end; end; datalines;
13、65 42 18 6 30 23 13 11 ;proc npar1way wilcoxon; class g; var x; freq f;run; 【结果】程序和前例的基本相同,只根据资料特点增加了freq语句。提交程序,运行结果如下。2. 配对设计资料的秩检验配对设计资料一般采用配对t检验方法进行分析,但若配对数据差数的分布非正态分布,但其总体分布基本对称,则可采用Wilcoxon符号秩检验(signed rank test)作为配对t检验的替代方法。Wilcoxon符号秩检验功效很高,在数据满足配对t检验的要求时,符号秩检验的功效可达配对t检验功效的95%。SAS中符号检验(sign
14、test)和符号秩检验的功能不是在npar1way过程中实现,而是通过univariate过程来实现的。可能因为这两项功能涉及的是关于单变量分析的缘故。【例4】采用配对设计,用某种放射线的A,B两种方式分别局部照射家兔的两个部位,观察放射性急性皮肤损伤程度,结果见下表。试用符号秩检验比较A,B的损伤程度是否不同。家兔皮肤损伤程度编号方式A方式B139552425435155443475555364563722528484494048104555114032124957【程序】data ; input x1 x2; d=x1-x2; datalines; 39 55 42 54 51 55 43
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- SAS 备课 笔记 参数 检验 14
限制150内