MBA统计学非参数检验.ppt
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_05.gif)
《MBA统计学非参数检验.ppt》由会员分享,可在线阅读,更多相关《MBA统计学非参数检验.ppt(91页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、MBA统计学非参数检统计学非参数检验验第十六章 非参数检验非参数检验 16.1 关于非参数的一些常识关于非参数的一些常识l经典统计的多数检验都假定了总经典统计的多数检验都假定了总体的背景分布。体的背景分布。l但在总体未知时,如果假定的总但在总体未知时,如果假定的总体和真实总体不符,那么就不适体和真实总体不符,那么就不适宜用通常的检验宜用通常的检验l这时如果利用传统的假定分布已这时如果利用传统的假定分布已知的检验,就会产生错误甚至灾知的检验,就会产生错误甚至灾难。难。l无需假定总体分布的具体形式,无需假定总体分布的具体形式,仅仅依赖于数据观测值的相对大仅仅依赖于数据观测值的相对大小小(秩秩)或零
2、假设下等可能的概率或零假设下等可能的概率等和数据本身的具体总体分布无等和数据本身的具体总体分布无关的性质进行的检验都称为关的性质进行的检验都称为非参非参数检验数检验(nonparametric testing)。16.1 关于非参数的一些常识关于非参数的一些常识l这些非参数检验在总体分布未知时有很这些非参数检验在总体分布未知时有很大的优越性。它总是比传统检验安全。大的优越性。它总是比传统检验安全。l在总体分布形式已知时,非参数检验不在总体分布形式已知时,非参数检验不如传统方法效率高。这是因为非参数方如传统方法效率高。这是因为非参数方法利用的信息要少些。往往在传统方法法利用的信息要少些。往往在传
3、统方法可以拒绝零假设的情况,非参数检验无可以拒绝零假设的情况,非参数检验无法拒绝。法拒绝。l但非参数统计在总体未知时效率要比传但非参数统计在总体未知时效率要比传统方法要高,有时要高很多。是否用非统方法要高,有时要高很多。是否用非参数统计方法,要根据对总体分布的了参数统计方法,要根据对总体分布的了解程度来确定。解程度来确定。 l这里介绍一些非参数检验。这里介绍一些非参数检验。l关于非参数方法的确切定义并不关于非参数方法的确切定义并不很明确。我们就其最广泛的意义很明确。我们就其最广泛的意义来理解。来理解。l在计算中,诸如列联表分析中的在计算中,诸如列联表分析中的许多问题都有精确方法,许多问题都有精
4、确方法,Monte Carlo抽样方法和用于大样本的抽样方法和用于大样本的渐近方法等选择。精确方法比较渐近方法等选择。精确方法比较费时间,后两种要粗糙一些,但费时间,后两种要粗糙一些,但要快些。要快些。 秩(秩(rank) l非参数检验中秩是最常使用的概非参数检验中秩是最常使用的概念。什么是一个数据的秩呢?一念。什么是一个数据的秩呢?一般来说,秩就是该数据按照升幂般来说,秩就是该数据按照升幂排列之后,每个观测值的位置。排列之后,每个观测值的位置。例如我们有下面数据例如我们有下面数据Xi159183178513719Ri75918426310这下面一行(记为这下面一行(记为Ri)就是上面一)就是
5、上面一行数据行数据Xi的秩。的秩。 秩(秩(rank) l利用秩的大小进行推断就避免利用秩的大小进行推断就避免了不知道背景分布的困难。这了不知道背景分布的困难。这也是非参数检验的优点。也是非参数检验的优点。l多数非参数检验明显地或隐含多数非参数检验明显地或隐含地利用了秩的性质;但也有一地利用了秩的性质;但也有一些非参数方法没有涉及秩的性些非参数方法没有涉及秩的性质。质。 16.2 单样本检验单样本检验16.2.1单样本中位数单样本中位数(a a-分位数分位数)符号检验符号检验l我们知道某点为中位数我们知道某点为中位数(a a-分位数分位数)意意味着一个数小于该点的概率应该为味着一个数小于该点的
6、概率应该为0.5(a a).l因此,一个观测值小于该点(或与因此,一个观测值小于该点(或与该点之差的该点之差的符号符号为负号)的概率为为负号)的概率为0.5(a a)。l这就是符号检验名称的来源,并与这就是符号检验名称的来源,并与二项分布有关。二项分布有关。例:数据例:数据gs.txtl例例16.1 质量监督部门对商店里面出售的某厂质量监督部门对商店里面出售的某厂家的西洋参片进行了抽查。对于家的西洋参片进行了抽查。对于25包写明为包写明为净重净重100g的西洋参片的称重结果为(单位:的西洋参片的称重结果为(单位:克):克):99.05 100.25 102.56 99.15 104.89 10
7、1.86 96.37 96.79 99.3796.90 93.94 92.97 108.28 96.86 93.94 98.27 98.36100.81 92.99 103.72 90.66 98.24 97.87 99.21 101.79数据数据gs.txtl样本中位数为样本中位数为m=98.36。因此,。因此,人们怀疑厂家包装的西洋参片份人们怀疑厂家包装的西洋参片份量不足。由于对于这些重量的总量不足。由于对于这些重量的总体分布不清楚,决定对其进行符体分布不清楚,决定对其进行符号检验。需要检验的是:号检验。需要检验的是:01:100:100HmHm数据数据gs.txtl按照零假设,每个观测值
8、(每包西按照零假设,每个观测值(每包西洋参的净重)大于中位数洋参的净重)大于中位数m0=100g的机会和小于的机会和小于100g的概率都是的概率都是0.5。这服从二项分布这服从二项分布Bin(25,0.5)。l重于重于100g的只有的只有8包。这样的二项分包。这样的二项分布变量小于或等于布变量小于或等于8的概率为的概率为0.05388。这就是。这就是p-值。值。l因此因此, 对于水平对于水平a a=0.05, 根据这个符根据这个符号检验,没有充分的证据拒绝零假号检验,没有充分的证据拒绝零假设。设。数据数据gs.txtBinomial Test 1008.32251.00Group 1Group
9、 2TotalgsweightCategoryNObservedProp.Test Prop.Exact Sig.(2-tailed)PointProbabilitySPSS输出的结果在下面表格中。从输出的结果在下面表格中。从该表格可以看出精确的双边检验的该表格可以看出精确的双边检验的p-值值=0.108(精确地为(精确地为0.1078);也);也就是说,我们的单尾检验的就是说,我们的单尾检验的p-值为值为其一半。其一半。数据数据gs.txt另一种输出来自于另一种输出来自于SPSS的另一种选的另一种选项:项:Test Statisticsb.108a.054.032Exact Sig. (2-
10、tailed)Exact Sig. (1-tailed)Point Probabilitym - gsweightBinomial distribution used.a. Sign Testb. SPSS软件使用软件使用 l这里有两种选项方式:1.以数据gs.sav为例。直接使用SPSS选项AnalyzeNonparametric TestsBinomial,再把变量gsweight选入Test Variable List,然后在下面Define Dichotomy的Cut point输入100(克),在下面Test Proportion输入p0=0.50(零假设大于100小时的比例);还可
11、以点击Exact来选择精确检验,渐近检验和Monte Carlo方法等,然后OK即可得到前面显示的结果。SPSS软件使用软件使用 2. 数据gs.sav有一列(变量名为m),这是重复零假设的100g使得m的长度和gsweight一样。然后利用选项AnalyzeNonparametric TestsRelated Samples,再把变量gsweight和m同时选入Test Pair(s) List之中,再在下面选Sign及在Exact中选Exact;然后回到主对话框,OK即可。得出前面的第二个输出。16.2 单样本检验单样本检验16.2.2单样本位置参数的单样本位置参数的Wilcoxon符号秩
12、检验符号秩检验 l符号检验只用了差的符号,但没符号检验只用了差的符号,但没有利用差值的大小。有利用差值的大小。lW i l c o x o n 符 号 秩 检 验符 号 秩 检 验(Wilcoxon signed-rank test) 把差的绝对值的秩分别按照不同把差的绝对值的秩分别按照不同的符号相加作为其检验统计量。的符号相加作为其检验统计量。l它利用了更多的信息。它利用了更多的信息。 16.2 单样本检验单样本检验16.2.2单样本位置参数的单样本位置参数的Wilcoxon符号秩检验符号秩检验 lWilcoxon符号秩检验需要一点总体符号秩检验需要一点总体分布的性质;它要求假定样本点来分布
13、的性质;它要求假定样本点来自连续对称总体分布;而符号检验自连续对称总体分布;而符号检验不需要知道任何总体分布的性质。不需要知道任何总体分布的性质。l在对称分布中,总体中位数和总体在对称分布中,总体中位数和总体均值是相等的;因此,对于总体中均值是相等的;因此,对于总体中位数的检验,等价于对于总体均值位数的检验,等价于对于总体均值的检验。的检验。 l假定假定x1,x2, xn为来自连续对称总体。为来自连续对称总体。如果零检验为中位数(均值)如果零检验为中位数(均值)m = m0。l把满足把满足xi-m00的的|xi-m0|的秩求和,并用的秩求和,并用W+表示。如果表示。如果m0的确的确是中位数,那
14、么,是中位数,那么,W-和和W-应大体差不多。应大体差不多。l如果如果W-或者或者W+过大或过小,则应该怀过大或过小,则应该怀疑中位数疑中位数m = m0的零假设。的零假设。l令令W=min(W-,W+),则当,则当W太小时,应太小时,应该拒绝零假设。这个该拒绝零假设。这个W就是就是Wilcoxon符符号秩检验统计量。号秩检验统计量。例:数据例:数据gs.txtl例例16.1 质量监督部门对商店里面出售的某厂质量监督部门对商店里面出售的某厂家的西洋参片进行了抽查。对于家的西洋参片进行了抽查。对于25包写明为包写明为净重净重100g的西洋参片的称重结果为(单位:的西洋参片的称重结果为(单位:克)
15、:克):99.05 100.25 102.56 99.15 104.89 101.86 96.37 96.79 99.3796.90 93.94 92.97 108.28 96.86 93.94 98.27 98.36100.81 92.99 103.72 90.66 98.24 97.87 99.21 101.7901:100:100HmHm例例16.1:数据:数据gs.txt(继续)(继续)l利用利用SPSS,很容易得到该数据的,很容易得到该数据的Wilcoxon符号秩检验结果符号秩检验结果 (Wilcoxon符号秩检验精确符号秩检验精确(单尾)的(单尾)的p-值为值为0.047 ):Te
16、st Statisticsb-1.682a.093.095.047.002ZAsymp. Sig. (2-tailed)Exact Sig. (2-tailed)Exact Sig. (1-tailed)Point Probabilitym - gsweightBased on negative ranks.a. Wilcoxon Signed Ranks Testb. 软件使用说明软件使用说明 l利用例16.1数据(gs.txt或gs.sav)。该数据有一列(变量名为m),这是重复零假设的100g使得m的长度和gsweight一样。然后利用选项AnalyzeNonparametric Tes
17、tsRelated Samples,再把变量gsweight和m同时选入Test Pair(s) List之中,再在下面选Wilcoxon及在Exact中选Exact;再回到主对话框,OK即可。 16.2.3 16.2.3 单样本单样本Kolmogorov-Smirnov检验检验 l单样本的单样本的Kolmogorov-Smirnov检验(检验(K-S检验)是用来检验一个数据的观测累积分布检验)是用来检验一个数据的观测累积分布是否是已知的理论分布。是否是已知的理论分布。l这些作为零假设的理论分布在这些作为零假设的理论分布在SPSS的选项中的选项中有正态分布,有正态分布,Poisson分布,均匀
18、分布和指数分布,均匀分布和指数分布。在分布。在SPSS软件中对于是否是正态分布或软件中对于是否是正态分布或均匀分布的检验统计量为均匀分布的检验统计量为100max()() ,()()iiiiiZnS XF XS XF X数据数据ksdata.sav的的K-S检验检验 l我们检验它是否是我们检验它是否是正态分布、均匀分布和指正态分布、均匀分布和指数分布数分布。输出结果分别显示在下面三个表中:。输出结果分别显示在下面三个表中:One-Sample Kolmogorov-Smirnov Test501.00211.07647.182.173-.1821.284.074NMeanStd. Deviat
19、ionNormal Parametersa,bAbsolutePositiveNegativeMost ExtremeDifferencesKolmogorov-Smirnov ZAsymp. Sig. (2-tailed)XTest distribution is Normal.a. Calculated from data.b. 单边检验的单边检验的p-值等于值等于0.074/2=0.037(渐(渐近检验)和近检验)和0.069/2=0.0345(精确检(精确检验)。如果按照显著性水平为验)。如果按照显著性水平为0.05的标的标准,可以拒绝产生数据的总体为正态分准,可以拒绝产生数据的总体为
20、正态分布的零假设。布的零假设。 One-Sample Kolmogorov-Smirnov Test 250.024.12.450.450-.0203.182.000NMinimumMaximumUniform Parametersa,bAbsolutePositiveNegativeMost ExtremeDifferencesKolmogorov-Smirnov ZAsymp. Sig. (2-tailed)XTest distribution is Uniform.a. Calculated from data.b. p-值等于值等于0.000(渐近检验)和(渐近检验)和0.000(精确
21、检验)。如果按照显著性水(精确检验)。如果按照显著性水平为平为0.05的标准,可以拒绝产生数的标准,可以拒绝产生数据的总体为均匀分布的零假设。据的总体为均匀分布的零假设。 One-Sample Kolmogorov-Smirnov Test 3501.0021.103.103-.052.728.664NMeanExponential parameter.a,bAbsolutePositiveNegativeMost ExtremeDifferencesKolmogorov-Smirnov ZAsymp. Sig. (2-tailed)XTest Distribution is Exponent
22、ial.a. Calculated from data.b. p-值等于值等于0.664/2=0.332(渐近检验)(渐近检验)和和0.662/2=0.331(精确检验)。如(精确检验)。如果按照显著性水平为果按照显著性水平为0.05的标准,的标准,不能拒绝产生数据的总体为指数分不能拒绝产生数据的总体为指数分布的零假设。布的零假设。 警告警告l经常有人在经常有人在Kolmogorov-Smirnov检验中,当检验不能拒绝总体分布检验中,当检验不能拒绝总体分布为某分布时,来为某分布时,来“接受接受”或或“证明证明”该样本来自该分布。这是错误的。该样本来自该分布。这是错误的。l比如我们有由比如我们
23、有由1、2、3、4、5五个五个数目组成的数据,我们分别检验该数目组成的数据,我们分别检验该数据是否是正态分布、均匀分布、数据是否是正态分布、均匀分布、Poisson分布或指数分布。结果归分布或指数分布。结果归纳为下表(读者可以自己练习去算)纳为下表(读者可以自己练习去算)Kolmogorov-Smirnov单样本分布检验单样本分布检验零假设的分布零假设的分布 (渐近双边检验的)(渐近双边检验的)p-值值正态分布正态分布1.000均匀分布均匀分布0.988Poisson分布分布1.000指数分布指数分布0.806根据此表,没有足够证据来拒绝任何根据此表,没有足够证据来拒绝任何一个零假设。难道我们
24、可以随意一个零假设。难道我们可以随意“接接受受”该总体为其中任一个分布吗?该总体为其中任一个分布吗? SPSSSPSS软件使用说明软件使用说明 l使用我们的使用我们的ksdata.sav数据。数据。l选项为选项为AnalyzeNonparametric Tests1 Sample K-S。l然后把变量(这里是然后把变量(这里是x)选入)选入Variable List。再在下面再在下面Test Distribution选中零假设的分布选中零假设的分布( N o r m a l 、 P o i s s o n 、 U n i f o r m 和和Exponential)作为零假设。)作为零假设。l
25、在点在点Exact时打开的对话框中可以选择精确方时打开的对话框中可以选择精确方法(法(Exact),),Monte Carlo抽样方法抽样方法(Monte Carlo)或用于大样本的渐近方法)或用于大样本的渐近方法(Asymptotic only)。最后)。最后OK即可。即可。 16.2.4 16.2.4 关于随机性的游程检验关于随机性的游程检验(run test)l游程检验方法是检验一个取两个值的变量游程检验方法是检验一个取两个值的变量的这两个值的出现是否是随机的。假定下的这两个值的出现是否是随机的。假定下面是由面是由0和和1组成的一个这种变量的样本组成的一个这种变量的样本(数据(数据run
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- MBA 统计学 参数 检验
![提示](https://www.taowenge.com/images/bang_tan.gif)
限制150内