非参数统计列联表卡方检验.doc
非参数统计期末大作业一、Wilcoxon符号秩检验某个公司为了争夺竞争对手的市场,决定多公司重新定位进行宣传。在广告创意中,预计广告投放后会产生效果。一组不看广告组和一组看广告,抽取16位被调查者,让起给产品打分。现有数据如下不看广告62839699716097100看广告8792908694958291 分析广告效应是否显著。1、 手算建立假设:H0:广告效应不显著H1:广告效应显著不看广告组记为x,看广告组记为y。检验统计量计算表XYD=x-y|D|D|的秩D的符号6287-25257-8392-992.5-9690661+998613134+7194-23236-6095-35358-978215155+10091992.5+由表可知:T+=1+4+5+2.5=12.5T-=7+2.5+6+8=23.5根据n=8,T+和T-中较大者T-=23.5,查表得,T+的右尾概率为0.230到0.273,在显著性水平下,P值显然较大,故没有理由拒绝原假设,表明广告效应不显著。2、Spss在spss中输入八组数据(数据1):选择非参数检验中的两个相关样本检验对话框中选择Wilcoxon,输出如下结果(输出1):RanksNMean RankSum of Ranks看广告 - 不看广告Negative Ranks4a3.1212.50Positive Ranks4b5.8823.50Ties0cTotal8a. 看广告 < 不看广告b. 看广告 > 不看广告c. 看广告 = 不看广告由上表,负秩为4,正秩也为4,同分的情况为0,总共8。负秩和为12.5,正秩和为23.5,与手算结果一致Test Statisticsb看广告 - 不看广告Z-.771aAsymp. Sig. (2-tailed).441a. Based on negative ranks.b. Wilcoxon Signed Ranks Test由上表,Z为负,说明是以负秩为基础计算的结果,其相应的双侧渐进显著性结果为0.441,明显大于0.05,因此在的显著性水平下,没有理由拒绝原假设,即表明广告效应不显著,与手算的结论一致。3、R语言(R语言1)输入语句:x=c(62,83,96,99,71,60,97,100)y=c(87,92,90,86,94,95,82,91)wilcox.test(x,y,exact=F,cor=F)输出结果:Wilcoxon rank sum testdata: x and yW = 33, p-value = 0.9164alternative hypothesis: true location shift is not equal to 0由输出结果可知,P=0.9164,远大于 =0.05,因此没有理由拒绝原假设,即广告效应并不显著,与以上结果一致。二、Wald-Wolfowitz游程检验有低蛋白和高蛋白两种料喂养大白鼠,以比较它们对大白鼠体重的增加是否有显著不同的影响,为此对m=10,n=10只大白鼠分别喂养低蛋白和高蛋白两种饲料,得增重量X,Y(单位:g)的表如下:饲料增重量低蛋白X64717275828384909196高蛋白Y42526165697578787881给定显著性水平=0.05,试用游程检验法检验两种饲料的影响有无显著差异。1、 手算建立假设:H0:两种饲料对大白鼠无显著差异H1:两种饲料对大白鼠有显著差异将X,Y的数据按从小到大混合排列,得X,Y的混合样本序列:Y Y Y X Y Y X X X Y Y Y Y Y X X X X X X 故得游程总数U=6, m=10,n=10,查表得,U=6的概率为0.019,由于是双侧检验,对于显著性水平=0.05,对应的P值为2因此拒绝原假设,即表明两种饲料对大白鼠有显著差异。2、 Spss在spss中输入数据(数据2)在非参数检验中选择两个独立样本检验对话框:在Define Groups输入1和2。在Test Type选中Wald-Wolfowitz runs。输出结果如下(输出2):Frequencies分组N增重量110210Total20Test Statisticsb,cNumber of RunsZExact Sig. (1-tailed)增重量Minimum Possible6a-2.068.019Maximum Possible8a-1.149.128a. There are 2 inter-group ties involving 4 cases.b. Wald-Wolfowitz Testc. Grouping Variable: 分组由上表,P值与手算结果一致,因此也拒绝原假设,即表明两种饲料对大白鼠有显著差异。三、Kolmogorov-Smirnov检验为了研究两家电信运营商套餐在目标市场的年龄维度上的分布是否相同,该电信运营公司开展了一个社会调查活动。数据如下:两种通信套餐的用户年龄套餐1套餐218221848255122342442232626443138分析两种套餐的目标市场年龄的分布是否存在显著性差异。1、 手算建立假设:H0:两种套餐的目标市场年龄分布不存在显著差异H1:两种套餐的目标市场年龄分布存在显著差异检验统计量D的计算表年龄f1f2S1(x)S2(x)S1(x)- S2(x)1810101/701/71810202/702/72211313/71/920/632310414/71/929/632410515/71/938/632510616/71/947/6326117212/97/931017313/96/934017414/95/938017515/94/942017616/93/944017717/92/948017818/91/9510179110由上表,找出检验统计量D=max=7/9,m=7,n=9,mnD=,查表得,相应的P值为0.008,在5%的显著性水平上,P值足够小,因此拒绝原假设,表明两种套餐的目标市场年龄分布存在显著差异。2、 spss输入数据(数据3)在非参数检验中选择两个独立样本检验:对话框:运营商1和2分类的变量输入到Grouping Variable,在Define Groups输入1和2。在Test Type选中Kolmogorov-Smirnov。在点Exact时打开的对话框中可以选择精确方法(Exact)。输出结果如下(输出3);Frequencies运营商N年龄1729Total16Test Statisticsa年龄Most Extreme DifferencesAbsolute.778Positive.000Negative-.778Kolmogorov-Smirnov Z1.543Asymp. Sig. (2-tailed).017Exact Sig. (2-tailed).008Point Probability.006a. Grouping Variable: 运营商由上表:精确计算的双尾P 值为0.008,与手算结果一致,表明两种套餐的目标市场年龄分布存在显著差异。四、k个独立样本的Kruskal-Wallis检验为检测四种防护服对人脉搏的影响,找来20人试穿,每种有5人试穿,测量试穿者的脉搏,得到以下表格:试穿者防护服1防护服 2防护服 3防护服 41130104123133211111611912831141061151304123981201125115104117110问:穿四种防护服测得的脉搏有无差异。1、 手算建立假设:H0:测得的脉搏没有显著差异H1:测得的脉搏有显著差异脉搏等级整理如下:防护服1防护服2防护服3防护服418.52.515.5206111317849.518.515.511479.52.5125秩和57.5216467.5计算检验统计量H:查表:自由度df=3,显著性水平临界值卡方=7.82。显然,H=7.854>卡方=7.82,所以拒绝原假设,表明四种防护服对脉搏的影响有显著差异。2、 spss输入20个观测值(数据4)在非参数检验中选择k个独立样本检验防护服分组定义为1到4操作如下图:输出结果如下(输出4):Ranks防护服NMean Rank脉搏1511.50254.203512.804513.50Total20Test Statisticsa,b脉搏Chi-Square7.878df3Asymp. Sig.049a. Kruskal Wallis Testb. Grouping Variable: 防护服由上表,卡方与手算十分接近,拒绝原假设,即表明四种防护服对脉搏的影响有显著性差异。3、 中位数检验20个数,中位数为115.5,整理每个总体中大于或小于该中位数的观测值个数,如下表:1234>115.5214310<=115.5341210555520计算Q检验量Q统计量小于卡方=7.82,没有理由拒绝原假设,表明四种防护服对脉搏的影响没有显著差异。Spss:在test type中选择中位数,输出结果如下:Frequencies防护服1234脉搏> Median2143<= Median3412Test Statisticsb脉搏N20Median115.50Chi-Square4.000adf3Asymp. Sig.261a. 8 cells (100.0%) have expected frequencies less than 5. The minimum expected cell frequency is 2.5.b. Grouping Variable: 防护服卡方值为4,与手算结果一致,不拒绝原假设,即表明四种防护服对脉搏的影响没有显著性差异综上,两种算法的结果不一致!?4、 R语言输入语句(R语言2):x=c(130,111,114,123,115,104,116,106,98,104,123,119,115,120,117,133,128,130,112,110)y=c(1,1,1,1,1,2,2,2,2,2,3,3,3,3,3,4,4,4,4,4)kruskal.test(x,y)输出结果:> kruskal.test(x,y) Kruskal-Wallis rank sum testdata: x and yKruskal-Wallis chi-squared = 7.878, df = 3, p-value = 0.0486与以上的手算和KS检验法结果一致,拒绝原假设,表明四种防护服防护服对脉搏的影响存在显著差异。五、列联表卡方检验一种原料来自三个不同的地区,原料质量被分成三个不同等级。从这批原料中随机抽取500件进行检验,得样本数据如下表所示,要求检验地区与原料质量之间有无依赖关系。一级二级三级合计地区1526424140地区2605952171地区3506574189合计1621881505001、手算:建立假设:地区等级115245.360.97126452.642.451324427.71216055.40.38225964.30.44235251.30.01315061.242.06326571.060.52337456.75.28合计19.82查表得,由于Q=19.82>,因此拒绝原假设,即认为地区与原料质量相关。2、SPSS:操作:DataWeight Cases AnalyzeDescriptive StatisticsCrosstabs地区 * 等级 Crosstabulation等级Total一级二级三级地区地区1Count526424140Expected Count45.452.642.0140.0地区2Count605952171Expected Count55.464.351.3171.0地区3Count506574189Expected Count61.271.156.7189.0TotalCount162188150500Expected Count162.0188.0150.0500.0Chi-Square TestsValuedfAsymp. Sig. (2-sided)Exact Sig. (2-sided)Exact Sig. (1-sided)Point ProbabilityPearson Chi-Square19.822a4.001.bLikelihood Ratio20.7324.000.000Fisher's Exact Test20.510.000Linear-by-Linear Association13.963c1.000.000.000.000N of Valid Cases500a. 0 cells (.0%) have expected count less than 5. The minimum expected count is 42.00.b. Cannot be computed because there is insufficient memory.c. The standardized statistic is 3.737.由输出结果可知,检验统计量为19.822,精确双尾显著性概率P远远小于显著性水平0.05,因此拒绝原假设,即认为地区与原料质量相关。与手算结果一致。