第七章卡方检验正式优秀PPT.ppt
《第七章卡方检验正式优秀PPT.ppt》由会员分享,可在线阅读,更多相关《第七章卡方检验正式优秀PPT.ppt(86页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、第七章卡方检验正式现在学习的是第1页,共86页2讲课内容:讲课内容:1.概述概述基本思想基本思想2.22表卡方检验表卡方检验3.配对四格表卡方检验配对四格表卡方检验4.Fisher确切概率检验确切概率检验5.RC表卡方检验表卡方检验6.多个样本率的多重比较多个样本率的多重比较7.有序分组资料的线性趋势检验有序分组资料的线性趋势检验 现在学习的是第2页,共86页3概念回顾概念回顾p在总体率为在总体率为的二项分布总体中做的二项分布总体中做n1和和n2抽样抽样,样样本率本率p1和和p2与与的差别的差别,称为称为率抽样误差率抽样误差。p在总体率为在总体率为1和和2的不同总体中抽样,得的不同总体中抽样,
2、得p1和和p2,在,在n5,可通过率的,可通过率的u检验推断是否检验推断是否1=2。p二项分布的两个样本率的检验同样可用二项分布的两个样本率的检验同样可用2检验检验。现在学习的是第3页,共86页4 目的:目的:推断两个总体率或构成比之间有无差别推断两个总体率或构成比之间有无差别 多个总体率或构成比之间有无差别多个总体率或构成比之间有无差别 多个样本率的多重比较多个样本率的多重比较 两个分类变量之间有无关联性两个分类变量之间有无关联性 频数分布拟合优度的检验。频数分布拟合优度的检验。检验统计量:检验统计量:2 应用:应用:计数资料计数资料现在学习的是第4页,共86页5基本概念基本概念例例1 某院
3、比较异梨醇(试验组)和氢氯塞嗪(对某院比较异梨醇(试验组)和氢氯塞嗪(对照组)降低颅内压的疗效,将照组)降低颅内压的疗效,将200名患者随机分名患者随机分为两组,试验组为两组,试验组104例中有效的例中有效的99例例,对照组对照组96例例中有效的中有效的78例例,问两种药物对降低颅内压疗效有无差问两种药物对降低颅内压疗效有无差别?别?现在学习的是第5页,共86页6表表 200名颅内高压患者治疗情况名颅内高压患者治疗情况编号编号年龄年龄性别性别治疗组治疗组 舒张压舒张压体温体温疗效疗效137男A11.2737.5有效245女B12.5337.0有效343男A10.9336.5有效459女B14.
4、6737.8无效20054男B16.8037.6无效如何整理此类资料?如何整理此类资料?如何分析此类资料?如何分析此类资料?现在学习的是第6页,共86页7四格表(四格表(fourfold table)资料的基本形式)资料的基本形式 实际频数实际频数(actual frequency)是指各分类实是指各分类实际发生或未发生计数值,记为际发生或未发生计数值,记为A。a=99b=5104c=75d=219617426200单元格单元格现在学习的是第7页,共86页8理论频数理论频数(theoretical frequency)是指按某是指按某H0假设计算各分类理论上的发生或未发生计假设计算各分类理论上
5、的发生或未发生计数值,记为数值,记为T。式中,TRC 为第R 行C 列的理论频数 nR 为相应的行合计 nC 为相应的列合计疗法疗法有效人数有效人数无效人数无效人数合计合计有效率有效率试验组试验组99(99(90.4890.48)5(5(13.5213.52)10410495.295.2对照组对照组75(75(83.5283.52)21(21(12.4812.48)969678.178.1合计合计174174262620020087.087.0现在学习的是第8页,共86页9残差残差设设A代表某个类别的观察频数,代表某个类别的观察频数,T代表基于代表基于H0计计算出的期望频数,算出的期望频数,A
6、与与T之差之差(A-T)被称为残差被称为残差残差可以表示某一个类别观察值和理论值的偏离残差可以表示某一个类别观察值和理论值的偏离程度,但残差有正有负,相加后会彼此抵消,总程度,但残差有正有负,相加后会彼此抵消,总和仍然为和仍然为0。为此可以将残差平方后求和,以表。为此可以将残差平方后求和,以表示样本总的偏离无效假设的程度示样本总的偏离无效假设的程度现在学习的是第9页,共86页10Pearson 2检验的基本公式检验的基本公式p残差大小是一个相对的概念,残差大小是一个相对的概念,相对于期望频数为相对于期望频数为10时,时,20的残差非常大;可相对于期望的残差非常大;可相对于期望频数为频数为100
7、0时时20就很小了。因就很小了。因此又将残差平方除以期望频数此又将残差平方除以期望频数再求和,以标准化观察频数与再求和,以标准化观察频数与期望频数的差别。期望频数的差别。p卡方统计量,卡方统计量,1900年由英国年由英国统计学家统计学家K.Pearson首次提出。首次提出。Karl Pearson(1857 1936)现在学习的是第10页,共86页11p从卡方的计算公式可见,当观察频数与期望从卡方的计算公式可见,当观察频数与期望频数频数完全一致完全一致时,时,卡方值为卡方值为0;p观察频数与期望频数越接近,两者之间的观察频数与期望频数越接近,两者之间的差异越小差异越小,卡方值越小卡方值越小;p
8、反之,观察频数与期望频数差别越大,两者反之,观察频数与期望频数差别越大,两者之间的之间的差异越大差异越大,卡方值越大卡方值越大。p当然,卡方值的大小也当然,卡方值的大小也和自由度有关和自由度有关p检验的自由度取决于可以检验的自由度取决于可以自由取值的格子数自由取值的格子数目目,而不是样本含量,而不是样本含量n。p理论上,在理论上,在n40时下式值与时下式值与2分布近似,在分布近似,在理论数理论数5,近似程度较好。,近似程度较好。现在学习的是第11页,共86页12l连续型分布:正态分布(连续型分布:正态分布(Normal distribution),学生氏),学生氏t分布分布(Students
9、t-distribution),F分布分布(F distribution)l另一个同样重要的分布另一个同样重要的分布2卡方分布卡方分布(Chi-squared distribution)。l此分布在此分布在1875年,首先由年,首先由F.Helmet所提出,而所提出,而且是由正态分布演变而来的,即标准正态分布且是由正态分布演变而来的,即标准正态分布Z值之平方而得值之平方而得2分布分布现在学习的是第12页,共86页13设设Xi为来自正态总体的连续性变量。为来自正态总体的连续性变量。称为自由度称为自由度df=n的卡方值。的卡方值。显然,卡方分布具有可加性。显然,卡方分布具有可加性。现在学习的是第1
10、3页,共86页143.847.8112.59P P0.050.05的临界值的临界值2分布的概率密度函数曲线分布的概率密度函数曲线现在学习的是第14页,共86页15当当=1时时,现在学习的是第15页,共86页16第二节第二节2222表卡方检验表卡方检验现在学习的是第16页,共86页17两组样本率比较的设计分类:两组样本率比较的设计分类:1.两组两组(独立独立)样本率的比较样本率的比较 组间数据是相互独立组间数据是相互独立,非配对设计。非配对设计。22表卡方检验表卡方检验2.配对设计两组样本率的比较配对设计两组样本率的比较 组间数据是相关的,配对设计。组间数据是相关的,配对设计。配对四格表卡方检验
11、配对四格表卡方检验现在学习的是第17页,共86页18两组(不配对)样本率的比较两组(不配对)样本率的比较1)四格表形式)四格表形式2)四格表不配对资料检验的专用公式)四格表不配对资料检验的专用公式二者结果等二者结果等价价各组样各组样本例数本例数是固定是固定的的组别组别阳性数阳性数阴性数阴性数合计合计率率%甲组甲组a ab ba+b=na+b=n1 1a/na/n1 1乙组乙组c cd dc+d=nc+d=n2 2c/nc/n2 2合计合计a+ca+cb+db+dN N(a+c)/N(a+c)/N现在学习的是第18页,共86页19例例1(续)(续)现在学习的是第19页,共86页20H0:1=2
12、即即试试验验组组与与对对照照组组降降低低颅颅内内压压的的总总体体有效率相等有效率相等H1:12=0.05。以以=1查查附附表表8的的2界界值值表表得得P 40,此时有,此时有 1 T 5时,需计算时,需计算Yates连续连续性校正性校正 2值值T 1,或,或n40时,应改用时,应改用Fisher确切概率法直确切概率法直接计算概率接计算概率现在学习的是第23页,共86页24(1)校正公式的条件:校正公式的条件:1T5,同时同时N40,用校正公式计算用校正公式计算(2)连续校正连续校正(continuity correction)公式:公式:(3)当当T1,或或N0.05。按按=0.05检检验验水
13、水准准,不不拒拒绝绝H0,无无统统计计学学意意义义,尚尚不不能能认认为两种药物治疗脑血管疾病的有效率不等。为两种药物治疗脑血管疾病的有效率不等。现在学习的是第27页,共86页28卡方检验的连续性校正问题卡方检验的连续性校正问题正方观点正方观点:卡方统计量抽样分布的连续性和平滑性得卡方统计量抽样分布的连续性和平滑性得到改善,可以降低到改善,可以降低I I类错误的概率;类错误的概率;校正结果更接近于校正结果更接近于FisherFisher确切概率法;确切概率法;校正是有条件的。校正是有条件的。反方观点反方观点:经连续性校正后,经连续性校正后,P P值有过分保守之嫌;值有过分保守之嫌;连续性校正卡方
14、检验的连续性校正卡方检验的P P值与值与FisherFisher确切概率确切概率法的法的P P值没有可比性,这是因为值没有可比性,这是因为FisherFisher确切概率确切概率法建立在四格表法建立在四格表双边固定双边固定的假定下,而实际资料的假定下,而实际资料则是则是单边固定单边固定的四格表。的四格表。现在学习的是第28页,共86页29就应用而言,无论是否经过连续性校正,就应用而言,无论是否经过连续性校正,若两种检验的结果一致,无须在此问题上若两种检验的结果一致,无须在此问题上纠缠。但是,当两种检验结果相互矛盾时,纠缠。但是,当两种检验结果相互矛盾时,如例如例2,就需要谨慎解释结果了。,就需
15、要谨慎解释结果了。为客观起见,建议将两种结论同时报告出来,为客观起见,建议将两种结论同时报告出来,以便他人判断。当然,如果两种结论一致,以便他人判断。当然,如果两种结论一致,如均为如均为有或无统计学意义有或无统计学意义,则只报道非连,则只报道非连续性检验的结果即可。续性检验的结果即可。现在学习的是第29页,共86页30第二节第二节 配对设计两个样本率的配对设计两个样本率的2检验检验(McNemer检验检验)配对设计:通常为配对设计:通常为同源配对同源配对。对同一观察对象。对同一观察对象分别用两种方法处理,观察其阳性与阴性结分别用两种方法处理,观察其阳性与阴性结果。果。基本用途:常用于比较基本用
16、途:常用于比较两种检验方法两种检验方法或或两种培两种培养基养基的阳性率是否有差别。的阳性率是否有差别。数据形式:数据形式:配对四格表形式配对四格表形式。现在学习的是第30页,共86页31例例3 3 某实验室采用两种方法对某实验室采用两种方法对5858名可疑红斑名可疑红斑狼疮患者的血清抗体进行测定,问:两方法测狼疮患者的血清抗体进行测定,问:两方法测定结果阳性检出率是否有差别?定结果阳性检出率是否有差别?测定结果为:阳性、阴性(共测定结果为:阳性、阴性(共116116标本,标本,5858对)对)方法(方法(X X)乳胶凝集法乳胶凝集法 免疫荧光法免疫荧光法 对子例数对子例数 1111 3333
17、2 2 1212结结果果现在学习的是第31页,共86页32 上述配对设计实验中,就每个对子而言,两上述配对设计实验中,就每个对子而言,两种处理的结果不外乎有种处理的结果不外乎有四种可能四种可能:两种检测方法皆为阳性数两种检测方法皆为阳性数(a a);两种检测方法皆为阴性数两种检测方法皆为阴性数(d d);免疫荧光法为阳性,乳胶凝集法为免疫荧光法为阳性,乳胶凝集法为 阴性数阴性数(b b);乳胶凝集法为阳性,免疫荧光法为乳胶凝集法为阳性,免疫荧光法为 阴性数阴性数(c c)。其中,其中,a a,d d 为两法观察结果一致的两种情况,为两法观察结果一致的两种情况,b b,c c为两法观察结果不一致
18、的两种情况。为两法观察结果不一致的两种情况。现在学习的是第32页,共86页33 表表 两种方法的检测结果两种方法的检测结果 现在学习的是第33页,共86页34方法原理方法原理按照配对设计的思路进行分析,则首先应当按照配对设计的思路进行分析,则首先应当求出求出各对的差值各对的差值,然后考察样本中差值的分布,然后考察样本中差值的分布是否按照是否按照H H0 0假设的情况假设的情况对称分布。对称分布。按此分析思路,最终可整理出如前所列的配按此分析思路,最终可整理出如前所列的配对四格表。对四格表。主对角线主对角线上两种检验方法的结论上两种检验方法的结论相同相同,对问题,对问题的解答的解答不会不会有任何
19、贡献有任何贡献斜对角线斜对角线上两种检验方法的结论上两种检验方法的结论不相同不相同,显显示示了检验方法间的差异了检验方法间的差异现在学习的是第34页,共86页35配对配对2检验统计量为检验统计量为现在学习的是第35页,共86页36H0:b=c=(12+2)/2=7(两法总体阳性率相等两法总体阳性率相等)H1:b c (两方法总体阳性率不等)(两方法总体阳性率不等)=0.05本例本例b+c=12+2=1440,用校正公式,用校正公式本例本例2=5.793.84,P0.05。在。在=0.05水准,水准,拒绝拒绝HH0 0,接受,接受HH1 1,有统计学意义。认为两方,有统计学意义。认为两方法的检测
20、率不同,乳胶凝集法的阳性检测率法的检测率不同,乳胶凝集法的阳性检测率22.41%低于免疫检测率低于免疫检测率39.66%。现在学习的是第36页,共86页37注意事项注意事项McNemarMcNemar检验检验只会利用非主对角线单元格只会利用非主对角线单元格上的信上的信息,即它只关心息,即它只关心两者不一致两者不一致的评价情况,用于比较的评价情况,用于比较两个评价者间存在怎样的倾向。因此,对于一致两个评价者间存在怎样的倾向。因此,对于一致性较好的大样本数据,性较好的大样本数据,McNemarMcNemar检验可能会失去检验可能会失去实用价值。实用价值。例如对例如对1 1万个案例进行一致性评价,万
21、个案例进行一致性评价,99959995个都个都是完全一致的,在主对角线上,另有是完全一致的,在主对角线上,另有5 5个分布在左个分布在左下的三角区,显然,此时一致性相当的好。但如果使下的三角区,显然,此时一致性相当的好。但如果使用用McNemarMcNemar检验,此时反而会得出两种评价有差检验,此时反而会得出两种评价有差异的结论来。异的结论来。现在学习的是第37页,共86页10538第三节第三节 四格表资料的四格表资料的Fisher确切概率法确切概率法 现在学习的是第38页,共86页10539条件:条件:理论依据:理论依据:超几何分布超几何分布 (非(非 2检验检验 的范畴)的范畴)现在学习
22、的是第39页,共86页10540例例4 4 某医师为研究乙肝免疫球蛋白预防胎儿某医师为研究乙肝免疫球蛋白预防胎儿宫内感染宫内感染HBVHBV的效果,将的效果,将3333例例HBsAgHBsAg阳性孕阳性孕妇随机分为预防注射组和非预防组,结果见表妇随机分为预防注射组和非预防组,结果见表7-47-4。问两组新生儿的。问两组新生儿的HBVHBV总体感染率有无差总体感染率有无差别?别?现在学习的是第40页,共86页10541表表7-4 两组新生儿两组新生儿HBV感染率的比较感染率的比较 现在学习的是第41页,共86页42基本思想基本思想 在四格表周边合计数固定不变的条件下,在四格表周边合计数固定不变的
23、条件下,计算表内计算表内4 4个实际频数变动时的各种组合之概个实际频数变动时的各种组合之概率率Pi;再按检验假设用单侧或双侧的累计概率;再按检验假设用单侧或双侧的累计概率P,依据所取的检验水准,依据所取的检验水准做出推断。做出推断。现在学习的是第42页,共86页43 1 1各各组组合合概概率率Pi的的计计算算 在在四四格格表表周周边边合合计计数数不不变变的的条条件件下下,表表内内4 4个个实实际际频频数数 a,b,c,d 变变动动的的组组合合数数共共有有“周周边边合合计计中中最最小小数数+1+1”个个。如如例例7-47-4,表表内内4 4个个实实际际频频数数变变动动的的组组合合数数共共有有9+
24、1=109+1=10个个,依次为:依次为:现在学习的是第43页,共86页44各组合的概率各组合的概率P Pi i服从超几何分布,其和为服从超几何分布,其和为1 1。计算公式为计算公式为现在学习的是第44页,共86页45 2 2累计概率的计算累计概率的计算(单、双侧单、双侧检验不同检验不同)现在学习的是第45页,共86页46现在学习的是第46页,共86页47现在学习的是第47页,共86页48检验步骤检验步骤现在学习的是第48页,共86页49现在学习的是第49页,共86页50表表5 例例4的的 Fisher确切概率法计算表确切概率法计算表 现在学习的是第50页,共86页51例例5 5 某某单单位位
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 第七 章卡方 检验 正式 优秀 PPT
限制150内