卡方检验正式PPT讲稿.ppt
《卡方检验正式PPT讲稿.ppt》由会员分享,可在线阅读,更多相关《卡方检验正式PPT讲稿.ppt(86页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、卡方检验正式第1页,共86页,编辑于2022年,星期五2讲课内容:讲课内容:1.概述概述基本思想基本思想2.22表卡方检验表卡方检验3.配对四格表卡方检验配对四格表卡方检验4.Fisher确切概率检验确切概率检验5.RC表卡方检验表卡方检验6.多个样本率的多重比较多个样本率的多重比较7.有序分组资料的线性趋势检验有序分组资料的线性趋势检验 第2页,共86页,编辑于2022年,星期五3概念回顾概念回顾p在总体率为在总体率为的二项分布总体中做的二项分布总体中做n1和和n2抽样抽样,样样本率本率p1和和p2与与的差别的差别,称为称为率抽样误差率抽样误差。p在总体率为在总体率为1和和2的不同总体中抽样
2、,得的不同总体中抽样,得p1和和p2,在,在n5,可通过率的,可通过率的u检验推断是否检验推断是否1=2。p二项分布的两个样本率的检验同样可用二项分布的两个样本率的检验同样可用2检验检验。第3页,共86页,编辑于2022年,星期五4 目的:目的:推断两个总体率或构成比之间有无差别推断两个总体率或构成比之间有无差别 多个总体率或构成比之间有无差别多个总体率或构成比之间有无差别 多个样本率的多重比较多个样本率的多重比较 两个分类变量之间有无关联性两个分类变量之间有无关联性 频数分布拟合优度的检验。频数分布拟合优度的检验。检验统计量:检验统计量:2 应用:应用:计数资料计数资料第4页,共86页,编辑
3、于2022年,星期五5基本概念基本概念例例1 某院比较异梨醇(试验组)和氢氯塞嗪(对某院比较异梨醇(试验组)和氢氯塞嗪(对照组)降低颅内压的疗效,将照组)降低颅内压的疗效,将200名患者随机分名患者随机分为两组,试验组为两组,试验组104例中有效的例中有效的99例例,对照组对照组96例例中有效的中有效的78例例,问两种药物对降低颅内压疗效有无问两种药物对降低颅内压疗效有无差别?差别?第5页,共86页,编辑于2022年,星期五6表表 200名颅内高压患者治疗情况名颅内高压患者治疗情况编号编号年龄年龄性别性别治疗组治疗组 舒张压舒张压体温体温疗效疗效137男A11.2737.5有效245女B12.
4、5337.0有效343男A10.9336.5有效459女B14.6737.8无效20054男B16.8037.6无效如何整理此类资料?如何整理此类资料?如何分析此类资料?如何分析此类资料?第6页,共86页,编辑于2022年,星期五7四格表(四格表(fourfold table)资料的基本形式)资料的基本形式 实际频数实际频数(actual frequency)是指各分类实际是指各分类实际发生或未发生计数值,记为发生或未发生计数值,记为A。a=99b=5104c=75d=219617426200单元格单元格第7页,共86页,编辑于2022年,星期五8理论频数理论频数(theoretical fr
5、equency)是指按某是指按某H0假设计算各分类理论上的发生或未发生计假设计算各分类理论上的发生或未发生计数值,记为数值,记为T。式中,TRC 为第R 行C 列的理论频数 nR 为相应的行合计 nC 为相应的列合计疗法疗法有效人数有效人数无效人数无效人数合计合计有效率有效率试验组试验组99(99(90.4890.48)5(5(13.5213.52)10410495.295.2对照组对照组75(75(83.5283.52)21(21(12.4812.48)969678.178.1合计合计174174262620020087.087.0第8页,共86页,编辑于2022年,星期五9残差残差设设A代
6、表某个类别的观察频数,代表某个类别的观察频数,T代表基于代表基于H0计算出的期望频数,计算出的期望频数,A与与T之差之差(A-T)被称为被称为残差残差残差可以表示某一个类别观察值和理论值的偏残差可以表示某一个类别观察值和理论值的偏离程度,但残差有正有负,相加后会彼此抵消,离程度,但残差有正有负,相加后会彼此抵消,总和仍然为总和仍然为0。为此可以将残差平方后求和,以。为此可以将残差平方后求和,以表示样本总的偏离无效假设的程度表示样本总的偏离无效假设的程度第9页,共86页,编辑于2022年,星期五10Pearson 2检验的基本公式检验的基本公式p残差大小是一个相对的概念,残差大小是一个相对的概念
7、,相对于期望频数为相对于期望频数为10时,时,20的的残差非常大;可相对于期望频残差非常大;可相对于期望频数为数为1000时时20就很小了。因就很小了。因此又将残差平方除以期望频此又将残差平方除以期望频数再求和,以标准化观察频数再求和,以标准化观察频数与期望频数的差别。数与期望频数的差别。p卡方统计量,卡方统计量,1900年由英国统年由英国统计学家计学家K.Pearson首次提出。首次提出。Karl Pearson(1857 1936)第10页,共86页,编辑于2022年,星期五11p从卡方的计算公式可见,当观察频数与期望频从卡方的计算公式可见,当观察频数与期望频数数完全一致完全一致时,时,卡
8、方值为卡方值为0;p观察频数与期望频数越接近,两者之间的观察频数与期望频数越接近,两者之间的差差异越小异越小,卡方值越小卡方值越小;p反之,观察频数与期望频数差别越大,两者之反之,观察频数与期望频数差别越大,两者之间的间的差异越大差异越大,卡方值越大卡方值越大。p当然,卡方值的大小也当然,卡方值的大小也和自由度有关和自由度有关p检验的自由度取决于可以检验的自由度取决于可以自由取值的格子数目自由取值的格子数目,而不是样本含量而不是样本含量n。p理论上,在理论上,在n40时下式值与时下式值与2分布近似,在分布近似,在理论数理论数5,近似程度较好。,近似程度较好。第11页,共86页,编辑于2022年
9、,星期五12l连续型分布:正态分布(连续型分布:正态分布(Normal distribution),学生氏),学生氏t分布分布(Students t-distribution),F分布分布(F distribution)l另一个同样重要的分布另一个同样重要的分布2卡方分布卡方分布(Chi-squared distribution)。l此分布在此分布在1875年,首先由年,首先由F.Helmet所提出,而且所提出,而且是由正态分布演变而来的,即标准正态分布是由正态分布演变而来的,即标准正态分布Z值之平方而得值之平方而得2分布分布第12页,共86页,编辑于2022年,星期五13设设Xi为来自正态总
10、体的连续性变量。为来自正态总体的连续性变量。称为自由度称为自由度df=n的卡方值。的卡方值。显然,卡方分布具有可加性。显然,卡方分布具有可加性。第13页,共86页,编辑于2022年,星期五143.847.8112.59P P0.050.05的临界值的临界值2分布的概率密度函数曲线分布的概率密度函数曲线第14页,共86页,编辑于2022年,星期五15当当=1时时,第15页,共86页,编辑于2022年,星期五16第二节第二节2222表卡方检验表卡方检验第16页,共86页,编辑于2022年,星期五17两组样本率比较的设计分类:两组样本率比较的设计分类:1.两组两组(独立独立)样本率的比较样本率的比较
11、 组间数据是相互独立组间数据是相互独立,非配对设计。非配对设计。22表卡方检验表卡方检验2.配对设计两组样本率的比较配对设计两组样本率的比较 组间数据是相关的,配对设计。组间数据是相关的,配对设计。配对四格表卡方检验配对四格表卡方检验第17页,共86页,编辑于2022年,星期五18两组(不配对)样本率的比较两组(不配对)样本率的比较1)四格表形式)四格表形式2)四格表不配对资料检验的专用公式)四格表不配对资料检验的专用公式二者结果等二者结果等价价各组样各组样本例数本例数是固定是固定的的组别组别阳性数阳性数阴性数阴性数合计合计率率%甲组甲组a ab ba+b=na+b=n1 1a/na/n1 1
12、乙组乙组c cd dc+d=nc+d=n2 2c/nc/n2 2合计合计a+ca+cb+db+dN N(a+c)/N(a+c)/N第18页,共86页,编辑于2022年,星期五19例例1(续)(续)第19页,共86页,编辑于2022年,星期五20H0:1=2 即即试试验验组组与与对对照照组组降降低低颅颅内内压压的的总总体体有效率相等有效率相等H1:12=0.05。以以=1查查附附表表8的的2界界值值表表得得P 40,此时有,此时有 1 T 5时,需计算时,需计算Yates连连续性校正续性校正 2值值T 1,或,或n40时,应改用时,应改用Fisher确切概率法直确切概率法直接计算概率接计算概率第
13、23页,共86页,编辑于2022年,星期五24(1)校正公式的条件:校正公式的条件:1T5,同时同时N40,用校正公式计算用校正公式计算(2)连续校正连续校正(continuity correction)公式:公式:(3)当当T1,或或N0.05。按按=0.05检检验验水水准准,不不拒拒绝绝H0,无无统统计计学学意意义义,尚尚不不能能认为两种药物治疗脑血管疾病的有效率不等。认为两种药物治疗脑血管疾病的有效率不等。第27页,共86页,编辑于2022年,星期五28卡方检验的连续性校正问题卡方检验的连续性校正问题正方观点正方观点:卡方统计量抽样分布的连续性和平滑性得到卡方统计量抽样分布的连续性和平滑
14、性得到改善,可以降低改善,可以降低I I类错误的概率;类错误的概率;校正结果更接近于校正结果更接近于FisherFisher确切概率法;确切概率法;校正是有条件的。校正是有条件的。反方观点反方观点:经连续性校正后,经连续性校正后,P P值有过分保守之嫌;值有过分保守之嫌;连续性校正卡方检验的连续性校正卡方检验的P P值与值与FisherFisher确切概确切概率法的率法的P P值没有可比性,这是因为值没有可比性,这是因为FisherFisher确切概确切概率法建立在四格表率法建立在四格表双边固定双边固定的假定下,而实际的假定下,而实际资料则是资料则是单边固定单边固定的四格表。的四格表。第28页
15、,共86页,编辑于2022年,星期五29就应用而言,无论是否经过连续性校正,若就应用而言,无论是否经过连续性校正,若两种检验的结果一致,无须在此问题上纠缠。两种检验的结果一致,无须在此问题上纠缠。但是,当两种检验结果相互矛盾时,如例但是,当两种检验结果相互矛盾时,如例2,就需要谨慎解释结果了。,就需要谨慎解释结果了。为客观起见,建议将两种结论同时报告出为客观起见,建议将两种结论同时报告出来,以便他人判断。当然,如果两种结论来,以便他人判断。当然,如果两种结论一致,如均为一致,如均为有或无统计学意义有或无统计学意义,则只报道,则只报道非连续性检验的结果即可。非连续性检验的结果即可。第29页,共8
16、6页,编辑于2022年,星期五30第二节第二节 配对设计两个样本率的配对设计两个样本率的2检验检验(McNemer检验检验)配对设计:通常为配对设计:通常为同源配对同源配对。对同一观察对。对同一观察对象分别用两种方法处理,观察其阳性与阴象分别用两种方法处理,观察其阳性与阴性结果。性结果。基本用途:常用于比较基本用途:常用于比较两种检验方法两种检验方法或或两种两种培养基培养基的阳性率是否有差别。的阳性率是否有差别。数据形式:数据形式:配对四格表形式配对四格表形式。第30页,共86页,编辑于2022年,星期五31例例3 3 某实验室采用两种方法对某实验室采用两种方法对5858名可疑红斑名可疑红斑狼
17、疮患者的血清抗体进行测定,问:两方法测狼疮患者的血清抗体进行测定,问:两方法测定结果阳性检出率是否有差别?定结果阳性检出率是否有差别?测定结果为:阳性、阴性(共测定结果为:阳性、阴性(共116116标本,标本,5858对)对)方法(方法(X X)乳胶凝集法乳胶凝集法 免疫荧光法免疫荧光法 对子例数对子例数 1111 3333 2 2 1212结结果果第31页,共86页,编辑于2022年,星期五32 上述配对设计实验中,就每个对子而言,两种上述配对设计实验中,就每个对子而言,两种处理的结果不外乎有处理的结果不外乎有四种可能四种可能:两种检测方法皆为阳性数两种检测方法皆为阳性数(a a);两种检测
18、方法皆为阴性数两种检测方法皆为阴性数(d d);免疫荧光法为阳性,乳胶凝集法为免疫荧光法为阳性,乳胶凝集法为 阴性数阴性数(b b);乳胶凝集法为阳性,免疫荧光法为乳胶凝集法为阳性,免疫荧光法为 阴性数阴性数(c c)。其中,其中,a a,d d 为两法观察结果一致的两种情况,为两法观察结果一致的两种情况,b b,c c为两法观察结果不一致的两种情况。为两法观察结果不一致的两种情况。第32页,共86页,编辑于2022年,星期五33 表表 两种方法的检测结果两种方法的检测结果 第33页,共86页,编辑于2022年,星期五34方法原理方法原理按照配对设计的思路进行分析,则首先应当求按照配对设计的思
19、路进行分析,则首先应当求出出各对的差值各对的差值,然后考察样本中差值的分布是,然后考察样本中差值的分布是否按照否按照H H0 0假设的情况假设的情况对称分布。对称分布。按此分析思路,最终可整理出如前所列的配按此分析思路,最终可整理出如前所列的配对四格表。对四格表。主对角线主对角线上两种检验方法的结论上两种检验方法的结论相同相同,对问,对问题的解答题的解答不会不会有任何贡献有任何贡献斜对角线斜对角线上两种检验方法的结论上两种检验方法的结论不相同不相同,显示显示了检验方法间的差异了检验方法间的差异第34页,共86页,编辑于2022年,星期五35配对配对2检验统计量为检验统计量为第35页,共86页,
20、编辑于2022年,星期五36H0:b=c=(12+2)/2=7(两法总体阳性率相等两法总体阳性率相等)H1:b c (两方法总体阳性率不等)(两方法总体阳性率不等)=0.05本例本例b+c=12+2=1440,用校正公式,用校正公式本例本例2=5.793.84,P0.05。在。在=0.05水准,水准,拒绝拒绝H H0 0,接受,接受HH1 1,有统计学意义。认为两方法,有统计学意义。认为两方法的检测率不同,乳胶凝集法的阳性检测率的检测率不同,乳胶凝集法的阳性检测率22.41%低于免疫检测率低于免疫检测率39.66%。第36页,共86页,编辑于2022年,星期五37注意事项注意事项McNemar
21、McNemar检验检验只会利用非主对角线单元格只会利用非主对角线单元格上的信息,上的信息,即它只关心即它只关心两者不一致两者不一致的评价情况,用于比较两的评价情况,用于比较两个评价者间存在怎样的倾向。因此,对于一致性个评价者间存在怎样的倾向。因此,对于一致性较好的大样本数据,较好的大样本数据,McNemarMcNemar检验可能会失去实检验可能会失去实用价值。用价值。例如对例如对1 1万个案例进行一致性评价,万个案例进行一致性评价,99959995个都是完个都是完全一致的,在主对角线上,另有全一致的,在主对角线上,另有5 5个分布在左下的个分布在左下的三角区,显然,此时一致性相当的好。但如果使
22、三角区,显然,此时一致性相当的好。但如果使用用McNemarMcNemar检验,此时反而会得出两种评价有差检验,此时反而会得出两种评价有差异的结论来。异的结论来。第37页,共86页,编辑于2022年,星期五10538第三节第三节 四格表资料的四格表资料的Fisher确切概率法确切概率法 第38页,共86页,编辑于2022年,星期五10539条件:条件:理论依据:理论依据:超几何分布超几何分布 (非(非 2检验检验 的范畴)的范畴)第39页,共86页,编辑于2022年,星期五10540例例4 4 某医师为研究乙肝免疫球蛋白预防胎儿某医师为研究乙肝免疫球蛋白预防胎儿宫内感染宫内感染HBVHBV的效
23、果,将的效果,将3333例例HBsAgHBsAg阳性孕阳性孕妇随机分为预防注射组和非预防组,结果见表妇随机分为预防注射组和非预防组,结果见表7-47-4。问两组新生儿的。问两组新生儿的HBVHBV总体感染率有无差总体感染率有无差别?别?第40页,共86页,编辑于2022年,星期五10541表表7-4 两组新生儿两组新生儿HBV感染率的比较感染率的比较 第41页,共86页,编辑于2022年,星期五42基本思想基本思想 在四格表周边合计数固定不变的条件下,在四格表周边合计数固定不变的条件下,计算表内计算表内4 4个实际频数变动时的各种组合之概个实际频数变动时的各种组合之概率率Pi;再按检验假设用单
24、侧或双侧的累计概率;再按检验假设用单侧或双侧的累计概率P,依据所取的检验水准,依据所取的检验水准做出推断。做出推断。第42页,共86页,编辑于2022年,星期五43 1 1各各组组合合概概率率Pi的的计计算算 在在四四格格表表周周边边合合计计数数不不变变的的条条件件下下,表表内内4 4个个实实际际频频数数 a,b,c,d 变变动动的的组组合合数数共共有有“周周边边合合计计中中最最小小数数+1+1”个个。如如例例7-47-4,表表内内4 4个个实实际际频频数数变变动动的的组组合合数数共共有有9+1=109+1=10个个,依次为:依次为:第43页,共86页,编辑于2022年,星期五44各组合的概率
25、各组合的概率P Pi i服从超几何分布,其和为服从超几何分布,其和为1 1。计算公式为计算公式为第44页,共86页,编辑于2022年,星期五45 2 2累计概率的计算累计概率的计算(单、双侧单、双侧检验不同检验不同)第45页,共86页,编辑于2022年,星期五46第46页,共86页,编辑于2022年,星期五47第47页,共86页,编辑于2022年,星期五48检验步骤检验步骤第48页,共86页,编辑于2022年,星期五49第49页,共86页,编辑于2022年,星期五50表表5 例例4的的 Fisher确切概率法计算表确切概率法计算表 第50页,共86页,编辑于2022年,星期五51例例5 5 某
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 检验 正式 PPT 讲稿
限制150内