第7章 卡方检验精选文档.ppt
第7章 卡方检验本讲稿第一页,共四十八页第一节第一节 率的抽样误差与区间估计率的抽样误差与区间估计 本讲稿第二页,共四十八页一、率的标准误一、率的标准误(standad error of proportion)与前面讨论过的样本均数与总体均与前面讨论过的样本均数与总体均数存在着抽样误差一样,样本率与总数存在着抽样误差一样,样本率与总体率同样存在着抽样误差。体率同样存在着抽样误差。表示率的抽样误差大小用表示率的抽样误差大小用率的标准误。率的标准误。本讲稿第三页,共四十八页 率的标准误率的标准误 用用“p p”表示。表示。由于实际工作中,总体率由于实际工作中,总体率往往未知,往往未知,常常用样本率常常用样本率P P来近似代替总体率来近似代替总体率,则:,则:为总体率;为总体率;为总体率;为总体率;n n n n为样本含量为样本含量为样本含量为样本含量SpSpSpSp为样本率的标准误;为样本率的标准误;为样本率的标准误;为样本率的标准误;P P P P 为样本率;为样本率;为样本率;为样本率;n n n n 为样本含量为样本含量为样本含量为样本含量本讲稿第四页,共四十八页例如:例如:抽取居民抽取居民300300人的粪便,检出蛔虫人的粪便,检出蛔虫阳性阳性6060人,求其抽样误差的大小。人,求其抽样误差的大小。=0.0231=2.31%=0.0231=2.31%本讲稿第五页,共四十八页率的标准误的应用率的标准误的应用n n 表示样本率的抽样误差大小。表示样本率的抽样误差大小。n n 估计总体率的可信区间。估计总体率的可信区间。n n 进行率的差别的假设检验进行率的差别的假设检验。本讲稿第六页,共四十八页二、总体率的置信区间估计二、总体率的置信区间估计n n正态近似法正态近似法 当当n 足够大,且足够大,且np和和n(1p)均大于均大于5时时,P 的分布接近正态分布,可用:的分布接近正态分布,可用:(Pu Sp,Pu Sp)u为概率为为概率为的的u界限值界限值u u0.050.051.961.96u u0.010.012.582.58本讲稿第七页,共四十八页n n 查表法查表法 当当n 较小时(较小时(n 50),需查附需查附表(百分率的可信区间表),得到总表(百分率的可信区间表),得到总体率的可信区间。体率的可信区间。本讲稿第八页,共四十八页第二节第二节 率的率的u u检验检验一、样本率与总体率的比较一、样本率与总体率的比较 P324/P324/例例10-710-7 u本讲稿第九页,共四十八页 二、两个样本率的比较二、两个样本率的比较 设设:两两样样本本率率分分别别为为p p1 1和和p p2 2,当当n n1 1与与n n2 2均均较较大大,且且p p1 1、1-1-p p1 1及及p p2 2、1-1-p p2 2均均 不不 太太 小小,如如n n1 1p p1 1、n n1 1(1-(1-p p1 1)及及n n2 2p p2 2、n n2 2(1-(1-p p2 2)均均大大于于5 5时时,可可采采用用正态近似法对两总体率作统计推断。正态近似法对两总体率作统计推断。P325/P325/例例10-810-8u本讲稿第十页,共四十八页u两个率之差的合并标准误两个率之差的合并标准误两个率之差的合并标准误两个率之差的合并标准误S Sp1p1p1p1p2p2p2p2合并发生率合并发生率合并发生率合并发生率P P P PC C C C 本讲稿第十一页,共四十八页 X X X X 2 2 2 2检验是现代统计学的创始人之一,英国人检验是现代统计学的创始人之一,英国人检验是现代统计学的创始人之一,英国人检验是现代统计学的创始人之一,英国人K K K K.Pearson.Pearson.Pearson.Pearson(1857-19361857-19361857-19361857-1936)于)于)于)于1900190019001900年提出的一种具年提出的一种具年提出的一种具年提出的一种具有广泛用途的统计方法。可用于两个或多个率或有广泛用途的统计方法。可用于两个或多个率或有广泛用途的统计方法。可用于两个或多个率或有广泛用途的统计方法。可用于两个或多个率或构成比间的比较、配对计数资料及两种属性或特构成比间的比较、配对计数资料及两种属性或特构成比间的比较、配对计数资料及两种属性或特构成比间的比较、配对计数资料及两种属性或特征之间是否有关系等等。征之间是否有关系等等。征之间是否有关系等等。征之间是否有关系等等。第三节第三节 卡方检验卡方检验 (chi-square test)本讲稿第十二页,共四十八页卡方检验卡方检验n n 四格表资料的卡方检验四格表资料的卡方检验n n 配对资料的卡方检验配对资料的卡方检验n n 行行列表卡方检验列表卡方检验本讲稿第十三页,共四十八页一、四格表资料的一、四格表资料的X X2 2检验检验 适用于适用于两个样本率的比较两个样本率的比较两个样本率的比较两个样本率的比较 两个样本率的比较既可以选用两个样本率的比较既可以选用两个样本率的比较既可以选用两个样本率的比较既可以选用u u 检验,也可用检验,也可用检验,也可用检验,也可用四格表的四格表的四格表的四格表的X X X X2 2 2 2检验。检验。检验。检验。基本公式法基本公式法基本公式法基本公式法 专用公式法专用公式法专用公式法专用公式法 连续性校正公式连续性校正公式连续性校正公式连续性校正公式 确切概率法(直接概率法)确切概率法(直接概率法)确切概率法(直接概率法)确切概率法(直接概率法)本讲稿第十四页,共四十八页本讲稿第十五页,共四十八页2 2分布分布(chi-square distribution)7.813.8412.59P P0.050.05的临界值的临界值本讲稿第十六页,共四十八页 例:用某种中草药预防流感,得资料如下:例:用某种中草药预防流感,得资料如下:用药组和对照组流感发病情况用药组和对照组流感发病情况 组别组别 观察人数观察人数 发病人数发病人数 发病率(发病率(%)用药组用药组 100 14 14 对照组对照组 120 30 25 (一)基本公式法(一)基本公式法本讲稿第十七页,共四十八页列卡方计算表列卡方计算表 用药组和对照组流感发病率比较用药组和对照组流感发病率比较 组别组别组别组别 发病人数发病人数发病人数发病人数 未发病人数未发病人数未发病人数未发病人数 合计合计合计合计 发病率发病率发病率发病率(%)用药组用药组用药组用药组 1414(2020)8686(8080)100 14 100 14对照组对照组对照组对照组 3030(2424)9090(9696)120 25 120 25 合合合合 计计计计 44 176 220 44 176 220 本讲稿第十八页,共四十八页表中:表中:表中:表中:14 8614 8614 8614 86 30 90 30 90 30 90 30 90 是整个表的基本数字。是整个表的基本数字。是整个表的基本数字。是整个表的基本数字。19 19 19 19世纪末世纪末世纪末世纪末Pearson Pearson Pearson Pearson 提出卡方检验统计量提出卡方检验统计量提出卡方检验统计量提出卡方检验统计量X X X X2 2 2 2值值值值的基本公式(也称为的基本公式(也称为的基本公式(也称为的基本公式(也称为Pearson Pearson Pearson Pearson X X X X2 2 2 2值)值)值)值)A A A A为实际数为实际数为实际数为实际数 T T T T为理论数为理论数为理论数为理论数 X X X X2 2 2 2值是一个反映假设的理论数值是一个反映假设的理论数值是一个反映假设的理论数值是一个反映假设的理论数(T T T T)和观察和观察和观察和观察的实际数的实际数的实际数的实际数(A A A A)符合程度的指标。符合程度的指标。符合程度的指标。符合程度的指标。本讲稿第十九页,共四十八页卡方检验的基本原理卡方检验的基本原理 若若检检验验假假设设H H0 0:1 1=2 2成成立立,四四个个格格子子的的实实际际频频数数A A 与与理理论论频频数数T T 相相差差不不应应该该很很大大,即即统统计量计量 X X2 2 不应该很大。不应该很大。如如果果A A和和T T差差距距大大,X X2 2值值就就会会很很大大,即即相相对对应应的的P P 值值很很小小,若若 ,则则反反过过来来推推断断A A与与T T差差距距,超超出出了了抽抽样样误误差差允允许许的的范范围围,从从而而怀怀疑疑 H H0 0 的的正正确确性性,继继而而拒拒绝绝 H H0 0,接接受受其其对对立假设立假设H H1 1,即即1 12 2。本讲稿第二十页,共四十八页 在一定条件下,在一定条件下,在一定条件下,在一定条件下,X X X X2 2 2 2值分布是有规律的,值分布是有规律的,值分布是有规律的,值分布是有规律的,X X X X2 2 2 2值的变化是值的变化是值的变化是值的变化是随着自由度的变化而变化。随着自由度的变化而变化。随着自由度的变化而变化。随着自由度的变化而变化。=(行数(行数(行数(行数1 1)(列数)(列数)(列数)(列数1 1)本讲稿第二十一页,共四十八页四格表卡方检验基本步骤四格表卡方检验基本步骤n n 建立检验假设:建立检验假设:H H0 0 ,H H1 1n n 确定显著性水准:确定显著性水准:=0.05=0.05n n 计算各格子的理论数计算各格子的理论数 T Tn n 计算统计量计算统计量(X X2 2 值值)n n 确定概率确定概率 P Pn n 统计推断结论统计推断结论本讲稿第二十二页,共四十八页式中:式中:式中:式中:T T T TRCRCRCRCR R R R行行行行C C C C列格子的理论数列格子的理论数列格子的理论数列格子的理论数n n n nR R R R和和和和n n n nC C C C表示第表示第表示第表示第R R R R行的合计数和行的合计数和行的合计数和行的合计数和C C C C列的合计数列的合计数列的合计数列的合计数n n n n 为总例数为总例数为总例数为总例数本讲稿第二十三页,共四十八页 判断标准:判断标准:n n X X X X2 2 2 2 X X X X2 2 2 20.05(v)0.05(v)0.05(v)0.05(v),P P P P0.050.050.050.05n n X X X X2 2 2 20.01(v)0.01(v)0.01(v)0.01(v)X X X X2 2 2 2 X X X X2 2 2 20.05(v)0.05(v)0.05(v)0.05(v),0.010.010.010.01 P P P P0.050.050.050.05n n X X X X2 2 2 2 X X X X2 2 2 20.01(v)0.01(v)0.01(v)0.01(v),P P P P0.010.010.010.01本讲稿第二十四页,共四十八页基本公式法:基本公式法:式中,式中,A A为实际频数(为实际频数(actual frequencyactual frequency)T T为理论频数(为理论频数(theoretical frequencytheoretical frequency)本讲稿第二十五页,共四十八页 用药组和对照组流感发病率比较用药组和对照组流感发病率比较 组别组别组别组别 发病人数发病人数发病人数发病人数 未发病人数未发病人数未发病人数未发病人数 合计合计合计合计 发病率发病率发病率发病率(%)用药组用药组用药组用药组 1414(2020)8686(8080)100 14 100 14对照组对照组对照组对照组 3030(2424)9090(9696)120 25 120 25 合合合合 计计计计 44 176 220 44 176 220 本讲稿第二十六页,共四十八页1 1 1 1、建立假设:、建立假设:、建立假设:、建立假设:H H H H0 0 0 0:1 1=2 2 H H H H1 1 1 1:1 1 2 22 2 2 2、确定检验水准:、确定检验水准:、确定检验水准:、确定检验水准:=0.05=0.05=0.05=0.053 3 3 3、计算各格子理论数、计算各格子理论数、计算各格子理论数、计算各格子理论数 T T T T T T T T11111111=10044=10044=10044=10044220=20220=20220=20220=20;T T T T21212121=12044=12044=12044=12044220=24220=24220=24220=244 4 4 4、计算统计量、计算统计量、计算统计量、计算统计量X X X X2 2 2 2值:值:值:值:X X X X2 2 2 2=(1414141420202020)2 2 2 220202020(86 86 86 86 80808080)2 2 2 280808080 (30(30(30(30 24 24 24 24)2 2 2 224242424(90 90 90 90 96 96 96 96)2 2 2 296 96 96 96 =4.134.134.134.13本讲稿第二十七页,共四十八页5 5、确定、确定P P值值 自由度自由度自由度自由度v v =(=(行数行数行数行数1)(1)(列数列数列数列数1)=11)=1 X X2 20.05(1)0.05(1)=3.84;X=3.84;X2 20.01(v)0.01(v)=6.63=6.63 本例本例本例本例:X:X:X:X2 2 2 2=4.13 =4.13 =4.13 =4.13 X X2 20.01(1)0.01(1)X X2 2 X X2 20.05(v),0.05(v),0.010.010.010.01 P P P P0.050.056 6、统计推断结论:、统计推断结论:、统计推断结论:、统计推断结论:P P P P0.050.05,差异有统计学意义,差异有统计学意义,差异有统计学意义,差异有统计学意义 在在在在=0.05=0.05=0.05=0.05水准上水准上水准上水准上,拒绝拒绝拒绝拒绝H H0 0,接受接受接受接受H H1 1,认为用药组认为用药组认为用药组认为用药组流感发病率低于对照组。流感发病率低于对照组。流感发病率低于对照组。流感发病率低于对照组。本讲稿第二十八页,共四十八页(二)(二)专用公式法专用公式法本讲稿第二十九页,共四十八页前例:前例:前例:前例:用药组和对照组流感发病率比较用药组和对照组流感发病率比较用药组和对照组流感发病率比较用药组和对照组流感发病率比较组别组别组别组别 发病人数发病人数发病人数发病人数 未发病人数未发病人数未发病人数未发病人数 合计合计合计合计 发病率发病率发病率发病率(%)用药组用药组用药组用药组 14 14 14 14(a a a a)86868686(b b b b)100 100 100 100 a+ba+ba+ba+b 14 14 14 14对照组对照组对照组对照组 30 30 30 30(c c c c)90909090(d d d d)120 120 120 120 c+dc+dc+dc+d 25 25 25 25 合合合合 计计计计 44 44 44 44 a+ca+ca+ca+c 176 176 176 176 b+db+db+db+d 220 220 220 220 n n n n 本讲稿第三十页,共四十八页检验步骤同前检验步骤同前 X X 2 2=4.134.13 P325/P325/例例10-910-9(1490(149086308630)2 22202201001204417610012044176本讲稿第三十一页,共四十八页(三三)四格表资料的连续性校正公式四格表资料的连续性校正公式适用条件:适用条件:n40,1T5P327/例10-10本讲稿第三十二页,共四十八页本讲稿第三十三页,共四十八页(四)四格表的确切概率法(四)四格表的确切概率法 在四格表的在四格表的在四格表的在四格表的X X X X2 2 2 2检验中,检验中,检验中,检验中,若遇到若遇到若遇到若遇到总例数总例数总例数总例数n n n n40404040,或有理论数,或有理论数,或有理论数,或有理论数T T T T1 1 1 1,即使采用校正公式计算的即使采用校正公式计算的即使采用校正公式计算的即使采用校正公式计算的X X X X2 2 2 2值也会有偏差。值也会有偏差。值也会有偏差。值也会有偏差。式中:式中:式中:式中:“!”表示阶乘表示阶乘表示阶乘表示阶乘 如:如:如:如:4 4!=4321=24=4321=24 规定:规定:规定:规定:0 0!=1=1(ab)!(cd)!(ac)!(bd)!a!b!c!d!n!P=P=本讲稿第三十四页,共四十八页四格表资料检验公式选择条件:四格表资料检验公式选择条件:n n n n4040,T T5 5,专用公式或基本公式专用公式或基本公式n nn n4040,1 1T T5 5,连续性校正公式连续性校正公式n nn n40 40,或,或T T1 1,确切概率法直接计算概率确切概率法直接计算概率 (Fisher确切概率确切概率)注意:注意:X X2 2 连续性校正仅用于连续性校正仅用于连续性校正仅用于连续性校正仅用于 的四格表的四格表的四格表的四格表资料,当资料,当资料,当资料,当 时,一般不作校正。时,一般不作校正。时,一般不作校正。时,一般不作校正。本讲稿第三十五页,共四十八页二、配对资料的卡方检验二、配对资料的卡方检验n nP327/P327/P327/P327/例例例例10-1110-1110-1110-11 配对资料数据表配对资料数据表配对资料数据表配对资料数据表 乙种属性乙种属性乙种属性乙种属性 a b a+b c d c+d 合合合合 计计计计 a ac bc bd nd n甲种属性甲种属性甲种属性甲种属性合计合计合计合计本讲稿第三十六页,共四十八页式中,式中,式中,式中,a a a a、d d d d 为两法观察结果一致的两种情况,为两法观察结果一致的两种情况,为两法观察结果一致的两种情况,为两法观察结果一致的两种情况,b b b b、c c c c为两法观察结果不一致的两种情况。为两法观察结果不一致的两种情况。为两法观察结果不一致的两种情况。为两法观察结果不一致的两种情况。检验统计量检验统计量检验统计量检验统计量X X X X2 2 2 2为为为为:本讲稿第三十七页,共四十八页本讲稿第三十八页,共四十八页n n应该注意应该注意:配对设计的资料只能用配对配对设计的资料只能用配对配对设计的资料只能用配对配对设计的资料只能用配对X X X X2 2 2 2检验检验检验检验,而而而而不能随意转化不能随意转化不能随意转化不能随意转化为两组独立样本的为两组独立样本的为两组独立样本的为两组独立样本的X X X X2 2 2 2检验检验检验检验(四格表资料的四格表资料的四格表资料的四格表资料的X X X X2 2 2 2检验检验检验检验),这种做法是错误的。,这种做法是错误的。,这种做法是错误的。,这种做法是错误的。本讲稿第三十九页,共四十八页三、行三、行列表资料的卡方检验列表资料的卡方检验 多个样本率多个样本率多个样本率多个样本率比较时,有比较时,有比较时,有比较时,有R R R R行行行行2 2 2 2列,称为列,称为列,称为列,称为R R R R2222表;表;表;表;两个样本的构成比两个样本的构成比两个样本的构成比两个样本的构成比比较时,有比较时,有比较时,有比较时,有2 2 2 2行行行行C C C C列,称列,称列,称列,称2222C C C C表表表表 多个样本的构成比多个样本的构成比多个样本的构成比多个样本的构成比比较,以及比较,以及比较,以及比较,以及双向无序分类资料双向无序分类资料双向无序分类资料双向无序分类资料 关联性检验时,有关联性检验时,有关联性检验时,有关联性检验时,有R R R R行行行行C C C C列,称为列,称为列,称为列,称为R R R R C C C C表。表。表。表。本讲稿第四十页,共四十八页 式中:式中:式中:式中:A-A-某格子的实际数某格子的实际数某格子的实际数某格子的实际数 n nR R、n nc c-与与与与A A同行同行同行同行oror同列的合计数同列的合计数同列的合计数同列的合计数 n-n-总例数总例数总例数总例数本讲稿第四十一页,共四十八页n nP328/P328/例例10-12 10-12 (32(32表表)n nP329/P329/例例10-13 10-13 (24(24表表)本讲稿第四十二页,共四十八页行行列表资料卡方检验的注意事项列表资料卡方检验的注意事项1 1 1 1、RCRCRCRC表表表表X X X X2 2 2 2检验中,不需要进行连续性校正,检验中,不需要进行连续性校正,检验中,不需要进行连续性校正,检验中,不需要进行连续性校正,但但但但如果有如果有如果有如果有1/51/51/51/5以上格子的以上格子的以上格子的以上格子的T T T T5 5 5 5,或有一格,或有一格,或有一格,或有一格T T T T1 1 1 1,应设法增加理论数,应设法增加理论数,应设法增加理论数,应设法增加理论数,否则可能产生偏性。处理方法否则可能产生偏性。处理方法否则可能产生偏性。处理方法否则可能产生偏性。处理方法有三种:有三种:有三种:有三种:n 增大样本含量增大样本含量增大样本含量增大样本含量n 合并(并组需注意合理性)合并(并组需注意合理性)合并(并组需注意合理性)合并(并组需注意合理性)n 根据专业知识删去其所在行或所在列根据专业知识删去其所在行或所在列根据专业知识删去其所在行或所在列根据专业知识删去其所在行或所在列本讲稿第四十三页,共四十八页2、RC表表X2检验,得到检验,得到P0.05有统计学有统计学意义,并不等于任意两组之间都有统计意义,并不等于任意两组之间都有统计学意义,是学意义,是指几个率的总差异来讲的。指几个率的总差异来讲的。不能拒此作出任何两组间都有统计学意不能拒此作出任何两组间都有统计学意义的结论。义的结论。本讲稿第四十四页,共四十八页3、有些行有些行列表资料不能用卡方检验,列表资料不能用卡方检验,其特点是其特点是双向均为按等级分类,且分双向均为按等级分类,且分类属性相同,需要用其他的检验方法,类属性相同,需要用其他的检验方法,而不能用而不能用X2检验。检验。本讲稿第四十五页,共四十八页 甲乙两医生独立检查甲乙两医生独立检查甲乙两医生独立检查甲乙两医生独立检查100100例视网膜病病例比较例视网膜病病例比较例视网膜病病例比较例视网膜病病例比较 乙医生乙医生乙医生乙医生 无无无无 轻度轻度轻度轻度 中度中度中度中度 重度重度重度重度 无无无无 24 5 2 0 3124 5 2 0 31 轻度轻度轻度轻度 4 18 2 1 254 18 2 1 25 中度中度中度中度 1 3 18 2 241 3 18 2 24 重度重度重度重度 1 2 5 12 201 2 5 12 20 合计合计合计合计 30 28 27 15 10030 28 27 15 100甲医生甲医生甲医生甲医生合计合计合计合计本讲稿第四十六页,共四十八页n n单向有序的行单向有序的行列表资料,不宜用列表资料,不宜用X X2 2检验比较两组效应,若作检验比较两组效应,若作X X2 2检验只能检验只能说明各处理组的效应在构成比上有无说明各处理组的效应在构成比上有无差异。差异。P329/P329/表表10-1210-12本讲稿第四十七页,共四十八页复习要点复习要点n n样本率的标准误意义是什么?其应用样本率的标准误意义是什么?其应用有哪些?有哪些?n n如何估计总体率的置信区间?如何估计总体率的置信区间?n n简述简述X2 2检验的用途。检验的用途。n n掌握各类卡方检验的计算过程及校正掌握各类卡方检验的计算过程及校正条件。条件。本讲稿第四十八页,共四十八页