第八章卡方检验PPT讲稿.ppt
第八章卡方检验第1页,共53页,编辑于2022年,星期三本章主要内容:本章主要内容:第一节第一节 四格表四格表 检验检验第二节第二节 配对四格表配对四格表 检验检验第三节第三节 行行列表列表 检验检验第2页,共53页,编辑于2022年,星期三分布分布 是一种连续型分布,可用于检验是一种连续型分布,可用于检验资料的实际频数和按检验假设计算的资料的实际频数和按检验假设计算的理论频数是否相符等问题。早在理论频数是否相符等问题。早在1875年,年,F.Helmet即得出来自正态总体即得出来自正态总体的样本方差的分布服从卡方分布。的样本方差的分布服从卡方分布。1900年,年,K.Pearson也独立地从检验分也独立地从检验分布的拟合优度发现这一相同的卡方分布。布的拟合优度发现这一相同的卡方分布。Karl Pearson(1857-1936)第3页,共53页,编辑于2022年,星期三个相互独立的标准正态变量个相互独立的标准正态变量ui(i=1,2,)的平方和称的平方和称为为 变量,即变量,即它的分布即为卡方分布,其自由度为它的分布即为卡方分布,其自由度为。第4页,共53页,编辑于2022年,星期三卡方分布卡方分布第5页,共53页,编辑于2022年,星期三 2检验读作卡方检验,是一种用途广泛的统计方法,主要检验读作卡方检验,是一种用途广泛的统计方法,主要用于:用于:检验检验两个(或多个)总体率两个(或多个)总体率或或构成比构成比之间是否有统计学意之间是否有统计学意义,从而推断两个(或多个)总体率或构成比是否相同。义,从而推断两个(或多个)总体率或构成比是否相同。2检验的用途检验的用途第6页,共53页,编辑于2022年,星期三 检验实际频数检验实际频数(A)和理论频数和理论频数(T)的差别是否由抽样的差别是否由抽样误差所引起的,误差所引起的,也就是由样本率(或样本构成比)来也就是由样本率(或样本构成比)来推断总体率(或总体构成比)。推断总体率(或总体构成比)。2检验的基本思想检验的基本思想第7页,共53页,编辑于2022年,星期三基本计算公式基本计算公式式式 中中,A为为 实实 际际 频频 数数(actual frequency),T为为 理理 论论 频频 数数(theoretical frequency)back第8页,共53页,编辑于2022年,星期三例例8.1 为了解某中药治疗原发性高血压的疗效,将为了解某中药治疗原发性高血压的疗效,将70名高血压患者随机分为两组,试验组用该药加辅助名高血压患者随机分为两组,试验组用该药加辅助治疗,对照组用安慰剂加辅助治疗,观察结果见表治疗,对照组用安慰剂加辅助治疗,观察结果见表8-1。问:该药治疗原发性问:该药治疗原发性高血压是否有效?高血压是否有效?第9页,共53页,编辑于2022年,星期三第10页,共53页,编辑于2022年,星期三1、建立检验假设并确定检验水准、建立检验假设并确定检验水准H0:1=2,即试验组与对照组的总体有效率相等,即试验组与对照组的总体有效率相等H1:12,即试验组与对照组的总体有效率不等,即试验组与对照组的总体有效率不等=0.052、计算检验统计量计算检验统计量第11页,共53页,编辑于2022年,星期三用基本公式计算卡方值:用基本公式计算卡方值:第12页,共53页,编辑于2022年,星期三四格表卡方检验的专用公式:四格表卡方检验的专用公式:第13页,共53页,编辑于2022年,星期三3、查界值表,确定、查界值表,确定P值,做出推断结论值,做出推断结论自自由由度度=1,20.05(1)=3.84,2 20.05(1),所所以以 ,P0.05,在在=0.05的的检检验验水水准准下下,拒拒绝绝H0,差差异异有有统统计计学学意意义义,也也就是就是试验组与对照组的总体有效率不等试验组与对照组的总体有效率不等.第14页,共53页,编辑于2022年,星期三推倒过程推倒过程第15页,共53页,编辑于2022年,星期三 卡方分布是连续型的分布,卡方界值是由其分布计算而卡方分布是连续型的分布,卡方界值是由其分布计算而来的。而卡方检验用于分类资料比较时,原始数据是不连续来的。而卡方检验用于分类资料比较时,原始数据是不连续的,用卡方界值表确定的,用卡方界值表确定P值时可能存在误差。四格表资料中,值时可能存在误差。四格表资料中,当当n40,有理论频数有理论频数1T5时,因为理论值太小,会导致时,因为理论值太小,会导致2值变大,易出现假阳性结论。值变大,易出现假阳性结论。四格表四格表2值的连续性校正值的连续性校正第16页,共53页,编辑于2022年,星期三连续性校正公式连续性校正公式第17页,共53页,编辑于2022年,星期三四格表资料四格表资料2 2公式的正确选择公式的正确选择 1)当)当n40,所有所有T 5时,用专用公式或普通公式;时,用专用公式或普通公式;2)当)当n40,但有理论频数但有理论频数1T5时,用校正公式;时,用校正公式;3)n40或有或有T1,或,或P时,用确切概率法。时,用确切概率法。连续性校正仅用于连续性校正仅用于 的的四格表资料,当四格表资料,当 时,一般不时,一般不作校正。作校正。第18页,共53页,编辑于2022年,星期三例例8.2 某医学院抽样调查大学四年级和五年级学生近视眼患病某医学院抽样调查大学四年级和五年级学生近视眼患病情况,四年级学生的近视率为情况,四年级学生的近视率为7.14%,五年级学生的近视率为,五年级学生的近视率为35.71%,调查结果见下表,试问该大学四年级与五年级学生的,调查结果见下表,试问该大学四年级与五年级学生的近视眼患病率是否一样?近视眼患病率是否一样?年级年级近视近视非近视非近视合计合计近视率(近视率(%)四年级四年级2 26287.14五年级五年级5 91435.71合计合计7354216.67表表8-2 两个年级大学生的近视眼患病率比较两个年级大学生的近视眼患病率比较第19页,共53页,编辑于2022年,星期三1、建立检验假设并确定检验水准、建立检验假设并确定检验水准H0:1=2,即四年级与五年级学生的近视眼患病率相同,即四年级与五年级学生的近视眼患病率相同H1:12,即四年级与五年级学生的近视眼患病率不同,即四年级与五年级学生的近视眼患病率不同=0.052、计算检验统计量计算检验统计量第20页,共53页,编辑于2022年,星期三3、查界值表,确定、查界值表,确定P值,做出推断结论值,做出推断结论自自由由度度=1,20.05(1)=3.84,20.05,在在=0.05的的检检验验水水准准下下,不不拒拒绝绝H0,说说明明四四年年级级与与五五年年级级学学生生近近视视眼眼患患病病率率差差别别没没有有统统计计学学意意义义,可可认认为为尚尚未未发发现现四四年年级级与五年级学生近视眼患病率有显著性差异。与五年级学生近视眼患病率有显著性差异。第21页,共53页,编辑于2022年,星期三若不采用校正公式:若不采用校正公式:在在=0.05水准下,水准下,2 2 0.05(1),则则P0.05。back第22页,共53页,编辑于2022年,星期三甲种属性甲种属性乙种属性乙种属性+-合计合计+aba+c-cdc+d合计合计a+cb+dn=a+b+c+d注意:注意:a、b、c、d代表对子数!代表对子数!表表8-16 配对四格表基本结构的配对四格表基本结构的第23页,共53页,编辑于2022年,星期三甲种属性甲种属性乙种属性乙种属性+a+-b-+c-d甲属性的阳性率:甲属性的阳性率:(a+b)/n乙属性的阳性率乙属性的阳性率:(a+c)/n若若H0成立,则有成立,则有(a+b)/n-(a+c)/n=0,即即(b-c)/n=0可见,两个变量阳性率的比较只和可见,两个变量阳性率的比较只和b、c有关,而与有关,而与a、d无关。无关。若若H0成立,两种属性不一致的两个格子理论频数都应该是成立,两种属性不一致的两个格子理论频数都应该是(b+c)/2第24页,共53页,编辑于2022年,星期三配对检验公式推导:配对检验公式推导:第25页,共53页,编辑于2022年,星期三式中,式中,a,d 为两法观察结果一致的两种情况,为两法观察结果一致的两种情况,b,c为两法观察结果不一致的两种情况为两法观察结果不一致的两种情况。配对卡方检验公式使用条件:配对卡方检验公式使用条件:第26页,共53页,编辑于2022年,星期三例例8.4 现现有有198份份痰痰标标本本,每每份份标标本本分分别别用用A、B两两种种培培养养基基培培养养结结核核菌菌,结结果果如如下下表表,A培培养养基基的的阳阳性性培培养养率率为为36.36%,B培培养养基基的的阳阳性性培培养养率率为为34.34%,试试问问A、B两两种培养基的阳性培养率是否相等?种培养基的阳性培养率是否相等?B培养基培养基A培养基培养基+-合计合计+482472-20106126合计合计68130198表表8-5 两种培养基的培养结果两种培养基的培养结果第27页,共53页,编辑于2022年,星期三A 培养基培养基B培养基培养基第28页,共53页,编辑于2022年,星期三结果统计结果统计痰标本痰标本A培养基培养基B培养基培养基1+2+3+-4+5+-6+-7-+8+9-10-11+12+13+-14-痰标本痰标本A培养基培养基B培养基培养基15+16+17+-18+19+-20+-21-22+-23-24-25+26+-27+28-第29页,共53页,编辑于2022年,星期三1、建立检验假设并确定检验水平、建立检验假设并确定检验水平H0:1=2,即两种培养基的阳性培养率相等,即两种培养基的阳性培养率相等H1:12,即两种培养基的阳性培养率不相等,即两种培养基的阳性培养率不相等=0.052、计算检验统计量、计算检验统计量第30页,共53页,编辑于2022年,星期三3、查界值表,确定、查界值表,确定P值,做出推断结论值,做出推断结论查查2界界值值表表,=1,20.05(1)=3.84,2 0.05,在在=0.05的的检检验验水水准准下下,不不拒拒绝绝H0,尚尚不不能能认认为为两两种种培培养养基基的培养率不同。的培养率不同。back第31页,共53页,编辑于2022年,星期三一、行一、行列表列表2检验检验行或列超过两组时称为行行或列超过两组时称为行列表,或称列表,或称RC表。表。第32页,共53页,编辑于2022年,星期三例例8.5 某医院用某医院用3种方案治疗急性无黄疸型病毒肝种方案治疗急性无黄疸型病毒肝炎炎254例,观察结果如下表,试比较例,观察结果如下表,试比较3种疗法的有效种疗法的有效率是否一样。率是否一样。组别组别有效有效无效无效合计合计有效率有效率(%)西药组西药组514910051.00中药组中药组35458043.75中西医结合组中西医结合组 59157479.73合计合计14510925457.09表表8-3 3种方案治疗肝炎的疗效种方案治疗肝炎的疗效第33页,共53页,编辑于2022年,星期三1.建立检验假设并确定检验水准建立检验假设并确定检验水准H0:三种治疗方案的有效率相同三种治疗方案的有效率相同H1:三种治疗方案的有效率不全相同三种治疗方案的有效率不全相同=0.052.计算检验统计量计算检验统计量3.查查2界值表,确定界值表,确定P值,做出推断结论值,做出推断结论=2,20.05(2)=5.99,2 20.05(2),则则P 20.05(1),则P0.05,在=0.05的水准下,拒绝H0,认为三个不同地区的人群血型分布总体构成比有差别。第38页,共53页,编辑于2022年,星期三二、多个样本率间多重比较二、多个样本率间多重比较行行列表列表2检验的结果说明差异有统计学意义,需作两两比较检验的结果说明差异有统计学意义,需作两两比较时,先调整时,先调整值,再进行率的两两比较。值,再进行率的两两比较。检验水准检验水准=0.05,做多次比较时,按概率理论,两两比较均正确的概做多次比较时,按概率理论,两两比较均正确的概率为率为(1-0.05)(1-0.05)(1-0.05)(1-0.05),将使,将使类错误类错误扩大,因此,必扩大,因此,必须重新规定检验水准。须重新规定检验水准。1.多个实验组间的两两比较多个实验组间的两两比较 =/NN为要进行两两比较的次数,为要进行两两比较的次数,k为参加检验的组数。为参加检验的组数。第39页,共53页,编辑于2022年,星期三组别组别有效有效无效无效合计合计有效率有效率(%)西药组西药组514910051.00中药组中药组35458043.75合计合计869418047.781、建立检验假设并确定检验水准、建立检验假设并确定检验水准H0:西药与中药治疗肝炎的有效率相同;西药与中药治疗肝炎的有效率相同;H1:西药与中药治疗肝炎的有效率的有效率不同;西药与中药治疗肝炎的有效率的有效率不同;=0.05/3=0.017表表8-4 西药与中药治疗肝炎疗效的比较西药与中药治疗肝炎疗效的比较第40页,共53页,编辑于2022年,星期三3、查、查2界值表,确定界值表,确定P值,做出推断结论值,做出推断结论=1,20.017(1)=5.70,2 0.017,在在=0.017的水准下,不拒绝的水准下,不拒绝H0,故可以认为西药与中故可以认为西药与中药治疗肝炎的有效率差异没有统计学意义。药治疗肝炎的有效率差异没有统计学意义。2、计算检验统计量、计算检验统计量第41页,共53页,编辑于2022年,星期三组别组别有效有效无效无效合计合计有效率有效率(%)西药组西药组514910051.00中西医结合组中西医结合组59157479.73合计合计1106417463.22=1,20.017(1)=5.70,2 20.017(1),则则P 20.017(1),则则P 20.05(3),则则P20.05(2),则则P0.017,在在=0.017的的水水准准下下,拒拒绝绝H0,接接受受H1,故故可可以以认认为为安安慰慰剂剂与与A药药的的缓缓解解率率差差异异有有统统计计学学意意义义,A药的缓解率高于安慰剂组。药的缓解率高于安慰剂组。同理,可以进行同理,可以进行B药与安慰剂组比较,药与安慰剂组比较,C药与安慰剂组比较药与安慰剂组比较=1,20.017(1)=5.70,2 20.05(2),则则P0.017,在在=0.017的的水水准准下下,拒拒绝绝H0,接接受受H1,故故可可以以认认为为安安慰慰剂剂与与B药药的的缓缓解解率率差差异异有有统统计计学学意意义。义。第49页,共53页,编辑于2022年,星期三=1,20.017(1)=5.70,2 20.05(2),则则P0.017,在在=0.017的的水水准准下下,拒拒绝绝H0,接接受受H1,故故可可以以认认为为安安慰慰剂剂与与C药药的的缓缓解解率率差异有统计学意义。差异有统计学意义。第50页,共53页,编辑于2022年,星期三三、行三、行列表列表2检验时的注意事项检验时的注意事项1、行、行列表中各理论频数不应小于列表中各理论频数不应小于1,并且,并且1T5的格的格子数不宜超过总格子数的子数不宜超过总格子数的1/5,若发生上述情况,可采用,若发生上述情况,可采用下述方法:下述方法:(1)增大样本含量以增加理论频数。)增大样本含量以增加理论频数。(2)根据专业知识,考虑删去理论频数太小的行或列,将理)根据专业知识,考虑删去理论频数太小的行或列,将理论频数过小的格子所在的行或列与性质相近的邻行或列中的实论频数过小的格子所在的行或列与性质相近的邻行或列中的实际频数合并。际频数合并。(3)改用双向无序)改用双向无序RC 表资料的表资料的Fisher确切概率法。确切概率法。2、行、行列表列表2检验有统计学意义,并不等于任意两组之间都有检验有统计学意义,并不等于任意两组之间都有统计学意义,要继续做多个样本率的多重比较。统计学意义,要继续做多个样本率的多重比较。第51页,共53页,编辑于2022年,星期三3、有序的、有序的RC 表资料不宜用表资料不宜用2检验。检验。第52页,共53页,编辑于2022年,星期三表表8-10两种药治疗慢性气管炎的疗效两种药治疗慢性气管炎的疗效组别组别无效无效好转好转显效显效控制控制合计合计A药组药组8001920680603460B药组药组10602618114第53页,共53页,编辑于2022年,星期三