《卡方检验理论》PPT课件.ppt
第第8章章 无序分类变量资料的统计分析无序分类变量资料的统计分析第二节计数资料的统计推断第二节计数资料的统计推断1检验检验Chi-Square Test23一、一、检验的基本思想检验的基本思想 分布分布4 (1)分布是一种连续型分布:按分布的密度函数可给分布是一种连续型分布:按分布的密度函数可给出自由度出自由度=1,2,3,的一簇分布曲线的一簇分布曲线。(2)分布的一个基本性质是可加性:分布的一个基本性质是可加性:如果两个独立的如果两个独立的随机变量随机变量X1和和X2分别服从自由度分别服从自由度1和和2的分布,即的分布,即 ,那么它们的和(,那么它们的和(X1+X2)服从自由度()服从自由度(1+2)的)的 分分布,即布,即 。分布特点分布特点5 2 检验检验用途:用途:n.检检验验两两个个或或多多个个样样本本率率及及构构成成比比之之间间差差异有无统计学意义;异有无统计学意义;n.检验配对计数资料差异有无统计学意义;检验配对计数资料差异有无统计学意义;n.两属性变量间的两属性变量间的关联关联分析;分析;n.频数分布的拟和优度检验等。频数分布的拟和优度检验等。6 四格表资料的四格表资料的 检验检验7目的:目的:推断两个总体率(构成比)是推断两个总体率(构成比)是 否有差别(和否有差别(和u u检验等价)检验等价)要求:要求:两样本的两分类个体数排列成两样本的两分类个体数排列成四格表资料四格表资料8检验的基本思想检验的基本思想n案例案例8-7 n某地调查了某地调查了5050岁以上岁以上n吸烟者吸烟者200200人患支气管炎者人患支气管炎者4141人,患病率人,患病率20.5%20.5%;n不吸烟者不吸烟者162162人患慢性支气管炎人患慢性支气管炎1515人,患病率人,患病率9.3%9.3%。n根据以上资料能否说明吸烟者的支气管炎患病率高根据以上资料能否说明吸烟者的支气管炎患病率高于不吸烟者?于不吸烟者?9表表-吸烟者与不吸烟者患病率的比较吸烟者与不吸烟者患病率的比较分组分组患病人数患病人数未患病人数未患病人数 合计合计 患病率患病率(%)(%)吸烟组吸烟组 4 4 159 15920020020.520.5不吸烟组不吸烟组 15 15 147 1471621629.39.3合计合计565630630636236215.515.510 本例资料经整理成四格表形式,即本例资料经整理成四格表形式,即有两个处理组,每个处理组的例数由发生有两个处理组,每个处理组的例数由发生数和未发生数两部分组成。表内有数和未发生数两部分组成。表内有 四个基本数据,其余数据均由此四个数据四个基本数据,其余数据均由此四个数据推算出来的,故称四格表资料。推算出来的,故称四格表资料。11四格表资料的基本形式四格表资料的基本形式 12基本思想:可通过基本思想:可通过 检验的基本公检验的基本公式来理解。式来理解。式中,式中,A为实际频数(为实际频数(actual frequency),),T为理论频数(为理论频数(theoretical frequency)。)。13 理论频数理论频数 是根据检验假设是根据检验假设 ,且用合,且用合 计率来估计计率来估计 而定的。而定的。如本例,无效假设是吸烟组和不吸烟组的总体患病如本例,无效假设是吸烟组和不吸烟组的总体患病率相等,均等于合计的患病率率相等,均等于合计的患病率15.5%。那么理论上,吸烟组的那么理论上,吸烟组的例理论上患病人数应例理论上患病人数应为为20015.5%=30.94,未患病人数为未患病人数为200(15.5%)=.06;同理,不吸烟组的同理,不吸烟组的例理论上患病人数应为例理论上患病人数应为15.5%=25.06,未患病人数为,未患病人数为162(15.5%)=136.94。14理论频数由下式求得:理论频数由下式求得:式中,式中,TRC 为第为第R 行行C 列的理论频数列的理论频数 nR 为相应的行合计为相应的行合计 nC 为相应的列合计为相应的列合计15表表-6-6 吸烟者与不吸烟者患病率的比较吸烟者与不吸烟者患病率的比较分组分组患病人数患病人数未患病人数未患病人数 合计合计 患病率患病率(%)(%)吸烟组吸烟组 4 415915920020020.520.5不吸烟不吸烟组组15151471471621629.39.3合计合计565630630636236215.515.5 (30.94)(30.94)(169.06)(169.06)(25.06)(25.06)(136.94)(136.94)实际频数实际频数理论频数理论频数16 检检验验统统计计量量 值值反反映映了了实实际际频频数数与与理理论论频数的吻合程度。频数的吻合程度。若若检检验验假假设设H0:1=2成成立立,四四个个格格子子的的实实际际频频数数A 与与理理论论频频数数T 相相差差不不应应该该很很大大,即即统统计计量量 不不应应该该很很大大。如如果果 值值很很大大,即即相相对对应应的的P 值值很很小小,若若 ,则则反反过过来来推推断断A与与T相相差差太太大大,超超出出了了抽抽样样误误差差允允许许的的范范围围,从从而而怀怀疑疑H0的的正正确确性性,继继而而拒拒绝绝H0,接接受受其其对对立立假设假设H1,即,即12。17 由公式(由公式(-)还可以看出:)还可以看出:值的大小还取决于值的大小还取决于 个数的多少(严格地说是自由度个数的多少(严格地说是自由度的大小)。由于各的大小)。由于各 皆皆是是正正值值,故故自自由由度度愈愈大大,值值也也会会愈愈大大;所所以以只只有有考考虑虑了了自自由由度度的的影影响响,值值才才能能正正确确地地反反映映实实际际频频数数A和和理理论频数论频数T 的吻合程度。的吻合程度。检检验验的的自自由由度度取取决决于于可可以以自自由由取取值值的的格格子子数数目目,而而不不是是样样本本含含量量n n。四四格格表表资资料料只只有有两两行行两两列列,=1=1,即即在在周周边边合合计计数数固固定定的的情情况况下下,4 4个个基基本本数数据据当当中中只只有有一一个个可可以以自自由由取值。取值。18 2 2值值、P P P P值值和和和和统计结论统计结论 2 2值值P P值值统计结论统计结论 2 2 2 20.050.050.050.05,0.050.05 不拒不拒不拒不拒绝绝H H0 0,差异无,差异无,差异无,差异无统计统计学意学意学意学意义义 2 2 2 20.050.050.050.05,0.050.05 拒拒拒拒绝绝H H0 0,接受,接受,接受,接受H H1 1,差异有,差异有,差异有,差异有统计统计学意学意学意学意义义3.843.84 2 25.995.9919(1)建立检验假设,确定检验水准。建立检验假设,确定检验水准。H0:1=2 即吸烟组和不吸烟组慢性支气管炎即吸烟组和不吸烟组慢性支气管炎总体总体患病率相等患病率相等H1:12即吸烟组和不吸烟组慢性支气管炎即吸烟组和不吸烟组慢性支气管炎总体总体患病率不相等患病率不相等=0.05。假设检验步骤假设检验步骤20(2)求检验统计量值)求检验统计量值2122四格表资料检验的专用公式四格表资料检验的专用公式23n计计算算题题 某某中中药药研研究究所所试试用用某某种种草草药药预预防防流流感感,观观察察用用药药组组和和对对照照组组(未未用用药药组组)的的流流感感发发病病率率,其其结结果果下下表表。问问两两组流感发病率有无差别?组流感发病率有无差别?24用药组和对照组流感发病率比较用药组和对照组流感发病率比较组组 别别 观察人数观察人数 发病人数发病人数 发病率发病率(%)用药组用药组 10010014141414对照组对照组 12012030302525合合 计计 2202204444202025表表2 2 用药组和对照组流感发病率的比较用药组和对照组流感发病率的比较 组组 别别 发病人数发病人数 未发病人数未发病人数合计合计用药组用药组 1414(2020)8686(8080)100100对照组对照组 3030(2424)90 90(9696)120120合合 计计 44 44 176 17622022026两种方法计算结果两种方法计算结果27 分分布布是是一一连连续续型型分分布布,而而四四格格表表资资料料属属离离散散型型分分布布,由由此此计计算算得得的的统统计计量量 的的抽抽样样分分布布亦亦呈呈离离散散性性质质。为为改改善善 统统计计量量 分分布布的的连连续续性性,则则需行连续性校正。需行连续性校正。28四格表资料检验的校正公式四格表资料检验的校正公式 29四格表资料 检验公式选择条件:,专用公式;,专用公式;,校正公式;,校正公式;,四格表确切概率法。四格表确切概率法。30n案例案例8-8n前列腺癌患者前列腺癌患者132例中,例中,85例接受电切例接受电切术,术后有合并症者术,术后有合并症者11例;例;47例接受开例接受开放手术治疗,术后有合并症者放手术治疗,术后有合并症者2例。例。n试分析两种手术的合并症发病率有无差试分析两种手术的合并症发病率有无差别。别。31表表-7-7 治疗前列腺癌两种手术方法合并症发生治疗前列腺癌两种手术方法合并症发生率的比较率的比较手术方法手术方法 有合并症有合并症无合并症无合并症合计合计发生率发生率(%)(%)电切法电切法.开放手术开放手术.3.3合计合计1 1.(8.4)(8.4)(76.6)(76.6)(4.6)(4.6)(42.4)(42.4)实际频数实际频数理论频数理论频数32假设检验步骤假设检验步骤n1.建立检验假设,确定检验水准建立检验假设,确定检验水准nH0:1=2 即两种手术的合并症发病即两种手术的合并症发病率相等率相等nH1:12 即两种手术的合并症发病即两种手术的合并症发病率不相等率不相等n=0.05。33n2.计算检验统计量计算检验统计量34n3.确定确定P值,做出推断结论值,做出推断结论n按检验水准按检验水准0.05,不拒绝,差异没有不拒绝,差异没有统计学意义统计学意义,还不可以认为两种手术的合还不可以认为两种手术的合并症发病率不同。并症发病率不同。35计计算算题题 为为观观察察甲甲、乙乙两两药药治治疗疗胃胃溃溃疡疡的的疗疗效效,将将70名名患患者者随随机机分分为为两两组组,一一组组30人人服服用用甲甲药药,另另一一组组40人人服服用用乙乙药药。问问两两种种药药物物治治疗疗胃胃溃溃疡的治愈率有无差别?疡的治愈率有无差别?36两种药物治疗胃溃疡的结果两种药物治疗胃溃疡的结果37 本例 ,故用四格表资料 检验的校正公式38 ,查查 界值表得界值表得 。按。按 检验水准不拒绝检验水准不拒绝 ,没有统计,没有统计学意义,尚不能认为两种药物治疗胃溃疡学意义,尚不能认为两种药物治疗胃溃疡的治愈率不等。的治愈率不等。39本资料若不校正时,本资料若不校正时,结论与之相反。结论与之相反。40配对四格表资料的配对四格表资料的 检验检验41与计量资料推断两总体均数是否与计量资料推断两总体均数是否有差别有成组设计和配对设计一样,有差别有成组设计和配对设计一样,计数资料推断两个总体率(构成比)计数资料推断两个总体率(构成比)是否有差别也有成组设计和配对设计,是否有差别也有成组设计和配对设计,即即四格表资料四格表资料和和配对四格表资料配对四格表资料。42配对四格表的形式配对四格表的形式43例例8-9 有有32份份咽咽喉喉涂涂抹抹标标本本,把把每每份份标标本本分分别别接接种种在在、两两种种培培养养基基上上,观观察察两两种种培培养养基基上上白白喉喉杆杆菌菌生生长长情情况况,结结果果见见表表8-8,培培养养基基的的阳阳性性培培养养率率为为68.75,B培培养养基基的的阳阳性性培培养率为养率为43.73。问:两种培养基的阳性生长率是否相同?问:两种培养基的阳性生长率是否相同?44 表表-两种白喉培养基的培养结果比较两种白喉培养基的培养结果比较 45 上述配对设计实验中,就每个对子上述配对设计实验中,就每个对子而言,两种处理的结果不外乎有而言,两种处理的结果不外乎有四种可能四种可能:两种培养基培养皆为阳性数两种培养基培养皆为阳性数(a);两种培养基培养皆为阴性数两种培养基培养皆为阴性数(d);A培培养养基基培培养养为为阳阳性性,B培培养养基基培培养养为阴性数为阴性数(b);A培培养养基基培培养养为为阳阳性性,B培培养养基基培培养为阴性数养为阴性数(c)。46其中,其中,a,d 为两法观察结果一致的两种情况,为两法观察结果一致的两种情况,b,c为两法观察结果不一致的两种情况为两法观察结果不一致的两种情况。检验统计量:检验统计量:校正公式校正公式(b+c40):47注意:注意:本本法法一一般般用用于于样样本本含含量量不不太太大大的的资资料料。因因为为它它仅仅考考虑虑了了两两法法结结果果不不一一致致的的两两种种情情况况(b,c),而而未未考考虑虑样样本本含含量量n和和两两法法结结果果一一致致的的两两种种情情况况(a,d)。所所以以,当当n很很大大且且a与与d的的数数值值很很大大(即即两两法法的的一一致致率率较较高高),b与与c的的数数值值相相对对较较小小时时,即即便便是是检检验验结结果果有有统统计计学学意意义义,其其实实际际意义往往也不大。意义往往也不大。48本例检验步骤如下:本例检验步骤如下:(1)建立检验假设)建立检验假设 H0:总总体体B=C,即即两两种种白白喉喉杆杆菌菌培培养养基基的的生生长情况相同长情况相同 H1:总总体体BC,即即两两种种白白喉喉杆杆菌菌培培养养基基的的生生长情况不同长情况不同 =0.05(2)计算计算 2值值 本例本例b=10,c=2,b+c P 0.050.05,按按=0.05=0.05的检验水准,不拒绝的检验水准,不拒绝H H0 0,差异没有统计学意义,还不能认,差异没有统计学意义,还不能认为两组儿童意外伤害类型分布为两组儿童意外伤害类型分布不同。不同。74三、行列表资料检验的注意事项751行列表中的各格T1,并且1T5的格子数不宜超过1/5格子总数,否则可能产生偏性。处理方法有三种:76增大样本含量以达到增大理论频数的目的,属首选方法,只是有些研究无法增大样本含量,如同一批号试剂已用完等。77根据专业知识,删去理论频数太小的行或列,或将理论频数太小的行或列与性质相近的邻行或邻列合并。这样做会损失信息及损害样本的随机性。改用双向无序RC表的Fisher确切概率法787980