分类资料统计推断讲稿.ppt
关于分类资料统计推断第一页,讲稿共四十页哦一、率的抽样误差与标准误一、率的抽样误差与标准误抽抽样样研研究究所所得得的的率率同同样样存存在在抽抽样样误误差差,描描述述其其大大小小的的指指标标是是率率的的标标准准误误(standard error of proportion),其计算公式如下:,其计算公式如下:第二页,讲稿共四十页哦二、总体率的估计和率的二、总体率的估计和率的u检验检验1、总体率的估计:、总体率的估计:总体率的估计有两种方法,一是正态分布法,二是查表法。正态分布法适用于样本较大,且p和/或1-p都不太小,如np和n(1-p)都大于5时。计算公式为:查表法适用于小样本。利用样本含量n和阳性数x查“百分率的可信区间”表获得。第三页,讲稿共四十页哦例例1 检查居民检查居民800人粪便中蛔虫阳性人粪便中蛔虫阳性200人,阳性率为人,阳性率为25%,试求当地居民粪便,试求当地居民粪便蛔虫阳性率的蛔虫阳性率的95%可信区间和可信区间和99%可信区间。可信区间。公式:公式:其中,其中,即:即:阳性率的阳性率的95%可信区间为:可信区间为:(0.22 ,0.28)或 (22%,28%)同理可得阳性率的99%可信区间。第四页,讲稿共四十页哦2、率的率的u检验检验(1)样本率与总体率比较)样本率与总体率比较 样本率与总体率(一般为理论值、标准值或经大量观察所得的稳定值等)比较的样本率与总体率(一般为理论值、标准值或经大量观察所得的稳定值等)比较的目目的,是推断样本所代表的未知总体率的,是推断样本所代表的未知总体率与已知总体率与已知总体率0是否相等。是否相等。可选方法有可选方法有直接计算概率法直接计算概率法(用于(用于偏离偏离 0.5 较远,且阳性数较远,且阳性数 X 较小作单侧检验较小作单侧检验时)和正态近似法。这里时)和正态近似法。这里着重介绍正态近似法着重介绍正态近似法。当当或或 1不太小,而不太小,而n 足够大时,如足够大时,如n和和n(1)大于)大于 5 时时,即可,即可按正态近似法做假设检验。检验统计量为按正态近似法做假设检验。检验统计量为 u 值,计算公式如下:值,计算公式如下:式中式中 n 为样本例数,为样本例数,X 为样本阳性数,样本率为样本阳性数,样本率 p=X/n;0 为总体率;为总体率;0.5 为连续性校正数,当为连续性校正数,当 n 较大时可以省去,而较大时可以省去,而X n 0.5 时不宜采用校正数。时不宜采用校正数。第五页,讲稿共四十页哦例例2 2 以往经验脑梗塞患者治疗三周的生活能力改善率为以往经验脑梗塞患者治疗三周的生活能力改善率为30%30%,某医院用新疗法治,某医院用新疗法治疗疗3838例的三周生活能力改善率为例的三周生活能力改善率为50%50%,能否认为新疗法的改善率与以往不同?,能否认为新疗法的改善率与以往不同?此为样本率与总体率比较:且np和n(1-p)都大于5,故用u检验。设设=0.05计算统计量计算统计量u值值:本例Xn0.5,因此不宜用校正系数,故=2.69确定确定P值,作结论值,作结论:查t界值表中,=时,u0.01=2.5758,u0.005=2.8070,因而0.01P0.005,则P,拒绝H0,接受H1,可以认为新疗法的改善率与以往不同,新疗法的改善率高于以往。第六页,讲稿共四十页哦 (2 2)两个样本率比较)两个样本率比较式中P0为合并阳性率,P0=(X1+X2)/(n1+n2)检检 验验 统统 计计 量量 计计 算算 公公 式式 如如 下下 :第七页,讲稿共四十页哦例例3 某中药研究所试用某种草药预防流感,观察用药组和某中药研究所试用某种草药预防流感,观察用药组和对照组对照组(未用药组未用药组)的流感发病率,结果如下表,问两组的流的流感发病率,结果如下表,问两组的流感发病率是否不同?感发病率是否不同?表1用药组和对照组的流感发病率此为两大样本率的比较,可用此为两大样本率的比较,可用u检验。检验。第八页,讲稿共四十页哦 假设检验过程:假设检验过程:设设 =0.05 计算统计量计算统计量u值:值:=2.031 确定确定P值,作结论:值,作结论:查t界值表中,=时,u0.05=1.96,u0.01=2.5758,因而0.05P0.01,则P,拒绝H0,接受H1,可以认为两组发病率不同,用药组发病率低于对照组,说明该草药有预防流感的作用第九页,讲稿共四十页哦三、三、2 2 检验检验2检验(Chi-squaretest)用途极广,这里仅介绍它在分类变量资料中用于推断两个或两个以上总体率(或构成比)之间有无差别或有无关联的分析方法。第十页,讲稿共四十页哦1、2检验的基本思想检验的基本思想例4:某医生用国产呋喃硝胺治疗十二指肠球部溃疡,以甲氰咪胍作对照组,结果如表5,问两种方法治疗效果有无差别?表2.两种药物治疗十二指肠球部溃疡的效果第十一页,讲稿共四十页哦 设设=0.05计算统计量计算统计量2值值:2值的基本公式基本公式为:式中A为实际频数,即所获资料中的基本数据;T为理论频数,是根据检验假设H0推算得到的,其中,nR为同行合计,nC为同列合计,n为总例数。2检验的基基本本思思想想体现在2值的基本公式中,即当H0成立时,实际频数A就与理论频数T很接近,此时2值不会太大;反之,如若A与T相差较大,就会计算得到一个较大的2值,当其超出一定范围时,就有理由认为H0不成立。因此,实际上2值反映了实际频数与理论频数的吻合程度。值反映了实际频数与理论频数的吻合程度。第十二页,讲稿共四十页哦2、四格表资料的、四格表资料的2检验检验四四格格表表资资料料即即基基本本数数据据只只有有四四个个,为为两两行行两两列列,如如两两个个率的比较。率的比较。检验统计量专用计算公式为:检验统计量专用计算公式为:,=(R-1)()(C-1)式中式中a,b,c,d 分别代表四个实际频数,分别代表四个实际频数,n 为总例数;为总例数;为自为自由度,由度,R为行数,为行数,C为列数。为列数。第十三页,讲稿共四十页哦(1)四个表资料)四个表资料2检验实例检验实例:例4:某医生用国产呋喃硝胺治疗十二指肠球部溃疡,以甲氰咪胍作对照组,结果如表5,问两种方法治疗效果有无差别?表2.两种药物治疗十二指肠球部溃疡的效果第十四页,讲稿共四十页哦假设检验过程:假设检验过程:设设=0.05计算统计量计算统计量2值值:确定确定P值,作结论值,作结论:查2界值表中,=1时,20.05,1=3.84,20.01,1=6.63,因而0.05P0.01,即P,因而拒绝H0,接受H1,可以认为两组溃疡愈合率差别显著,呋喃硝胺的愈合率高于甲氰咪胍。第十五页,讲稿共四十页哦(2)四格表资料四格表资料2检验检验应用注意应用注意:当n40,且任意T5时,可四格表专用公式。当n40,且任意1T5时,应,其计算公式为:例5.某医生欲比较胞磷胆碱与脑益嗪治疗脑动脉硬化的疗效,观察结果如表3,问两种药物的疗效有无差别?表3.两种药物治疗脑动脉硬化的疗效表3显示有一个理论频数T5,因此应用校正2检验。当n40或任意T1时,应改用改用确切概率法。直接使用直接使用计算校正计算校正2值值第十六页,讲稿共四十页哦(3)四格表资料)四格表资料2检验与检验与 u 检验的关系检验的关系例例6 以例以例3资料作资料作2检验,整理如表检验,整理如表4:表4用药组和对照组的流感发病率的比较即两大样本率比较的即两大样本率比较的2检验与检验与 u 检验是等价的检验是等价的。=4.125=u2(2.031)2第十七页,讲稿共四十页哦例例7 某某市市对对医医院院空空气气消消毒毒监监测测,市市级级医医院院65个个抽抽样样点点中中52个个合合格格,合合格格率率80.00%,乡乡镇镇医医院院53个个抽抽样样点点中中22个个合合格格,合合格格率率41.51%。问城乡医院空气消毒合格率是否不同?问城乡医院空气消毒合格率是否不同?表5城乡医院空气消毒合格率的比较采用2检验=18.50第十八页,讲稿共四十页哦例例8 某某医医生生用用两两种种疗疗法法治治疗疗某某病病,结结果果如如表表6,问问可可否否认为新疗法优于传统疗法?认为新疗法优于传统疗法?表6两种疗法治疗某病治愈率比较=7.47第十九页,讲稿共四十页哦3、行、行列表列表(RC表表)资料的资料的2检验检验行列表资料即基本数据在四个以上,如多个率的比较,其基本数据为R行2列;两组构成比的比较,其基本数据为2行C列;多组构成比的比较,其基本数据为R行C列。检验统计量计算公式为:,=(R-1)()(C-1)其应应用用条条件件是是 T 5 的的格格子子数数不不超超过过 1/5 和和没没有有任任意意格格的的 T1。如果出现上述情况应作如下处理:根本办法是增加观察例数,使各格基本数据增大;将T较小的行或列与性质相近的行或列作合理的合并。第二十页,讲稿共四十页哦例例9 某地在流行性脑脊髓膜炎流行期间进行了带菌调查,结果某地在流行性脑脊髓膜炎流行期间进行了带菌调查,结果如表如表7,问不同人群带菌率是否不同?,问不同人群带菌率是否不同?表7某地流行性脑脊髓膜炎流行期不同人群带菌率 采用采用RC表资料表资料2检验。检验。第二十一页,讲稿共四十页哦设设 H0:四个人群带菌率相同,即H1:四个人群带菌率不同或不全相同=0.05计算统计量计算统计量2值值=18.17确定确定P值,作结论值,作结论:查查2界值表界值表,按按=(R-1)(C-1)求得求得=3,因而,因而P 0.005。按。按=0.05水准,拒绝水准,拒绝H0,可以认为不同人群带菌率不同或,可以认为不同人群带菌率不同或不全相同。不全相同。第二十二页,讲稿共四十页哦例例10 两两个个医医院院合合作作进进行行脑脑梗梗塞塞疗疗效效试试验验中中,各各医医院院受受试试病病例例的的脑脑梗梗塞塞部部位位如如表表8所所示示,问问两两所所医医院院病病例例的的梗梗塞塞部部位位的的分分布(构成比)是否不同?布(构成比)是否不同?表表8 甲乙两医院病例的脑梗塞部位的分布甲乙两医院病例的脑梗塞部位的分布采用RC表资料2检验。第二十三页,讲稿共四十页哦设H0:两所医院病例的梗塞部位的:两所医院病例的梗塞部位的总体分布(构成比)相同总体分布(构成比)相同 H1:两所医院病例的梗塞部位的:两所医院病例的梗塞部位的总体分布(构成比)不同总体分布(构成比)不同=0.05计算统计量2值=14.29确定P值,作结论:查2界值表,按=(R-1)(C-1)求得=2,因而P40时可以略去。对同一个(或同一对)观察对象研究两种分类方法(或两种处理)结果间对同一个(或同一对)观察对象研究两种分类方法(或两种处理)结果间是否是否有关联有关联时,检验统计量公式为:时,检验统计量公式为:需注意,此时公式应用条件同前。上述两种情况分析目的不同,其检验假设亦不同。第二十七页,讲稿共四十页哦例例12为了研究两种培养基分离空肠弯曲杆菌的效果,将每份粪便标本分别接种于甲为了研究两种培养基分离空肠弯曲杆菌的效果,将每份粪便标本分别接种于甲乙两种培养基共做乙两种培养基共做50份培养结果如表份培养结果如表10。表10两种培养基培养50份标本培养结果表11两种培养基培养50份标本培养结果此为同一标本用两种方法培养的配对设计,应列为22双向交叉分类表(即22列联表),如表11。表中每一格表示同一份标本两种培养基结果不同组合的实际对子数。应注意,若将表10数据归纳为下表的形式,是不能明确反映出同一标本两种培养结果的异同,而只是单独列出了每种培养基的培养结果,这就将配对设计归纳成了每组50份标本的两个独立的样本了,这是不恰当的。第二十八页,讲稿共四十页哦两种方法检出结果差别的检验两种方法检出结果差别的检验设设或或 b=c 或或 bc=0.05计算统计量:计算统计量:确定确定P值,作结论:值,作结论:经查2界值表中,=1时,20.05,1=3.84,因而P0.05,即P,因而不能拒绝H0,还不能认为两种培养基的检出率不同。第二十九页,讲稿共四十页哦两种方法检出结果关联性检验两种方法检出结果关联性检验设设H0:两种培养基的培养结果无关联H1:两种培养基的培养结果有关联=0.05计算统计量:计算统计量:确定确定P值,作结论:值,作结论:经查2界值表中,=1时,20.005,1=7.88,因而P0.005,即P,因而拒绝H0,可以认为两种培养基的检出率有关联。从表内数据看检出结果一致率为(20+21)/50=82%。第三十页,讲稿共四十页哦例例13 某研究室用甲乙两种血清学方法检查某研究室用甲乙两种血清学方法检查410例确诊的鼻咽癌患例确诊的鼻咽癌患者,得结果如表者,得结果如表12,问两种检验结果间有无联系?有无差别?,问两种检验结果间有无联系?有无差别?表表12 两种血清学方法检验结果两种血清学方法检验结果相关性分析:相关性分析:2=38.85,=1,查,查 2界值表得界值表得P0.005,可以认为两种血清,可以认为两种血清学方法检验结果间有联系。学方法检验结果间有联系。差别性检验:差别性检验:2=86.44,=1,查,查 2界值表得界值表得P0.005,可以认为两种血,可以认为两种血清学方法检出率不同,甲法阳性检出率较高。清学方法检出率不同,甲法阳性检出率较高。第三十一页,讲稿共四十页哦例例14 为了解巨细胞病毒感染情况,某医师分别采集了为了解巨细胞病毒感染情况,某医师分别采集了302对母亲与婴儿对母亲与婴儿血清,并测定其血清,并测定其IgM抗体,结果如表抗体,结果如表13。问母婴间血清。问母婴间血清IgM抗体检出是否相关抗体检出是否相关?母婴间血清?母婴间血清IgM抗体检出率有无差别?抗体检出率有无差别?表表13 302对母婴血清对母婴血清IgM抗体检测结果抗体检测结果本例,本例,Tmin=1.025,故而在分析,故而在分析“是否相关是否相关”时采用四格表资料校正时采用四格表资料校正2检验得:检验得:2=142.318,=1,则,则P0.10,尚不能认为母婴间血清,尚不能认为母婴间血清IgM抗体检出率有差别。抗体检出率有差别。第三十二页,讲稿共四十页哦(2)RC列联表资料的列联表资料的2检验检验同一观察对象(或同一组观察人群)分别按两种分类变量的不同水平分组,若所分水平多于所分水平多于2个时个时,就可将观察结果归纳成RC列联表,如例15中表14。其形式与前述RC表资料类似,但其研究设计和分析目的是不同的。RC列联表资料的2检验的分析目的是检验两个分类变量间有无关联目的是检验两个分类变量间有无关联,其检验统计量的计算仍用行列表专用公式,即:第三十三页,讲稿共四十页哦例例15 某医师为研究肥胖程度与发胖年龄间的关系,观察了某医师为研究肥胖程度与发胖年龄间的关系,观察了438名名肥胖儿童青少年,结果如下表:肥胖儿童青少年,结果如下表:表14438名肥胖儿童青少年肥胖程度和发胖年龄其检验假设为:其检验假设为:Ho:肥胖程度与发胖年龄无关联:肥胖程度与发胖年龄无关联 H 1:肥胖程度与发胖年龄有关联:肥胖程度与发胖年龄有关联本例,本例,2=40.95,=(4-1)(3-1)=6,查,查 2界值表得界值表得2 0.005,6=18.55,则则P0.005,可以认为肥胖程度与发胖年龄间有关联性。,可以认为肥胖程度与发胖年龄间有关联性。第三十四页,讲稿共四十页哦例例16 观察依沙酰胺治疗皮肤真菌感染效果的临床试验,结果如表观察依沙酰胺治疗皮肤真菌感染效果的临床试验,结果如表15。试分析该病的疗效是否与病程有关?试分析该病的疗效是否与病程有关?表15依沙酰胺治疗皮肤真菌感染疗效 当获得两个变量间有关联时,若需进一步说明相关的密切程度,可计算列联系数,其当获得两个变量间有关联时,若需进一步说明相关的密切程度,可计算列联系数,其计算公式为:计算公式为:P值在值在0-1之间,之间,P越接近于越接近于1,关联性越强,即关系越密切;,关联性越强,即关系越密切;P越接近于越接近于0,则关,则关联性越弱。联性越弱。本例2=24.64,P0.005,Pearson列联系数=0.232。病程痊愈好转无效合计5年29261065合计24014649435第三十五页,讲稿共四十页哦例例17 某矿职工医院探讨矽肺不同期次患者的胸片肺门密度变某矿职工医院探讨矽肺不同期次患者的胸片肺门密度变化,把化,把492名患者的资料归纳如表名患者的资料归纳如表16。问矽肺患者肺门密度的增。问矽肺患者肺门密度的增加与矽肺的期次有无关系?加与矽肺的期次有无关系?表16不同期次矽肺患者肺门密度级别分布本例,2=163.01,=(3-1)(3-1)=4,查2界值表得P0.005,可以认为矽肺患者肺门密度的增加与矽肺的期次有关联性。为进一步说明相关的密切程度,计算列联系数P,结果为P=0.499。表明二者有中度相关关系。但需注意,有相关关系并不意味着二者有因果关系。矽肺期次肺门密度级别合计+4318814245196721696175578合计50301141492第三十六页,讲稿共四十页哦(3)列联表资料)列联表资料2检验时应注意:检验时应注意:)理理论论频频数数不不能能过过小小,其其要要求求与与前前述述行行列列表表2检验相同。检验相同。)在配对分类资料的22列联表,作相关检验之后,还想比较两种诊断试验法诊断效能有无差异时,要求所投入试验的检品是用标准法检出的阳性检品。要求所投入试验的检品是用标准法检出的阳性检品。第三十七页,讲稿共四十页哦2检验小结:检验小结:1.分分类类资资料料的的频频数数表表在在结结构构上上表表现现为为有有行行(2)和和列列(2),统统称称为为行行列列表表或或RC表表,其其中中单单一一样样本本按按两两变变量量分分类类交交叉叉排排列列的的称称列列联联表表。通通常常RC表表包包括括两两样样本本率率(或或构构成成比比)的的比比较较和和多多个个样样本本率率(或或构构成成比比)的的比比较较;列列联联表表资资料料则则用于推断两变量间有无关联,其中用于推断两变量间有无关联,其中22列联表还可推断两种处理有无差别。列联表还可推断两种处理有无差别。2.2检验统计量计算通式为下式,检验统计量计算通式为下式,22表还可用专用公式。表还可用专用公式。查查2界值表时先计算自由度界值表时先计算自由度=(R1)(C1)。3.2检验的应用条件是:检验的应用条件是:T5,容许,容许T5的格子数少于总格子数的的格子数少于总格子数的1/5。但四格表有。但四格表有1T5,而,而n40时,应计算校正时,应计算校正2值。值。第三十八页,讲稿共四十页哦练习用甲乙两种方法对用甲乙两种方法对120份咽喉份咽喉涂抹标本进行培养,甲法的阳性率涂抹标本进行培养,甲法的阳性率为为60%,乙法的阳性率为,乙法的阳性率为50%,甲,甲乙两法一致的阳性率为乙两法一致的阳性率为35%,问两,问两种方法何者为优?种方法何者为优?第三十九页,讲稿共四十页哦感感谢谢大大家家观观看看01.04.2023第四十页,讲稿共四十页哦