《五、卡方检验.ppt》由会员分享,可在线阅读,更多相关《五、卡方检验.ppt(50页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、浙江大学医学院流行病与卫生统计学教研室 沈毅卡方检验卡方检验浙江大学医学院流行病与卫生统计学教研室 沈毅卡方检验基础卡方检验基础四格表卡方检验四格表卡方检验配对卡方检验与一致性检验配对卡方检验与一致性检验两分类变量间关联程度的度量两分类变量间关联程度的度量分层卡方检验分层卡方检验小结小结v 内容提要内容提要浙江大学医学院流行病与卫生统计学教研室 沈毅 2检检验验是是以以 2分分布布为为基基础础的的一一种种假假设设检检验验方方法法,主主要要用用于于分分类类变变量量,根根据据样样本本数数据据推推断断总总体体的的分分布布与与期期望望分分布布是是否否有有显显著著差差异异,或或推推断断两两个个分分类类变
2、变量量是是否相关或相互独立。其原假设为:否相关或相互独立。其原假设为:H0:观察频数与期望频数没有差别:观察频数与期望频数没有差别卡方检验基础卡方检验基础浙江大学医学院流行病与卫生统计学教研室 沈毅 首首先先假假设设H H0 0成成立立,计计算算出出 2 2值值,它它表表示示观观察察值值与与理理论论值值之之间间的的偏偏离离程程度度。根根据据 2 2分分布布,2 2统统计计量量以以及及自自由由度度可可以以确确定定在在H H0 0成成立立的的情情况况下下获获得得当当前前统统计计量量及及更更极极端端情情况况的的概概率率P P。如如果果P P 很很小小,说说明明观观察察值值和和理理论论值值偏偏离离程程
3、度度太太大大,应应当当拒拒绝绝原原假假设设,表表示示比比较较资资料料之之间间有有显显著著性性差差异异;否否则则就就不不能能拒拒绝绝原原假假设设,尚尚不不能能认认为为样样本本所所代代表表的的实实际际情情况况与与理理论论假假设有差别。设有差别。卡方检验基础卡方检验基础v 2 2检验的基本思想检验的基本思想浙江大学医学院流行病与卫生统计学教研室 沈毅 2值的计算:值的计算:由英国统计学家由英国统计学家Karl Pearson首次提出,故被首次提出,故被称为称为Pearson 2。卡方检验基础卡方检验基础浙江大学医学院流行病与卫生统计学教研室 沈毅 当当n n比比较较大大时时,2 2 统统计计量量近近
4、似似服服从从k k-1-1个个自自由由度度的的 2 2分分布布。在在自自由由度度固固定定时时,每每个个 2 2值值与与一一个个概概率率值值(P P 值值)相相对对应应,此此概概率率值值即即为为在在H H0 0成成立立的的前前提提下下,出出现现这这样样一一个个样样本本或或偏偏离离假假设设总总体体更更远远的的样样本本的的概概率率。如如果果P P 值值小小于于或或等等于于显显著著性性水水准准,则则拒拒绝绝H H0 0,接接受受H H1 1,即即观观察察频频数数与与期期望望频频数数不不一一致致。如如果果P P 值值大大于于显显著著性性水水准准,则则不不拒拒绝绝H H0 0,认认为为观观察察频频数数与与
5、期期望望频频数数无无显显著著性性差差异异。P P 值值越越小小,说说明明H H0 0假假设设正正确确的的可可能性越小;能性越小;P P 值越大,说明值越大,说明H H0 0假设正确的可能性越大。假设正确的可能性越大。卡方检验基础卡方分布卡方检验基础卡方分布浙江大学医学院流行病与卫生统计学教研室 沈毅 检检验验某某个个连连续续变变量量的的分分布布是是否否与与某某种种理理论论分分布布一一致致,如如是是否否符符合合正正态态分布等分布等 检验某个分类变量各类的出现概率是否等于指定概率检验某个分类变量各类的出现概率是否等于指定概率 检验两个分类变量是否相互独立,如吸烟是否与呼吸道疾病有关检验两个分类变量
6、是否相互独立,如吸烟是否与呼吸道疾病有关 检检验验控控制制某某种种或或某某几几种种分分类类变变量量因因素素的的作作用用之之后后,另另两两个个分分类类变变量量是是否独立,如上例控制年龄、性别之后,吸烟是否与呼吸道疾病有关否独立,如上例控制年龄、性别之后,吸烟是否与呼吸道疾病有关 检检验验两两种种方方法法的的结结果果是是否否一一致致,如如两两种种诊诊断断方方法法对对同同一一批批人人进进行行诊诊断断,其诊断结果是否一致其诊断结果是否一致卡方检验基础用途卡方检验基础用途浙江大学医学院流行病与卫生统计学教研室 沈毅 例例1 1 某某种种药药物物加加化化疗疗与与单单用用某某种种药药物物治治疗疗的的两两种种
7、处处理理方方法法,观观察察对对某某种种癌癌症症的的疗疗效效,结结果果见见下下表表。(数据见(数据见cancer.sav)四格表卡方检验四格表卡方检验 处理 疗效 合计 有效 无效 药物加化疗 42 13 55 单用药物 48 3 51 合计 90 16 106两种治疗方法的疗效比较两种治疗方法的疗效比较浙江大学医学院流行病与卫生统计学教研室 沈毅首先建立数据文件,如下。首先建立数据文件,如下。四格表卡方检验四格表卡方检验浙江大学医学院流行病与卫生统计学教研室 沈毅 注意:由于上表给出的不是原始数据,而是频数表数据,应注意:由于上表给出的不是原始数据,而是频数表数据,应该进行预处理。该进行预处理
8、。四格表卡方检验四格表卡方检验浙江大学医学院流行病与卫生统计学教研室 沈毅四格表卡方检验四格表卡方检验浙江大学医学院流行病与卫生统计学教研室 沈毅四格表卡方检验四格表卡方检验浙江大学医学院流行病与卫生统计学教研室 沈毅四格表卡方检验四格表卡方检验浙江大学医学院流行病与卫生统计学教研室 沈毅四格表卡方检验四格表卡方检验浙江大学医学院流行病与卫生统计学教研室 沈毅四格表卡方检验四格表卡方检验浙江大学医学院流行病与卫生统计学教研室 沈毅结果分析结果分析v 表示药物加化疗与单用药物治疗某种癌症的疗效比较的行表示药物加化疗与单用药物治疗某种癌症的疗效比较的行列表,除了观察值以外,还有期望值。列表,除了观
9、察值以外,还有期望值。四格表卡方检验四格表卡方检验浙江大学医学院流行病与卫生统计学教研室 沈毅结果分析结果分析v 此此为为四四格格表表 2 2检检验验的的结结果果,2 26.508,P P0.011,差差异异有有显显著著性性意义,即药物加化疗与单用药物治疗癌症的疗效有显著性差异意义,即药物加化疗与单用药物治疗癌症的疗效有显著性差异。四格表卡方检验四格表卡方检验浙江大学医学院流行病与卫生统计学教研室 沈毅配对卡方检验配对卡方检验 在在Pearson卡卡方方检检验验中中,对对行行列列变变量量的的相相关关性性作作了了检检验验,其中的行列变量是一个事物的两个不同属性。其中的行列变量是一个事物的两个不同
10、属性。实实际际应应用用中中,还还有有一一种种列列联联表表,其其中中的的行行列列变变量量反反映映的的是是一一个个事事物物的的同同一一属属性性。例例如如把把每每一一份份标标本本分分为为两两份份,分分别别用用两两种种方方法法进进行行化化验验,比比较较两两种种化化验验方方法法的的结结果果是是否否有有本本质质不不同同;或或分分别别采采用用甲甲、乙乙两两种种方方法法对对同同一一批批病病人人进进行行检检查查,比比较较此此两两种种方方法法的的结结果果是是否否有有本本质质不不同同,此此时时要要用用配对卡方检验。配对卡方检验。浙江大学医学院流行病与卫生统计学教研室 沈毅 例例2 2 某实验室分别用乳胶凝集法和免疫
11、荧光法对某实验室分别用乳胶凝集法和免疫荧光法对58名可名可疑系统性红斑狼疮患者血清中抗核抗体进行测定,结果疑系统性红斑狼疮患者血清中抗核抗体进行测定,结果见下表,问两种方法的检测结果有无差别?(数据见见下表,问两种方法的检测结果有无差别?(数据见McNemar.sav)免疫荧光法 乳胶凝集法 合计 +11 12 23 2 33 35 合计 13 45 58两种方法的检测结果两种方法的检测结果配对卡方检验配对卡方检验浙江大学医学院流行病与卫生统计学教研室 沈毅首先建立数据文件,如下。首先建立数据文件,如下。配对卡方检验配对卡方检验浙江大学医学院流行病与卫生统计学教研室 沈毅配对卡方检验配对卡方检
12、验 同理,由于是频数表数据,应该先用同理,由于是频数表数据,应该先用weight casesweight cases进行预进行预处理。处理。不能忘记不能忘记哦!哦!浙江大学医学院流行病与卫生统计学教研室 沈毅在此选入频数变量即可进在此选入频数变量即可进行下一步的分析。行下一步的分析。配对卡方检验配对卡方检验浙江大学医学院流行病与卫生统计学教研室 沈毅配对卡方检验配对卡方检验浙江大学医学院流行病与卫生统计学教研室 沈毅配对卡方检验配对卡方检验浙江大学医学院流行病与卫生统计学教研室 沈毅配对卡方检验配对卡方检验选选中中进进行行配配对对卡方检验卡方检验浙江大学医学院流行病与卫生统计学教研室 沈毅配对
13、卡方检验配对卡方检验结果分析结果分析浙江大学医学院流行病与卫生统计学教研室 沈毅在在Pearson Pearson 卡方检验中,对行变量和列变量的相关性作检卡方检验中,对行变量和列变量的相关性作检验,其中行变量和列变量是一个事物的两个不同属性。验,其中行变量和列变量是一个事物的两个不同属性。在实际中,还有一种列联表,其行变量和列变量反映的是在实际中,还有一种列联表,其行变量和列变量反映的是一个事物的同一属性的相同水平,只是对该属性各水平的一个事物的同一属性的相同水平,只是对该属性各水平的区分方法不同。其特征是:行的数目和列的数目总是相同区分方法不同。其特征是:行的数目和列的数目总是相同的。如果
14、希望检验这两种区分同一属性的方法给出的结果的。如果希望检验这两种区分同一属性的方法给出的结果是否一致,则不应当使用是否一致,则不应当使用Pearson Pearson 2 2检验,而应该采用检验,而应该采用KappaKappa一致性检验对两种方法一致程度进行评价。一致性检验对两种方法一致程度进行评价。一致性检验一致性检验浙江大学医学院流行病与卫生统计学教研室 沈毅结果分析结果分析v 如果在如果在crosstab过程的过程的 statistics子对话框中勾选上子对话框中勾选上Kappa复选框,则有以下结果:复选框,则有以下结果:一致性检验一致性检验浙江大学医学院流行病与卫生统计学教研室 沈毅
15、一般认为,一般认为,当当Kappa0.75时,表明两者一致性较好;时,表明两者一致性较好;0.75 Kappa 0.4时,表明一致性一般;时,表明一致性一般;Kappa 0.4时,表明两者一致性较差。时,表明两者一致性较差。一致性检验一致性检验浙江大学医学院流行病与卫生统计学教研室 沈毅 注意:注意:KappaKappa检验会利用列联表的全部信息,而检验会利用列联表的全部信息,而McNemarMcNemar 检验检验只会利用非主对角线单元格上的信息。因此,对于一只会利用非主对角线单元格上的信息。因此,对于一致性较好,即绝大多数数据都在主对角线的大样本列致性较好,即绝大多数数据都在主对角线的大样
16、本列联表,联表,McNemarMcNemar检验可能会失去实用价值。检验可能会失去实用价值。一致性检验一致性检验浙江大学医学院流行病与卫生统计学教研室 沈毅两分类变量间关联程度的度量两分类变量间关联程度的度量 2检检验验可可以以从从定定性性的的角角度度说说明明两两个个变变量量是是否否存存在在关关联联,当当拒拒绝绝原原假假设设时时,在在统统计计上上有有把把握握认认为为两两个个变变量量存存在在相相关关。但但接接下下来来的的问问题题是是,如如果果两两变变量量之之间间存存在在相相关关性性,它它们们之之间间的的关关联联程程度度有有多多大大?针针对对不不同同的的变变量量类类型型,在在SPSS中中可可以以计
17、计算算各各种种各各样样的的相相关关指指标标,而而且且Crosstabs过过程程也也对对此此提提供供了了完完整整的的支支持持,此此处处只只涉涉及及两两分分类类变变量量间间关关联联程程度度的的指指标,更系统的相关程度指标见相关与回归一章。标,更系统的相关程度指标见相关与回归一章。浙江大学医学院流行病与卫生统计学教研室 沈毅两分类变量间关联程度的度量两分类变量间关联程度的度量相对危险度相对危险度RRRR:是一个概率的比值,指试验组人群反应阳性概率:是一个概率的比值,指试验组人群反应阳性概率与对照组人群反应阳性概率的比值。数值为与对照组人群反应阳性概率的比值。数值为1 1,表明试验因素与,表明试验因素
18、与反应阳性无关联;小于反应阳性无关联;小于1 1时,表明试验因素导致反应阳性的发生时,表明试验因素导致反应阳性的发生率降低;大于率降低;大于1 1时,表明试验因素导致反应阳性的发生率增加。时,表明试验因素导致反应阳性的发生率增加。优势比优势比OROR:是一个比值的比,是反应阳性人群中试验因素有无的:是一个比值的比,是反应阳性人群中试验因素有无的比例与反应阴性人群中试验因素有无的比例之比。比例与反应阴性人群中试验因素有无的比例之比。当关注的事件发生概率比较小时(当关注的事件发生概率比较小时(0.10.1),优势比可作为相对危),优势比可作为相对危险度的近似。险度的近似。浙江大学医学院流行病与卫生
19、统计学教研室 沈毅两分类变量间关联程度的度量两分类变量间关联程度的度量 例例3 某某次次食食物物中中毒毒,现现想想通通过过调调查查发发现现,吃吃某某海海产产品品(food)和和食食物物中中毒毒发发生生(poison)是是否否具具有有相相关关性性,以以及及吃吃了了某某食食物物的的人人是是没没吃吃海海产产品品的的人人的的几几倍倍。数据文件见数据文件见poison.sav。浙江大学医学院流行病与卫生统计学教研室 沈毅海鲜食物中毒合计是否吃103040未吃65460合计1684100浙江大学医学院流行病与卫生统计学教研室 沈毅两分类变量间关联程度的度量两分类变量间关联程度的度量浙江大学医学院流行病与卫
20、生统计学教研室 沈毅两分类变量间关联程度的度量两分类变量间关联程度的度量v 分别指定分别指定行列变量到行列变量到RowRow(s s)和)和ColumnsColumns中。中。浙江大学医学院流行病与卫生统计学教研室 沈毅选中可得到选中可得到RRRR值值两分类变量间关联程度的度量两分类变量间关联程度的度量浙江大学医学院流行病与卫生统计学教研室 沈毅两分类变量间关联程度的度量两分类变量间关联程度的度量结果分析结果分析v 这就是两变量的四格表。这就是两变量的四格表。浙江大学医学院流行病与卫生统计学教研室 沈毅两分类变量间关联程度的度量两分类变量间关联程度的度量结果分析结果分析v 这是卡方检验的结果,
21、说明吃食物与食物中毒相关。这是卡方检验的结果,说明吃食物与食物中毒相关。浙江大学医学院流行病与卫生统计学教研室 沈毅两分类变量间关联程度的度量两分类变量间关联程度的度量结果分析结果分析v 结果显示,结果显示,OROR3.003.00,说明吃了该食物者发生食物中,说明吃了该食物者发生食物中毒的可能性是没有吃该食物者的毒的可能性是没有吃该食物者的3.003.00倍?倍?浙江大学医学院流行病与卫生统计学教研室 沈毅 例例4 某某研研究究人人员员病病例例对对照照研研究究服服用用某某种种药药物物与与心心肌肌梗梗死死的的关关系系,考考虑虑到到年年龄龄是是一一个个可可能能混混杂杂的的因因素素,因此也将年龄纳
22、入研究,结果如下:因此也将年龄纳入研究,结果如下:分层卡方检验分层卡方检验年龄40岁年龄40岁服药未服药服药未服药病例组21261888对照组1759795合计388525183浙江大学医学院流行病与卫生统计学教研室 沈毅分层卡方检验分层卡方检验v选入分层选入分层变量变量centercenter浙江大学医学院流行病与卫生统计学教研室 沈毅分层卡方检验分层卡方检验进行分层进行分层卡方检验卡方检验浙江大学医学院流行病与卫生统计学教研室 沈毅分层卡方检验分层卡方检验v 首先给出的是层间差异的检验,结果显示,不同组别,首先给出的是层间差异的检验,结果显示,不同组别,药物与发病的联系是相同的。药物与发病
23、的联系是相同的。结果分析结果分析浙江大学医学院流行病与卫生统计学教研室 沈毅分层卡方检验分层卡方检验v 分分层层卡卡方方检检验验结结果果,即即考考虑虑了了分分层层因因素素的的影影响响以以后后,对对年年龄龄与与发发病病的的检检验验结结果果,共共给给出出一一致致性性 2 2检检验验和和分分层层 2 2检检验验两两种种结结果果,前前者者是是后后者者的的改改进进,可可见见P P 值值均均小小于于0.050.05,即即可可认认为为年年龄龄与发病有关。与发病有关。结果分析结果分析浙江大学医学院流行病与卫生统计学教研室 沈毅分层卡方检验分层卡方检验v 结结果果显显示示,ORORMHMH 值值为为0.6360
24、.636,表表明明去去除除了了年年龄龄的的混混杂杂效效应应以以后后,和和未未服服药药相相比比,服服药药后后发发病病优优势势比比为为0.6360.636,或或者者说说服服药药后更容易引发心肌梗死。后更容易引发心肌梗死。结果分析结果分析浙江大学医学院流行病与卫生统计学教研室 沈毅 1.卡方检验是以2 分布为基础的一种常用假设检验方法,常用作计数资料的显著性检验。其基本思想是:首先假设观察频数与期望频数没有差别。而统计量2 值表示观察值与理论值之间的偏离程度。当n 比较大时,2 统计量近似服从k-1个自由度的2 分布。在自由度固定时,每个2 值与一个概率值相对应,此概率即为在H0假设成立的前提下,出
25、现这样一个样本或更大差别样本的概率。如果P 值小于或等于显著性水准,则应拒绝H0,接受H1。小小 结结浙江大学医学院流行病与卫生统计学教研室 沈毅 2.关联程度的测量:卡方检验从定性的角度分析是否存在相关,而各种关联指标从定量的角度分析相关的程度大小。不同的指标适合不同类型的变量。RR值是一个概率的比值,是指试验组人群反应阳性概率与对照组人群反应概率的比值。用于反映试验因素与反应阳性的关联程度。OR值是比值的比。是反应阳性人群中试验因素有无的比例与反应阴性人群中试验因素有无的比例之比。在下列两个条件均满足时,可用于估计RR值:所关注的事件发生概率比较小(0.1),所设计的研究是病例对照研究。小小 结结浙江大学医学院流行病与卫生统计学教研室 沈毅 3.Kappa一致性检验对两种方法结果的一致程度进行评价;配对检验则用于分析两种分类方法的分类结果是否有差异。小小 结结浙江大学医学院流行病与卫生统计学教研室 沈毅 4.分层卡方检验是把研究对象分解成不同层次,按各层对象来进行行变量与列变量的独立性研究。可在去除分层因素下更准确地对行列变量的独立性进行研究。在SPSS中,交叉表过程的统计量子对话框中选中Cochrans and MantelHaenszel statistics会自动给出分层卡方检验的结果。小小 结结
限制150内