医学统计学教学计数资料的统计学推断.ppt
第五章第五章 计数资料的统计学推断计数资料的统计学推断第一节第一节 率的抽样误差与可信区间率的抽样误差与可信区间第二节第二节 率的统计学推断率的统计学推断 一、样本率与总体率比较的一、样本率与总体率比较的u u检验检验 二、两个样本率比较的二、两个样本率比较的u u检验检验第三节第三节 卡方检验卡方检验 一、卡方检验的基本思想一、卡方检验的基本思想 二、四格表专用公式二、四格表专用公式 三、连续性校正公式三、连续性校正公式 四、配对四格表资料的四、配对四格表资料的2 2检验检验 五、行五、行列(列(R RC C)表资料的)表资料的2 2检验检验计数资料的统计学推断计数资料的统计学推断第一节第一节 率的抽样误差与可信区间率的抽样误差与可信区间 一、率的抽样误差与标准误一、率的抽样误差与标准误 二、总体率的可信区间二、总体率的可信区间一、一、率的抽样误差与标准误率的抽样误差与标准误 样本率样本率(p)和总体率和总体率()的差异称为率的的差异称为率的抽抽样误差样误差(sampling error of rate),用,用率的标率的标准误准误(standard error of rate)度量。)度量。如果总体率如果总体率未知,用未知,用样本率样本率p估计估计标准误的计算标准误的计算二、二、总体率的可信区间总体率的可信区间 总体率的可信区间总体率的可信区间(confidence interval of rate):根据样本率推算总体率可能所在的范围根据样本率推算总体率可能所在的范围 第二节第二节 率的统计学推断率的统计学推断 一、样本率与总体率比较一、样本率与总体率比较u u检验检验 二、两个样本率的比较二、两个样本率的比较u u检验检验一、样本率与总体率比较的一、样本率与总体率比较的u u检验检验u u检验的条件:检验的条件:n p 和n(1-p)均大于5时二、两个独立样本率比较的二、两个独立样本率比较的u u检验检验表表5-1 两种疗法的心血管病病死率比较两种疗法的心血管病病死率比较疗法死亡生存 合计病死率(%)盐酸苯乙双胍26(X1)178 204(n1)12.75(p1)安慰剂 2(X2)62 64(n2)3.13(p2)合 计 28240 268 10.45(pc)u u检验的条件:检验的条件:n n1 1p p1 1 和和n n1 1(1-p1-p1 1)与与n n2 2p p2 2 和和n n2 2(1-p1-p2 2)均均 5 5小小 结结 1样本率也有抽样误差,率的抽样误差的大小样本率也有抽样误差,率的抽样误差的大小用用p或或Sp来衡量。来衡量。2率的分布服从二项分布。当率的分布服从二项分布。当n足够大,足够大,和和1-均不太小,有均不太小,有n5和和n(1-)5时,近似正态分布。时,近似正态分布。3总总体体率率的的可可信信区区间间是是用用样样本本率率估估计计总总体体率率的的可可能能范范围围。当当p分分布布近近似似正正态态分分布布时时,可可用用正正态态近近似似法估计率的可信区间。法估计率的可信区间。4根根据据正正态态近近似似原原理理,可可进进行行样样本本率率与与总总体体率率以及两样本率比较的以及两样本率比较的u检验。检验。率的率的u检验能解决以下问题吗?检验能解决以下问题吗?率的反应为生与死、阳性与阴性、发生与不率的反应为生与死、阳性与阴性、发生与不发生等二分类变量,如果二分类变量为非正反关发生等二分类变量,如果二分类变量为非正反关系(如治疗系(如治疗A A、治疗、治疗B B);反应为多分类,如何进);反应为多分类,如何进行假设检验?行假设检验?率的率的u u检验要求:检验要求:n n足够大,且足够大,且nn55和和 n n(1-1-)55。如果条件不满足,如何进行假设。如果条件不满足,如何进行假设检验?检验?第三节第三节 卡方检验卡方检验 2检验(Chi-square test)是现代统计学的创始人之一,英国人K.Pearson(1857-1936)于1900年提出的一种具有广泛用途的统计方法,可用于两个或多个率间的比较,计数资料的关联度分析,拟合优度检验等等。本章仅限于介绍两个和多个率或构成比比较的2检验。一、卡方检验的基本思想一、卡方检验的基本思想(1)疗疗法法死亡死亡生存生存 合合计计病死率病死率(%)盐盐酸苯乙双胍酸苯乙双胍26(a)178(b)204(a+b)12.75(p1)安慰安慰剂剂 2(c)62(d)64(c+d)3.13(p2)合合 计计 28(a+c.)240(b+d.)268(a+b+c+d=n)10.45(pc)表表5-1 5-1 两种两种疗疗法的心血管病病死率的比法的心血管病病死率的比较较22222222表或四格表表或四格表表或四格表表或四格表(fourfold table)(fourfold table)(fourfold table)(fourfold table)实际频数实际频数实际频数实际频数A A A A (actual frequency)(actual frequency)(a a、b b、c c、d d)的的的的理论频数理论频数理论频数理论频数T T(theoretical frequency)theoretical frequency)(HH0 0:1 1=2 2=):):):):a a的理论频数的理论频数的理论频数的理论频数 (a+b)pc=(a+b)(a+c.)/n=nRnC/n=21.3b b的理论频数的理论频数的理论频数的理论频数 (a+b)(1-pc)=(a+b)(b+d.)/n=nRnC/n=182.7c c的理论频数的理论频数的理论频数的理论频数 (c+d)pc=(c+d)(a+c)/n=nRnC/n=6.7d d的理论频数的理论频数的理论频数的理论频数 (c+d)(1-pc)=(c+d)(b+d.)/n=nRnC/n=57.3一、卡方检验的基本思想一、卡方检验的基本思想(2)各种情形下,理论与实际偏离的总和即为卡方值(chi-square value),它服从自由度为的卡方分布。3.847.8112.59P P0.050.05的临界值的临界值2分布分布(chi-square distribution)2检验的基本公式检验的基本公式 上述上述基本公式基本公式由由Pearson提出,因此软件上常称这种检验为Peareson卡方检验,下面将要介绍的其他卡方检验公式都是在此基础上发展起来的。它不仅适用于四格表资料,也适用于其它的“行列表”。二、四格表专用公式(二、四格表专用公式(1)为了不计算理论频数为了不计算理论频数T,可由可由基本公式基本公式推导出,推导出,直接由直接由各格子的实际频数(各格子的实际频数(a、b、c、d)计算卡方值的公式:)计算卡方值的公式:二、四格表专用公式(二、四格表专用公式(2)2(1)u2 2.194924.82(n40,所有T5时)三、连续性校正公式(三、连续性校正公式(1)2分分布布是是一一连连续续型型分分布布,而而行行列列表表资资料料属属离离散散型型分分布布,对对 其其 进进 行行 校校 正正 称称 为为 连连 续续 性性 校校 正正(correction(correction for for continuity),continuity),又称又称YatesYates校正(校正(Yates correctionYates correction)。)。当当n40,而,而1T5时,用时,用连续性校正连续性校正公式公式当当n40或或T1时,用时,用Fisher精确精确检验检验(Fisher exact test)校正公式校正公式:三、连续性校正公式(三、连续性校正公式(2)因为因为1 1T T5 5,且,且n n4040时,所以应用连续性校正时,所以应用连续性校正2检验检验四、配对四格表资料的四、配对四格表资料的2检验检验配对四格表资料的配对四格表资料的2检验也称检验也称McNemar检验(检验(McNemars test)H0:b,c来自同一个实验总体(两种剂量的毒性无差异);H1:b,c来自不同的实验总体(两种剂量的毒性有差别);=0.05。配对四格表资料的配对四格表资料的2检验公式推导检验公式推导五、行列(RC)表资料的2检验RC表的2检验通用公式几种RC表的检验假设H0RC表的计算举例RC表2检验的应用注意事项 1.对RC表,若较多格子(1/5)的理论频数小于5或有一个格子的理论频数小于1,则易犯第一类错误。出现某些格子中理论频数过小时怎么办?(1)增大样本含量(最好!)(2)删去该格所在的行或列(丢失信息!)(3)根据专业知识将该格所在行或列与别的行或列合并。(丢失信息!甚至出假象)RC表2检验的应用注意事项 2.2.多多组组比比较较时时,若若效效应应有有强强弱弱的的等等级级,如如+,+,+,最最好好采采用用后后面面的的非非参参数数检检验验方方法法。2 2检检验验只只能能反反映映其其构构成成比比有有无差异,不能比较效应的平均水平。无差异,不能比较效应的平均水平。3.3.行行列列两两种种属属性性皆皆有有序序时时,可可考考虑虑趋趋势势检检验验或或等等级级相相关关分分析。析。