第七章、卡方检验优秀PPT.ppt
《第七章、卡方检验优秀PPT.ppt》由会员分享,可在线阅读,更多相关《第七章、卡方检验优秀PPT.ppt(74页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、医学统计学医学统计学 福医卫生统计系福医卫生统计系福医卫生统计系福医卫生统计系 林征林征林征林征 2013.112013.11 第七章第七章.卡方检验卡方检验 Chapter VII.Chi-square Test1第七章提纲第七章提纲卡方分布的基本学问卡方分布的基本学问一般四格表资料卡方检验一般四格表资料卡方检验配对四格表资料卡方检验配对四格表资料卡方检验行行*列表资料卡方检验列表资料卡方检验多个样本率间的多重比较多个样本率间的多重比较有序分组资料的线性趋势检验有序分组资料的线性趋势检验2第一节第一节.卡方分布卡方分布*设随机变量设随机变量u1,u2,uk,相互独立,且都听从标准正态,相互独
2、立,且都听从标准正态分布分布N(0,1)。那么,我们将。那么,我们将k个独立标准正态变量的平方个独立标准正态变量的平方和称为卡方变量,它满足自由度为和称为卡方变量,它满足自由度为的卡方分布,记为:的卡方分布,记为:卡方分布卡方分布*假如随机变量假如随机变量X满足以下概率密度函数,满足以下概率密度函数,则称其满足自由度为则称其满足自由度为的卡方分布的卡方分布卡方分布图形卡方分布图形*卡方分布图形卡方分布图形*卡方分布的卡方分布的特征特征*卡方分布的曲线下面积定义卡方分布的曲线下面积定义当当 确定后,卡方分布曲线下右侧尾部的确定后,卡方分布曲线下右侧尾部的面积为面积为a时,横轴上相应的卡方值,记为
3、时,横轴上相应的卡方值,记为c2a,n,如下图,如下图;实际应用时,可依据实际应用时,可依据 由附由附表表8查得查得假如假如c2 c2a,n,曲线下面积小于,曲线下面积小于a;反之则;反之则大于大于a 2(,)卡方分布卡方分布*1875年,年,F.Helmet得出:来自正态总体的样本方得出:来自正态总体的样本方差的分布听从卡方分布:差的分布听从卡方分布:因此卡方分布可用于总体方差的区间估计:因此卡方分布可用于总体方差的区间估计:卡方分布也可用于样本方差与总体方差比较的假卡方分布也可用于样本方差与总体方差比较的假设检验设检验S2与与2比较的假设检验比较的假设检验*从一正态总体中抽样,样本方差从一
4、正态总体中抽样,样本方差s2并不总等于总并不总等于总体方差体方差2,二者间存在抽样误差;这种抽样误差,二者间存在抽样误差;这种抽样误差存在统计规律存在统计规律依据样本方差的分布规律有:依据样本方差的分布规律有:H0:H0:样原来源的总体方差为样原来源的总体方差为样原来源的总体方差为样原来源的总体方差为0202Pearson卡方检验卡方检验1900年年K.Pearson又从检验分布的拟合优度又从检验分布的拟合优度(goodness of fit)中也发觉了卡方分布可用于检验中也发觉了卡方分布可用于检验资料的实际频数和理论频数是否相符等问题:资料的实际频数和理论频数是否相符等问题:Karl.Pea
5、rsonCarl Pearson or Karl Pearson(1857-1936)Journal BiometrikaPearson product-moment correlation coefficient、Linear regression、Pearsons chi-square test12 Goodness of fit test*YY RR YY RR yy rryy rr减数分裂后的配子减数分裂后的配子减数分裂后的配子减数分裂后的配子Y RY Ry ry r F1F1P P杂交,等位基因分别杂交,等位基因分别杂交,等位基因分别杂交,等位基因分别Y Yy y R Rr rY Y
6、y y R Rr rGoodness of fit test*Y Y y y R R r rY Y y y R R r r 两种基因独立分配两种基因独立分配两种基因独立分配两种基因独立分配YRYR yRyR YrYr yryr F1F1配子配子配子配子Goodness of fit test*YRYR yRyR YrYr yryr F2 F2YRYR yRyR yryr YrYr yyyyRRRR yyyyR Rr r yyyyR Rr r YYRR YYRR Y Yy yRRRR Y Yy yR Rr r YYR YYRr r Y Yy yRRRR Y Yy yR Rr r YYR YYRr
7、 r Y Yy yR Rr r Y Yy yR Rr r yyrryyrr Y Yyrryrr Y Yyrryrr YY YYrrrr :=9:3:3:1=9:3:3:1Goodness of fit test*在两对遗传因子的试验中,在两对遗传因子的试验中,F2的四种表型见下表,问该结的四种表型见下表,问该结果能否满足果能否满足Mendel关于关于F2的的9:3:3:1规律?规律?假设满足上述规律,则不难求出假设满足上述规律,则不难求出2500株植物中各种表型的株植物中各种表型的理论频数理论频数T表型表型表型表型Y-R-Y-R-Y-rrY-rryyR-yyR-yyrryyrr合计合计合计合计
8、观察频数观察频数观察频数观察频数126012606256256106105 525002500理论频数理论频数理论频数理论频数1406.251406.25468.75468.75468.75468.75156.25156.2525002500Goodness of fit test*将实际频数将实际频数A与对应的理论频数与对应的理论频数T代入公式得:代入公式得:表型表型表型表型Y-R-Y-R-Y-rrY-rryyR-yyR-yyrryyrr合计合计合计合计观察频数观察频数观察频数观察频数126012606256256106105 525002500理论频数理论频数理论频数理论频数1406.25
9、1406.25468.75468.75468.75468.75156.25156.2525002500Goodness of fit test*本例中有四个实际频数,其中受到总频数为本例中有四个实际频数,其中受到总频数为2500的限制,因此能够自由取值的仅有的限制,因此能够自由取值的仅有4-1=3个,所以个,所以自由度自由度=3查表得查表得20.05,3=7.81,故在,故在=0.05的水准上拒绝的水准上拒绝H0,接受,接受H1;认为该批植物的两种遗传因子不;认为该批植物的两种遗传因子不满足满足9:3:3:1的遗传定律;可能出现连锁遗传的遗传定律;可能出现连锁遗传Goodness of fit
10、 test在课文在课文P96、P126中,具体阐述了如何运用卡方中,具体阐述了如何运用卡方检验推断某现象的频数分布是否满足特定的概率检验推断某现象的频数分布是否满足特定的概率分布分布例如资料是否满足正态分布、二项分布、例如资料是否满足正态分布、二项分布、Poisson等医学探讨中常见的概率分布等医学探讨中常见的概率分布Goodness of fit test阳性例数阳性例数阳性例数阳性例数x x出现户数出现户数出现户数出现户数A A理论概率理论概率理论概率理论概率P(X)P(X)理论户数理论户数理论户数理论户数T=P(x)82T=P(x)820 026260.132650.1326510.87
11、7410.87741 110100.382350.3823531.352531.35252 228280.367350.3673530.122930.12293 318180.117650.117659.64729.6472合计合计合计合计82821.00001.000082.000082.0000其次节其次节.一般四格表的卡方检验一般四格表的卡方检验一般四格表的一般四格表的2检验可用于:检验可用于:两个样本率间的比较两个样本率间的比较两个二分类变量间关联度分析两个二分类变量间关联度分析*21卡方检验的基本思想卡方检验的基本思想某中药在变更剂型前治疗某中药在变更剂型前治疗152例,治愈例,治愈
12、129例;变更剂例;变更剂型后又视察型后又视察130例,治愈例,治愈101例,变更剂型前后的疗效例,变更剂型前后的疗效是否不同?是否不同?组别组别疗效疗效合计合计(有效率有效率)治愈治愈未愈未愈旧剂型旧剂型12923152(84.9%)新剂型新剂型10129130(77.7%)合计合计2305228222一般四格表的卡方检验一般四格表的卡方检验在表格中有两组,每组的结果为二分类结果在表格中有两组,每组的结果为二分类结果(22),这样的表格称为四格表,其通用格式表),这样的表格称为四格表,其通用格式表达如下:达如下:23卡方检验的基本思想卡方检验的基本思想从表中可见两剂型的治愈率不相同,那么这从
13、表中可见两剂型的治愈率不相同,那么这种差别原委是由于抽样误差还是由于不同剂种差别原委是由于抽样误差还是由于不同剂型疗效的确有差别?型疗效的确有差别?不妨假设两剂型的疗效是相同的,那么此时不妨假设两剂型的疗效是相同的,那么此时两种剂型的疗效之差仅仅来源于抽样误差两种剂型的疗效之差仅仅来源于抽样误差24卡方检验的基本思想卡方检验的基本思想既然假设两剂型的总体疗效相同,可以考虑将既然假设两剂型的总体疗效相同,可以考虑将两组样本资料合并,计算一个两组样本资料合并,计算一个“合计率合计率”,作,作为总体率的估计为总体率的估计两剂型的合计治愈率两剂型的合计治愈率Pc=230/282=81.56%在此合计治
14、愈率的状况下,治疗在此合计治愈率的状况下,治疗152例患者应当例患者应当有有Pc152=124.0例治愈,例治愈,(1-Pc)152=28.0例未例未愈;同理假如治疗愈;同理假如治疗130例患者,应当有例患者,应当有106.1例例有效,有效,23.9例无效例无效将上述数据称为疗效的理论数,据此可推算其将上述数据称为疗效的理论数,据此可推算其余数据的理论频数余数据的理论频数25一般四格表卡方检验一般四格表卡方检验26卡方检验的基本思想卡方检验的基本思想组别组别疗效疗效合计合计治愈治愈(理论治愈理论治愈)未愈未愈(理论未愈理论未愈)旧剂型旧剂型129(124.0)23(28.0)152新剂型新剂型
15、101(106.1)29(23.9)130合计合计2305228227卡方检验的基本思想卡方检验的基本思想从表中可见,疗效的理论数(依据假设两总体从表中可见,疗效的理论数(依据假设两总体疗效相同得到)与实际人数存在差别疗效相同得到)与实际人数存在差别假如我们的假设成立的话,这种差别属于抽样假如我们的假设成立的话,这种差别属于抽样误差,应当不会很大;反之,假如这种差别很误差,应当不会很大;反之,假如这种差别很悬殊,则因该怀疑原假设不成立悬殊,则因该怀疑原假设不成立如何评价如何评价“悬殊悬殊”与与“不悬殊不悬殊”?28卡方检验的基本思想卡方检验的基本思想卡方检验基本公式:卡方检验基本公式:理论数与
16、实际数间的差距可为正亦可为负,因此须要理论数与实际数间的差距可为正亦可为负,因此须要对二者之差取平方,而后再累加对二者之差取平方,而后再累加如前所述,比较两组数据变异程度,干脆比较标准差如前所述,比较两组数据变异程度,干脆比较标准差是不合理的,因为两组数据的均数可能差距甚大或单是不合理的,因为两组数据的均数可能差距甚大或单位不同位不同例如:例如:A=303,T=300,A-T=3;A=33,T=30,A-T=3;因此仅有;因此仅有(A-T)2尚不足以说明二者间不吻合的尚不足以说明二者间不吻合的程度,须要对程度,须要对A与与T间的差距作间的差距作“标准化标准化”或或“相对相对化化”29卡方检验的
17、基本思想卡方检验的基本思想如何对如何对A与与T间的差距作间的差距作“相对化相对化”或或“标准化标准化”?最直观的方法就是将离差的平方除于一个频数最直观的方法就是将离差的平方除于一个频数实际频数实际频数A或理论频数或理论频数T最终将其除于最终将其除于T可有以下几点说明:可有以下几点说明:为了避为了避开开A=0时除式没有意义的状况,时除式没有意义的状况,实际频数实际频数A即使在样本含量相同的状况下,仍将随不同抽即使在样本含量相同的状况下,仍将随不同抽样变更;而样变更;而T无此问题,比无此问题,比A稳定,用其作为分稳定,用其作为分母更稳健也更具代表性母更稳健也更具代表性30卡方检验的基本思想卡方检验
18、的基本思想此外,卡方计算公式中每项均非负,因此卡方此外,卡方计算公式中每项均非负,因此卡方值的大小不仅取决于值的大小不仅取决于A与与T间的相对差距,还取间的相对差距,还取决于累加项数的多少决于累加项数的多少因此需对累加项数作调整,引入因此需对累加项数作调整,引入“自由度自由度”的的概念概念在列联表资料中(四格表也是一种列联表),在列联表资料中(四格表也是一种列联表),自由度可以简洁地表达为自由度可以简洁地表达为(行数行数-1)(列数列数-1),即,即(R-1)(C-1);其含义为列联表中除行、列合计值;其含义为列联表中除行、列合计值外可以自由取值的格子个数(或总自由度外可以自由取值的格子个数(
19、或总自由度-行合行合计自由度计自由度-列合计自由度)列合计自由度)31卡方检验的基本思想卡方检验的基本思想假如假设成立,实际数与理论数的差距应当较假如假设成立,实际数与理论数的差距应当较小,依据上式计算的卡方值因该接近小,依据上式计算的卡方值因该接近0,假如卡,假如卡方值远离方值远离0则应当拒绝原假设则应当拒绝原假设卡方值满足卡方分布,求得相应卡方值的曲线卡方值满足卡方分布,求得相应卡方值的曲线下面积就可以得到下面积就可以得到P值,进而作结论值,进而作结论可见卡方检验的基本原理就是分析实际频数与可见卡方检验的基本原理就是分析实际频数与依据假设构建的理论频数间的吻合程度(拟合依据假设构建的理论频
20、数间的吻合程度(拟合度)度)32一般四格表卡方检验一般四格表卡方检验H0:两总体率相同:两总体率相同 H1:两总体率不同:两总体率不同=0.05 2=(A-T)2/T计算卡方值为计算卡方值为2.428自由度自由度v=(R-1)(C-1)=1,即四个格子中可自由取即四个格子中可自由取值的个数;本例中,由于行列的合计值固定,值的个数;本例中,由于行列的合计值固定,所以四个格子中只有一个可自由取值,故所以四个格子中只有一个可自由取值,故v=1查表得:查表得:2 20.05,10.05,1=3.84,所以,所以P0.05,在,在=0.05的水准上不拒绝的水准上不拒绝H0,尚不认为两种剂,尚不认为两种剂
21、型的治愈率不同型的治愈率不同33关于四格表卡方检验的一些说明关于四格表卡方检验的一些说明如前所述,卡方分布是连续的;然而如前所述,卡方分布是连续的;然而理论数的取值却是不连续的;因此本理论数的取值却是不连续的;因此本章节的公式章节的公式7-1是对卡方的近似公式,是对卡方的近似公式,其运用效能受到理论数大小的制约其运用效能受到理论数大小的制约34Yates correction for continuity 由离散型资料按卡方检验公式式算得的卡方值均有由离散型资料按卡方检验公式式算得的卡方值均有偏大的趋势(使得我们偏向于拒绝原假设),尤其偏大的趋势(使得我们偏向于拒绝原假设),尤其是当自由度是当
22、自由度=1 而且理论数较小时,偏差较大而且理论数较小时,偏差较大Frank Yates(1934)提出对四格表卡方值进行连续)提出对四格表卡方值进行连续性矫正性矫正矫正后的卡方值记为矫正后的卡方值记为 2c35四格表卡方检验的理论数要求四格表卡方检验的理论数要求当理论频数当理论频数T有有T5,而且,而且n40时,卡方公时,卡方公式不须要校正,干脆运用式不须要校正,干脆运用当理论频数当理论频数T有有1T5,而且,而且n40时,须时,须要校正,或者用精确概率法计算概率值要校正,或者用精确概率法计算概率值当理论频数当理论频数T有有T1,或者,或者n40时,只可时,只可用精确概率法计算概率值用精确概率
23、法计算概率值36四格表卡方检验专用公式四格表卡方检验专用公式原始卡方公式须要计算理论数,略显麻烦原始卡方公式须要计算理论数,略显麻烦在四格表资料中,可以运用专用公式,省略计算理在四格表资料中,可以运用专用公式,省略计算理论数的过程论数的过程专用公式如下:专用公式如下:37四格表卡方检验专用公式校正四格表卡方检验专用公式校正若有若有1T5,而且,而且n40时,该专用公式同样须时,该专用公式同样须要校正要校正38四格表卡方检验的校正四格表卡方检验的校正将病情相像的淋巴系统肿瘤患者随机分成两组,分别作将病情相像的淋巴系统肿瘤患者随机分成两组,分别作单纯化疗与复合化疗,缓解状况见下表,问两疗法的缓单纯
24、化疗与复合化疗,缓解状况见下表,问两疗法的缓解状况是否不同?解状况是否不同?化疗化疗方法方法缓解情况缓解情况合计合计缓解缓解(理论缓解理论缓解)未缓解未缓解(理论未缓解理论未缓解)单纯化疗单纯化疗2(4.8)10(7.2)12复合化疗复合化疗14(11.2)14(16.8)28合计合计16244039四格表卡方检验的校正四格表卡方检验的校正在上表中最小的理论数应当是在上表中最小的理论数应当是“单纯化疗单纯化疗”“缓解缓解”所对应,因为它所对应的行、列合计值最小;所对应,因为它所对应的行、列合计值最小;2所所对应的理论数为对应的理论数为4.8,小于,小于5,而且例数不小于,而且例数不小于40,所
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 第七 检验 优秀 PPT
限制150内