生物统计学第五章 检验精品文稿.ppt
生物统计学第五章 检验第1页,本讲稿共81页第五五章2 2检验检验第2页,本讲稿共81页二、二、2检验与连续型资料假设检验的区别检验与连续型资料假设检验的区别一、一、2检验的定义检验的定义三、三、2检验的用途检验的用途第3页,本讲稿共81页2 检验检验(Chi-square test)对样本的频数分布所来自的总体分布是否对样本的频数分布所来自的总体分布是否服从某种理论分布或某种假设分布所作的假设服从某种理论分布或某种假设分布所作的假设检验,即根据样本的频数分布来推断总体的分检验,即根据样本的频数分布来推断总体的分布。布。一、2检验的定义第4页,本讲稿共81页2检验与测量数据假设检验的区别检验与测量数据假设检验的区别(1)测量数据的假设检验,其数据属于连续变量,测量数据的假设检验,其数据属于连续变量,而而2 2检验的数据属于点计而来的间断变量。检验的数据属于点计而来的间断变量。第5页,本讲稿共81页 测量数据所来自的总体要求呈测量数据所来自的总体要求呈正态分布正态分布,而,而2 2检验的数据所来自的总体分布是检验的数据所来自的总体分布是未知未知的。的。2检验与测量数据假设检验的区别检验与测量数据假设检验的区别(2)第6页,本讲稿共81页 测量数据的假设检验是对总体参数或几个测量数据的假设检验是对总体参数或几个总体参数之差所进行的假设检验,而总体参数之差所进行的假设检验,而2 2 检验在检验在多数情况下不是对总体参数的检验,而是对总体分多数情况下不是对总体参数的检验,而是对总体分布的假设检验。布的假设检验。2检验与测量数据假设检验的区别检验与测量数据假设检验的区别(3)第7页,本讲稿共81页二、2检验与连续型资料假设检验的区别对总体参数或几个总体对总体参数或几个总体参数之差参数之差不是对总体参数的检不是对总体参数的检验,而是对总体分布验,而是对总体分布的假设检验的假设检验正态分布正态分布总体分布是未知的总体分布是未知的连续连续型型资料资料离散型资料离散型资料检验对象检验对象总体总体数据资料数据资料连续型资料假设检验连续型资料假设检验2 2 检验检验第8页,本讲稿共81页三、2检验的用途适合性检验适合性检验独立性检验独立性检验同质性检验同质性检验第9页,本讲稿共81页适合性检验(吻合度检验)适合性检验(吻合度检验)是指对样本的理论数先通过一定的理论分布推是指对样本的理论数先通过一定的理论分布推算出来,然后用算出来,然后用实际观测值实际观测值实际观测值实际观测值与与理论数理论数理论数理论数相比较,从而相比较,从而得出实际观测值与理论数之间是否吻合。因此又得出实际观测值与理论数之间是否吻合。因此又叫吻合度检验。叫吻合度检验。第10页,本讲稿共81页是指研究是指研究两个或两个以上两个或两个以上两个或两个以上两个或两个以上的的计数资料或属性资料计数资料或属性资料之间是相互独立的或者是相互联系的假设检验,通之间是相互独立的或者是相互联系的假设检验,通过假设所观测的各属性之间没有关联,然后证明这过假设所观测的各属性之间没有关联,然后证明这种无关联的假设是否成立。种无关联的假设是否成立。独立性检验独立性检验第11页,本讲稿共81页在连续型资料的假设检验中,对在连续型资料的假设检验中,对一个一个一个一个样本样本方差方差方差方差的同质性检验,也需进行的同质性检验,也需进行2 2 检验。检验。同质性检验同质性检验第12页,本讲稿共81页第一节:2检验的原理与方法2检验的基本原理2检验统计量的基本形式2值的特点2检验的基本步骤2检验的注意事项第13页,本讲稿共81页2 2检验检验就是统计样本的就是统计样本的实际观测值实际观测值实际观测值实际观测值与与理论推算值理论推算值理论推算值理论推算值之间的偏离程度。之间的偏离程度。实际观测值与理论推算值之间的偏离程度就决定实际观测值与理论推算值之间的偏离程度就决定其其2 2值的大小。理论值与实际值之间偏差越大,值的大小。理论值与实际值之间偏差越大,2 2值值就越大,越不符合;偏差越小,就越大,越不符合;偏差越小,2 2值就越小,越趋于值就越小,越趋于符合;若两值完全相等时,符合;若两值完全相等时,2 2值就为值就为0 0,表明理论值完,表明理论值完全符合。全符合。原理原理第14页,本讲稿共81页理论值理论值观测值观测值第15页,本讲稿共81页2检验统计量的基本形式检验统计量的基本形式2(OiEi)2 EiO实际观察的频数实际观察的频数(observational frequency)E无效假设下的期望频数无效假设下的期望频数(expectation frequency)第16页,本讲稿共81页性别性别观察值(观察值(O)理论值理论值(E)O-E公公母母428448438438-10+10合计合计8768760876只羔羊性别调察只羔羊性别调察第17页,本讲稿共81页 要回答这个问题,首先需要确定一个统计量,将要回答这个问题,首先需要确定一个统计量,将其用来表示其用来表示实际观测值实际观测值实际观测值实际观测值与与理论值理论值理论值理论值偏离的程度;然后判断偏离的程度;然后判断这一偏离程度是否属于抽样误差,即进行显著性检验。这一偏离程度是否属于抽样误差,即进行显著性检验。判断实际观测值与理论值偏离的程度,最简单判断实际观测值与理论值偏离的程度,最简单的办法是求出实际观测值与理论值的的办法是求出实际观测值与理论值的差数差数差数差数。第18页,本讲稿共81页性别性别观察值(观察值(O)理论值理论值(E)O-E公公母母428448438438-10+10合计合计876876羔羊性别观察值与理论值羔羊性别观察值与理论值 由于差数之和正负相消,并不能反映实际观由于差数之和正负相消,并不能反映实际观测值与理论值相差的大小。测值与理论值相差的大小。0第19页,本讲稿共81页为了避免正、负相抵消的问题,可将实际观为了避免正、负相抵消的问题,可将实际观测值与理论值的差数平方后再相加,也就是计算:测值与理论值的差数平方后再相加,也就是计算:(O OE E)2 2O实际观察的频数实际观察的频数E无效假设下的期望频数无效假设下的期望频数第20页,本讲稿共81页羔羊性别观测值与理论值羔羊性别观测值与理论值性别性别观测值(观测值(O)理论值理论值(E)O-E(OE)2 公公母母428448438438-10+10100100合计合计8768760第21页,本讲稿共81页 值越大,观测值与理论值相差也就越大,值越大,观测值与理论值相差也就越大,反之越小。反之越小。第22页,本讲稿共81页200200元元0 0元元奖学金奖学金一等一等三等三等10元元10元元实际得到实际得到190190元元实际得到实际得到6060元元5 51414第23页,本讲稿共81页两组差数虽然相同,但其差数占理论值的两组差数虽然相同,但其差数占理论值的比重比重不同。不同。等级等级观测值观测值(O)理论理论(E)O-E(OE)2一等一等三等三等1906020070-10-10100100第24页,本讲稿共81页 为了弥补这一不足,可先将实际观测值与理论值的差为了弥补这一不足,可先将实际观测值与理论值的差数数平方平方平方平方,即(,即(O OE E)2 2,再用差数的平方除以相应的理,再用差数的平方除以相应的理论值,将之化为相对数,从而来反映(论值,将之化为相对数,从而来反映(O OE E)2 2 的的比重,最后将各组求和,这个总和就是比重,最后将各组求和,这个总和就是2 2 。第25页,本讲稿共81页羔羊性别观测值与理论值羔羊性别观测值与理论值性别性别观测值观测值(O)理论值理论值(E)O-E(OE)2/E公公母母428448438438-10+100.22830.2283合计合计87687600.45662(OiEi)2 Ei2值就等于各组观测值值就等于各组观测值和理论值差的平方与理论和理论值差的平方与理论值之比,再求其和。值之比,再求其和。第26页,本讲稿共81页2值的特点值的特点2(OiEi)2 Ei第27页,本讲稿共81页2 2值与概率值与概率P P成反比,成反比,2 2值越小,值越小,P P值越大,说值越大,说明实际值与理论值之差越小,样本分布与假设的理论明实际值与理论值之差越小,样本分布与假设的理论分布越相一致分布越相一致;2 2越大,越大,P P值越小,说明两者之差越大,样本分值越小,说明两者之差越大,样本分布与假设理论分布越不一致。布与假设理论分布越不一致。第28页,本讲稿共81页观测值与理论值的差异由抽样误差引起,即观测观测值与理论值的差异由抽样误差引起,即观测值理论值。同时给出相就的备择假设值理论值。同时给出相就的备择假设H HA A :观测值:观测值与理论值的差值不等于与理论值的差值不等于0 0,即观测值,即观测值理论值理论值一般确定为一般确定为0.050.05或或0.010.011.1.提出无效假设提出无效假设H H0 0基本步骤2.2.确定显著水平确定显著水平第29页,本讲稿共81页3.3.计算样本的计算样本的2 2值值4.4.进行统计推断进行统计推断2 2 P 2 2 2 2P P 2 2P P P 2 2 2 2第52页,本讲稿共81页给药方式给药方式有效有效无效无效总数总数有效率有效率口服口服注射注射585864644040313198(98(R R1 1)95(95(R R2 2)59.259.267.467.4总数总数122(122(C C1 1)71(71(C C2 2)193(193(T T)给药方式与给药效果的给药方式与给药效果的2222列联表列联表1.H1.H0 0 :给药方式与给药效果相互独立。:给药方式与给药效果相互独立。H HA A :给药方式与给药效果有关联。:给药方式与给药效果有关联。2.2.给出显著水平给出显著水平0.050.05第53页,本讲稿共81页3.3.根据根据H H0 0,运用概率乘法法则:事件,运用概率乘法法则:事件A A与事件与事件B B同时出现的概同时出现的概率为:率为:P(AB)=P(A)P(B)P(AB)=P(A)P(B)口服与有效同时出现的理论频率口服频率口服与有效同时出现的理论频率口服频率有效频率,有效频率,即即P(AB)=P(A)P(B)P(AB)=P(A)P(B)98/193 122/19398/193 122/193理论频数理论频数EiEi理论频率理论频率总数总数(98/193 122/193)193(98/193 122/193)193(98 12298 122)/193=61.95/193=61.95即即E EijijR Ri iCCj j/T=/T=行总数行总数列总数列总数/总数总数第54页,本讲稿共81页E E1111=R=R1 1 C C1 1/T=61.95 E/T=61.95 E1212=R=R1 1 C C2 2/T=36.05/T=36.05E E2121=R=R2 2 C C1 1/T=60.05 E/T=60.05 E2222=R=R2 2 C C2 2/T=34.95/T=34.95给药方式给药方式有效有效无效无效总数总数口服口服注射注射58(58(61.9561.95)64(64(60.0560.05)40(40(36.0536.05)31(31(34.9534.95)98(98(R R1 1)95(95(R R2 2)总数总数122(122(C C1 1)71(71(C C2 2)193(193(T T)给药方式与给药效果的给药方式与给药效果的2222列联表列联表第55页,本讲稿共81页计算计算2 2值值:由于:由于df=(r-1)(c-1)=(2-1)(2-1)=1df=(r-1)(c-1)=(2-1)(2-1)=1,故,故所计算的所计算的2 2值需进行连续性矫正:值需进行连续性矫正:给药方式给药方式有效有效无效无效总数总数口服口服注射注射58(58(61.9561.95)64(64(60.0560.05)40(40(36.0536.05)31(31(34.9534.95)98(98(R R1 1)95(95(R R2 2)总数总数122(122(C C1 1)71(71(C C2 2)193(193(T T)第56页,本讲稿共81页4.4.查查2 2表,当表,当df=1df=1时,时,2 20.050.05 3.8413.841,而,而2 2c c =0.863=0.863 2 20.050.05 ,P P0.050.05,应接受,应接受H H0 0 ,拒绝,拒绝H HA A ,说明给药方式与给药效果相互独立,说明给药方式与给药效果相互独立.第57页,本讲稿共81页2 22 2列联列联表的表的2 2检验可利用以下简式而不必计算理检验可利用以下简式而不必计算理论次数:论次数:T/2T/2为矫正数为矫正数第58页,本讲稿共81页给药方式给药方式有效有效无效无效总数总数口服口服注射注射585864644040313198(98(R R1 1)95(95(R R2 2)总数总数122(122(C C1 1)71(71(C C2 2)193(193(T T)第59页,本讲稿共81页(二)(二)2c2c列联表的独立性检验列联表的独立性检验 行行 列列 1 12 2C C合计合计1 12 2O O1111O O2121O O1212O O2222O O1c1cO O2c2cR R1 1R R2 2合计合计C C1 1C C2 2C Cc cT T2c2c列联表的一般形式列联表的一般形式由于由于df=(2-1)(c-1)2df=(2-1)(c-1)2,故计算值时不需作连续性矫正,故计算值时不需作连续性矫正第60页,本讲稿共81页检测甲、乙、丙三种农药对烟蚜的毒杀效果,结果检测甲、乙、丙三种农药对烟蚜的毒杀效果,结果如下,使分析这三种农药对烟蚜的毒杀效果是否一如下,使分析这三种农药对烟蚜的毒杀效果是否一致?致?甲甲乙乙丙丙合计合计死亡数死亡数未死亡数未死亡数3737150150494910010023235757109109307307合计合计1871871491498080416416三种农药毒杀烟蚜的死亡情况三种农药毒杀烟蚜的死亡情况例子例子第61页,本讲稿共81页1.1.H H0 0 :对烟蚜毒杀效果与农药无关,农药类型间互:对烟蚜毒杀效果与农药无关,农药类型间互相独立;相独立;H HA A :二者有关:二者有关2.2.取显著水平取显著水平0.050.053.3.统计数的计算统计数的计算第62页,本讲稿共81页第63页,本讲稿共81页理论值的计算:理论值的计算:甲甲乙乙丙丙合计合计死亡数死亡数未死亡数未死亡数3737(49.00)(49.00)150150(138.00(138.00)4949(39.04)(39.04)100100(109.96(109.96)2323(20.96)(20.96)5757(59.04)(59.04)109109307307合计合计18718714914980804164162 2值的计算:值的计算:第64页,本讲稿共81页(4 4)查)查2 2值表,进行推断值表,进行推断查查2 2表,当表,当df=(2-1)(3-1)=2df=(2-1)(3-1)=2时,时,2 20.05 0.05 5.995.99,现,现实得实得2 27.6947.6942 20.05 0.05,则拒绝,则拒绝H H0 0 ,接受,接受H HA A ,说明三,说明三种农药对烟蚜的毒杀效果不一致。种农药对烟蚜的毒杀效果不一致。第65页,本讲稿共81页简便计算公式简便计算公式甲甲乙乙丙丙合计合计死亡数死亡数未死亡数未死亡数3737(49.00)(49.00)150150(138.00(138.00)4949(39.04)(39.04)100100(109.96(109.96)2323(20.96)(20.96)5757(59.04)(59.04)109109307307合计合计1871871491498080416416第66页,本讲稿共81页第67页,本讲稿共81页(三)(三)rcrc列联表的独立性检验列联表的独立性检验 行行 列列 1 12 2C C合计合计1 12 2r rO O1111O O2121O Or1r1O O1212O O2222O Or2r2O O1c1cO O2c2cO OrcrcR R1 1R R2 2R Rc c合计合计C C1 1C C2 2C Cc cT T rc列联表是指列联表是指r3、c 3的计数资料,上表是的计数资料,上表是rc列联列联表的一般形式。表的一般形式。df=(r-1)(c-1)1,故不需进行连续性矫,故不需进行连续性矫正。正。第68页,本讲稿共81页rcrc列联表的计算公式:列联表的计算公式:i=1,2,r j=1,2,c第69页,本讲稿共81页例例某医院用碘及治疗地方性甲状腺肿,不同某医院用碘及治疗地方性甲状腺肿,不同年龄的治疗效果列于下表,试检验不同年龄的年龄的治疗效果列于下表,试检验不同年龄的治疗效果有无差异?治疗效果有无差异?年龄(岁)年龄(岁)治愈治愈显效显效好转好转无效无效合计合计11113030313150505050以上以上6767323210109 9232311111010202023235 54 45 5919179794949合计合计109109434353531414219219不同年龄用碘剂治疗甲状腺肿效果比较不同年龄用碘剂治疗甲状腺肿效果比较第70页,本讲稿共81页1.H0:治疗效果与年龄无关;:治疗效果与年龄无关;HA:治疗效果与年龄:治疗效果与年龄有关,即不同年龄治疗效果不同;有关,即不同年龄治疗效果不同;2.给出显著水平给出显著水平0.010.01第71页,本讲稿共81页3.3.计算统计数计算统计数2:年龄(岁)年龄(岁)治愈治愈显效显效好转好转无效无效 合计合计11113030313150505050以上以上6767323210109 9232311111010202023235 54 45 5919179794949合计合计109109434353531414219219第72页,本讲稿共81页4.查查2表,当表,当df=(3-1)(4-1)6时,时,20.0116.81,所以所以246.98820.01,P0.01,应拒绝,应拒绝H0,接受,接受HA,说明治疗效果与年龄有关。,说明治疗效果与年龄有关。第73页,本讲稿共81页 在治疗效果与年龄有关的基础上,可以将下面的在治疗效果与年龄有关的基础上,可以将下面的34列联表做成列联表做成3个24列联表,测验列联表,测验2个年龄段疗效的差个年龄段疗效的差异:异:11113030岁与岁与31315050岁两个年龄段疗效的比较岁两个年龄段疗效的比较11113030岁与岁与5050岁以上两个年龄段疗效的比较岁以上两个年龄段疗效的比较31315050岁与岁与5050岁以上两个年龄段疗效的比较岁以上两个年龄段疗效的比较第74页,本讲稿共81页(1)(1)11113030岁岁与与31315050岁岁两个年龄段疗效的比较两个年龄段疗效的比较年龄(岁)年龄(岁)治愈治愈显效显效 好转好转 无效无效 合计合计1111303031315050676732329 92323101020205 54 491917979合计合计9999323230309 9170170第75页,本讲稿共81页(2)(2)11113030岁岁与与5050岁以上岁以上两个年龄段疗效的比较两个年龄段疗效的比较年龄(岁)年龄(岁)治愈治愈显效显效 好转好转 无效无效 合计合计111130305050以上以上676710109 91111101023235 55 591914949合计合计7777202033331010140140第76页,本讲稿共81页(3)(3)31315050岁岁与与5050岁岁以上两个年龄段疗效的比较以上两个年龄段疗效的比较年龄(岁)年龄(岁)治愈治愈显效显效 好转好转 无效无效 合计合计313150505050以上以上3232101023231111202023234 45 579794949合计合计4242343443439 9128128第77页,本讲稿共81页11113030岁与岁与31315050岁两个年龄段疗效的比较岁两个年龄段疗效的比较 2 2 21.20221.202(极显著极显著)11113030岁与岁与5050岁以上两个年龄段疗效的比较岁以上两个年龄段疗效的比较2 2 38.3738.37(极显著极显著)31315050岁与岁与5050岁以上两个年龄段疗效的比较岁以上两个年龄段疗效的比较2 2 9.5749.574(显著显著)df=(2-1)(4-1)=3 df=(2-1)(4-1)=3 2 20.050.05=7.81 =7.81 2 20.010.01=11.34=11.34 第78页,本讲稿共81页小结小结适合性检验适合性检验2检验检验独立性检验独立性检验多组资料多组资料显隐性显隐性两组资料两组资料22列联表列联表2c列联表列联表rc列联表列联表第79页,本讲稿共81页多组资料多组资料显隐性显隐性两组资料两组资料r:m第80页,本讲稿共81页22列联表列联表2c列联表列联表rc列联表列联表第81页,本讲稿共81页