第六章卡方检验优秀PPT.ppt
《第六章卡方检验优秀PPT.ppt》由会员分享,可在线阅读,更多相关《第六章卡方检验优秀PPT.ppt(66页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、第六章卡方检验第一页,本课件共有66页本章主要介绍卡方检验的基本概念、独立性本章主要介绍卡方检验的基本概念、独立性检验方法、适合性检验方法检验方法、适合性检验方法第二页,本课件共有66页在科研工作和实际生产中,我们经常会碰到许多质量在科研工作和实际生产中,我们经常会碰到许多质量性状方面的资料,这些资料可以转化成百分率后使性状方面的资料,这些资料可以转化成百分率后使用用 t-test 方法进行检验,但这仅限于一个样本率与总方法进行检验,但这仅限于一个样本率与总体率的比较、两个样本率间的比较体率的比较、两个样本率间的比较除此之外,我们还可以用除此之外,我们还可以用 检验来完成检验工作检验来完成检验
2、工作特别当有多个样本进行比较时,必须用特别当有多个样本进行比较时,必须用 检验来完检验来完成成第三页,本课件共有66页第一节第一节 检验的意义和原理概念检验的意义和原理概念第四页,本课件共有66页遗传学中,研究某一性状是否受一对等位基因的控制,该性状在后代的分遗传学中,研究某一性状是否受一对等位基因的控制,该性状在后代的分离比例是否符合某种规律离比例是否符合某种规律例例1 孟德尔的豌豆花试验(红花孟德尔的豌豆花试验(红花 705朵、白花朵、白花 224朵),这一朵),这一分离是否符合分离是否符合3:1的分离比例的假设?的分离比例的假设?如果这一如果这一 3:1 的理论比例是正确的,那么这一试验
3、所出现的红花的理论比例是正确的,那么这一试验所出现的红花和白花的理论比例应当是:和白花的理论比例应当是:红花:红花:696.75 白花:白花:232.25显然,实际出现的红花、白花的朵数与理论值之间有一定的差异,显然,实际出现的红花、白花的朵数与理论值之间有一定的差异,即即observed frequency和和expected frequency(如何用(如何用 t-test来完成这一检验?)来完成这一检验?)第五页,本课件共有66页连续进行多次试验,每一次的结果都不会相同,每连续进行多次试验,每一次的结果都不会相同,每一次的结果都不会刚好符合理论值一次的结果都不会刚好符合理论值可以这样设想
4、:观察值与理论值之间的差距可以这样设想:观察值与理论值之间的差距越小越小,表,表示试验结果与理论值越示试验结果与理论值越相符相符;反之,观察值与理论;反之,观察值与理论值之间的距离值之间的距离越大越大,表示试验结果与理论值越,表示试验结果与理论值越不符不符,当这一差值大到一定程度时,我们就可以认为豌豆花当这一差值大到一定程度时,我们就可以认为豌豆花的颜色是不受一对等位基因控制的,可能是另外一种的颜色是不受一对等位基因控制的,可能是另外一种遗传模式遗传模式但如何来但如何来界定界定这种相符或不相符?这种相符或不相符?第六页,本课件共有66页从数据上看,从数据上看,实际观实际观察次数与理察次数与理论
5、论次数存在次数存在一定的差异,一定的差异,这这个差异是属于个差异是属于抽抽样误样误差差、还还是是性性状在后代的分离比例状在后代的分离比例发发生了生了实质实质性的性的变变化化?要回答这个问题,要回答这个问题,首先需要确定一个统计首先需要确定一个统计量用以表示实际观察次数与理论次数偏离的量用以表示实际观察次数与理论次数偏离的程度程度;然后判断这一偏离程度是否属于抽样;然后判断这一偏离程度是否属于抽样误差,即进行显著性检验。误差,即进行显著性检验。第七页,本课件共有66页为为了度量了度量实际观实际观察次数与理察次数与理论论次数偏离的程度,最次数偏离的程度,最简单简单的的办办法是求出法是求出实际观实际
6、观察次数与理察次数与理论论次数的差数。次数的差数。当将这两个差值当将这两个差值相加相加,(,(705-696.75)+(224-232.25)=0。可以说,任何。可以说,任何类似的问题其类似的问题其结果都是结果都是 0。为为了避免正、了避免正、负负抵消,可将两个差数平方后再相加,即抵消,可将两个差数平方后再相加,即计计算算(O-E)2,且由于平且由于平方,使得原来较大的差变得更大了,因而增大了分析问题的灵敏性方,使得原来较大的差变得更大了,因而增大了分析问题的灵敏性但利用但利用(O-E)2表示表示实际观实际观察次数与理察次数与理论论次数的偏离程度尚有不足。未考次数的偏离程度尚有不足。未考虑虑观
7、察次数(与理论次数)的大小对偏离程度的影响。为了弥补这一不足,可先将观察次数(与理论次数)的大小对偏离程度的影响。为了弥补这一不足,可先将各差数平方除以相应的理论次数后再相加(转化为相对比值)并记之为,即各差数平方除以相应的理论次数后再相加(转化为相对比值)并记之为,即第八页,本课件共有66页上例中:红花:上例中:红花:白花:白花:两者之和:两者之和:=值值越小越小,表示试验结果与理论值越,表示试验结果与理论值越相符相符;反之,反之,越大越大,表示试验结果与理论值越,表示试验结果与理论值越不符不符,第九页,本课件共有66页分布分布 是一种连续型分布,可用于检验是一种连续型分布,可用于检验资料的
8、实际频数和按检验假设计算的资料的实际频数和按检验假设计算的理论频数是否相符等问题。早在理论频数是否相符等问题。早在1875年,年,F.Helmet即得出来自正态总体即得出来自正态总体的样本方差的分布服从卡方分布。的样本方差的分布服从卡方分布。1900年,年,K.Pearson也独立地从检验也独立地从检验分布的拟合优度发现这一相同的卡方分布的拟合优度发现这一相同的卡方分布。分布。Karl Pearson(1857-1936)第十页,本课件共有66页 2分布分布 2分布的概率密度函数:分布的概率密度函数:第十一页,本课件共有66页 2 2分布分布 2分布的概率密度函数:分布的概率密度函数:第十二页
9、,本课件共有66页 连续性校正连续性校正 由于由于2 2分布是连续性分布,被检验的资料是离散型的分类资分布是连续性分布,被检验的资料是离散型的分类资料,而从离散型资料得到的统计量只是近似地服从料,而从离散型资料得到的统计量只是近似地服从2 2分布,分布,因此,为了保证有足够的近似程度,一般要求:因此,为了保证有足够的近似程度,一般要求:自由度必须大于自由度必须大于 1理论频数不少于理论频数不少于 5若某组的理论次数小于若某组的理论次数小于5,则应把它与其相邻的,则应把它与其相邻的一组或几组合并,直到理论次数大于一组或几组合并,直到理论次数大于5为止为止。当自由度大于当自由度大于1时,时,分布与
10、连续型随机变量分布与连续型随机变量分布相近似,这时,可不作连续性矫正,分布相近似,这时,可不作连续性矫正,但要求各组内的理论次数不小于但要求各组内的理论次数不小于5。第十三页,本课件共有66页当自由度为当自由度为 1时,时,Yates(1934)提出了一个提出了一个矫矫正公式,正公式,矫矫正后的正后的 2值记为值记为 c2第十四页,本课件共有66页例例2 正常情况下,中国婴儿的性别比为:正常情况下,中国婴儿的性别比为:51:49即每出生即每出生 100 个女婴,就有个女婴,就有 103105 个男婴个男婴统计某地区连续统计某地区连续 3年的婴儿性别比,得:男婴年的婴儿性别比,得:男婴4691人
11、:女人:女婴婴4159人,试问该地区的新生儿性别比正常吗?人,试问该地区的新生儿性别比正常吗?我们用列表的方式检查之:我们用列表的方式检查之:婴儿性别婴儿性别 实际值(实际值(O)理论值(理论值(E)O-E 男婴男婴 4691 4513.5 177.5 6.98 女婴女婴 4159 4336.5 -177.5 7.27 合计合计 8850 8850.0 0 14.25 第十五页,本课件共有66页显然,这一显然,这一 值较大值较大,有可能这一地区的婴儿出生,有可能这一地区的婴儿出生性别比不太正常(请用性别比不太正常(请用 t-test 进行检验,看这一性进行检验,看这一性别比是否符合常规性别比)
12、别比是否符合常规性别比)第十六页,本课件共有66页例例3 长翅灰身(长翅灰身(LLGG)的果蝇与残翅黑檀体()的果蝇与残翅黑檀体(llgg)果蝇交配,其后代果蝇交配,其后代F1全为长翅灰身,全为长翅灰身,F1自群繁育,自群繁育,结果出现了结果出现了 4 种表现型:长灰(种表现型:长灰(1477)、长黑)、长黑(493)、残灰()、残灰(446)、残黑()、残黑(143),现假定控制),现假定控制翅膀长度和身体颜色的两对基因是相互独立的,且都翅膀长度和身体颜色的两对基因是相互独立的,且都是显隐性关系,则四种类型的果蝇其比例应当是是显隐性关系,则四种类型的果蝇其比例应当是 9:3:3:1现需验证这
13、次试验的结果是否符合这一分离比例现需验证这次试验的结果是否符合这一分离比例第十七页,本课件共有66页 长翅灰身长翅灰身(LLGG)残翅黑檀体残翅黑檀体(llgg)长翅灰身长翅灰身(L_G_)长灰长灰 长黑长黑 残灰残灰 残黑残黑 (1477)(493)(446)(143)第十八页,本课件共有66页1477+493+446+143=2559以上二个例子都要求我们判断观测值与理论值之间是否相以上二个例子都要求我们判断观测值与理论值之间是否相符,而我们都可以得到一个符,而我们都可以得到一个 值值第十九页,本课件共有66页 检验的一般步骤:检验的一般步骤:首先提出假设首先提出假设其次计算其次计算 值值
14、最后根据最后根据 值出现的概率判断无效假设是否成立值出现的概率判断无效假设是否成立自由度不同,自由度不同,分布是不同的分布是不同的 卡方分布的自由度仅与卡方分布的自由度仅与性状的类别性状的类别有关,而与有关,而与次数次数无无关,例关,例 1 中有两类花,因此其自由度为中有两类花,因此其自由度为 2-1=1例例 3 中有中有 4 类果蝇,因此其自由度为类果蝇,因此其自由度为 4-1=3不同检验自由度的计算也不一样不同检验自由度的计算也不一样第二十页,本课件共有66页第二节第二节 适合性检验适合性检验 一、适合性检验的意义一、适合性检验的意义 判断实际观察的属性类别分配是否符合已判断实际观察的属性
15、类别分配是否符合已知属性类别分配理论或学说的假设检验称为知属性类别分配理论或学说的假设检验称为适合性检验。适合性检验。下一张下一张 主主 页页 退退 出出 上一张上一张 第二十一页,本课件共有66页 1.在适合性检验中,在适合性检验中,H0:实际属性类别分配:实际属性类别分配符合已知属性类别分配;符合已知属性类别分配;HA:实际属性类别分:实际属性类别分配不符合已知属性类别配不符合已知属性类别 2.在在无效假设成立无效假设成立的条件下的条件下,按已知属性类,按已知属性类别分配的理论或学说计算理论值。别分配的理论或学说计算理论值。下一张下一张 主主 页页 退退 出出 上一张上一张 第二十二页,本
16、课件共有66页3.因各个属性类别理论次数的总和应等于其实因各个属性类别理论次数的总和应等于其实际观察次数的总和,际观察次数的总和,适合性检验的适合性检验的自由度等于自由度等于属性类别分类数减属性类别分类数减1。若属性类别分类数为。若属性类别分类数为k,则适合性检验的自由度为则适合性检验的自由度为 k-1。4.计算出计算出 2或或 2c,并与临界的,并与临界的 2值(值(20.05、20.01)比较:)比较:下一张下一张 主主 页页 退退 出出 上一张上一张 第二十三页,本课件共有66页适合性检验适用于某一实际资料是否符合一理论值,适合性检验适用于某一实际资料是否符合一理论值,因此适合性检验常用
17、于遗传学研究、质量鉴定、规因此适合性检验常用于遗传学研究、质量鉴定、规范化作业、一批数据是否符合某种理论分布等。范化作业、一批数据是否符合某种理论分布等。我们以例我们以例 3 来说明适合性检验的一般步骤来说明适合性检验的一般步骤第二十四页,本课件共有66页设立无效假设,设立无效假设,果蝇的分类观测值与理论值相符果蝇的分类观测值与理论值相符 两者不符两者不符计算计算 值,前面已经得到值,前面已经得到 df=4-1=3 查查 值表,得值表,得接受无效假设,即果蝇的这四种类型分离符合自由组合定接受无效假设,即果蝇的这四种类型分离符合自由组合定律律 9:3:3:1第二十五页,本课件共有66页例例 2
18、的的 值需重新计算,因为性别比只有两类,因此其值需重新计算,因为性别比只有两类,因此其自由度为自由度为 1,应作连续性校正,应作连续性校正连续性校正公式是:连续性校正公式是:先作无效假设:先作无效假设:本例男女婴性别比符合常规比例本例男女婴性别比符合常规比例 不符常规比例不符常规比例计算计算 值值查查 值表,得值表,得第二十六页,本课件共有66页否定无效假设,接受备择假设,即该地区婴儿出生的否定无效假设,接受备择假设,即该地区婴儿出生的性别比极显著偏离正常性别比,应查找原因性别比极显著偏离正常性别比,应查找原因(例(例 1 是否需要作连续性校正?)是否需要作连续性校正?)第二十七页,本课件共有
19、66页 的分割的分割有时候,经有时候,经 检验,检验,被推翻,而接受了被推翻,而接受了 ,即表,即表示整个资料不符合某一理论比例。示整个资料不符合某一理论比例。问题:问题:但这总的但这总的 值是反映全部资料均不符合理论比例?值是反映全部资料均不符合理论比例?还是其中部分资料不符合比例?还是其中部分资料不符合比例?下面我们看一个例题下面我们看一个例题第二十八页,本课件共有66页 两对性状两对性状F2分离的四种表现型观测资料分别为分离的四种表现型观测资料分别为154、43、53、6,试问该批资料是否符合,试问该批资料是否符合 9:3:3:1?该例的自由度为该例的自由度为 4-1=3(不需要进行校正
20、)(不需要进行校正)先计算理论次数:先计算理论次数:154+43+53+6=256A-B-:144 A-bb:48 aaB-:48 aabb:16 设立无效假设(略)设立无效假设(略)第二十九页,本课件共有66页否定无效假设,接受备择假设,即这批资料与设定的理论否定无效假设,接受备择假设,即这批资料与设定的理论分离比例分离比例 9:3:3:1 不符不符是整批资料都不符?还是部分不符?是整批资料都不符?还是部分不符?我们需作进一步的分析,因此应对我们需作进一步的分析,因此应对 作分割作分割这种分割是建立在这种分割是建立在 具有可加性的特点上的,具有可加性的特点上的,而这种可加性只有在次数资料各部
21、分相互独而这种可加性只有在次数资料各部分相互独立、且不作连续性校正的基础上才能成立立、且不作连续性校正的基础上才能成立第三十页,本课件共有66页卡方检验再分割具体步骤1.用用 检验确定实际值与理论值是否有差异检验确定实际值与理论值是否有差异2.确定确定 值最大的属性类别项值最大的属性类别项3.检验其余项是否符合理论分配比例检验其余项是否符合理论分配比例4.再检验再检验 值最大项与其余项的合并组是否符合值最大项与其余项的合并组是否符合理论分配比例理论分配比例第三十一页,本课件共有66页该例的四个分值分别为:该例的四个分值分别为:0.694+0.521+0.521+6.25=7.986显然,前面三
22、个分值较小,因此先取前三部分的比例作显然,前面三个分值较小,因此先取前三部分的比例作 检验检验:154+43+53=250 A-B-:150 A-bb:50 aaB-:50提假设,计算统计量提假设,计算统计量接受无效假设,即这三部分资料的实际观测值符合接受无效假设,即这三部分资料的实际观测值符合9:3:3 的理论的理论比例比例第三十二页,本课件共有66页再检查再检查aabb 与这三部分之和是否符合与这三部分之和是否符合1:15前三部分之和(理论值前三部分之和(理论值):240 aabb:16这说明这说明 aabb 不符合理论比例不符合理论比例第三十三页,本课件共有66页 检验中的适合性检验一般
23、要求样本量应大一些,样本较检验中的适合性检验一般要求样本量应大一些,样本较小会影响到检验的正确性,特别是当理论比例中有较小小会影响到检验的正确性,特别是当理论比例中有较小值时(上一例中的值时(上一例中的 aabb),更应当注意样本容量,),更应当注意样本容量,这一例即有样本偏小的倾向这一例即有样本偏小的倾向第三十四页,本课件共有66页第三节第三节 独立性检验独立性检验第三十五页,本课件共有66页 一、独立性检验的意义一、独立性检验的意义 对次数资料,除进行适合性检验外,有对次数资料,除进行适合性检验外,有时需要分析两类因子是相互独立还是彼此相时需要分析两类因子是相互独立还是彼此相关。关。根据次
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 第六 章卡方 检验 优秀 PPT
限制150内