卡方检验PPT讲稿.ppt
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_05.gif)
《卡方检验PPT讲稿.ppt》由会员分享,可在线阅读,更多相关《卡方检验PPT讲稿.ppt(40页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、卡方检验第1页,共40页,编辑于2022年,星期五第七章第七章 卡方卡方(2)检验检验教学要求教学要求 了解2检验是质量性状资料的差异显著性检验。理解适合性检验、独立性检验的意义与原理,掌握适合性检验、独立性检验的方法。重点与难点重点与难点重点:重点:适合性检验、独立性检验的方法难点:难点:2分布与分割思考题及作业思考题及作业 1、2检验与t检验、F检验在应用上有什么区别?2、什么情况下检验需作矫正?如何矫正?为什么?3、为什么要应用分解法来分解总值?4、习题作业:标准化综合测试题第七章17题参考书参考书1贵州农学院(主编).2001.生物统计附试验设计教材.中国农业出版社.115137页2扬
2、茂成(主编).1990.兽医统计学。中国展望出版社.116134页第2页,共40页,编辑于2022年,星期五第一节第一节第一节第一节 2 2检验的意义与原理检验的意义与原理检验的意义与原理检验的意义与原理 1、阐述卡方检验用于遗传学上、医学临床等试验获得次数资料的显著性检验的意义。2、重点介绍2分布的特点及显著性检验的步骤。质量性状资料属于间断性分布即二项分布或普哇松分布类型,对这种类型的资料必须根据不同的质性范围,点清每一质性范围内所包括的家畜头数(或次数)加以质性分类,来寻找质性资料的变化规律。如家畜的性别,遗传学上杂种后代的分离现象如各种毛色,有角无角等;医学临床试验的阳性、阴性;病畜的
3、治疗、好转、无效、死亡等均属此类这类资料也称次数资料。对这类资料的分析有一部分可通过计算各种相对数(如率、构成比、相对比)来处理,但它的显著性检验绝大部分需用检验。一、一、检验的意义检验的意义检验是次数资料显著性检验的方法。它是通过提出某种假设,用理论次数与观察次数进行比较,从而确定两者的符合程度。由于研究目的不同,检验可分为适合性检验与独立检验。适合性检验是用来检验某性状观察次数与该性状的理论比率(或理论次数、预期的理论次数)是否符合。但它的理论比率是以一定的理论为基础的假设,检验目的是检验实际次数(或比率)与其符合程度。如:遗传学上一对性状杂种后代的分离现象是否符合孟德尔遗传定律31的比率
4、;家畜的性别是否符合11的性别比等。独立性检验是研究两类试验因子之间是相互独立还是相互影响的,也是次数资料的相关性研究。它所用的理论次数是根据两类因子相互独立的假设推演出来的,它没有一个给定的比率。如不同配种方法与受第3页,共40页,编辑于2022年,星期五胎率这两类因子间有无相关性,其理论次数以两者为独立无关的假设为基础,即这两因子的变动无交互作用,或它们是齐性的。举例来说不同配种方法不影响受胎率的高低,所以它们理论次数就按各总和的比例关系计算出不同配种方法的受胎率的理论次数。检验的应用范围很广,首先在遗传学上。对实际工作中,常遇的杂种后代性状分离现象是否符合孟德尔遗传定律。如:一对性状是否
5、符合31的比例;两对性状是否符合9331的比例等符合程度的检验。需应用 检验中的适合性检验来作检验。又如:在方差分析中的方差齐性检验和对所取资料分布类型是否符合所属的理论分布,都需作适合性检验。此外,对于次数资料两因子之间是相关性的研究,需应用 检验中独立性检验,来检验两因子之间是相互独立还是关联的。如:注射某种疫苗与对该病的防治有无关联。在畜牧生产中,常对一些数量性状,通过划分不同等级以次数资料的形式表示。如:奶牛产奶量。以某一产奶量范围而定出高产牛、低产牛,对牛群产量的高低,将奶牛分成两类。羊的产毛量以剪毛量多少也可分为高、中、低三个等级。这就是说把数量性状的资料又转化以次数资料的形式来表
6、示时,对其作显著性检验也必须用独立性检验。二、二、检验的原理检验的原理(一)理论次数(一)理论次数(expectedvalue)与实际次数与实际次数(observedvalue)的比较的比较次数资料的适合性、独立性检验基本原理是应用理论次数与观察次数之间偏离程度的大小而定的。若两数偏差越大,愈不符合。偏差小,两者愈为符合。当两者相等时偏差等于零,表明理论次数与观察次数完全符合。在计算过程中由于各类因子的观察次数与理论次数的离差(OE)有正、负值。其总和(OE)等于“零”不能反映出观察次数与理论次数间的差异,若予以平方则得(OE)2为正值。若某第4页,共40页,编辑于2022年,星期五猪场共有4
7、76头小猪,其中母的248头,公猪228头,按性别11之比则小母猪的理论次数为238头,小公猪亦为238头,计算它们的(OE)2值(见表71)观察次数与实际次数的离差平方和越大,(OE)2也越大;反之越小。似乎(OE)2表表71 性别值性别值 计算表计算表性别观察次数(O)理论次数(E)OE(OE)2(OE)2/E公母22824823823810+101001000.42020.4202总和47647600.8204可以用来度量两者的相差程度,但稍加考虑,即可发现。单纯用(OE)2还不足以表示相差的程度。如:某一资料的一组观察次数与理论次数分别为303、300,(OE)=3;另一组为18和15
8、,(OE)=3,虽然(OE)2均为9,但前者为三百多个次数中仅差3个,后者在十多个次数中就差3个,其所占的比重显然是不同的、为弥补这个缺点,须把(OE)2变为相对值,即把(OE)2的数值与相应的理论次数相比,即(OE)2/E。然后把各组的(OE)2/E都相加起来得出一个总值,此值为(卡方)值。即;(71)第5页,共40页,编辑于2022年,星期五 (二)(二)(二)(二)2 2 分布分布分布分布如果从一个巳知平均数为方差为2的正态总体中,随机抽得随机变量x,其标准离差u=(x)/则必服从平均数为零,方差为1的标准正态分布N(0,1)。若在该总体中随机抽得n个相互独立的随机变量,则n个ui的平方
9、和便得出一个新的统计量为。每个u可得u2(x)2/2,则变量:(72)其分布服从自由度为n的卡方分布。因此,可定义为正态分布独立变量u的平方总和,即卡方分布作为若干个独立变量平方和的概率分布,这些独立变量的每个都有一个标准正态分布。其概率密度函数为:通常为未知的,以统计量代替,则变量的分布服从自由度为n1的卡方分布。记作第6页,共40页,编辑于2022年,星期五可见分布是由标准正态分布而产生的,它是连续性变量的一个分布形式,并具有概率密度函数。1899年皮尔逊(Kpearson)提出了 作为检验观察次数与理论次数符合程度的检验,其定义即为(71)式所示。统计学家斯奈迪克(GWSnedecor)
10、曾作了的一个 抽样分布,其结果与理论上的 分布很近似。这个抽样试验是将大小相同,色泽不同的两种豆子(黄色和青色)各1000粒混于小罐中,每次抽取100粒,数清黄、青数各若干粒。记录结果把豆子放回混匀再抽第二个样本,共抽了230个样本。从理论上说,一个样本如为100粒,则应50粒黄豆,50粒青豆。但实际抽样试验中两者完全相等是极少的。总存在一定的偏差,每一样本经公式(71)计算便可得一个 值。如其中的一个样本,包含黄豆47粒,青豆53粒,求得 值为:这样230个样本,可得230个 值。将实际资料列成次数分布表(表72)和图71,便可视为自由度为1(每个样本仅含两组)的 分布。第7页,共40页,编
11、辑于2022年,星期五表表72 由由230个样本算得个样本算得230个个 值次数分布值次数分布组段次数组段次数0.000.490.500.991.000.491.501.992.002.492.502.993.003.493.503.994.004.494.504.995.005.495.505.991163918221255612006.006.496.506.997.007.497.507.998.008.498.508.999.009.499.509.9910.0010.4910.5010.9911.0011.5001000100101230 图71用矩形图表示230个 的抽样分布第8页
12、,共40页,编辑于2022年,星期五如果样本数增加到数千个。则图71的分布接近于图72的自由度等于1的理论分布形式。当样本的组数增加到3个。df=2时,分布与df=1稍有不同,随着分组数即自由度增大,其 分布也逐渐对称。图72各个自由度的 分布曲线3自由度逐渐增大,曲线趋对称,df=30时 分布近于正态分布。分布的特点:1由于是由ui平方构成的,所以没有负值,分布在0之间。2分布是个偏斜分布,随自由度df的减少而加剧。当df=1时,曲线以纵轴为渐近线。第9页,共40页,编辑于2022年,星期五 (三)(三)(三)(三)2 2 2 2的显著性检验的显著性检验的显著性检验的显著性检验在适合性检验中
13、:1建立假设H0:观察次数与理论次数之偏差等于零,或两者是符合的。HA:观察次数与理论次数之偏差不等于零,两者是不符合的。2由自由度df和显著平准0.05和=0.01,查表得临界值,与实际求得的值比较,作出统计推断:则p0.05差异不显著。若则0.01p0.05差异显著。则0.01p差异极显著。当P0.05接受H0,即差异不显著。表明观察次数与理论次数是符合的。若0.01P0.05和P0.01,H0被否定,接受HA,表明差异显著和极显著,观察次数和理论次数是不符合的。当然,在下结论时也要考虑到两类错误的可能性。在独立性检验中:1无效假设H0:两类因子之间是相互独立的。HA:两类因子之间是有关联
14、的。2 的显著性检验当接受H0,即差异不显著时,表明两类因子之间是独立的,两因子的变动无交互作用,或者它们是齐性的。若H0被否定而接受了HA,则表明两因子之间并非独立,其中一个因子的变动对另一因子各组观察次数会产生影响;第10页,共40页,编辑于2022年,星期五(四)连续性矫正(四)连续性矫正(四)连续性矫正(四)连续性矫正 而且影响的结果并非一致的,有的影响大,有的较小,表现出两因子是有关联的。(74)由分布可见,它的理论分布是连续性的分布类型。而实际资料所得的值都是非连续性的分布。因此2分析的结果,仅是理论分布的一个近似值,那么所得的结论就不是建立在准确的平准之上的。经连续性分布所求得的
15、曲线下面积的概率,与离散性分布所求得的真正概率相比,往往造成偏低的估计。尤其在df=1时,更为不适用,因此对于df=1的分析,Yates(1934年)提出了一个矫正公式式中:为矫正后的经矫正后,使其概率接近于真正概率,可免除犯型错误的可能性。仅适用于df=1,而不适用于df1。当n的数量很大,非连续性作用,即使df1的情况改变 值也很小。如果df=1,n又很小,不足以计算无偏倚的 值,可用直接概率计算法来计算较为精确的 值(计算方法详见本章补充内容)。df=1的资料,当理论次数很小时,而总的分组格子数中E5的理论次数不能超过15。若遇到上述情况,将邻近组作合并计算。0.5为连续性矫正常数。值,
16、第11页,共40页,编辑于2022年,星期五第二节第二节第二节第二节 适合性检验适合性检验 重点掌握用于遗传学和普哇松分布研究中的适合性检验的方法一、适合性检验的意义一、适合性检验的意义适合性检验是检验实际质性分配是否依循着已知质性分配的理论或学说。如:一对基因的遗传试验。观察白猪和黑猪杂交子二代260头中,白猪181头、黑猪79头,是否符合孟德尔分离定律31;某猪场初生490头仔猪中,公猪260头、母猪230头,是否符合性别11的比例。检验时,通过实际观察次数(头数)与按理论比例求得的理论次数进行比较,两者是否符合。二、适合性检验方法二、适合性检验方法例1用上述观察白猪和黑猪杂交二代毛色分离
17、现象为例。具体步骤:(一)建立假设(一)建立假设H0:子二代分离现象18179是符合31的理论比例。HA:子二代分离现象不符合31比例。(二)计算公式(二)计算公式 适合性检验的自由度df=n1,n为质性分类数。本例研究毛色分离这一因子,仅分两类(白色与黑色),df=21=1。第12页,共40页,编辑于2022年,星期五(三)计算理论值(三)计算理论值根据比率31计算白色理论次数2603/4=195黑色理论次数2601/4=65(四)列表计算,求出(四)列表计算,求出 值值表表73 计算表(理论比率计算表(理论比率3:1)性状观察次数(O)理论次数(E)OE(OE)2/E白色黑色1817919
18、56514+140.9352.8041.0053.015总和26026003.7394.020(|OE|0.5)2/E (五)查(五)查 表作统计推断表作统计推断本例df=1这是根据质性分类来确定的。也可这样理解,由于在计算各质性分类理论数时,受一个总次数的限制,故df=n1,或者说在两个质性分类中,只要求得一个分类的理论值,另一个通过与总次数相减便可求得。还有人认为根据构成 变量的独立变量来确定。以本例来说,构成 变量的二个变量中仅有一个是独立的。确定自由度后,可查 表(附表6)。,故p0.05差异不显著,表明本次试验观察次数与理论次数是符合的,即样本毛色白黑18179符合31的理论比率。第
19、13页,共40页,编辑于2022年,星期五本例如不进行矫正,其结果:求得 ,故p0.05差异显著,否定H0,可见当df=1时矫正是很有必要的,尤其是所求的 值与临界 接近时,更有意义。例2两对性状杂种后代分离现象的适合性检验。杂种后代的4种基因型的观察次数;为15239536,试问是否符合9331的遗传比例。(三)计算理论次数(三)计算理论次数根据各基因型比率求出理论次数AB:2509/16=140.625Abb:2503/16=46.875aaB:2503/16=46.875aabb:2501/16=15.625(四)列表求(四)列表求 值值(列表74)具体步骤(一)建立假设(一)建立假设H
20、0:两性状的F2是符合9331理论比率。HA:不符合9331的理论比率。(二)计算公式(二)计算公式本例df=n1=41=3第14页,共40页,编辑于2022年,星期五表表74 计算表(理论比率计算表(理论比率9331)基因型观察次数(O)理论次数(E)OE(OE)2/EABAbbaaBaabb15239536140.62546.87546.87515.62511.3757.8756.1259.6250.99201.3230.8005.929总和250250.0000=8.972=0.920+1.323+0.800+5.929=8.972 (五)查(五)查 表表当df=3时,故0.01p0.0
21、5。表明本试验两对基因后代的分离现象不符合9331的理论比率。进一步分析结论,看其结果不符合的程度是集中在某几个组内,还是都不符合。本例4个 值(0.920、1.320、0.800、5.929)中,以5.929这个 值起作用最大,表明基因型aabb这一类型(OE)的偏差最大,因此可进一步检验。(六)(六)检验的再分割法检验的再分割法经 检验差异显著,只是说明整个资料的结论是不符合理论比率的。其不符合程度是所有的比率不符还是只是在某个比率上,总 值不能反映出来。为确定各比率的符合程度,必需进一步对 值再作分割。就像经F检验一样,若差异显著,需作多重比较,才能确定差异显著所在组间。分割法的具体方法
22、是:一张列联表的总卡方统计量,能分解为数目等于该表总自由度的多个分量。每个分量的卡方值对应于由原始数据所产生的一特殊的列联表,第15页,共40页,编辑于2022年,星期五且每个分量独立于其它分量,这样各分量的 值之和等于总 值。这种可加性只有在所分割的列联表是相互独立,各分量的 值不作矫正的条件下,否则就破坏了它们的可加性。本例由表74分割为表75、表76。表表 75 分割表(理论比例分割表(理论比例933)基因型观察次数(O)理论次数(E)OE(OE)2/EABAbbaaB1523953146.40048.80048.8005.6009.8004.2000.2141.9680.631总和24
23、4244.0000=2.5431检验AB,Abb,aaB3种基因型是否符合933的比率。查表,df=31=2,故p0.05差异不显著,表明以上3种基因型符合933的理论比例。再进一步分析基因型aabb,是否与其它组合比例不符合。2检验aabb基因型对其它组合是否符合151的比率。列表计算:H0:aabb与其它基因型符合151比率。表表76 分割表(理沦比率分割表(理沦比率15l)基因型观察次数(O)理论次数(E)OE(OE)2/Eaabb其它624415.625234.3759.6259.6255.9290.395总和250250.0000=6.324第16页,共40页,编辑于2022年,星期
24、五 查 表,df=21=1,故p0.05,表明基因型组合aabb的与其它组合不符合151的比例。这样的结论可为我们进一步研究这个问题提供线索。经 分割后,而 与总 稍有差别(基本相近)。总自由度df=3,df12,df2=1。所以总df=dfldf2是相等的,如果两者不等,说明分割上存在错误。三、适合性检验的简易计算三、适合性检验的简易计算(一)自由度df=1的次数资料适合性检验的简易公式,可省略理论值的计算。当理论比率为r1时:(75)式中r表示理论期望值中显性性状相对隐性性状的比数r1(如:31中的3)(二)自由度df2的次数资料适合性检验的简易公式:当理论比率为97时:(710)式中P1
25、表示各类性状的理论比数,如在两对性状F2代分离比例9/163/163/161/16。第17页,共40页,编辑于2022年,星期五四、资料分布类型的适合性检验四、资料分布类型的适合性检验四、资料分布类型的适合性检验四、资料分布类型的适合性检验在第四章我们介绍了三种理论分布类型,即正态分布、二项分布和普哇松分布。对于观察数据的分布是否符合所属的理论分布,必需用适合性检验。其方法如下:在配合理论分布时应注意的一点是,当组段的理论次数小于5时,组段应予合并。作配合正态分布的适合性检验的假设是:HO:配合正态分布是合适的。HA:配合正态分布是不合适的。例3以表27200头大白猪的仔猪一月窝重的资料为例。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 检验 PPT 讲稿
![提示](https://www.taowenge.com/images/bang_tan.gif)
限制150内