卡方检验 (2)精选PPT.ppt
卡方检验(2)第1页,此课件共45页哦6.1 2统计量与2分布一、2统计量的意义统计量的意义2是度量实际观察次数与理论次数偏离程度的一个统计量,2越小,表明实际观察次数与理论次数越接近;2=0,表示两者完全吻合;2越大,表示两者相差越大。第2页,此课件共45页哦现结现结合一合一实实例例说说明明 2(读读作卡方作卡方)统计统计量量的意的意义义。根据遗传学理论,动物的性别比例是1:1。统计某羊场一年所产的876只羔羊中,有公羔428只,母羔448只。按1:1的性别比例计算,公、母羔均应为438只。以O表示实际观察次数,E表示理论次数,可将上述情况列成表6-1。表6-1 羔羊性别实际观察次数与理论次数性别实际观察次数O理论次数EO-E(O-E)2/E公428(O1)438(E1)-100.2283母448(O2)438(E2)100.2283合计87687600.4566 第3页,此课件共45页哦从表6-1看到,实际观察次数与理论次数存在一定的差异,这里公、母各相差10只。这个差异是属于抽样误差(把对该羊场一年所生羔羊的性别统计当作是一次抽样调查)、还是羔羊性别比例发生了实质性的变化?要回答这个问题,首先需要确定一个统计量用以表示实际观察次数与理论次数偏离的程度;然后判断这一偏离程度是否属于抽样误差,即进行显著性检验。第4页,此课件共45页哦为了度量实际观察次数与理论次数偏离的程度,最简单的办法是求出实际观察次数与理论次数的差数。为了避免正、负抵消,可将两个差数O1-E1、O2-E2平方后再相加,即计算(O-E)2,其值越大,实际观察次数与理论次数相差亦越大,反之则越小。但利用(O-E)2表示实际观察次数与理论次数的偏离程度尚有不足。未考虑观察次数(与理论次数)的大小对偏离程度的影响。为了弥补这一不足,可先将各差数平方除以相应的理论次数后再相加(转化为相对(转化为相对比值)比值)并记之为,即第5页,此课件共45页哦二、2分布 设有一平均数为、方差为 的正态总体。现从此总体中独立随机抽取n个随机变量:x1、x2、xn,并求出其标准正态离差:,记这n个相互独立的标准正态离差的平方和为:2 它服从自由度为n的2分布,记为 2(n);第6页,此课件共45页哦 若用样本平均数代替总体平均数,则随机变量 2=服从自由度为n-1的分布,记为 2分布是由正态总体随机抽样得来的一种连续型随机变量的分布。显然,0,即的取值范围是0,+;分布密度曲线是随自由度不同而改变的一组曲线。随自由度的增大,曲线由偏斜渐趋于对称 第7页,此课件共45页哦三、2的连续性矫正 由公式计算的2只是近似地服从连续型随机变量2分布。在对次数资料进行2检验利用连续型随机变量2分布计算概率时,常常偏低,特别是当自由度为1时偏差较大。Yates(1934)提出了一个矫正公式,矫正后的2值记为 c2 第8页,此课件共45页哦当自由度大于1时,分布与连续型随机变量分布相近似,这时,可不作连续性矫正,但要求各组内的理论次数不小于5。若某组的理论次数小于5,则应把它与其相邻的一组或几组合并,直到理论次数大于5为止。第9页,此课件共45页哦6.2 适合性检验 一、适合性检验的意义判断实际观察的属性类别分配是否符合已知属性类别分配理论或学说的假设检验称为适合性检验。第10页,此课件共45页哦在适合性检验中,无效假设为H0:实际观察的属性类别分配符合已知属性类别分配的理论或学说;备择假设为HA:实际观察的属性类别分配不符合已知属性类别分配的理论或学说。并在无效假设成立的条件下,按已知属性类别分配的理论或学说计算各属性类别的理论次数。适合性检验的自由度等于属性类别分类数减1。若属性类别分类数为k,则适合性检验的自由度为k-1。第11页,此课件共45页哦计算出2或2c。将所计算得的2或2c值与根据自由度k-1查2值表所得的临界2值:20.05、20.01比较:若2(或2c)20.05,P0.05,表明实际观察次数与理论次数差异不显著,可以认为实际观察的属性类别分配符合已知属性类别分配的理论或学说;若20.052(或2c)20.01,0.01P0.05,表明实际观察次数与理论次数差异显著,实际观察的属性类别分配不符合已知属性类别分配的理论或学说;第12页,此课件共45页哦二、适合性检验的方法下面结合实例说明。【例】在进行山羊群体遗传检测时,观察了260只白色羊与黑色羊杂交的子二代毛色,其中181只为白色,79只为黑色,问此毛色的比率是否符合孟德尔遗传分离定律的31比例?第13页,此课件共45页哦检验步骤如下:(一)提出无效假设与备择假设H0:子二代分离现象符合31的理论比例。HA:子二代分离现象不符合31的理论比例。(二)选择计算公式 由于本例是涉及到两组毛色(白色与黑色),属性类别分类数k=2,自由度df=k-1=2-1=1,须使用连续性校正公式来计算。第14页,此课件共45页哦(三)计算理论次数 根据理论比率31求理论次数:白色理论次数:E1=2603/4=195黑色理论次数:E2=2601/4=65第15页,此课件共45页哦(四)计算表62 2c计算表性 状实际观察次数(O)理论次数(E)O-E白 色181195-140.935黑 色7965+142.804总 和26026003.739 2c第16页,此课件共45页哦(五)查临界2值,作出统计推断 当自由度df=1时,查得20.05(1)=3.84,计算的2c0.05,不能否定H0,表明实际观察次数与理论次数差异不显著,可以认为白色羊与黑色羊的比率符合孟德尔遗传分离定律31的理论比例。第17页,此课件共45页哦【例】在研究牛的毛色和角的有无两对相对性状分离现象时,用黑色无角牛和红色有角牛杂交,子二代出现黑色无角牛192头,黑色有角牛78头,红色无角牛72头,红色有角牛18头,共360头。试问这两对性状是否符合孟德尔遗传规律中9331的遗传比例?第18页,此课件共45页哦检验步骤:(一)提出无效假设与备择假设 H0:实际观察次数之比符合9331的理论比例。HA:实际观察次数之比不符合9331的分离理论比例。(二)选择计算公式 由于本例的属性类别分类数k=4:自由度df=k-1=4-1=31,计算2。第19页,此课件共45页哦(三)计算理论次数 依据各理论比率9:3:3:1计算理论次数:黑色无角牛的理论次数E1:3609/16=202.5;黑色有角牛的理论次数E2:3603/16=67.5;红色无角牛的理论次数E3:3603/16=67.5;红色有角牛的理论次数E4:3601/16=22.5。第20页,此课件共45页哦(四)列表计算 2表63 计算表类 型实际观察次数O理论次数EO-E(O-E)2/E黑色无角牛192(O1)202.5(E1)-10.50.5444黑色有角牛78(O2)67.5(E2)+10.51.6333红色无角牛72(O3)67.5(E3)+4.51.6333红色有角牛18(O4)22.5(E4)-4.50.9000总 计36036004.711第21页,此课件共45页哦(五)查临界值,作出统计推断 当df=3时,20.05(3)=7.815,因2 0.05,不能否定H0,表明实际观察次数与理论次数差异不显著,可以认为毛色与角的有无两对性状杂交二代的分离现象符合孟德尔遗传规律中9331的遗传比例。第22页,此课件共45页哦6.3 独立性检验一、独立性检验的意义 对次数资料,除进行适合性检验外,有时需要分析两类因子是相互独立还是彼此相关。这种根据次数资料判断两类因子彼此相关或相互独立的假设检验就是独立性检验。独立性检验实际上是基于次数资料独立性检验实际上是基于次数资料对子因子间相关性的研究对子因子间相关性的研究。第23页,此课件共45页哦如研究两类药物对家畜某种疾病治疗效果的好坏,先将病畜分为两组,一组用第一种药物治疗,另一组用第二种药物治疗,然后统计每种药物的治愈头数和未治愈头数。这时需要分析药物种类与疗效是否相关,若两者彼此相关,表明疗效因药物不同而异,即两种药物疗效不相同;若两者相互独立,表明两种药物疗效相同。第24页,此课件共45页哦(一)独立性检验的次数资料是按两因子属性类别进行归组。根据两因子属性类别数的不同而构成22、2c、rc列联表(r为行因子的属性类别数,c为列因子的属性类别数)。而适合性检验只按某一因子的属性类别将如性别、表现型等次数资料归组。(二)适合性检验按已知的属性分类理论或学说计算理论次数。独立性检验在计算理论次数时没有现成的理论或学说可资利用,理理论论次次数数是是在在两两因因子子相相互互独独立立的的假假设设下下进进行行计计算。算。第25页,此课件共45页哦(三)在适合性检验中确定自由度时,只有一个约束条件:各理论次数之和等于各实际次数之和,自由度为属性类别数减1。而在rc列联表的独立性检验中,共有rc个理论次数,但受到以下条件的约束:1、rc个理论次数的总和等于rc个实际次数的总和;2、r个横行中的每一个横行理论次数总和等于该行实际次数的总和。而独立的行独立的行约约束条件只有束条件只有r-1个个;3、类似地,独独立立的的列列约约束束条条件件有有c-1个个。因而在进行独立性检验时,自由度为rc-1-(r-1)-(c-1)=(r-1)(c-1),即等于(横行属性类别数-1)(直列属性类别数-1)。第26页,此课件共45页哦二、独立性检验的方法(一)22列联表的独立性检验 22列联表的一般形式如表610所示,其自由度df=(C-1)(r-1)=(2-1)(2-1)=1,在进行2检验时,需作连续性矫正,应计算值2c。表610 22列联表的一般形式12 行总合 1O11(E11)O12(E12)R1=O11+O122O21(E21)O22(E22)R2=O21+O22列总合T.C1=O11+O21C2=O12+O22T=O11+O12+O21+O22其中Oij为实际观察次数,Eij为理论次数。第27页,此课件共45页哦【例】某猪场用80头猪检验某种疫苗是否有预防效果。结果是注射疫苗的44头中有12头发病,32头未发病;未注射的36头中有22头发病,14头未发病,问该疫苗是否有预防效果?第28页,此课件共45页哦1、先将资料整理成列联表(见表611)表611 22列联表发病未发病行总和发病率注射12(18.7)32(25.3)R1:4427.3%未注射22(15.3)14(20.7)R2:3661.1%列总和C1:34C2:46T:802、提出无效假设与备择假设H0:发病与否和注射疫苗无关,即二因子相互独立。HA:发病与否和注射疫苗有关,即二因子彼此相关。第29页,此课件共45页哦3、计算理论次数 根据二因子相互独立的假设,由样本数据计算出各个理论次数。二因子相互独立,就是说注射疫苗与否不影响发病率。也就是说注射组与未注射组的理论发病率应当相同,均应等于总发病率34/80=0.425。依此计算出各个理论次数如下:注射组的理论发病数:E11=4434/80=18.7注射组的理论未发病数:E12=4446/80=25.3,未注射组的理论发病数:E21=3634/80=15.3未注射组的理论未发病数:E22=3646/80=20.7。表6-11括号内的数据为相应的理论次数。第30页,此课件共45页哦4、计算2c值 将表6-11中的实际次数、理论次数代入公式得:+第31页,此课件共45页哦5、由自由度df=1查临界2值,作出统计推断 因为20.01(1)=6.63,而2c=7.94420.01(1),P0.01,否定H0,接受HA,表明发病率与是否注射疫苗极显著相关,这里表现为注射组发病率极显著低于未注射组,说明该疫苗是有预防效果的。第32页,此课件共45页哦在进行22列联表独立性检验时,还可利用下述简化公式计算:在简化公式中,不需要先计算理论次数,直接利用实际观察次数Oij,行、列总和Ri、Cj和总总和T进行计算,比利用公式计算简便,且舍入误差小。第33页,此课件共45页哦(二)2c列联表的独立性检验 2c列联表是行因子的属性类别数为2,列因子的属性类别数为c(c3)的列联表。其自由度df=(2-1)(c-1),因为c3,所以自由度大于2,在进行2检验时,不需作连续性矫正。2c表的一般形式见表612。表612 2c联列表一般形式12c行总和1O11O12O1cR12O21O22O2cR2列总和 C1C2总总和T其中Oij(i=1,2;j=1,2,c)为实际观察次数。第34页,此课件共45页哦【例】在甲、乙两地进行水牛体型调查,将体型按优、良、中、劣四个等级分类,其结果见表613,问两地水牛体型构成比是否相同。表613 两地水牛体型分类统计优良中劣行总和Ti.甲10(13.3)10(10.0)60(53.3)10(13.4)90乙10(6.7)5(5.0)20(26.7)10(6.6)45列总和T.j20158020135这是一个24列联表独立性检验的问题。第35页,此课件共45页哦检验步骤如下:1.提出无效假设与备择假设 H0:水牛体型构成比与地区无关,即两地水牛体型构成比相同。HA:水牛体型构成比与地区有关,即两地水牛体型构成比不同。第36页,此课件共45页哦2.计算各个理论次数,并填在各观察次数后的括号中 计算方法与22表类似,即根据两地水牛体型构成比相同的假设计算。如优等组中,甲地、乙地的理论次数按理论比率20/135计算;良等组中甲地、乙地的理论次数按理论比率15/135计算;中等、劣等组中甲地、乙地的理论次数分别按理论比率80/135和20/135计算。甲地优等组理论次数:E11=9020/135=13.3,乙地优等组理论次数:E21=4520/135=6.7;其余各个理论次数的计算类似。第37页,此课件共45页哦 3.计算计算2值4.由自由度df=(2-1)*(4-1)=3查临界2值,作出统计推断 因为20.05(3)=7.815,而2=7.5820.05,不能否定H0,可以认为甲、乙两地水牛体型构成比相同。第38页,此课件共45页哦在进行2c列联表独立性检验时,还可利用下述简化公式计算 2:或 前后两式的区别在于:前式利用第一行中的实际观察次数A1j和行总和T1.;后式利用第二行中的实际观察次数A2j和行总和T2.,计算结果相同。第39页,此课件共45页哦(三)rc列联表的独立性检验 rc表是指行因子的属性类别数为r(r2),列因子的属性类别数为c(c2)的列联表。其一般形式见表7-17。表617 rc列联表的一般形式12c行总和1O11O12O1cR12O21O22O2cR2rOr1Or2OrcRr列总和C1C2CcT其中其中Oij i=1,2,r;j=1,2,c)为实际观察次数。)为实际观察次数。第40页,此课件共45页哦rc列联表各个理论次数的计算方法与上述(22)、(2c)表适合性检验类似。但一般用简化公式计算2值,其公式为:第41页,此课件共45页哦【例】对三组奶牛(每组39头)分别喂给不同的饲料,各组发病次数统计如下表,问发病次数的构成比与所喂饲料是否有关?表表618 三组牛的发病次数资料三组牛的发病次数资料发病次数饲 料总 和123019(17.3)16(17.3)17(17.3)5211(0.3)0(0.3)0(0.3)120(1.3)3(1.3)1(1.3)437(5.7)9(5.7)1(5.7)1743(4.7)5(4.7)6(4.7)1454(3.3)1(3.3)5(3.3)1062(2.0)1(2.0)3(2.0)670(1.3)2(1.3)2(1.3)481(2.3)2(2.3)4(2.3)792(0.7)0(0.7)0(0.7)2总 和393939117第42页,此课件共45页哦 检验步骤如下:1、提出无效假设与备择假设 H0:发病次数的构成比与饲料种类无关,即二者相互独立。HA:发病次数的构成比与饲料种类有关,即二者彼此独立。第43页,此课件共45页哦2、计算理论次数 对于理论次数小于5者,将相邻几个组加以合并(见表619),合并后的各组的理论次数均大于5。表619 资料合并结果发病次数饲 料123总 和019(17.3)16(17.3)17(17.3)521-38(7.3)12(7.3)2(7.3)224-57(8.0)6(8.0)11(8.0)246-85(6.3)5(6.3)9(6.3)19总 和393939117(注:括号内为理论次数)(注:括号内为理论次数)第44页,此课件共45页哦 3、计算2值 用简化公式计算2值,得:4、查临界2值,进行统计推断 由自由度df=(4-1)(3-1)=6,查临界2值得:20.05(6)=12.9,因为计算所得的20.05,不能否定HO,可以认为奶牛的发病次数的构成比与饲料种类相互独立,即用三种不同的饲料饲喂奶牛,各组奶牛发病次数的构成比相同。第45页,此课件共45页哦