统计学概念和方法第9章.pptx
1分类数据的检验例(Mendel的豌豆实验)19世纪英国生物学家Mendel按颜色与形状把豌豆分为4类:黄而圆的,青而圆的,黄而有角度,青而有角的。遗传基因中,黄色是显性的,青色是隐性的;圆是显性的,有角是隐性的。Mendel指出这四类豌豆个数之比是9:3:3:1,即这四类豌豆的概率分别为9/16、3/16,3/16,1/16.他随机抽取了n=556颗豌豆,观察到这四类豌豆的个数分别为315、108、101、32。下面根据这些观察数据,对Mendel的遗传学理论进行检验。第1页/共22页分类数据检验问题 根据某项指标,总体被分为r类:A1,Ar。H0:类Ai所占的比例为pi=pi0(i=1,r)设n个个体中属于Ai类的实际观察个数为ni,则npi0为理论频数。Mendel提出的问题实际上就是考虑实际频数与理论频数有无偏离。1900年,Pearson提出用作为衡量实际频数与理论频数的偏差的指标。第2页/共22页套用上页公式计算Mendel豌豆实验中的数据,计算如下:算得x2=0.47.这里r=4,自由度为r-1=3.查x2表,得p值=0.925431,给定a=0.1或者0.05,显然,pa,故不拒绝H0.我们认为观察数据符合遗传学上四种豌豆符合9/16、3/16,3/16,1/16的比例。也可在Excel中输入“=CHIDIST(0.47,3)”,得p=0.92543108第3页/共22页例 某学校有十门新的选修课,下面的数字分别记录了选修每门课程的学生数。取水平0.05,检验:学生对这些课程的选择没有倾向性,即选各门课的人数比例相同。这里H0:p=0.1,n=800,r=10套用公式算得x2=5.125,对应的P值=0.8232783490.05,故接受H0,学生对这些课程的选择没有倾向性,各门课选课人数的频率为0.1.课程12345678910人数74928379807377757691第4页/共22页2四格表及其独立性检验设A,B为两个属性,那么四格表的形式为:其中:n1+=n11+n12,n2+=n21+n22 n+1=n11+n21,n+2=n12+n22 n=n11+n12+n21+n22有B没有B合计有An11n12n1+没有An21n22n2+合计n+1n+1n第5页/共22页例 对肺癌患者和对照组的调查结果 :吸烟不吸烟合计患肺癌60363对照组321143合计9214106第6页/共22页四格表的独立性考虑上例中吸烟与患肺癌有无关系,亦即A与B是否独立,若A、B二因素独立,则患肺癌与吸烟无关。记p1=P(B|A),p2=P(B|没有A)即p1=n11/n1+,p2=n21/n2+,如果p1=p2,则属性A与属性B独立。第7页/共22页欲检验则属性A与属性B独立,只需检验:H0:p1=p2 检验统计量为:对于上面的例子,在excel中输入“=CHIDIST(9.664,1)”,得到p=0.001879,p0.05,故拒绝H0,p1和p2不独立,亦即吸烟与患肺癌有关。吸烟不吸烟合计患肺癌60363对照组321143合计9214106第8页/共22页例在对人们休闲的一次调查中,共调查了124人,其中女性70人,男性54人。女性中有43人主要的休闲方式是看电视,另外27人的休闲方式是运动;男性中有21人主要的休闲方式是看电视,另外33人主要的休闲方式是运动。(1)22的列联表:休闲方式休闲方式性别性别看电视看电视运动运动合计合计女女432770男男213354合计合计6460124第9页/共22页(2)三维柱形图:第10页/共22页二维条形图:等高条形图:第11页/共22页(3)假设休闲方式与性别无关,计算 在excel中输入“=CHIDIST(6.20123,1)”,得到p=0.012766,p=449.19=1.0824E-990.01,故应拒绝 H 0,可认为死亡与性别存在依赖关系。我们发现,如果死亡与性别之间不存在依赖关系,那么幸存下来的男性应该接近期望值 565,但实际上幸存下来的男性只有 374 人;女性的幸存期望值为 153,实际上幸存下来的女性远远大于这个数字,为 344 人。由此,我们可以得出这样的结论:当时社会上可能存在着一种可贵人性,即遵守“男性绅士风度”和“优先救助妇女”的守则,因而逃生的结果是约 73.2%的女性都存活下来了,而男性的存活率只有 21.5%。第19页/共22页思考1976年至1977年美国佛罗里达州29个区的凶杀案件中凶手的肤色和是否被判死刑的326个犯人的情况如下,问是否存在种族歧视与审判不公?凶手死刑判决是否合计白人19141160黑人17149166合计36290326第20页/共22页The end!谢谢!第21页/共22页感谢您的观看!第22页/共22页