生物统计学课件抽样分布及应用㈡.ppt
《生物统计学课件抽样分布及应用㈡.ppt》由会员分享,可在线阅读,更多相关《生物统计学课件抽样分布及应用㈡.ppt(22页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、第三章第三章 抽样分布及其应用抽样分布及其应用n第一节第一节 二项总体抽样二项总体抽样n第二节第二节 检验二项资料的百分数检验二项资料的百分数n (针对单个样本百分数和两样本百分数)(针对单个样本百分数和两样本百分数)n第三节第三节 参数的区间估计参数的区间估计n第四节第四节 2的定义和分布的定义和分布n第五节第五节 次数资料的次数资料的2检验检验第三章要点提示第三章要点提示 抽样分布及其应用是上一章抽样分布及其应用的延伸,两者构抽样分布及其应用是上一章抽样分布及其应用的延伸,两者构成统计分析方法的基础部分,学习时成统计分析方法的基础部分,学习时:对于二项总体抽样,要清楚它对于二项总体抽样,要
2、清楚它和上一章单个母总体抽样的联系和区别;和上一章单个母总体抽样的联系和区别;对于百分数的检验,要注意对于百分数的检验,要注意应用应用u-test的条件、不符合这些条件时进行连续性矫正的必要性以及标准的条件、不符合这些条件时进行连续性矫正的必要性以及标准误的计算方法衍生总体参数的异同点;误的计算方法衍生总体参数的异同点;参数的区间估计可替代显著性参数的区间估计可替代显著性检验,但它比显著性检验挖掘的信息更充分;检验,但它比显著性检验挖掘的信息更充分;掌握依据掌握依据2变量变量SS/2 服服从的理论分布进行适合性检验和独立性检验时计算从的理论分布进行适合性检验和独立性检验时计算2值的方法。值的方
3、法。涉及教材内容:第五章第四、五节,第七章第一、二、三节。涉及教材内容:第五章第四、五节,第七章第一、二、三节。作业布置:作业布置:教材教材P77 P77 T13、T14;P154-155 P154-155 T5、T7、T8、T10。第一节第一节 二项总体抽样二项总体抽样一、二项总体参数一、二项总体参数 本节是针对一类特殊的母总体进行抽本节是针对一类特殊的母总体进行抽样研究,这类总体内的个体不管有多少个,样研究,这类总体内的个体不管有多少个,都可按某种性状出现与否分为两组,故称都可按某种性状出现与否分为两组,故称二项总体。将其中出现某种性状的个体的二项总体。将其中出现某种性状的个体的观察值定为
4、观察值定为“1”,否则定为,否则定为“0”。若已知二项总体的个体有若已知二项总体的个体有N个,出现个,出现某种性状的概率为某种性状的概率为p,则其参数计算如下:则其参数计算如下:=fy/N=Np/N=p 2=f(y)2/N=Np(1-p)/N=pq 可见二项总体的两个参数可见二项总体的两个参数,2都由平均数都由平均数p(即个体出现某种性状的概率即个体出现某种性状的概率)唯一确定。唯一确定。二、衍生总体参数二、衍生总体参数 从二项总体中以样本容量从二项总体中以样本容量 n 进行复进行复置抽样,根据前述中心极限定理的有置抽样,根据前述中心极限定理的有关结论,同样有:关结论,同样有:或或 N(,2)
5、且:且:=p,2=2/n=pq/n y或或 N(y ,2y )且:且:y=n=np,2y=n2=npq,于是于是:u=()/=u=(y y)/y =y f f yy-f(y)2 1 Np Np1-pNp(1-p)2 0N(1-p)0-pN(1-p)p2 N Np Np(1-p)第一节第一节 二项总体抽样二项总体抽样 例例3.1 假定调查某地全部棉株受盲椿危假定调查某地全部棉株受盲椿危害的情况,发现害的情况,发现704株受害,且株受害,且 N=2000,得得=0.352,=0.4776;现从中以现从中以n=200抽取一个样本,知受害株数抽取一个样本,知受害株数 =74,受害受害率率 =0.37,
6、试计算获此抽样误差的概率。试计算获此抽样误差的概率。解解 依题意应求依题意应求P(|p|0.018)=0.4776200=0.034原式原式=P(|u|0.53)=2 P(u -0.53)=2(-0.53)=20.2981=0.5962 依题意也可求依题意也可求P(|np|3.6)=6.754 u=(74 70.4)/6.754=0.53 习题习题 给定一个二项总体给定一个二项总体 0,1,0,0,1,1,0,1,1,0,现从中以,现从中以 n=4进行复置抽样进行复置抽样,则分析如下则分析如下:y或或 0 1 2 3 4或或 00.25 0.50.75 1.0f(y)1/164/166/164
7、/161/16 f ff()2 0 625 0-0.5 156.250.252500 625-0.25 156.250.537501875 0 00.7525001875 0.25 156.25 1 625 625 0.5 156.25 10 45000 0 625第二节第二节 检验二项资料的百分数检验二项资料的百分数 所谓二项资料的百分数,指数据资料所谓二项资料的百分数,指数据资料可以看成是从二项总体中抽得样本后,可以看成是从二项总体中抽得样本后,通过计数某一属性的个体数目算出来的通过计数某一属性的个体数目算出来的样本百分数,其样本百分数,其实质是样本平均数实质是样本平均数。正。正因为经计数
8、获得,所以因为经计数获得,所以是间断性变量是间断性变量。从理论上讲,这类百分数的显著性检从理论上讲,这类百分数的显著性检验应按二项分布进行,即用验应按二项分布进行,即用(p+q)n 的的二项展开式求出某项属性的个体数达到二项展开式求出某项属性的个体数达到某个百分数某个百分数 的概率。但的概率。但 n 稍大时,直稍大时,直接用接用(p+q)n 来计算区间概率很不方便,来计算区间概率很不方便,除非制成类似专用的统计表来查。除非制成类似专用的统计表来查。而样本容量足够大而样本容量足够大(n50)时,时,若若 p、q 不过于小不过于小(np或或nq 5),则则(p+q)n 的的分布趋近于正态分布趋近于
9、正态,可转换为可转换为 u 查算概率。查算概率。适合适合 u-test 的的 和和 值表值表 n 50 0.4 0.6 2030 80 0.3 0.7 2456 200 0.2 0.8 40160 600 0.1 0.9 605401400 0.05-0.95 70-1325第二节第二节 检验二项资料的百分数检验二项资料的百分数一、单个样本百分数一、单个样本百分数 例例3.2 根据往年调查,某地区的乳牛根据往年调查,某地区的乳牛隐性乳房炎一般为隐性乳房炎一般为30%,即即po=0.3,现对现对某牛场某牛场500头乳牛进行检测,结果有头乳牛进行检测,结果有175头头乳牛凝集反应阳性。问该牛场的隐
10、性乳房乳牛凝集反应阳性。问该牛场的隐性乳房炎是否比往年严重?炎是否比往年严重?解解 本例本例n=500,=175/500=0.35 n200,(0.2,0.8)用用u-test H0:p p0 或或 p 0.30 =(0.30.7500)=0.0205 u=(p)/=(0.350.30)/0.0205=2.439查表知查表知单侧单侧u0.05=双侧双侧u0.10=1.64推断:推断:u u0.05 故故H0不不成立。成立。若以若以 -np=175-150=25,进行进行测验测验,=10.25,u 不变。不变。若以若以H0:p=0.7 进行检验,进行检验,或或 结果也一样,结果也一样,u=2.4
11、39。本例有一般百分数为测验依据,本例有一般百分数为测验依据,具备计算总体标准误的先决条件,所具备计算总体标准误的先决条件,所以用以用u-test。这是很少见的几种能直接这是很少见的几种能直接应用标准正态分布的场合应用标准正态分布的场合,也是应用,也是应用二项总体抽样分布进行检验的优势。二项总体抽样分布进行检验的优势。用正态分布替代二项分布做检验,用正态分布替代二项分布做检验,其其本质是将间断性变量的概率分布去本质是将间断性变量的概率分布去逼近它的极限逼近它的极限连续性变量的连续性变量的fN(y)。这种近似过程会有偏差,当数据不符这种近似过程会有偏差,当数据不符合前表所列条件时还得照下例操作。
12、合前表所列条件时还得照下例操作。第二节第二节 检验二项资料的百分数检验二项资料的百分数 例例3.3 用基因型纯合的糯和非糯玉米用基因型纯合的糯和非糯玉米杂交,按遗传规律杂交,按遗传规律,预期预期F1植株上糯性花粉植株上糯性花粉粒的粒的P0=0.5。现于一视野中检视现于一视野中检视20粒花粉,粒花粉,发现糯性花粉发现糯性花粉8粒粒,试测验此次镜检结果是试测验此次镜检结果是否符合否符合F1代配子代配子1 1的分离规律。的分离规律。解解 本例本例n=2050,=8/20=0.4 不符合不符合u-test的条件的条件,只能用只能用t-test H0:p=p0 或或p=0.5 是是2=pq的无偏估计值的
13、无偏估计值 =(0.40.619)=0.1124 tc=(|p|0.5/n)/=0.667 =(0.10.025)/0.1124按自由度按自由度=19 查得查得t0.05=2.093推断:推断:t t0.05 故故H0成立成立 本例若以本例若以 -np=810=-2进行进行测验测验,则同样应根据则同样应根据2=pq的无偏估的无偏估计值计值 先计算标准误先计算标准误:=(202 0.40.619)=2.25再算再算tc=(|n p|0.5)/=(20.5)/2.25=0.667 计算计算 tc 的的做法叫连续性矫正,为做法叫连续性矫正,为的是纠正用连续性变量的的是纠正用连续性变量的t 分布替代分
14、布替代二项分布时二项分布时,因为因为 n 太小而不能忽略太小而不能忽略的偏差。即使如此,对的偏差。即使如此,对这种这种 n50的的资料进行检验只适宜于希望资料进行检验只适宜于希望 H0 被接被接受的场合;如果希望受的场合;如果希望H0被拒绝被拒绝,设计设计获得样本百分数的获得样本百分数的 n 还是越大越好,还是越大越好,达不到达不到100也不要少于也不要少于50。第二节第二节 检验二项资料的百分数检验二项资料的百分数二、两个样本百分数二、两个样本百分数 例例3.4 某养猪场第一年饲养杜长大商品某养猪场第一年饲养杜长大商品仔猪仔猪9800头,死亡头,死亡980头;第二年饲养头;第二年饲养1000
15、0头,死亡头,死亡950头,试检验第二年的死亡率与头,试检验第二年的死亡率与第一年的死亡率有无显著差异?第一年的死亡率有无显著差异?解解 =0.1,=0.095,可进行可进行u-test 不需连续性矫正,不需连续性矫正,n1 与与 n2 有有 10000之多。之多。(1)H0:p1 p2 (同时有同时有:)(2)=(n1 +n2 )/(n1+n2)=0.0975 =(980+950)/(9800+10000)=1 -=1 0.0975=0.9025 =(Se2(1/n1+1/n2)=0.00422 =(1/9800+1/10000)t=()(p1 p2)/=(0.10 0.095)/0.004
16、22=1.185(3)查得查得双侧双侧t0.05,=u0.05=1.96(4)推断推断t t0.05 H0成立。成立。本例计算标准误的本例计算标准误的前提是可以合并前提是可以合并两个样本百分数,然后计算两个样本百分数,然后计算Se2=之所以这样作而不象前例计算之所以这样作而不象前例计算Se2=(1S12+2S22)/(1+2)前先插入前先插入F检验且知两个样本方差比无显著性,检验且知两个样本方差比无显著性,是因为该题型的是因为该题型的H0有双重作用,即作有双重作用,即作出出H0:p1 p2后,后,H0:也也同真同真,原因在于二项总体的,原因在于二项总体的2=p q=p(1-p)。至于至于n1
17、或或 n2 50的的两个样本百分两个样本百分数差异显著性检验问题,即使是有数差异显著性检验问题,即使是有 t-test并且可以进行连续性矫正并且可以进行连续性矫正,同样因同样因为只有利于接受为只有利于接受H0而不利于拒绝而不利于拒绝H0,实际应用中不受推崇。实际应用中不受推崇。第三节 参数的区间估计什么叫区间估计?什么叫区间估计?即使是复置抽样,由于即使是复置抽样,由于抽样误差存在的必然性,不抽样误差存在的必然性,不同的样本将有不同的同的样本将有不同的值,值,于是于是,在一定的在一定的置信度置信度(也叫也叫置信系数置信系数或可靠度,一般为或可靠度,一般为95或或99)保证之下,估)保证之下,估
18、计出一个范围或区间以覆盖计出一个范围或区间以覆盖参数。该区间就叫置信区间参数。该区间就叫置信区间,其上下限叫置信限,分别以其上下限叫置信限,分别以L2、L1表示。表示。如例如例1.5的的n=25抽样实例:抽样实例:=44.05 g,S=4.523g,以,以1-=0.95时的时的t0.05=2.064算得:算得:L1 44.052.0644.523 42.18 gL2 44.052.0644.523 45.92 g若用若用=4.65g的已知条件,的已知条件,则:则:L1 44.051.964.65 42.23gL2 44.051.964.65 45.87 g第三节 参数的区间估计 如如例例2.3
19、已知某品种母猪的怀孕期已知某品种母猪的怀孕期为为0 0=114d,现抽查其,现抽查其10头母猪得怀头母猪得怀孕期平均日数孕期平均日数=114.5d,S=1.581d。以以1-=0.95和和S=0.5d 以及以及t0.05=2.262 时算得:时算得:L1 114.52.2620.5113.37 gL2 114.52.2620.5115.63g 该区间估计结果也可用于显该区间估计结果也可用于显著性检验,如本例所示,著性检验,如本例所示,H0:=114d被包含在被包含在1-=0.95的置信区的置信区间:间:113.37,115.63,故故H0成立。成立。反之,则反之,则H0不能成立。不能成立。若若
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 生物 统计学 课件 抽样 分布 应用
限制150内