《第四章统计推断优秀PPT.ppt》由会员分享,可在线阅读,更多相关《第四章统计推断优秀PPT.ppt(95页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、第四章统计推断第一页,本课件共有95页研究总体和样本的关系可从两个方向进行分析:一一是是从从总总体体到到样样本本方方向向抽样分布抽样分布问题,可称为第问题,可称为第方向;方向;二二是是从从样样本本到到总总体体方方向向统统计计推推断断(statistical inference)问问题题,可可称称为为第第方方向向,两两者者互互为为逆逆命题命题.第二页,本课件共有95页本章主要讲述第第方向方向。用样本平均数可以估计总体平均数,但样本平均数有误差,所以推断结论并非绝对正确。之间的差异来自两方面:真实差异和抽样误差。需要对其进行判断。第三页,本课件共有95页 第一节第一节 统计统计推断的基本概念推断的
2、基本概念 一、统计推断一、统计推断统统计计推推断断就是根据抽样分布律和概率理论,用样本统计数推断总体参数。第四页,本课件共有95页 统计推断包括统计推断包括参数估计参数估计(parametric estimate)和和统计假设统计假设测验测验(hypothesis test)两个方面的内两个方面的内容容。统计推断的前提条件:资料来自随机样本、统计数分布律已知。第五页,本课件共有95页二、二、参数估计参数估计指用样本统计数对总体参数作点估计点估计(pointestimate)和区间估计区间估计(intervalestimate)。、点估计点估计就是用样本统计数直接估计相应的总体参数,例如用估计;
3、用s2估计2等。第六页,本课件共有95页、根据抽样分布试验,样本统计数亦是一个随机变数,所以不同的样本会有不同的估计值,即点估计具有一定的偏差,因此有必要估算一个取值范围,使总体参数能够以很高的置信度落在这个区间内,这种用样本统计数用样本统计数在一定的概率保证下估计总体参数所在一定的概率保证下估计总体参数所在范围的方法,称为参数的在范围的方法,称为参数的区间估计区间估计。第七页,本课件共有95页总体参数可能所在的区间称为置置信区间信区间(confidenceinterval)。置信区间的上下限称为置置信信限限(confidencelimits)。保证参数在该区间内的概率称为置置信信系系数数或置
4、置信信度度(confidencecoefficient),以1-表示。第一节第一节 统计推断的基本概念统计推断的基本概念第八页,本课件共有95页其中称为显著水平(significancelevel):是指用于测验假设的概率标准。农业试验中,一般取0.05和0.01,达到0.05显著水平称为检验对象间差异显著差异显著,用表示用表示;达到0.01显著水平称为检验对象间差差异极显著,用表示异极显著,用表示第九页,本课件共有95页第十页,本课件共有95页以式表示为:P(L1L2)=1-式中指总体参数,如:、2、1-2等。L1和L2称为置信限,其中L1称为置信下限;L2称为置信上限。第一节第一节 统计推
5、断的基本概念统计推断的基本概念第十一页,本课件共有95页 第一节第一节 统计推断的基本概念统计推断的基本概念三、假设测验假设检验假设检验就是用样本统计数对总体假设的真伪做出检验的概率方法。第十二页,本课件共有95页 第一节第一节 统计推断的基本概念统计推断的基本概念四、无效假设和备择假设四、无效假设和备择假设统计假设分为两类统计假设分为两类:、无无效效假假设设(nullhypothesis):用于检验的假设,以其为前提可以计算试验结果出现的概率。指总体参数与其假设值之间无实质性差异,其差异由抽样误差造成。记作:H0。第十三页,本课件共有95页无效假设的目的:可以从假设的总体里推断其随机抽样平均
6、数的分布,从而可以计算出某一样本平均数指定值出现的概率,即研究总体和样本的关系,进行假设检验。第十四页,本课件共有95页、备择假设备择假设(alternativehypothesis):无效假设被否定后必须接受的后备假设。记作:HA注:H0和HA为对立事件,即:P(H0HA)第十五页,本课件共有95页 第一节第一节 统计推断的基本概念统计推断的基本概念五五、小小概概率率原原理理(小小概概率率事事件件的实际不可能原理)的实际不可能原理)凡凡是是概概率率很很小小的的事事件件在在一一次次试试验中实际上是不可能出现的验中实际上是不可能出现的。统计推断是以小概率原理为基础而进行的。小概率的标准即为显著性
7、水平。第十六页,本课件共有95页第一节第一节 统计推断的基本概念统计推断的基本概念六、接受区间与否定区间六、接受区间与否定区间在假设检验中,抽样分布曲线下接受Ho的区域称为接受区域接受区域(regionofacceptance),等于总体参数的置信区间,其置信概率为1-。否定Ho的区域称为否定区域否定区域(regionofrejection),等于总体参数置信区间以外的区域;其概率为显著水平第十七页,本课件共有95页+1.96-1.960.950.0250.025接受区域接受区域否定区域否定区域否定区域否定区域第十八页,本课件共有95页第一节第一节 统计推断的基本概念统计推断的基本概念七、假设
8、检验的基本步骤七、假设检验的基本步骤(1)对样本所属的总体参数提出假设,包括无效假设Ho和备择假设HA。(2)确定显著水平.(3)计算。在Ho正确的前提下,根据统计数的抽样分布计算出所得样本统计数的概率p。(4)统计推断,将实得样本统计数的概率p与确定的显著水平相比较,依据概率大小作出应接受哪种参数假设的检验。(5)对结果进行解释。第十九页,本课件共有95页第一节第一节 统计推断的基本概念统计推断的基本概念例例4.1:当地小麦品种亩产0公斤,多年种植的标准差公斤;新引进品种经25个小区试验,亩产量330Kg,问两者是否有显著差异?解:、Ho:Kg;HA:0Kg;.0.05、计算u值第二十页,本
9、课件共有95页、根据.0.05,查表得临界值u0.05=1.96第二十一页,本课件共有95页第一节第一节 统计推断的基本概念统计推断的基本概念所以,uu0.05,330Kg在抽样分布中的概率p1.96u2.576左尾检验u-1.645u1.645u2.326第一节第一节 统计推断的基本概念统计推断的基本概念第二十五页,本课件共有95页两尾检验和一尾检验的主要区别两尾检验和一尾检验的主要区别:(1)两尾检验和一尾检验的的假设不同。(2)两尾检验和一尾检验用以划分两个总体的临界值不同。(3)一尾检验比两尾检验容易否定Ho,鉴定差异显著性的灵敏度较高。第一节第一节 统计推断的基本概念统计推断的基本概
10、念第二十六页,本课件共有95页九、假设检验的两类错误九、假设检验的两类错误 第第一一类类错错误误:如果无效假设Ho为真,但通过检验却否定了它,这种错误称为弃弃真真错错误误,又称统计错误的第类错误(typeIerror),其概率为显著水平。第一节第一节 统计推断的基本概念统计推断的基本概念第二十七页,本课件共有95页第二类错误第二类错误:如果无效假设Ho为伪,但通过检验确接受了它,这种错误称为取伪错误取伪错误,又称为统计推断的第二类错误(typeIIerror),其概率以记。第二十八页,本课件共有95页第一节第一节 统计推断的基本概念统计推断的基本概念第二十九页,本课件共有95页第一节第一节 统
11、计推断的基本概念统计推断的基本概念第三十页,本课件共有95页第三十一页,本课件共有95页当用样本平均数总体均数作统计推断时,可能会发生第一类错误或第二类错误,但是两类错误不可能同时发生。第一类错误会对第二类错误产生影响,当显著水平从=0.05减少到=0.01时,则会增大第二类错误的概率第一节第一节 统计推断的基本概念统计推断的基本概念第三十二页,本课件共有95页 在假设检验中犯第一类错在假设检验中犯第一类错误的概率,其最大值为误的概率,其最大值为。在假设检验中犯第二类在假设检验中犯第二类错误的概率,其最大值为错误的概率,其最大值为=1-。第三十三页,本课件共有95页关于两类错误关于两类错误:、
12、样本容量n固定的条件下,提高显著水平(取较小的值),将增大第二类错误的概率值。、在n和相同的条件下,真总体平均值与假设总体平均值0的相差(以标准差为单位)愈大,则犯第二类错误的概率越小。第一节第一节 统计推断的基本概念统计推断的基本概念第三十四页,本课件共有95页、为了降低犯两类错误的概率,需采用一个较低的显著水平,如=0.05;同时适当增加样本容量,或适当减小总体方差,或两者兼有之。、如果已固定,则改进试验技术和增加样本容量可有效降低犯第二类错误的概率。第三十五页,本课件共有95页第二节平均数的假设测验第二节平均数的假设测验一、单个样本平均数的统计推断一、单个样本平均数的统计推断(一)单个样
13、本平均数的假设检验(一)单个样本平均数的假设检验这是检验样本均数所属的总体均数与假设的总体均数0是否相等的假设检验。无效假设Ho:=0,0(或者Ho:0,HA:0)。第三十六页,本课件共有95页、u测验测验当当总总体体方方差差2已已知知或或2未未知知但但n3030时时,用用u检验检验。例4.2:如引进品种与原地方品种比较,因2已知时,故用u检验:第二节平均数的假设测验第二节平均数的假设测验第三十七页,本课件共有95页第二节平均数的假设测验第二节平均数的假设测验例4.3:抽检了80包方便面,计得净重平均数=65.05(g),s=2.54(g),试检验该方便面净重的总体均数是否显著高于标准0=65
14、(g)?假设H0:65(g)对HA:65(g)显著水平=0.05检验计算虽然总体方差2未知,但是n30为大样本,故可用u检验。第三十八页,本课件共有95页实得u65(g),即该方便面净重的总体均数与标准重量0=65(g)之间无显著差异,因而可以确定包装机工作正常。第三十九页,本课件共有95页第二节平均数的假设测验第二节平均数的假设测验、当总体方差当总体方差2未知,且未知,且n30为小样本时,用为小样本时,用t检验。检验。例4.4:随机抽样测定了某小麦品种的千粒重,n=8,观察值为32.7、36.8、35.9、34.6、35.6、37.6、33.4、35.1(g),试检验该小麦品种千粒重的总体均
15、数与假设总体均数0=34(g)之间的差异显著性?第四十页,本课件共有95页参数假设Ho:=34g;HA:34g显著水平=0.05检验计算由于总体方差2未知,且n2.3646)=0.05,实得t值的概率p(t2.087)0.05,故接受Ho:=34(g),否定HA:34(g),即该小麦品种千粒重总体均数与假设总体均数0=34(g)之间无显著差异。第四十三页,本课件共有95页(二二)总体均数总体均数的区间估计的区间估计 当当总总体体方方差差2已已知知或或2未未知知但但n3030时时,的的1-的置信区间为:的置信区间为:第四十四页,本课件共有95页(三三)推断总体均数推断总体均数所需的样本容量所需的
16、样本容量由样本均数的抽样分布可知,当n趋近时,必趋近,但是n的增大必将使人力物力消耗增多,故n不可能很大。第四十五页,本课件共有95页 用u替换上式中的u值,即可得推断总体平均数所需的样本容量。若为t分布,则:第四十六页,本课件共有95页二、两个样本平均数差数的统计推断二、两个样本平均数差数的统计推断(一)假设测验(一)假设测验、成组数据的比较、成组数据的比较(两个独立总体均两个独立总体均数差数数差数(1-2)的假设检验的假设检验)两个处理完全随机设计,各供试单位彼此独立,不论两处理的样本容量是否相同,所得数据为成组数据成组数据 第四十七页,本课件共有95页(1)u测验测验:当两个总体方差12
17、和22已知时,用u测验:第四十八页,本课件共有95页例4.5:某小麦平方米产量的20.4(Kg)2,在其地块内用、两法抽样:A法样点,(1 1.2Kg,B法 8样 点,21.4Kg。比较两法每平方米产量是否相等。第四十九页,本课件共有95页解:Ho:1=2,HA:12,0.05122220.4,n1=12,n2=8第五十页,本课件共有95页|u|U0.05=1.96,所以接受Ho:1=2,两法所取每平方米产量相同,12-0.2属于抽样误差第五十一页,本课件共有95页()()t测验测验 当两个总体方差12和22未知,但可假定1222,用t检验首先计算两样本均方的加权平均数:第五十二页,本课件共有
18、95页然后计算两样本平均数差数的标准误:第五十三页,本课件共有95页最后计算t值:df=(n1-1)+(n2-1)例4.6研究矮状素使玉米矮化的效果,测定使用矮壮素小区株,对照区株,试作假设测验。第五十四页,本课件共有95页_重复x1(CK)x2(处理)_117016022701603180200425016052702006290170727015082302109170_n98233.3176.3第五十五页,本课件共有95页解:由于用矮状素处理的玉米株高不可能大于对照的玉米株高,故作一尾检验。参数假设:Ho:21对HA:21显著水平=0.01检验计算:SS1=18400SS2=3787.5
19、第五十六页,本课件共有95页第五十七页,本课件共有95页df=n1+n2-2=9+8-2=15查t分布表得一尾检验的临界值t0.05=1.753,t0.01=2.6025第五十八页,本课件共有95页统计推断:因为p(t-2.6025)=0.01,实得t值的概率p(t3.05)0.01,故否定Ho:21,接受HA:2t0.01,推断:否定Ho:d=0,接受HA:d0,即:A、B两法病毒斑数有极显著差异。(二)区间估计(二)区间估计、两个总体均数差数两个总体均数差数(1-2)的区的区间估计间估计第七十页,本课件共有95页()两个总体方差12和22已知或虽未知但为大样本时(1-2)的置信区间为:第七
20、十一页,本课件共有95页()当两个总体方差12和22未知,但可假定1222,且两个样本又为小样本时(1-2)的置信区间为:第七十二页,本课件共有95页()当当两两个个总总体体方方差差12和和22未未知知,且且1222时时(1-2)的置信区间为:第七十三页,本课件共有95页、成对数据总体差数、成对数据总体差数d的置信的置信限限第七十四页,本课件共有95页(三三)推推断断两两个个总总体体均均数数差差数数所所需需的的样样本容量本容量、推推断断两两个个独独立立总总体体均均数数差差数数(1-2)所需的样本容量所需的样本容量第七十五页,本课件共有95页、推推断断两两个个配配对对总总体体差差数数均均数数d所
21、需的样本容量所需的样本容量用替换上式中的t值,即可得到假设检验用于推断两个配对总体差数均数d所需的样本容量:第七十六页,本课件共有95页第三节二项资料的百分数假设第三节二项资料的百分数假设测验测验一一、单单个个样样本本百百分分数数(成成数数)的的假假设设测测验验目的:测验某一样本百分数所属总体百分数与某一理论值或期望值p0的差异显著性。第七十七页,本课件共有95页例4.13:紫花与白花大豆杂交,F2共得289株:紫花208,白花81,测验是否符合一对等位基因的遗传规律?第七十八页,本课件共有95页解:对紫花H0:p=0.75;HA:p0.75,u0.05=1.96=208/289=0.7197
22、|u|u0.05,所以接受H0:p=0.75,即符合一对等位基因的遗传规律,与p之间的差异属随机误差。第七十九页,本课件共有95页也可用次数资料进行测验:np=2890.75=216.75所以:结果同上。第八十页,本课件共有95页二、两个样本百分数相比较的假设测验二、两个样本百分数相比较的假设测验目的:测验两个样本百分数和所属总体百分数p1和p2的差异显著性。总体百分数已知时,样本差数标准误:第八十一页,本课件共有95页若p1=p2=p;q1=q2=q:总体百分数p1、p2未知,在假设下:第八十二页,本课件共有95页差数标准误:由可测验Ho.第八十三页,本课件共有95页例4.14:调查两地块小
23、麦锈病,测验锈病率有无差异。n1=378株,x1=355株,=93.92%n2=396株,x2=346株,=87.31%解:H0:p1=p2;HA:p1p2,u0.05=1.96第八十四页,本课件共有95页所以:否定H0:p1=p2,接受HA:p1p2第八十五页,本课件共有95页三三、二二项项样样本本假假设设测测验验时时的的连连续续性性校正校正 二项资料是间断性变数,用连续型分布进行测验时会有误差,易发生第一类错误,所以在n30或 时需进行连续性校正。、单个样本百分数的连续性校正、单个样本百分数的连续性校正第八十六页,本课件共有95页例4.15:玉米糯非糯F1花粉粒糯:非糯1:1镜检:共20粒
24、,有糯性8粒。测验是否符合p0=0.5解:H0:p=0.5,HA:p0.58/200.4,=1-0.4=0.6=8粒;12粒第八十七页,本课件共有95页df=20-1=19时,t0.05=2.093,|t|t0.05,所以接受H0:p=0.5,否定HA:p0.5即:符合1:1的理论分离比率。第八十八页,本课件共有95页、两两个个样样本本百百分分数数相相比比较较的的假假设设测测验的连续性校正验的连续性校正两个样本百分数:取较大值的具有x1和n1,取较小值的具有x2和n2,则:第八十九页,本课件共有95页例例4.16:新农药处理25头棉铃虫,死亡15头;乐果处理24头,死亡9头。测验杀虫效果是否具
25、有显著差异。解:H0:p1=p2;HA:p1p2,=0.05计算:第九十页,本课件共有95页df=24+25-2=4745,t0.05=2.014,|tc|t0.05,接受H0:p1=p2;否定HA:p1p2。即:两种农药杀虫效果无显著差异。第九十一页,本课件共有95页四、区间估计四、区间估计、单个总体百分数、单个总体百分数p的置信限的置信限可按二项分布或正态分布估计,前者根据n和f(某一属性出现的个体数)查表。后者需计算:第九十二页,本课件共有95页例4.17:调查100株玉米,20株受虫害,20/100=0.2或 =20株。试计算95置信度的置信区间解:()查表法:n=100,f=20时,得13,29,即的置信区间为0.13,0.29。()正态近似计算法:第九十三页,本课件共有95页u0.05=1.96所以:L1=0.2-(1.960.04)=0.1216L2=0.2+(1.960.04)=0.2784第九十四页,本课件共有95页、两两个个二二项项总总体体百百分分数数差差数数(p1-p2)的的置信限置信限该估计只有在明确两个百分数差数有显著差异时才有意义。第九十五页,本课件共有95页
限制150内