第五章-统计推断--《试验设计与统计分析》课件.ppt
《第五章-统计推断--《试验设计与统计分析》课件.ppt》由会员分享,可在线阅读,更多相关《第五章-统计推断--《试验设计与统计分析》课件.ppt(140页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、第五章第五章 统计推断统计推断v我们做试验,直接得到的是我们做试验,直接得到的是样本样本资料,而我资料,而我们的目的是要得到关于该样本所属们的目的是要得到关于该样本所属总体总体的认的认识,由于抽样误差的存在,识,由于抽样误差的存在,样本的统计数样本的统计数不不衡等于衡等于总体参数总体参数,所以,用样本统计数直接,所以,用样本统计数直接作出关于总体参数的结论是作出关于总体参数的结论是不严肃不严肃的。的。v统计学就是告诉你,如何通过统计学就是告诉你,如何通过(特殊特殊的的)样本样本结果,作出关于结果,作出关于总体总体(一般一般性性)的结论,即:的结论,即:如何进行统计推断。如何进行统计推断。抽样分
2、布抽样分布 从总体到样本从总体到样本总体总体样本样本第一节第一节 统计推断的含义和内容统计推断的含义和内容v一、统计推断的概念一、统计推断的概念 按照一定的抽样方法,从所研究的总体中,随机抽按照一定的抽样方法,从所研究的总体中,随机抽出一个样本或一系列样本,并研究样本的特征,然后根出一个样本或一系列样本,并研究样本的特征,然后根据对样本特征的研究结果去推断总体的特征据对样本特征的研究结果去推断总体的特征。二、二、统计推断的内容统计推断的内容统计推断统计推断(statistical inference)统计假设检验统计假设检验(hypothesis testing)点估计点估计参参 数数 估估
3、计计(parameter estimation)区间估计区间估计v1、统计假设检验、统计假设检验 v是根据某种实际需要对未知的或不完全知道的统计总体是根据某种实际需要对未知的或不完全知道的统计总体提出一些假设,然后由样本的实际结果,经过一定的计提出一些假设,然后由样本的实际结果,经过一定的计算,做出在概率意义上应当接受哪种假设的检验。算,做出在概率意义上应当接受哪种假设的检验。v2、参数估计、参数估计 是指由样本统计数对总体参数做出点估计和区间估计。是指由样本统计数对总体参数做出点估计和区间估计。v(1)点估计点估计是指由样本统计数估计相应参数。是指由样本统计数估计相应参数。v(2)区间估计区
4、间估计是指以一定的概率保证总体参数位于某两个是指以一定的概率保证总体参数位于某两个数值之间。数值之间。v引例:有引例:有5棵麦苗,属于两个品种,某人自称棵麦苗,属于两个品种,某人自称有鉴别能力,我们表示怀疑,怎样才能判断有鉴别能力,我们表示怀疑,怎样才能判断他有无鉴别能力?我们他有无鉴别能力?我们假设假设他没有鉴别能力,他没有鉴别能力,凭猜。检验一下他猜对的可能性大小。凭猜。检验一下他猜对的可能性大小。第二节第二节 统计假设检验的基本原理统计假设检验的基本原理 v检验检验:v推断推断:一次就猜对:一次就猜对5棵的概率是棵的概率是0.03125,概率很小,概率很小,亦即猜亦即猜100次只有次只有
5、5次能把次能把5棵麦苗属何品种全猜对,棵麦苗属何品种全猜对,在一次试验中几乎不可能发生,所以,他若能一次在一次试验中几乎不可能发生,所以,他若能一次就说对,不是凭猜的,是确有鉴别能力。就说对,不是凭猜的,是确有鉴别能力。拿拿1棵棵拿拿2棵棵拿拿3棵棵拿拿4棵棵拿拿5棵棵猜对的概率猜对的概率=50%=0.5()2=0.25()3=0.125()4=0.0625()5=0.03125全全v这里有一个概率标准的问题,这个概率标准这里有一个概率标准的问题,这个概率标准称为显著水平称为显著水平()一般为一般为0.05或或0.01。v我们是依据我们是依据“小概率实际不可能性原理小概率实际不可能性原理”进进
6、行推断的。这个原理是说:行推断的。这个原理是说:概率很小的事件,概率很小的事件,在一次试验中几乎不可能发生或可以认为不在一次试验中几乎不可能发生或可以认为不可能发生。如果我们假设了一些条件,并在可能发生。如果我们假设了一些条件,并在假设的条件下能够准确地算出事件假设的条件下能够准确地算出事件A出现的概出现的概率很小,但在一次试验中,事件率很小,但在一次试验中,事件A竟出现了,竟出现了,那么,我们就可以认为这个假设不正确,从那么,我们就可以认为这个假设不正确,从而否定这个假设。而否定这个假设。v因为这里实际的度量结果是品种的种性(遗传特性因为这里实际的度量结果是品种的种性(遗传特性(总体平均数总
7、体平均数 )和偶然性因素和偶然性因素(试验误差试验误差)共同作用共同作用的结果,的结果,即:即:xi=+iv样本平均数应为样本平均数应为:v显然在本例中,显然在本例中,v我们的目的是要弄清由品种种性决定的新引品种的我们的目的是要弄清由品种种性决定的新引品种的穗位穗位(1)是否低于当地当家品种的穗位是否低于当地当家品种的穗位(2)。v综上所述,统计假设检验就是运用抽样分布等概率综上所述,统计假设检验就是运用抽样分布等概率原理,利用样本资料检验这些样本所在总体(即处原理,利用样本资料检验这些样本所在总体(即处理)的参数有无差异,并对检验的可靠程度做出分理)的参数有无差异,并对检验的可靠程度做出分析
8、的过程。析的过程。v统计假设检验是农业科学研究中一种非常重要的统统计假设检验是农业科学研究中一种非常重要的统计分析方法。例如要计分析方法。例如要比较两个品种的产量比较两个品种的产量有无差异,有无差异,一个一个新选育出的棉花品种的纤维长度新选育出的棉花品种的纤维长度是否达到相应是否达到相应的国家标准,的国家标准,两种农药两种农药对某种虫害的防治效果是否对某种虫害的防治效果是否一样,都需要通过统计假设检验,获得相对可靠而一样,都需要通过统计假设检验,获得相对可靠而正确的结论。正确的结论。v在实践中我们还会更多地遇到在实践中我们还会更多地遇到“要通过试验结果,要通过试验结果,来推断两个样本所在总体的
9、总体平均数是否相等,来推断两个样本所在总体的总体平均数是否相等,即即 1 2=0的的假设是否成立假设是否成立”的问题的问题。v统计假设检验又称为显著性检验(统计假设检验又称为显著性检验(significant testing),依其涉及样本和统计量的不同可分为),依其涉及样本和统计量的不同可分为u检验、检验、t检验、检验、F检验和检验和 2检验等。这些检验方法检验等。这些检验方法虽然用途和使用条件不同,但其基本原理都是相虽然用途和使用条件不同,但其基本原理都是相似的。似的。(2)备择假设或对应假设备择假设或对应假设(alternative hypothesis)HAv是无效假设被否定后必然要接
10、受的假设。无效假设与备是无效假设被否定后必然要接受的假设。无效假设与备择假设是一对对立事件,备择假设是一系列与无效假设择假设是一对对立事件,备择假设是一系列与无效假设相对立假设的集合,而不是一个单独的假设。相对立假设的集合,而不是一个单独的假设。v如:如:HA:0,HA:1 2v检验前提出无效假设的目的在于:可从假设的总体里推检验前提出无效假设的目的在于:可从假设的总体里推论随机抽样平均数的分布,从而算出某一样本平均数指论随机抽样平均数的分布,从而算出某一样本平均数指定值出现的概率,这样就可以研究样本与总体的关系,定值出现的概率,这样就可以研究样本与总体的关系,作为假设检验的理论依据。均应在试
11、验前按研究目的提作为假设检验的理论依据。均应在试验前按研究目的提出出H0。v2、确定假设的检验方法和显著水平、确定假设的检验方法和显著水平v就是根据就是根据对对所研究所研究总总体提出的假体提出的假设设和和样样本特点以本特点以及研究及研究问题问题本身的性本身的性质质,确定使用,确定使用u 检验检验、t 检检验验、F 检验检验或或 2检验检验。v显著水平(显著水平(significance level),是用来检验假,是用来检验假设正确与否的概率标准,一般选用设正确与否的概率标准,一般选用0.05或或0.01,要依据否定或接受一个假设后果的严重程度来确要依据否定或接受一个假设后果的严重程度来确定。
12、定。3、计算统计数和无效假设真实的概率、计算统计数和无效假设真实的概率v在无效假在无效假设设H0正确的假定下,可以根据假正确的假定下,可以根据假设总设总体的抽体的抽样样分布、分布、样样本与本与总总体的关系和已确定的假体的关系和已确定的假设检验设检验方法,方法,计计算无效假算无效假设设H0真真实实的概率的概率 4、做出检验结论做出检验结论v根据小概率事件根据小概率事件实际实际上不可能性原理,如果无效假上不可能性原理,如果无效假设设H0真真实实的概率小于的概率小于0.05或或0.01,那么,那么备择备择假假设设HA真真实实的概的概率就大于率就大于0.95或或0.99(无效假无效假设设与与备择备择假
13、假设设是是对对立事件立事件),因而可以否定无效假因而可以否定无效假设设H0,接受,接受备择备择假假设设HA。否。否则则,如果无效假如果无效假设设真真实实的概率大于的概率大于0.05,那么无效假,那么无效假设设就不就不是小概率事件,是小概率事件,应应接受无效假接受无效假设设H0。v由于假设检验过程中直接计算出的不是概率,由于假设检验过程中直接计算出的不是概率,而是与检验方法相对应的而是与检验方法相对应的u值、值、t值、值、F值或值或 2值,所以总是用与之相对应的表列临界值作值,所以总是用与之相对应的表列临界值作比较,大于比较,大于0.05而小于而小于0.01表列临界值的即为表列临界值的即为达达0
14、.05显著水平,大于显著水平,大于0.01表列临界值即为达表列临界值即为达0.01显著水平。显著水平。-1.96 0 1.96 u0.0250.0250.95f(u)图图5.1a 在在0.05显著水平上接受或否定显著水平上接受或否定H0:=0的几何意义的几何意义 否定区否定区 接受区接受区 否定区否定区0.0250.950.025 1.96 +1.96 三、三、两尾检验与一尾检验两尾检验与一尾检验v统计统计假假设检验设检验根据无效假根据无效假设设H0被否定后被否定后备择备择假假设设HA对对应应的区的区间间分分为为两尾两尾检验检验(two-tailed testing)与一尾)与一尾检检验验(o
15、ne-tailed testing)v1、两尾检验、两尾检验v对应对应于无效假于无效假设设H0:=0(或或H0:1=2)的的备择备择假假设设HA:0,(或或HA:1 2)v2、一尾检验、一尾检验 v无效假无效假设设被否定后,接受的被否定后,接受的备择备择假假设设只能是只能是HA:0 (或或 1 2)或或HA:0 (或或 1 2),其否定其否定区域只有一个,位于平均数区域只有一个,位于平均数 或平均数差数或平均数差数 分布曲分布曲线线的左尾或右尾,的左尾或右尾,显显著水平著水平 表示的概率在表示的概率在曲曲线线左尾或右尾,故称一尾左尾或右尾,故称一尾检验检验。v如果根据研究目的和课题性质,从理论
16、上讲,不会如果根据研究目的和课题性质,从理论上讲,不会得出得出 1 2。v要在要在 显显著水平上否定无效假著水平上否定无效假设设H0:1 2,必,必须须uu,因而因而这这种种检验检验只有一个否定区域,位于平均数只有一个否定区域,位于平均数 或平均或平均数差数数差数 分布曲分布曲线线的右尾,的右尾,显显著水平著水平 表示的概表示的概率也是曲率也是曲线线的右尾概率,的右尾概率,见图见图5.2。v如果从理论上讲,不会得出如果从理论上讲,不会得出 1 2的结论,如喷施了缩的结论,如喷施了缩节胺,棉花株高肯定降低,就属于这种情况,这时无效节胺,棉花株高肯定降低,就属于这种情况,这时无效假设为假设为H0:
17、1 2,备择假设为,备择假设为HA:1 2,要在,要在 显显著水平上否定无效假设著水平上否定无效假设H0:1 2,必须必须u 一尾的一尾的|u0.05|=1.645,v因此,一尾因此,一尾检验检验的灵敏度的灵敏度较较两尾两尾检验检验高,不高,不仅仅u检验检验是是这样这样,t检验检验也是也是这样这样,因此,因此适合适合一尾一尾检验检验的的应应尽量采用一尾尽量采用一尾检验检验。v2、第二、第二类错误类错误(second kind error)或或型型错错误误(type error)如果如果H0是不真是不真实实的,我的,我们们通通过检验过检验却不能却不能发现发现其不真其不真实实而接受了它,而接受了它
18、,即犯了一个接受不真即犯了一个接受不真实实的的H0的的错误错误。这这叫第叫第二二类错误类错误,只有在接受只有在接受H0时时才会才会发发生。生。通常通常把犯把犯第二第二类错误类错误的概率的概率记为记为 ,所以,所以这类错这类错误误又称作又称作 错误错误。v决定第二类错误发生概率的因素比较复杂。决定第二类错误发生概率的因素比较复杂。我们从不同的侧面进行讨论。我们从不同的侧面进行讨论。统计统计假假设设检验结果检验结果如果如果H0是正确的是正确的 如果如果H0是是错误错误的的如果如果H0被否定被否定第一第一类错误类错误没有没有错误错误如果如果H0被接受被接受没有没有错误错误第二第二类错误类错误v如果用
19、如果用 代表真正的代表真正的总总体平均数,以体平均数,以 H代表假代表假设设平平均数,且均数,且H0:H=50 是不真是不真实实的,而真的,而真实实的的=60,标标准准误误 ,则则真真实实分布与假分布与假设设分布如分布如图图5.4。在。在0.05显显著水平上,著水平上,H0:H=50的否定区域的否定区域为为:v现现在无效假在无效假设设H0是不真是不真实实的,所以接受不真的,所以接受不真实实的的H0的概率的概率为为(见图见图5.4)。)。50图图5.4a H0:H=50不真实(不真实(=60)时第二类错误概率)时第二类错误概率示意示意 =0.8682 的计算方法如下:的计算方法如下:由于由于查附
20、表查附表1可得可得P(u-2.79)=0.0026P(u1.13)=0.8708故故 =P(u 1.13)-P(u -2.79)=0.8708-0.0026 =0.8682图图5.4b 第二类错误概率第二类错误概率 计算示意计算示意 =0.8682这这就是就是说说,如果,如果样样本抽自本抽自=60而不是而不是 H=50 的的总总体,体,则则在在0.05的的显显著水平上,将有著水平上,将有86.82的机会接受不的机会接受不真真实实的的H0:H=50的的错误结论错误结论。换换言之有言之有0.8682的的概率不能概率不能识别识别H0:H=50为为不真不真实实的。的。如果将如果将显显著水平提高到著水平
21、提高到0.01,则临则临界界u值值由由1.96 增增加到加到2.58,H0:H=50的否定区域的否定区域为为 50图图5.5a 显著水平由显著水平由0.05提高到提高到0.01的第二类错误概率的第二类错误概率示意示意 =0.9596查附表查附表1可得可得P(u 3.41)=0.0003 P(u1.75)=0.9599故故 =P(u 1.75)-P(u 3.41)=0.9599 0.0003 =0.9596说说明,提高明,提高显显著水平,著水平,虽虽然可以减少否定真然可以减少否定真实实H0的第一的第一类错误类错误的概率的概率,但同,但同时时也增大了接受不真也增大了接受不真实实的的H0的的第二第二
22、类错误类错误的概率的概率 。图图5.5b 显著水平由显著水平由0.05提高到提高到0.01的第二类错误概率的第二类错误概率示意示意 =0.9596如如果果增增加加样样本本容容量量n,或或改改进进试试验验或或调调查查技技术术,降降低低标标准准误误,就就可可以以减减少少发发生生第第二二类类错错误误的的概概率率。假假定定将将上上面面的的 则则在在0.05显显著著水平上,水平上,H0:H=50的否定区域的否定区域为为查查附表附表1可得可得P(u -3.21)=0.0007P(u 0.71)=0.7611故故 =P(u 0.71)-P(u -3.21)=0.7611-0.0007 =0.7604这这里里
23、=0.7604小小于于 时时的的0.8682。可可见见,降低降低 能减少能减少发发生第二生第二类错误类错误的概率的概率。50图图5.6a 的第二类错误概率的第二类错误概率示意示意 =0.7604如如果果真真实实平平均均数数 不不是是60,而而是是70,则则H0:H=50的的接接受受区区域域和和否否定定区区域域不不变变,但但发发生生第二第二类错误类错误的概率的概率 将将发发生生变变化。化。由于由于查查附表附表1可得可得P(u -3.63)=0.0001P(u 0.29)=0.6141故故 =P(u0.29)-P(u-3.63)=0.6141-0.0001 =0.6140这这里里 0.6140也也
24、小小于于真真实实平平均均数数=60时时的的0.8682,见图见图5.6。50图图5.6b H0:H=50不真实不真实(=70)时第二类错误概率时第二类错误概率示意示意 =0.6140上面,我们通过假定真实平均数的方法,上面,我们通过假定真实平均数的方法,求出了发生第二类错误的概率求出了发生第二类错误的概率。实际分析。实际分析中,由于真实平均数并不知道,所以发生中,由于真实平均数并不知道,所以发生第二类错误的概率无法计算(如果知道真第二类错误的概率无法计算(如果知道真实平均数,假设检验也无需进行了)。因实平均数,假设检验也无需进行了)。因此,通常发生第二类错误的概率是一个黑此,通常发生第二类错误
25、的概率是一个黑洞,知道有,不知道有多大。洞,知道有,不知道有多大。综上所述,有关两类错误的讨论可概括如下:综上所述,有关两类错误的讨论可概括如下:(1)在在样样本本容容量量n固固定定不不变变时时,降降低低显显著著水水平平(即即 值值增增大大),如如从从0.01变变到到0.05,可可以以减减少少发发生生第第二二类类错错误误的的概概率率 。提提高高显显著著水水平平(即即 值值减减小小),如如从从0.05变变到到0.01,可可以以增加发生第二类错误的概率增加发生第二类错误的概率 。即:即:,;,。(3)在在样样本本容容量量n和和显显著著水水平平 不不变变时时,总总体体的的真真实实参参数数与假设参数相
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 试验设计与统计分析 第五 统计 推断 试验 设计 统计分析 课件
限制150内