第四章 统计推断.ppt
第四章第四章第四章第四章 统计推断统计推断统计推断统计推断总体与样本之间的关系包括两个方面:从总体到样本的研究;由样本推断总体,它是以各种样本统计量的抽样分布为基础的,一般是正态分布、t分布、2分布和F分布。对总体做统计推断有两种途径,在实际应用时可互相参照使用首先对所估计的总体做一假设,然后通过样本数据推断这个假设是否接受,这种途径称为统计假设检验通过样本统计量估计总体参数,称为总体参数估计总体总体样本样本统计量统计量(X)估计估计&检验检验总总 体体抽样抽样样样 本本(实验结果)(实验结果)检验检验(抽样分布规律)(抽样分布规律)接受接受拒绝拒绝小概率事件小概率事件未未 发发 生生小概率事件小概率事件发发 生生某种假设某种假设统计假设检验图解统计假设检验图解总体总体总体总体我我相相信信人人的的平平均均血血红红蛋蛋白白含含量量是是 126g(零假设零假设)MeanMean X X=136=136随机样本随机样本随机样本随机样本接受零假设接受零假设!拒绝备择!拒绝备择!4.1 单个样本的统计假设检验一、一般原理及两种类型的错误一、一般原理及两种类型的错误基本思想基本思想抽样分布抽样分布P50 =126H H0 0我我我我们们们们能能能能得得得得到到到到一一一一个个个个均均均均值值值值是是是是136136样样样样本本本本因而我们接受零假设因而我们接受零假设因而我们接受零假设因而我们接受零假设 =126=126样本平均数样本平均数136P0.114假设零(无效)假设:记为H0,假设总体的平均数等于某一给定的值0,即-0=0,记为H0:-0=0(零假设是针对实验考查的内容提出的,就是处理无效,在P50例子中考查的内容是:在这种药物下能否提高血红蛋白含量,所以在例子中零假设记为,H0:=0(126g)备择假设:与零假设相对的假设记为HA,它是在拒绝H0的情况下,可供选择的假设如HA:0,HA:o及HA:0。备择假设的选定视实际情况而定。在例子中备择假设记为,HA:0(126g)小概率原理小概率的事件是指在一次试验中,几乎是不会发生的事件。若根据一定的假设条件计算出来的该事件发生的概率很小,而在一次试验中它竟然发生了,则可认为原假设条件不正确,给予否定。根据小概率原理所建立起来的检验方法称为显著性检验。在生物统计工作中,通常规定5%或1%以下为小概率,称为显著性水平,记为“”。检验统计量:u t 2 F 等例4.1 用实验动物作实验材料,现从一批动物中抽取含量n=10的样本并已经计算出平均值为10.23克。要求动物满足平均体重=10.00g,=0.4的正态分布总体,若10.00g则应淘汰,问此批动物材料是否淘汰(显著性水平=0.05)?从正态分布表查出P=0.034380.05,或查=0.05时的u=1.6450,如左图。如左图。下尾检验下尾检验:拒绝拒绝H0后,接受后,接受0 377.2 显著性水平:0.05 已知,使用u检验 H0的拒绝域:因HA:0,故为上尾检验,当u u0.05时拒绝H0。u0.05=1.645。结论:u u0.05,即P 0 t t t/25、得出结论并给予解释。t 检验不如 u 检验精确例4.4 已知某玉米种群的平均穗重0300g,09.5g。喷药后,随机抽取9个果穗,其穗重为:308、305、311、298、315、300、321、294、320g。问喷药前后的果穗重差异是否显著?解:假设:H0:300HA:300药物浓度适合时可促进生长,浓度过高反而会抑制生长,所以喷药的效果未知,需采用双侧检验。显著性水平:0.05未知应使用t 检验,已计算出308,s 9.62H0的拒绝域:因HA:0,故为双侧检验,当|t|t0.025时拒绝H0。t0.025=2.306。结果:因|t|t0.025,即P 0.05,所以拒绝零假设。喷药前后果穗重的差异是显著的。若规定0.01,t0.01/2=3.355,t0222122/25、得出结论并给予解释。例例4.5一一个个混混杂杂的的小小麦麦品品种种,株株高高标标准准差差014cm,经经提提纯纯后后随随机机抽抽出出10株株,它它们们的的株株高高为为:90、105、101、95、100、100、101、105、93、97cm,考查提纯后的群体是否比原群体整齐?考查提纯后的群体是否比原群体整齐?解株高服从正态分布,未知,对未知总体的方差做检验假设:H0:14cmHA:0小麦经提纯后株高只能变得更整齐,因而使用下侧检验。显著性水平:在0.01水平上做检验检验统计量:0.990.99相应于备择假设HA:0,H0的拒绝域为221,从附表4中可以查出20.992.09 结论:因结论:因2 20.99,即即P 2 1 2,做上尾单侧检验,当FF时拒绝H0。相应于HA:12,做下尾单侧检验,当FF/2和 FF1-/2时拒绝H0。6、得出结论并给予生物学解释。例4.6 测定了20位青年男子和20位老年男子的血压值(收缩压mmHg)如表5-2所示。问老年人血压值个体间的波动是否显著高于青年人?解:1)人类血压值是正态分布的随机变量,而且两样本为独立获得。2)假设:H0:1=2HA:11,成为上尾检验3)显著性水平:根据问题的要求(是否显著),选=0.05。4)统计量的值:5)结论:F0.05=2.18,F F0.05,P2,若已知1不可能小于2;12和1uuu/26、得出结论并给予生物学解释例4.7调查两个不同渔场的马面鲀鱼的体长,每一渔场调查20条鱼。平均体长分别为:=19.8cm,=18.5cm。1=2=7.2cm。问在=0.05水平上,第一号渔场的马面鲀鱼是否显著高于第二号渔场的马面鲀鱼的体长?解马面鲀体长是服从正态分布的随机变量,1和2已知。假设:H0:12HA:12显著性水平:已规定为0.05统计量的值:建立H0的拒绝域:上尾单侧检验,当uu0.05时拒绝H0。从表中查出u0.05=1.645.结论:u0.05,不能拒绝H0,第一号渔场马面鲀体长并不比第二号的长。三、标准差(i)未知但相等时两平均数间差异显著性检验成组数据t 检验先做方差齐性检验(F-双侧检验)判断i是否相等I.方差齐性检验:1、从两个正态或近似正态总体中,独立地抽取含量分别为n1和n2的两个随机样本,分别计算出s12和s22。2、零假设:H0:12备择假设:HA:123、显著性水平:0.054、检验统计量:5、建立H0的拒绝域:对于方差齐性做双侧检验,当FF/2和F2;1t;tt/26、得出结论并给予解释。例4.8 两个小麦品种从播种到抽穗所需天数如下表,问两者所需的天数差异是否显著?解:I.方差齐性检验:使用双侧F 检验。小麦生长天数是服从正态分布的随机变量。假设:H0:12HA:12显著性水平:0.05检验统计量:建立H0的拒绝域:F9,9,0.0254.026,F9,9,0.9750.248结论:F0.975F0.05。方差具齐性。两者所需的天数差异不显著。II.平均数差异显著性检验平均数差异显著性检验小麦生长天数是服从正态分布的随机变量。假设:H0:12HA:12显著性水平:0.05检验统计量:建立H0的拒绝域:本例为双侧检验,当|t|t/2时拒绝H0,从附表4中查出t18,0.025=2.10。结论:t 0.05,接受H0。两个小麦品种从播种到抽穗所需天数差异不显著。例4.9研究两种激素类药物对肾组织切片氧消耗的影响,研究第一种药物样本数为9,平均数为27.92,样本方差为8.673;第二种的样本数为6,平均数为25.11,样本方差为1.843。问两种药物对肾组织切片氧消耗的影响差异是否显著?解解 I.方差齐性检验方差齐性检验 H0:1=2,HA:12;=0.05 F 0.05。可以接受可以接受1=2的假设的假设,即方差齐性即方差齐性 II.平均数间差异显著性检验平均数间差异显著性检验 H0:1=2,HA:12 ;=0.05 t0.025=2.160,t t0.025,即即P F0.025,结论是方差不具齐性,即 12 、平均数之间差异显著性检验 H0:1=2,HA:12,=0.05;计算出 k=0.899 df=13.35,用线性内插法可以求出t13.35,0.05(双侧)=2.15,t t;t t/26、得出结论并给予解释。得出结论并给予解释。上例的推断如下:上例的推断如下:H0:d=0,HA:d 0;0.05 t11,0.025=2.201,|t|0.05,接受接受H0。结论:用不同的母本所配成的高粱杂交种籽粒蛋白质含量差异不显著。结论:用不同的母本所配成的高粱杂交种籽粒蛋白质含量差异不显著。配对法与成组法的比较配对法比成组法更容易检出两组数据平均数之间的差异。平均数及样本含量均相同的条件下,s愈小则t值愈大,从而拒绝H0的可能性越大(即差异显著)。而配对法比成组法的样本方差小,所以配对法比成组法更容易检出两组数据平均数之间的差异。用配对法比较时,可排除数据之间可能存在的相关,提高检验的能力,从而达到事半功倍的效果。两个样本间差异显著性检验的小结两个样本间差异显著性检验的小结对总体参数的估计可分为对总体参数的估计可分为点估计点估计和和区间估计区间估计。统计推断统计推断假设检验假设检验参数估计参数估计4.3 参数估计参数估计 估计过程估计过程均值均值 未知未知总体总体总体总体我有我有95%的置的置信度认为信度认为 介于介于4040和和6060之间之间样本样本随机样本随机样本随机样本随机样本均值均值 X=50一、点估计一、点估计 我们试验的目的就是希望获得有关试验处理总体的认识。用由样本数据所计算出来的单个数值对总体参数所做的估计称为点估计。样本平均数是总体平均数的估计值;样本百分数是总体百分数P的估计值二、区间估计二、区间估计点估计没有考虑抽样误差和试验误差的影响,也未指出这种估计的可靠程度。对总体平均数和总体百分数P 更合理的估计是在一定概率保证下,给出总体平均数和标准差及总体百分数P的可能范围,这种估计方法叫区间估计,所给出的可能范围叫置信区间。例如:要调查某市全体成人脉搏的平均数。虽然不能知道某市全体成人脉搏均数的确切数值,但有95%的把握说该市全体成人脉搏均数在73.9次/分-75.1次/分之间,有99%的把握说该市全体成人脉搏均数在 73.7次/分-75.3次/分之间。用样本推断总体平均数不能简单地以样本平均数单一值做为结论。1、在已知时,的1置信区间可由下式导出。三、的置信区间的置信区间依已知和未知而不同。2、未知,用s代替,得出的1-置信区间3、区间估计与假设检验的关系假设检验中,零假设的参数值若不包含在1置信区间内,则在水平拒绝H0。玉米喷药试验(例4.5)的有关数据n=9,=308,s=9.62,=0.05(查表得t0.05(双)=2.306)代入上式,得出0.95置信区间为:300.6,315.4。这里不包括零假设的300,因而应当拒绝H0,与假设检验的结果是一致的。四、的置信区间 根据根据 可以建立可以建立的的1置信区间置信区间将将小小麦麦提提纯纯试试验验(例例4.6)的的有有关关数数据据 s=4.92,n=10及及上上下下侧侧分分位位数数(29,0.005=23.589,29,0.995=1.735)代代入入上式上式,得出得出的的0.99置信区间为置信区间为:3.04,11.21。H0:=14不不包包含含在在置置信信区区间间内内,应应拒拒绝绝H0。在在做做假假设设检检验验时时得得出出2=1.11,29,0.995=1.735,结结论论是是拒拒绝绝H0。与与区间估计的结论一致。区间估计的结论一致。五、平均数差的置信区间五、平均数差的置信区间 1 i已知已知 由式由式 导出导出12的的1置信区间置信区间2 i未知但相等未知但相等 用类似的方法可以得到用类似的方法可以得到12的的1置信区间置信区间 例例:第第四四章章例例4.9将将小小麦麦播播种种天天数数例例子子中中的的有有关关数数据据及及临临界界值值代代入入上上式式,得得出出12的的1置置信信区区间间为为:0.54,1.14。其其中中包包括括0(H0:120),应应接接受受零零假假设设。与与假假设设检检验验的的结结果一致。果一致。3 i未知但不等未知但不等可求出12的1的置信区间:例4.11将经两种处理方式的鼠血糖的数据带入上式,得出12的1置信区间为:(-4.185,8.765)。因为这两个界分别为正和负,即H0:12=0的假设包含在这两个界内,所以在=0.05水平上接受零假设。与假设检验的结果一致。六、六、配对数据的置信区间配对数据的置信区间:例例:表表4-3高高粱粱蛋蛋白白质质分分析析实实验验,将将数数据据带带入入,得得0.95置置信信区区间为间为:0.452,0.710,其中包含,其中包含0,所以应接受,所以应接受H0:=0。七、七、方差比的置信区间方差比的置信区间 所以,所以,1/21置信区间:置信区间:一、t分布的计算实例 TDIST粘贴函数:单尾或双尾概率 TINV粘贴函数:临界t值(二尾概率)4.4 用到的EXCEL的统计功能用TDIST粘贴函数计算二尾概率 本计算也可直接在编缉栏中输入TDIST(2,60,2)例如现要计算自由度等于60,t值与平均数相差2以上的2尾概率 X:为需要计算分布的数字。用TINV粘贴函数计算临界值请计算自由度为10且二尾概率为0.05时的临界t值 本计算也可直接在编缉栏中为TINV(0.05,10)CHIDIST粘贴函数:计算单尾概率 CHIINV粘贴函数:计算临界值 CHIDIST函数积分公式为:CHIINV函数积分公式为:二、卡方分布二、卡方分布 用CHIDIST粘贴函数计算概率 请计算自由度等于1及卡方值等于3.84时的右尾概率 本计算在编缉栏中为CHIDIST(3.84,1)用CHIINV粘贴函数计算临界值 请计算自由度为10及右尾概率为0.01时的2临界值 本计算在编缉栏中为CHIINV(0.01,10)FDIST粘贴函数:计算单尾概率FINV粘贴函数:计算临界值 FDIST函数积分公式为:FINV函数积分公式为:三、F分布 用函数FDIST计算一尾概率 请计算第一自由度等于2、第二自由度等于4及F值等于18时的右尾概率 本计算在编缉栏中为FDIST(18,2,4)用函数FINV计算临界F值 请计算df1=3,df2=10及右尾概率为0.05时的临界F值本计算在编缉栏中为FINV(0.05,3,10)四、EXCEL电子表格的模拟运算功能 模拟运算表是可以显示公式中某些值的变化对计算结果的影响。模拟运算表为同时求解某一运算中所有可能的变化值的组合提供了捷径,并且还可以将所有不同的计算结果同时显示在工作表中,便于查找和比较。模拟运算表有两种类型:单变量模拟运算表 双变量模拟运算表 例利用模拟运算计算临界t值表 单变量模拟运算表:单变量模拟计算结果例利用模拟运算计算临界F值表 双变量模拟运算表双变量模拟计算结果 习题:小麦株高服从N(63.33,2.882),求下列概率(利用插入函数和模拟计算表)(1)株高小于60cm;(2)株高大于69cm;(3)株高在6264 cm之间;(4)株高落在1.96之间;(5)株高在多少cm以上的占全体的95%?习题:小麦株高服从N(63.33,2.882),求下列概率(利用插入函数和模拟计算表)(1)株高小于60cm;0.123789511(2)株高大于69cm;0.024490833(3)株高在6264 cm之间;0.269868645(4)株高落在1.96之间;0.95000435(5)株高在多少cm以上的占全体的95%?58.592821995.6、利用Excel由样本推断总体利用Excel 的几个函数组合,如求平均函数AVERAGE、标准差函数STDEV、T 分布函数TINV 等组合的使用可以构造出一个专门用于实现单样本推断总体的Excel 工作表.一、推断置信区间例如:1构造工作表。如上图:首先在各个单元格输入以下的内容,其中左边是变量名,右边是相应的计算公式。2.为表格右边的公式计算结果定义左边的变量名。选定A4:B6,A8:B8和A10:B15 单元格(先选择第一部分,再按住CTRL 键选取另外两个部分),选择“插入”菜单的“名称”子菜单的“指定”选项,用鼠标点击“最左列”选项,然后点击“确定”按扭即可。3.输入样本数据及定义样本数据(如下图)4.结果如下1 1、单样本均数与总体均数差异显著性检验、单样本均数与总体均数差异显著性检验tt检验检验无效假设为Ho:o备择假设为HA:o计算公式如下:根据以上公式可导出以下结论:、由此可知,当样本平均数落在已知的总体均数置信概率为(1-)的置信区间以外时,就表明在水平时差异显著二、假设检验 例、已知约克夏母猪体重的总体平均数o=130kg,现随机抽测10头母猪的体重,数据如下:121、127、103、132、157、133、130、139、140、136(kg),试检验该样本是否来自总体均数为130kg的总体。显著性检验计算结果显著性检验计算结果结论:差异不显著、利用Excel 的正态分布函数NORMSDIST、判断函数IF 等,在总体方差已知情况下进行检验u检验(1)构造工作表。如下图附表所示,首先在各个单元格输入以下的内容,其中左边是变量名,右边是相应的计算公式。(2).为表格右边的公式计算结果定义左边的变量名。选定A3:B4,A6:B8,A10:A11,A13:A15 和A17:B19 单元格,选择“插入”菜单的“名称”子菜单的“指定”选项,用鼠标点击“最左列”选项,然后点击“确定”按扭即可。(3)输入样本数据,以及总体标准差、总体均值假设、置信水平数据。如下图(4)、为样本数据命名。选定C1:C11 单元格,选择“插入”菜单的“名称”子菜单的“指定”选项,用鼠标点击“首行”选项,然后点击“确定”按扭,得到如图所示的计算结果该例子结果:不论是单侧还是双侧均为拒绝Ho 假设。所以,在5%的显著水平之下,拒绝总体均值为35 的假设。同时由单侧显著水平的计算结果还可以看出,在总体均值是35 的假设之下,样本均值小于等于小于等于31.4 的概率仅为.0203035622、双样本均数差异的显著性检验、双样本均数差异的显著性检验等方差假设时的成组资料t检验异方差假设时的成组资料t检验成对资料的t检验(1)等方差假设时的成组资料t检验检验的基本公式双样本等均值检验是在一定置信水平之下,在两个总体方差相等的假设之下,检验两个总体均值的差值等于指定平均差的假设是否成立的检验 现随机抽测8头大白猪与8头哈白猪经产母猪产仔数资料如下(单位:头):大白猪大白猪816121761465哈白猪哈白猪14119121014138双样本等方差假设双样本等方差假设t检验结果检验结果合并方差是样本方差加权之后的平均值,Df是假设检验的自由度它等于样本总个数减2由表的结果可以看出:1、t统计量均小于两个临界值,所以,在5%显著水平下,不能拒绝两个总体均值相等的假设2、直接由概率值P可得出结果(2 2)异方差假设时的成组资料)异方差假设时的成组资料t t检验检验检验的基本公式该检验是在两个数据集的方差不等的前提假设之下进行,也称作异方差 t-检验。当进行分析的样本个数不同时,可使用此检验。现随机抽测8头大白猪与8头哈白猪经产母猪产仔数资料如下(单位:头):大白猪大白猪816121761465哈白猪哈白猪14119121014138双样本异方差假设双样本异方差假设t检验结果检验结果(3 3)成对资料的)成对资料的t t检验检验检验的基本公式当样本中出现自然配对的观察值时,可以使用此成对检验 现用国产与进口的膘厚测定仪,对14头肥猪进行了测定(单位:mm),数据如下:试检验两种仪器测定的结果有无显著差异?进口进口 32 40 27 37 32 35 28 43 40 41 41 35 49 34国产国产 43 44 30 34 30 31 26 26 42 40 42 43 37 43成对资料的成对资料的t检验结果检验结果