第四章 统计推断-.ppt
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_05.gif)
《第四章 统计推断-.ppt》由会员分享,可在线阅读,更多相关《第四章 统计推断-.ppt(131页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、统计推断(statistical inference)第四章上节课内容正态分布的概率密度函数正态分布的概率密度函数标准正态分布标准正态分布正态分布的概率计算正态分布的概率计算统计推断由一个样由一个样本或一糸本或一糸列样本所列样本所得的结果得的结果来推断总来推断总体的特征体的特征假设检验假设检验参数估计参数估计第四章第四章第一节第一节第二节第二节假设检验的原理与方法假设检验的原理与方法统计数的分布与检验统计数的分布与检验第三节第三节样本频率的假设检验样本频率的假设检验第四节第四节参数的区间估计与点估计参数的区间估计与点估计中心极限定理中心极限定理(central limit theorem)如果
2、被抽总体不是正态分布总体,但具有平均数如果被抽总体不是正态分布总体,但具有平均数和方差和方差2 2,当随样本容量,当随样本容量n的不断增大,的不断增大,样本平均数样本平均数 x 的分布也越来越接的分布也越来越接近正态分布,且具有平均数近正态分布,且具有平均数,方差方差2 2/n。不论总体为何种分布,只要是大样本,就可运用中心极限不论总体为何种分布,只要是大样本,就可运用中心极限定理,认为样本平均数的分布是正态分布,在计算样本平定理,认为样本平均数的分布是正态分布,在计算样本平均数出现的概率时,样本平均数可按下式进行标准化。均数出现的概率时,样本平均数可按下式进行标准化。一 概念:假设检验(hy
3、pothesis test)又称显著性检验(significance test),就是根据总体的理论分布和小概率原理,对未知或不完全知道的总体提出两种彼此对立的假设,然后由样本的实际原理,经过一定的计算,作出在一定概率意义上应该接受的那种假设的推断。第一节 假设检验小概率原理小概率原理 概率很小的事件在一次抽样试验中实际是几乎不可能发生的。=0.05/0.01 如果假设一些条件,并在假设的条件下能够准确地算如果假设一些条件,并在假设的条件下能够准确地算出事件出现的概率出事件出现的概率 为很小,则在假设条件下的为很小,则在假设条件下的n次独次独立重复试验中,事件立重复试验中,事件A将按预定的概率
4、发生,而在一次试将按预定的概率发生,而在一次试验中则几乎不可能发生。验中则几乎不可能发生。假假设设检检验验参数检验参数检验非参数检验非参数检验平均数的检验平均数的检验频率的检验频率的检验方差的检验方差的检验秩和检验秩和检验符号检验符号检验游程检验游程检验秩相关检验秩相关检验 治疗前治疗前 0 126 2 240 N(126,240)治疗后治疗后 n 6 x 136 未知未知 那么那么 0?即克矽平对治疗矽肺是否有效即克矽平对治疗矽肺是否有效?例例:设矽肺病患者的血红蛋白含量具平均数:设矽肺病患者的血红蛋白含量具平均数 0 0126(mg/L)126(mg/L),2 2 240240 (mg/L
5、)(mg/L)2 2的正态分布。现用克矽平对的正态分布。现用克矽平对6 6位矽肺病患者进位矽肺病患者进行治疗,治疗后化验测得其平均血红蛋白含量行治疗,治疗后化验测得其平均血红蛋白含量x=136(mg/L)x=136(mg/L)。1 1 、提出假设、提出假设对对立立无效假设无效假设无效假设无效假设/零假设零假设零假设零假设/检验假设检验假设检验假设检验假设备择假设备择假设备择假设备择假设/对应假设对应假设对应假设对应假设 0 0 误差效应处理效应H0HA例例:克矽平治疗矽肺病是否能提高血红蛋白含量?:克矽平治疗矽肺病是否能提高血红蛋白含量?平均数的假设检验平均数的假设检验检验治疗后的总体平均数检
6、验治疗后的总体平均数 是否还是治疗前的是否还是治疗前的126(mg/L)126(mg/L)?x-x-0 0136-126136-12610(mg/L)10(mg/L)这一差数这一差数是由于治疗造成的,还是抽样误差所致。是由于治疗造成的,还是抽样误差所致。本例中零假设是指治疗后的血红蛋白平均数仍和治疗前一样,本例中零假设是指治疗后的血红蛋白平均数仍和治疗前一样,二者来自同一总体,接受零假设则表示克矽平没有疗效。二者来自同一总体,接受零假设则表示克矽平没有疗效。而相对立的备择假设表示拒绝而相对立的备择假设表示拒绝H0,治疗后的血红蛋白平均数,治疗后的血红蛋白平均数和治疗前的平均数来自不同总体,即克
7、矽平有疗效。和治疗前的平均数来自不同总体,即克矽平有疗效。H0:=0=126(mg/L)HA:0 0 2 2、确定显著水平确定显著水平0.05显著水平*极显著水平*能否定能否定H0的的人为人为规定的规定的概率概率标准称为显著水平,记作标准称为显著水平,记作。统计学中,一般认为概率小于统计学中,一般认为概率小于0.05或或0.01的事件为的事件为小概率事件小概率事件,所以在小概率原理基础上建立的假设检验也所以在小概率原理基础上建立的假设检验也常取常取=0.05和和=0.01两个显著水平两个显著水平。P1.581)=20.0571=0.1142 根据研究设计的类型和统计推断的目的选择使用不同的检验
8、方法。例:4、作出推断结论:是否接受假设PP0.05所以接受H0,从而得出结论:使用克矽平治疗前后血红蛋白含量未发现有显著差异,其差值10应归于误差所致。P(x +1.96)=0.05P(x +2.58)=0.01P(-1.96u1.96)=0.95P(x+1.96)=P(x+2.58)=P(-2.58u2.58)=0.99u2.58)=0.99P(u 1.96)=0.05P(u 2.58)=0.01已知:0.950.0250.025u 1.96u 2.58P(u )0.05P(u )0.01差异达显著水平差异达显著水平差异达极显著水平差异达极显著水平 0P(-1.96 x x +1.96 x
9、)=0.95-1.96 x+1.96 x0.950.0250.025临界值:临界值:+u x左尾右尾否定区否定区接受区u +1.96 x三三、双尾检验与单尾检验、双尾检验与单尾检验 0P(-2.58 x x 0假设:否定区H0:0 HA:30)时,样本平均数的分布服从正态分布,标准化后服从标准正态分布,即u分布.要检验样本平均数与指定总体平均数的要检验样本平均数与指定总体平均数的差异显著时用差异显著时用u u检验法检验法进行检验进行检验一、一、u分布与分布与u检验检验1、总体方差2已知,无论n是否大于30都可采用u检验法例:例:某鱼场按常规方法所育鲢鱼一月龄的平均体长为某鱼场按常规方法所育鲢鱼
10、一月龄的平均体长为7.25cm,标准差为标准差为1.58cm,现采用一新方法进行育苗,一月龄时随机抽,现采用一新方法进行育苗,一月龄时随机抽取取100尾进行测量,其平均体长为尾进行测量,其平均体长为7.65cm,问新育苗方法与常规方法有无显著差异?问新育苗方法与常规方法有无显著差异?分分分分析析析析()这是一个样本平均数的假设检验,因总体()这是一个样本平均数的假设检验,因总体2已知已知,采用采用u检验;检验;()新育苗方法的鱼苗体长()新育苗方法的鱼苗体长 或或常规方法鱼苗体长,常规方法鱼苗体长,应进行双尾检验。应进行双尾检验。()假设()假设(2)水平)水平(3)检验)检验(4)推断)推断
11、H0:=0=7.25(cm),即新育苗方法与常规方法所育鱼苗一月龄体长相同;即新育苗方法与常规方法所育鱼苗一月龄体长相同;HA:0选取显著水平选取显著水平0.05 u 1.96否定否定H0,接受,接受HA;认为新育苗方法一月龄体长与常规方法有显著差异。认为新育苗方法一月龄体长与常规方法有显著差异。2、总体方差2未知,但n30时,可用样本方差s2来代替 总体方差2,仍用u检验法总体总体(0)样本样本(n30)x s22例:例:生产某种纺织品,要求棉花纤维长度平均为生产某种纺织品,要求棉花纤维长度平均为30mm以上,以上,现有一棉花品种,以现有一棉花品种,以n=400进行抽查,测得其纤维平均长度为
12、进行抽查,测得其纤维平均长度为30.2mm,标准差为,标准差为2.5mm,问该棉花品种的纤维长度是否符合纺织品的生产要求?问该棉花品种的纤维长度是否符合纺织品的生产要求?分分分分析析析析()这是一个样本平均数的假设检验,因总体()这是一个样本平均数的假设检验,因总体2未知未知,n=400 30,可用,可用s2代替代替2进行进行u检验;检验;()棉花纤维只有()棉花纤维只有30mm才符合纺织品的生产要求,因才符合纺织品的生产要求,因 此进行此进行单尾检验单尾检验。()假设()假设(2)水平)水平(3)检验)检验(4)推断)推断H0:0=30(cm),即该棉花品种纤维长度不能达到纺织品生产的要求。
13、即该棉花品种纤维长度不能达到纺织品生产的要求。HA:0选取显著水平选取显著水平0.05 u 1.645接受接受H0,否定,否定HA;认为该棉花品种纤维长度不符合纺织品生产的要求。认为该棉花品种纤维长度不符合纺织品生产的要求。u 0.05=1.64样本为小样本(n30)且总体方差2 未知时,如果仍用s2来估计,这时的标准离差u 就不呈正态分布了,而是服从df=n-1的t 分布,要检验样本平均数与指定总体平均数的差异显著时,就必须用t t检验检验二、二、t分布与分布与t 检验检验t落于落于-t0.05,+t0.05 内的概率为内的概率为0.95t落于落于-t0.01,+t0.01 内的概率为内的概
14、率为0.99置信度为和的置信度为和的t临界值。临界值。t0.05(4)2.776 t0.1(4)2.132-2.776+2.776t0.2(4)1.533在相同的自由度在相同的自由度df时,时,t值越大,概率值越大,概率P越小。越小。在相同在相同t值时,双尾概率值时,双尾概率P为单尾概率为单尾概率P的两倍。的两倍。12df增大,增大,t分布接近正态分布,即分布接近正态分布,即t值接近值接近u值。值。3t分布特性分布特性 例:总体方差2未知,且n30时,可用样本方差s2来代替总体方差2,采用df=n-1的t检验法总体总体(0)样本样本(n30)x s22例:例:某鱼塘水中的含氧量,多年平均为某鱼
15、塘水中的含氧量,多年平均为4.5(mg/L),该鱼塘设,该鱼塘设10个点采集水样,测定含氧量为:个点采集水样,测定含氧量为:4.33,4.62,3.89,4.14,4.78,4.64,4.52,4.55,4.48,4.26(mg/L)试检验该次抽样测定的水中含氧量与多年平均值有无显著差别。试检验该次抽样测定的水中含氧量与多年平均值有无显著差别。分分分分析析析析()这是一个样本平均数的假设检验,因总体()这是一个样本平均数的假设检验,因总体2未知未知,n=10 或或0.05从方差为从方差为2 2的的正态总体中,随机抽取正态总体中,随机抽取k个独立样本,计算个独立样本,计算出样本方差出样本方差S2
16、 2,研究其样本方差的分布。,研究其样本方差的分布。df=k-1在研究样本方差的分布时,通常将其标准化,得到在研究样本方差的分布时,通常将其标准化,得到k个正个正态离差态离差u,则,则三、三、x 分布与分布与x 检验检验22表中表头的概率表中表头的概率是是2 2大于表内所列大于表内所列2 2值的概率。值的概率。df=2P P(2 2 5.995.99)0.050.05P P(2 2 9.219.21)0.010.01P P(2 2 0.100.10)0.950.95例1 一个样本方差的同质性检验所谓方差的同质性,就是指各个总体的所谓方差的同质性,就是指各个总体的方差是相同的。方差是相同的。方差
17、的同质性检验就是要从各样本的方方差的同质性检验就是要从各样本的方差来推断其总体方差是否相同差来推断其总体方差是否相同我们知道从标准正态总体中抽我们知道从标准正态总体中抽取取k个独立个独立u2之和为之和为2,即,即当用样本平均数当用样本平均数 估计估计时,则有:时,则有:由样本方差由样本方差 上式中上式中,分子表示样本的离散程度分子表示样本的离散程度,分母表示总分母表示总体方差体方差,其其 服从自由度为服从自由度为n-1的的 分布分布.得得例题例题 已知某农田受到重金属的污染,经抽样测定其铅浓度为已知某农田受到重金属的污染,经抽样测定其铅浓度为4.2,4.5,3.6,4.7,4.0,3.8,3.
18、7,4.2gg-1,样本方差为,样本方差为0.150(gg-1)2,试检验受到污染的农田铅浓度的方差是否与正,试检验受到污染的农田铅浓度的方差是否与正常农田铅浓度的方差常农田铅浓度的方差0.065(gg-1)2相同。相同。此题为一个样本方差与总体方差的同质性检验此题为一个样本方差与总体方差的同质性检验()假设()假设(2)水平)水平选取显著水平选取显著水平0.05 H0:20.065,即受到污染的农田,即受到污染的农田铅浓度的方差与正常农田铅浓度的铅浓度的方差与正常农田铅浓度的方差相同。方差相同。HA:20.065(3)检验)检验查附表,当查附表,当df8-17时,附表是单尾检验,此题为双尾时
19、,附表是单尾检验,此题为双尾(4)推断)推断否定否定H0,接受接受A,即样本方差与总体方差是,即样本方差与总体方差是不同质的,认为受到污染的农田铅浓度的方差不同质的,认为受到污染的农田铅浓度的方差与正常农田铅浓度的方差与正常农田铅浓度的方差0.065(gg-1)2有有显著差异显著差异0.02516.010.9751.690.025例2独立性检验独立性检验又叫列联表(又叫列联表(contigency tablecontigency table)2 2检验,检验,它是研究两个或两个以上因子彼此之间是独立还它是研究两个或两个以上因子彼此之间是独立还是相互影响的一类统计方法。是相互影响的一类统计方法。
20、例例2某医院用碘治疗地方性甲状腺肿,不同某医院用碘治疗地方性甲状腺肿,不同年龄的治疗效果列于下表,试检验不同年龄年龄的治疗效果列于下表,试检验不同年龄的治疗效果有无差异?的治疗效果有无差异?年龄(岁)年龄(岁)治愈治愈显效显效好转好转无效无效合计合计11113030313150505050以上以上6767323210109 9232311111010202023235 54 45 5919179794949合计合计109109434353531414219219不同年龄用碘剂治疗甲状腺肿效果比较不同年龄用碘剂治疗甲状腺肿效果比较1.H0:治疗效果与年龄无关;:治疗效果与年龄无关;HA:治疗效果
21、与:治疗效果与年龄有关,即不同年龄治疗效果不同;年龄有关,即不同年龄治疗效果不同;2.给出显著水平给出显著水平0.010.013.3.计算统计数计算统计数2:年龄(岁)年龄(岁)治愈治愈显效显效好转好转无效无效 合计合计11113030313150505050以上以上6767323210109 9232311111010202023235 54 45 5919179794949合计合计109109434353531414219219查查2表,当表,当df=(3-1)(4-1)6时,时,20.0116.81,所以,所以246.98820.01,P0.01,应拒绝,应拒绝H0,接受,接受HA,说明
22、治疗效果与年龄有关。,说明治疗效果与年龄有关。在治疗效果与年龄有关的基础上,可以将下面的在治疗效果与年龄有关的基础上,可以将下面的34列联表做成列联表做成3个24列联表,测验列联表,测验2个年龄段疗效个年龄段疗效的差异:的差异:11113030岁岁与与31315050岁岁两个年龄段疗效的比较两个年龄段疗效的比较11113030岁岁与与5050岁以上岁以上两个年龄段疗效的比较两个年龄段疗效的比较31315050岁岁与与5050岁以上岁以上两个年龄段疗效的比较两个年龄段疗效的比较(1)(1)11113030岁与岁与31315050岁两个年龄段疗效的比较岁两个年龄段疗效的比较年龄(岁)年龄(岁)治愈
23、治愈显效显效 好转好转 无效无效 合计合计1111303031315050676732329 92323101020205 54 491917979合计合计9999323230309 9170170(2)(2)11113030岁与岁与5050岁以上两个年龄段疗效的比较岁以上两个年龄段疗效的比较年龄(岁)年龄(岁)治愈治愈显效显效 好转好转 无效无效 合计合计111130305050以上以上676710109 91111101023235 55 591914949合计合计7777202033331010140140(3)31(3)315050岁与岁与5050岁以上两个年龄段疗效的比较岁以上两个年
24、龄段疗效的比较年龄(岁)年龄(岁)治愈治愈显效显效 好转好转 无效无效 合计合计313150505050以上以上3232101023231111202023234 45 579794949合计合计4242343443439 912812811113030岁与岁与31315050岁两个年龄段疗效的比较岁两个年龄段疗效的比较 2 2 21.202(21.202(极显著极显著)11113030岁与岁与5050岁以上两个年龄段疗效的比较岁以上两个年龄段疗效的比较2 2 38.37(38.37(极显著极显著)31315050岁与岁与5050岁以上两个年龄段疗效的比较岁以上两个年龄段疗效的比较2 2 9.
25、574(9.574(显著显著)df=(2-1)df=(2-1)(4-1)=3 (4-1)=3 2 20.050.05=7.81 =7.81 2 20.010.01=11.34=11.34 比较观测数与理论数是否符合的假设检验。比较观测数与理论数是否符合的假设检验。例例3 适合性检验适合性检验定义定义用用 途途遗传学中用以检验实际结果是否符合遗传规律遗传学中用以检验实际结果是否符合遗传规律样本的分布与理论分布是否相等样本的分布与理论分布是否相等自由组合定律自由组合定律适合性检验的适合性检验的dfdf由于受理论值的总和等于由于受理论值的总和等于观测值总和这一条件的约束,故观测值总和这一条件的约束,
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 第四章 统计推断- 第四 统计 推断
![提示](https://www.taowenge.com/images/bang_tan.gif)
限制150内