概率论与数理统计(07)2.ppt
引言引言 前面,我们讨论了参数点估计前面,我们讨论了参数点估计.它它是用样本算得的一个值去估计未知参数是用样本算得的一个值去估计未知参数.但是,点估计值仅仅是未知参数的一个但是,点估计值仅仅是未知参数的一个近似值,它没有反映出这个近似值的误近似值,它没有反映出这个近似值的误差范围,使用起来把握不大差范围,使用起来把握不大.区间估计区间估计正好弥补了点估计的这个缺陷正好弥补了点估计的这个缺陷.第四节 正态总体的区间估计(一)譬如,在估计湖中鱼数的问题中,若譬如,在估计湖中鱼数的问题中,若我们根据一个实际样本,得到鱼数我们根据一个实际样本,得到鱼数N的极的极大似然估计为大似然估计为1000条条.若我们能给出一个区间,在此区间若我们能给出一个区间,在此区间内我们合理地相信内我们合理地相信 N 的真值位于其中的真值位于其中.这样对鱼数的估计就有把握多了这样对鱼数的估计就有把握多了.实际上,实际上,N的真值可能大于的真值可能大于1000条,条,也可能小于也可能小于1000条条.第四节 正态总体的区间估计(一)也就是说,我们希望确定一个区间,使我也就是说,我们希望确定一个区间,使我们能以比较高的们能以比较高的可靠程度可靠程度相信它包含真参相信它包含真参数值数值.湖中鱼数的真值湖中鱼数的真值 这里所说的这里所说的“可靠程度可靠程度”是用概率来度量的,是用概率来度量的,称为置信概率,置信度或置信水平称为置信概率,置信度或置信水平.习惯上把置信水平记作习惯上把置信水平记作,这里,这里 是一个是一个很小的正数很小的正数.第四节 正态总体的区间估计(一)置信水平的大小是根据实际需要选定的置信水平的大小是根据实际需要选定的.例如,通常可取置信水平例如,通常可取置信水平 =0.95或或0.9等等.根据一个实际样本,由给定的置信水平,我根据一个实际样本,由给定的置信水平,我小的区间小的区间 ,使,使们求出一个尽可能们求出一个尽可能置信水平为置信水平为 的的置信区间,其中置信区间,其中 为两个统计量为两个统计量.称区间称区间 为为 的的第四节 正态总体的区间估计(一)区间估计的主要原理区间估计的主要原理第四节 正态总体的区间估计(一)样本统计量样本统计量样本统计量样本统计量(点估计)(点估计)(点估计)(点估计)区间估计的主要原理区间估计的主要原理第四节 正态总体的区间估计(一)置信区间置信区间置信区间置信区间样本统计量样本统计量样本统计量样本统计量(点估计)(点估计)(点估计)(点估计)置信下限置信下限置信下限置信下限置信上限置信上限置信上限置信上限区间估计的主要原理区间估计的主要原理第四节 正态总体的区间估计(一)置信区间置信区间置信区间置信区间样本估计量样本估计量样本估计量样本估计量(点估计)(点估计)(点估计)(点估计)置信下限置信下限置信下限置信下限置信上限置信上限置信上限置信上限总体参数落入区间某处的概率总体参数落入区间某处的概率总体参数落入区间某处的概率总体参数落入区间某处的概率区间估计的主要原理区间估计的主要原理第四节 正态总体的区间估计(一)寻找置信区间的方法寻找置信区间的方法,一般是从确定一般是从确定误差限误差限入手入手.使得使得称称 为为 与与 之间的误差限之间的误差限.我我们们选选取取未未知知参参数数的的某某个个估估计计量量 ,根根据置信水平据置信水平 ,可以找到一个正数,可以找到一个正数 ,只要知道只要知道 的概率分布,确定误差限并不难的概率分布,确定误差限并不难.第四节 正态总体的区间估计(一)下面我们就来正式给出置信区间的定义下面我们就来正式给出置信区间的定义,并通过例子说明求置信区间的方法并通过例子说明求置信区间的方法.由不等式由不等式可以解出可以解出 :这个不等式就是我们所求的置信区间这个不等式就是我们所求的置信区间.第四节 正态总体的区间估计(一)前面已经给出了概率分布的上侧分位数(分前面已经给出了概率分布的上侧分位数(分位点)的定义,为便于应用,这里我们再简位点)的定义,为便于应用,这里我们再简要复习一下要复习一下.在求置信区间时,要查表求分位数在求置信区间时,要查表求分位数.设设0 1,对随机变量对随机变量X,称满足称满足的点的点 为为X的概率分布的上的概率分布的上 分位数分位数.第四节 正态总体的区间估计(一)例如例如:标准正态分布的标准正态分布的上上 分位数分位数第四节 正态总体的区间估计(一)例如例如:分布的上分布的上 分位数分位数自由度为自由度为n的的第四节 正态总体的区间估计(一)F分布的上分布的上 分分位数位数自由度为自由度为n1,n2的的第四节 正态总体的区间估计(一)书书末末附附有有 分分布布、t 分分布布、F分分布布的的上上侧侧分分位位数数表表,供供使使用用.需需要要注注意意的的事事项项在在教教材上有说明材上有说明.至于如何由标准正态分布函数表查表至于如何由标准正态分布函数表查表求得分位数,若你对分布函数定义熟悉的求得分位数,若你对分布函数定义熟悉的话,这个问题不难解决话,这个问题不难解决.现在回到置信区间题目上来现在回到置信区间题目上来.第四节 正态总体的区间估计(一)一、一、置信区间定义:置信区间定义:满足满足设设 是是 一个待估参数,给定一个待估参数,给定若由样本若由样本X1,X2,Xn确定的两个统计量确定的两个统计量则称区间则称区间 是是 的的置信水平置信水平(置信度、(置信度、置信概率)为置信概率)为 的置信区间的置信区间.分别称为置信下限和置信上限分别称为置信下限和置信上限.第四节 正态总体的区间估计(一)一旦有了样本,就把一旦有了样本,就把 估计在区间估计在区间内内.这里有两个要求这里有两个要求:可见,可见,对参数对参数 作区间估计,就是要设法找出作区间估计,就是要设法找出两个只依赖于样本的界限两个只依赖于样本的界限(构造统计量构造统计量)(X1,Xn)(X1,Xn)第四节 正态总体的区间估计(一)2.估计的精度要尽可能的高估计的精度要尽可能的高.如要求区间如要求区间长度长度 尽可能短,或能体现该要求的其尽可能短,或能体现该要求的其它准则它准则.1.要求要求 以很大的可能被包含在区间以很大的可能被包含在区间内,就是说,概率内,就是说,概率 要尽可能大要尽可能大.即要求估计尽量可靠即要求估计尽量可靠.可靠度与精度是一对矛盾,可靠度与精度是一对矛盾,一般是在保证可靠度的条件下一般是在保证可靠度的条件下尽可能提高精度尽可能提高精度.第四节 正态总体的区间估计(一)N(0,1)选选 的点估计为的点估计为求参数求参数 的置信度为的置信度为 的置信区间的置信区间.(1)设)设X1,Xn是取自是取自 的样本,的样本,二、置信区间的求法二、置信区间的求法 寻找未知参数的寻找未知参数的一个良好估计一个良好估计.解:解:寻找一个待估参数和寻找一个待估参数和估计量的函数估计量的函数,要求,要求其分布为已知其分布为已知.有了分布,就可以求出有了分布,就可以求出U取值于任意区间的概率取值于任意区间的概率.第四节 正态总体的区间估计(一)对给定的置信水平对给定的置信水平查正态分布表得查正态分布表得对于给定的置信水平对于给定的置信水平(大概率大概率),根据根据U的分布,的分布,确定一个区间确定一个区间,使得使得U取值于该区间的概率为取值于该区间的概率为置信水平置信水平.使使为什么为什么这样取这样取?第四节 正态总体的区间估计(一)对给定的置信水平对给定的置信水平查正态分布表得查正态分布表得使使从中解得从中解得第四节 正态总体的区间估计(一)也可简记为也可简记为于是所求于是所求 的的 置信区间为置信区间为第四节 正态总体的区间估计(一)从解题的过程,我们归纳出求置信区从解题的过程,我们归纳出求置信区间的一般步骤如下间的一般步骤如下:1.明确问题明确问题,是求什么参数的置信区间是求什么参数的置信区间?置信水平置信水平 是多少是多少?2.寻找参数寻找参数 的一个良好的点估计的一个良好的点估计T(X1,X2,Xn)3.寻找一个待估参数寻找一个待估参数 和估计量和估计量T的函数的函数 S(T,),且其分布为已知且其分布为已知.第四节 正态总体的区间估计(一)4.对于给定的置信水平对于给定的置信水平 ,根据,根据S(T,)的分布,确定常数的分布,确定常数a,b,使得使得 P(a S(T,)b)=5.对对“aS(T,)b”作等价变形作等价变形,得到如下得到如下形式形式:则则 就是就是 的的100()的置信区间的置信区间.第四节 正态总体的区间估计(一)这里,我们主要讨论总体分布为这里,我们主要讨论总体分布为正态正态的情形的情形.若样本容量很大,即使总体分布若样本容量很大,即使总体分布未知,应用中心极限定理,可得总体的近未知,应用中心极限定理,可得总体的近似分布,于是也可以近似求得参数的区间似分布,于是也可以近似求得参数的区间估计估计.第四节 正态总体的区间估计(一)某工厂生产的零件长度某工厂生产的零件长度X X被认为服从被认为服从N(N(,0.04,0.04),现从该产品中随机抽取现从该产品中随机抽取6 6个个,其长度的其长度的测量值如下测量值如下(单位毫米单位毫米):):14.6,15.l,14.9,14.8,15.2,15.1.14.6,15.l,14.9,14.8,15.2,15.1.求求:该零件长度的置信系数为该零件长度的置信系数为0.950.95的区间估的区间估计计.n=6,n=6,=0.05,Z=0.05,Z/2/2=Z=Z0.0250.025=1.96=1.96 2 2=0.2=0.22 2.解解:例例1 1(2)已知已知因方差未知,取因方差未知,取 对给定的置信度对给定的置信度 ,确定分位数确定分位数使使即即先求均值先求均值 的区间估计的区间估计:1、均值均值 的置信水平为的置信水平为 的区间估计的区间估计.即为即为从中解得从中解得2 求方差求方差 的置信水平为的置信水平为 的区间估计的区间估计.由于由于从中解得从中解得 对给定的置信度对给定的置信度 ,确定分位数确定分位数 使使于是于是 即为所求即为所求.为了估计一件物体的重量为了估计一件物体的重量,将其称了将其称了1O1O次次,得到的重量得到的重量(单位:千克单位:千克)为为:10.l,10,9.8,10.5,9.7,l0.l,9.9,10.l,10,9.8,10.5,9.7,l0.l,9.9,10.2,1O.3,9.910.2,1O.3,9.9 设所称出的物体重量设所称出的物体重量X X服从服从N(N(,2 2).).求求:该物体重量该物体重量 的置信系数为的置信系数为0.950.95的置信区间的置信区间解解:例例2 2 n=10,n=10,=0.05,=0.05,t t10-110-1(/2)=t/2)=t9 9(0.025)=2.2622(0.025)=2.2622 求求:2 2的置信系数为的置信系数为0.950.95的置信区间的置信区间.解解:例例3(续例续例2)2)n=10,n=10,=0.05,S=0.05,S2 2=0.0583,=0.0583,查附表得查附表得:三、单侧置信区间三、单侧置信区间 上述置信区间中置信限都是双侧的,但上述置信区间中置信限都是双侧的,但对于有些实际问题,人们关心的只是参数在对于有些实际问题,人们关心的只是参数在一个方向的界限一个方向的界限.例如对于设备、元件的使用寿命来说,平均例如对于设备、元件的使用寿命来说,平均寿命过长没什么问题,过短就有问题了寿命过长没什么问题,过短就有问题了.这时可将置信上限取为这时可将置信上限取为+,而只着眼于置信下限,这样求而只着眼于置信下限,这样求得的置信区间叫单侧置信区间得的置信区间叫单侧置信区间.第四节 正态总体的区间估计(一)于是引入单侧置信区间和置信限的定义:于是引入单侧置信区间和置信限的定义:满足满足设设 是是 一个待估参数,给定一个待估参数,给定 若由样本若由样本X1,X2,Xn确定的统计量确定的统计量则称区间则称区间 是是 的置信水平为的置信水平为 的的单侧置信区间单侧置信区间.称为单侧置信下限称为单侧置信下限.第四节 正态总体的区间估计(一)又若统计量又若统计量 满足满足则称区间则称区间 是是 的置信水平为的置信水平为 的的单侧置信区间单侧置信区间.称为单侧置信上限称为单侧置信上限.第四节 正态总体的区间估计(一)设灯泡寿命服从正态分布设灯泡寿命服从正态分布.求灯泡寿命均求灯泡寿命均值值 的置信水平为的置信水平为0.95的单侧置信下限的单侧置信下限.例例4 从一批灯泡中随机抽取从一批灯泡中随机抽取5只作寿命试只作寿命试验,测得寿命验,测得寿命X(单位:小时)如下:单位:小时)如下:1050,1100,1120,1250,1280由于方差由于方差 未知,取枢轴量未知,取枢轴量解:解:的点估计取为样本均值的点估计取为样本均值 对给定的置信水平对给定的置信水平 ,确定分位数,确定分位数使使即即于是得到于是得到 的置信水平为的置信水平为 的单侧置的单侧置信区间为信区间为 将样本值代入得将样本值代入得的置信水平为的置信水平为0.95的单侧置信下限是的单侧置信下限是1065小时小时的置信水平为的置信水平为 的单侧置信下限为的单侧置信下限为即即 同学们可通过练习,掌握各种求未知同学们可通过练习,掌握各种求未知参数的参数的 置信区间的具体方法置信区间的具体方法.这一讲,我们介绍了区间估计这一讲,我们介绍了区间估计.第五节第五节正态总体的区间估计正态总体的区间估计(二)(二)本节讨论两个正态总体的区间估计本节讨论两个正态总体的区间估计.在实际应用中经常会遇到两个正态总体的在实际应用中经常会遇到两个正态总体的区间估计问题区间估计问题.例如例如:u考察一项新技术对提高产品的某项质量指考察一项新技术对提高产品的某项质量指标的作用标的作用把实施新技术前产品的质量指把实施新技术前产品的质量指标看成一个正态总体标看成一个正态总体 N(N(1 1,1 12 2),),而把实施新而把实施新技术后产品质量指标看成另一个正态总体技术后产品质量指标看成另一个正态总体N N(2 2,2 22 2).于是于是,评价此新技术的效果问题评价此新技术的效果问题,就归结为就归结为研究两个正态总体均值之差研究两个正态总体均值之差 1 1-2 2的问题的问题.第五节 正态总体的区间估计(二)u 比较甲乙两厂生产某种药物的治疗效比较甲乙两厂生产某种药物的治疗效果果把两个厂的药效分别看成服从正态分把两个厂的药效分别看成服从正态分布的两个总体布的两个总体N(N(1 1,1 12 2)和和 N(N(2 2,2 22 2).于是于是,评价两厂生产的药物的差异评价两厂生产的药物的差异,就归就归结为研究对应的两个正态总体的均值之差结为研究对应的两个正态总体的均值之差 1 1-2 2的问题的问题.下面讨论如何构造两个正态总体均值之下面讨论如何构造两个正态总体均值之差差 1 1-2 2的区间估计的区间估计.第五节 正态总体的区间估计(二)设设X X1 1,X,X2 2,X Xm m是抽自正态总体是抽自正态总体 X X N(N(1 1,1 12 2)的样本的样本.它的样本均值它的样本均值,样本方差为样本方差为:定理定理 Y Y1 1,Y,Y2 2,Y Yn n是抽自正态总体是抽自正态总体 Y Y N(N(2 2,2 22 2)的样本的样本.它的样本均值它的样本均值,样本方差为样本方差为:则有以下结论则有以下结论:(是S12与S22的加权平均.)第五节 正态总体的区间估计(二)证明证明:(1).根据定理,有:X1,X2,Xm与Y1,Y2,Yn抽自两个不同总体.X1,X2,Xm与Y1,Y2,Yn是独立的.第五节 正态总体的区间估计(二)(2).根据12=22=2,有:第五节 正态总体的区间估计(二)12=22=2,前面(1)中的:于是由t分布的定义,就得到:欲比较甲乙两种棉花品种的优劣.现假设用它们纺出的棉纱强度分别服从XN(1,2.182)和Y N(2,1.762).试验者从这两种棉纱中分别抽取样本 X1,X2,X200 和 Y1,Y2,Y100.其样本均值分别为:例例1 1求:1-2的置信系数为0.95的区间估计.第五节 正态总体的区间估计(二)解解:1 1-2 2的置信系数为的置信系数为1-的区间估计是的区间估计是:代入1=2.18,2=1.76,m=200,n=100,=0.05查得Z0.025=1.961-2的置信系数为0.95的区间估计是:-0.899,0.019.第五节 正态总体的区间估计(二)某公司利用两条自动化流水线灌装矿泉水.设这两条流水线所装矿泉水的体积(毫升)分别服从XN(1,2)和YN(2,2).现从生产线上分别抽取样本 X1,X2,X12 和 Y1,Y2,Y17.其样本均值样本方差分别为:例例2 2求:1-2的置信系数为0.95的区间估计.解解:1-2的置信系数为1-的区间估计是:m=12,n=17,=0.05 查得t27(0.025)=2.051-2的置信系数为0.95的区间估计是:-0.101,2.901.J 说明说明 基于上述认识,我们考虑这样一个问题应该如何处理.有时我们面临判定这样一个问题:未知参数是否等于某个值0.我们该怎么办呢?其实不妨这样来思考.如果果真等于0的话,在这种情况下:通常认为小概率事件在一次试验中几乎是不会发生的.第五节 正态总体的区间估计(二)u 这时如果 那就让我们来做一次抽样,然后把样本值代入,算出 刚才分析了,果真=0的话,以上小概率事件几乎是不会发生的.但现实是在这次抽样试验中居然发生了.那我们可以认为这是由于0导致的.在这种情况下我们判决0.u 而如果现实是 在这种情况下我们则判决=0.第五节 正态总体的区间估计(二)比较甲乙两种棉纱的强度是否有差异.问题可以归结为判决假设:1=2,即1-2=0 是否成立的问题.0-0.899,0.019.我们判决如下:1=2成立.我们说甲乙两种棉纱的强度没有显著差异.当然这样的判决方案不是不可能犯错误.但是统计上还是公认这种判决方案很好,所以通常都使用它.下一章我们继续讨论.例例 1 1(续)解解:第五节 正态总体的区间估计(二)第六节第六节比率比率p的置信区间的置信区间第六节 比率p的置信区间比率p实际中很常见:废品率、合格率、可以看作(0-1)分布总体的未知参数PX=1=p,PX=0=1-pE(X)=p,D(X)=p(1-p)设X X1 1,X,X2 2,X,Xn n是来自总体的样本,依据中心极限定理第六节 比率p的置信区间给定置信水平1-将不等式化简得第六节 比率p的置信区间记上式对应方程两实根为p1、p2则有Pp1pp21所以,未知参数p的置信水平为1的置信区间为p1,p2 例:例:在某电视节目的收视率调查中,调查了在某电视节目的收视率调查中,调查了400人,人,其中其中100人收看了该节目,试对该节目收视率人收看了该节目,试对该节目收视率p的的95%的置信区间。的置信区间。第六节 比率p的置信区间 你是一家报社的出版你是一家报社的出版经理。你想要找到遗漏经理。你想要找到遗漏错误的百分比,发现错误的百分比,发现200张报纸有张报纸有35张有问张有问题。那么总体错误遗漏题。那么总体错误遗漏的比例估计的的比例估计的90%的置的置信区间是多少?信区间是多少?第六节 比率p的置信区间第六节 比率p的置信区间P132 例子例子练习练习