《概率论与数理统计-7.3置信区间ppt课件.ppt》由会员分享,可在线阅读,更多相关《概率论与数理统计-7.3置信区间ppt课件.ppt(26页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、解解(1)样本的样本的似然函数似然函数为为 当当0 x i 0,X1,X2,Xn 是取自总体是取自总体X的一组样本的一组样本,求求 的极大似然估计量与矩估计量的极大似然估计量与矩估计量.其中其中 0为未知参数为未知参数,例例 设总体设总体 X 的密度为的密度为故有故有对数似然函数对数似然函数:对对 求导并令其为求导并令其为 0 可得可得似然方程似然方程:=0,解得解得极大似然估计量极大似然估计量:令令 (2)解得矩估计量:解得矩估计量:而区间估计正好弥补了点估计而区间估计正好弥补了点估计的这个缺陷的这个缺陷.无偏性无偏性有效性有效性一致性一致性 估计量的期望值等于未知参数的真值估计量的期望值等
2、于未知参数的真值.为了使估计的结论更可信为了使估计的结论更可信,需要引入区间估计需要引入区间估计.评选标准评选标准 方差更小的无偏估计量方差更小的无偏估计量.样本样本 k 阶原点矩是阶原点矩是总体总体 k 阶原点矩阶原点矩 的无偏估计量的无偏估计量;样本方差样本方差 S 2 是总体方差是总体方差 2 的无偏估计量的无偏估计量;无偏估计量的函数未必是无偏估计量无偏估计量的函数未必是无偏估计量 在在 的所有线性无偏估计量中的所有线性无偏估计量中,样本均值样本均值 X 是最有效的是最有效的.参数的点估计是用样本算得的一个值去估计未知参数参数的点估计是用样本算得的一个值去估计未知参数.使用使用起来把握
3、不大起来把握不大.点估计值仅仅是未知参数的一个近似值点估计值仅仅是未知参数的一个近似值,它没有它没有反映出这个近似值的误差范围反映出这个近似值的误差范围.若我们根据一个实际样本若我们根据一个实际样本得到鱼数得到鱼数 N 的极大似然估计为的极大似然估计为 1000 条条.一个可以想到的估计办法是:若我们能给一个可以想到的估计办法是:若我们能给出一个区间出一个区间,并告诉人们该区间包含未知参数并告诉人们该区间包含未知参数 N的可靠度的可靠度(也称置也称置信系数信系数).但实际上但实际上,N 的真值可能大于的真值可能大于 1000 条条,也可能小于也可能小于1000条条.7.3 7.3 单个正态总体
4、均值与方差的置信区间单个正态总体均值与方差的置信区间 也就是说也就是说,给出一个区间,使我们能以一定的可靠度相信区给出一个区间,使我们能以一定的可靠度相信区间包含参数间包含参数 。湖中鱼数的真值湖中鱼数的真值 这里所说的这里所说的“可靠程度可靠程度”是用概率来度是用概率来度量的量的,称为称为置信概率置信概率,置信度置信度或或置信水平置信水平.习惯上把置信水平记作习惯上把置信水平记作 1-,这里这里 是一个很小的正数是一个很小的正数.譬如,在估计湖中鱼数的问题中譬如,在估计湖中鱼数的问题中,根据置信水平根据置信水平1-,可以可以找到一个正数找到一个正数 ,例如例如,通常可取置通常可取置信水平信水
5、平=0.95 或或 0.9 等等等等.根据一个实际样本根据一个实际样本,由给定的置信水平由给定的置信水平1-,我们求出一个的我们求出一个的区间区间 ,使使置信水平的大小是根据实际需要选定的置信水平的大小是根据实际需要选定的.如何寻找这种区间?如何寻找这种区间?使得使得 我们选取未知参数的某个估计量我们选取未知参数的某个估计量 ,只要知道只要知道 的概率分布就可以确定的概率分布就可以确定 .下面我们就来正式给出置信区间的定义下面我们就来正式给出置信区间的定义,并通过例子说明求并通过例子说明求置信区间的方法置信区间的方法.由不等式由不等式 可以解出可以解出 :这个不等式就是我们所求的这个不等式就是
6、我们所求的置信区间置信区间 代入样本值所得的普通区间称为代入样本值所得的普通区间称为置信区置信区间的实现间的实现.1)为两个统计量(由样本完全确定的已知函数);为两个统计量(由样本完全确定的已知函数);X1,X2,Xn 是取自总体是取自总体 X 的样本的样本,对给定值对给定值 0 1,满足满足 定义定义4 设设 是总体是总体 X 的待估参数的待估参数,分别称为分别称为置信下限置信下限和和置信上限置信上限.一、一、置信区间的概念置信区间的概念则称随机区间则称随机区间 为为 的的置信水平为置信水平为 1-的双侧置信区间的双侧置信区间.若统计量若统计量 和和 置信度置信度 置信概率置信概率 2)是随
7、机区间是随机区间,并非一个实现以并非一个实现以 1-的概率覆盖了的概率覆盖了 要求置信区间的长度尽可能短要求置信区间的长度尽可能短.估计的可靠度:估计的可靠度:即即 P()=1-要尽可能大要尽可能大.可靠度与精度是一对矛盾可靠度与精度是一对矛盾,一般是在一般是在保证可靠度的条件下尽可能提高精度保证可靠度的条件下尽可能提高精度.估计的精度:估计的精度:即要求区间置信的长度尽可能短即要求区间置信的长度尽可能短,或能体现该要求的其它准则或能体现该要求的其它准则.要求要求 以很大的可能被包含在置信区间内以很大的可能被包含在置信区间内.要求估计尽量可靠要求估计尽量可靠.置信水平的概率意义:置信水平的概率
8、意义:置信水平为置信水平为 0.95 是指是指 100 组样本值所得置信区间的组样本值所得置信区间的实实现现中中,约有约有95个能覆盖个能覆盖 ,而不是一个而不是一个实现实现以以 0.95 的概率覆盖了的概率覆盖了 .估计要尽量可靠估计要尽量可靠,估计的精度要尽可能的高:估计的精度要尽可能的高:只要知道只要知道 的概率分布就可以确定的概率分布就可以确定 .如何根据实际样本如何根据实际样本,由给定的置信水平由给定的置信水平1-,求出一个区间求出一个区间 ,使使 根据置信水平根据置信水平1-,可以可以找到一个正数找到一个正数 ,二、置信区间的求法二、置信区间的求法(一一)单个正态总体单个正态总体1
9、.均值均值 (1)已知方差已知方差 2 1.均值均值 1-2 (1)已知方差已知方差 12,22 (二二)两两个正态总体个正态总体 2.方差方差 2 (2)未知方差未知方差 2 使得使得 我们选取未知参数的某个估计量我们选取未知参数的某个估计量 ,由不等式由不等式 可以解出可以解出 :这个不等式就是我们所求的置信区间这个不等式就是我们所求的置信区间 分布的分位数分布的分位数 (1)已知均值已知均值 (2)未知均值未知均值 (2)未知方差未知方差 12,22 2.方差方差 12/22 (1)已知均值已知均值 1,2(2)未知均值未知均值 1,2 ,但相等但相等!对于给定的置信水平对于给定的置信水
10、平,根据估计量根据估计量U 的分布的分布,确定确定一个区间一个区间,使得使得 U 取值于该区间的概率为置信水平取值于该区间的概率为置信水平.X,S 2 分别是其样本分别是其样本均值和样本方差均值和样本方差,X N(,2/n),),求参数求参数 、2 的置信水平为的置信水平为1-的置信区间的置信区间.设设 X1,Xn 是总体是总体 X N(,2)的样本的样本,确定未知参数的确定未知参数的估计量及其函数的分布估计量及其函数的分布 是是 的无偏估计量的无偏估计量,由分布求分位数由分布求分位数 即得置信区间即得置信区间(一一)单个正态总体置信区间的求法单个正态总体置信区间的求法(1)已知方差已知方差
11、2 时时 故可用故可用 X 作为作为 EX 的一个估计量的一个估计量,N(0,1),),对给定的置信度对给定的置信度 1-,按标准正态分布的双侧按标准正态分布的双侧 分位数的定义分位数的定义查正态分布表可得查正态分布表可得 u /2,由由u /2确确定置信区间定置信区间 有了分布就可求出有了分布就可求出U 取值于任意区间的概率取值于任意区间的概率简记为简记为 由抽样分布定理知由抽样分布定理知 1.均值均值 的置信区间的置信区间 是求什么参数的置信区间是求什么参数的置信区间?置信水平置信水平 1-是多少是多少?1.寻找未知参数寻找未知参数 的一个良好的点估计量的一个良好的点估计量 (X1,X2,
12、Xn);确定待估参数估计量确定待估参数估计量函数函数 U()的分布的分布;求置信区间首先要明确问题:求置信区间首先要明确问题:2.对于给定的置信水平对于给定的置信水平 1-,由概率由概率 (,)就是就是 的的 100(1-)的置信区间的置信区间.一般步骤如下一般步骤如下:3.由分位数由分位数|U|x 确确定置信区间定置信区间(,).查表求出分布的分位数查表求出分布的分位数 x ,总体分布的形式是否已知总体分布的形式是否已知,是怎样的是怎样的类型类型,至关重要至关重要.某乡农民在联产承包责任制前人均纯收入某乡农民在联产承包责任制前人均纯收入 X(单单位位:元元),),求求 的置信水的置信水平为平
13、为 0.95 的置信区间的置信区间.推行联产承包责任制后推行联产承包责任制后,在该乡抽得在该乡抽得 n=16 的样本的样本,且且 X N(,252).).解解 由于由于 =0.05,查正态分布表得查正态分布表得 例例1 得得 x=325元元,假设假设 2=25 2 没有变化没有变化,即得置信区间即得置信区间 (312.75,337.25 ).同一置信水平下的置信区间不唯一同一置信水平下的置信区间不唯一,如在上例中取如在上例中取 =0.01+0.04,由正态分布上侧分位数定义知由正态分布上侧分位数定义知 查表知查表知 u0.025=1.96,当然区间长度越短的估计当然区间长度越短的估计,精度就越
14、高精度就越高.其长度也不相等其长度也不相等.区间长度为区间长度为 24.25 长度为长度为 25.5 谁是精度最高的?谁是精度最高的?由于标准正态分布密度函数的图形是单峰且对称的由于标准正态分布密度函数的图形是单峰且对称的,在保持面积不变的条件下在保持面积不变的条件下,以对称区间的长度为最短以对称区间的长度为最短!但但的长度是最短的的长度是最短的,l 与与 n,的关系:的关系:可知可知,置信区间的长度置信区间的长度 l 为为:由置信区间公式由置信区间公式 l 随着随着 的减小而增大的减小而增大;20 若给定若给定 ,l 随着随着 n 的增大而减小的增大而减小;同一置信水平下的置信区间不唯一同一
15、置信水平下的置信区间不唯一.其长度也不相等其长度也不相等.故我们总取它作为置信水平为故我们总取它作为置信水平为 1-的置信区间的置信区间.若给定若给定 n,且由于且由于 l 与与 成反比成反比,减小的速度并不快减小的速度并不快,例如例如,n 由由 100 增至增至 400 时时,l 才能减小一半才能减小一半.则则 u /2 越大越大,l 就越大就越大,这时这时 就越小就越小.10 (u /2)就越大就越大,一般地一般地,在概率密度为单峰且对称的情形下在概率密度为单峰且对称的情形下,a=-b 对应的对应的置信区间的长度为最短置信区间的长度为最短.经营者提供商品或者服务有欺诈行为的,应当按照消费者
16、的要求增加赔偿其受到的损失,增加赔偿的金额为消费者购买商品的价款或接受服务的费用例例2:某厂生产的零件长度某厂生产的零件长度 X 服从服从 N(,0.04),),现从现从该厂生产的零件中随机抽取该厂生产的零件中随机抽取6个,长度测量值如下个,长度测量值如下(单位单位:毫米毫米):):14.6,15.l,14.9,14.8,15.2,15.1.求求:的置信系数为的置信系数为0.950.95的区间估计。的区间估计。解:解:n=6,=0.05,z/2=z0.025=1.96,2 2=0.22.所求置信区间为所求置信区间为 故不能采用已知方差故不能采用已知方差的均值估计方法的均值估计方法 由于由于 与
17、与 有关有关,但其解决的思路一致但其解决的思路一致.由于由于 S 2是是 2 的无偏估计量的无偏估计量,查查 t 分布表确定上侧分布表确定上侧 /2 分位数分位数令令 T=(2)未知方差未知方差 用用 分布的分位数求分布的分位数求 的置信区间的置信区间.故可用故可用 S 替代替代 的估计量的估计量:S t(n-1),),即为即为 的置信度为的置信度为 1-的区间估计的区间估计.2 时时 由抽样分布定理知由抽样分布定理知 实用价值更大实用价值更大!t /2(n-1),),测定总体服从正态测定总体服从正态分布分布,求总体均值求总体均值 的置信水平为的置信水平为 0.95 的置信区间的置信区间.解解
18、 由于由于 /2=0.025,查查 t 分布表得分布表得 例例3 为确定某种溶液中甲醛浓度为确定某种溶液中甲醛浓度,且其且其 4 个独立测量值的平均值个独立测量值的平均值 x=8.34%,样本标准差样本标准差 s=0.03%,即得置信区间即得置信区间自由度自由度 n-1=3,t 0.025=3.182,将将 x =8.34%代入代入 得得 (2)未知时未知时 所以所以 2的置信水平为的置信水平为1-的区间估计为的区间估计为因为因为 2 的无偏估计为的无偏估计为 S 2,2.方差方差 2 的的置信区间的求法置信区间的求法 由抽样分布定理知由抽样分布定理知 2=由由确定确定 2 分布的上侧分布的上
19、侧 /2 分位数分位数找一个含找一个含 与与S,但不含但不含 ,且分布已知的统计量且分布已知的统计量 为了计算简单为了计算简单,在概率密度不对称的情形下在概率密度不对称的情形下,如如 2 分布分布,F 分布分布,习惯上仍取习惯上仍取对称的分位点对称的分位点来计算未知参数的置信区间来计算未知参数的置信区间.并不是最短的置信区间并不是最短的置信区间 /2 /2 测定总体服从正态测定总体服从正态分布分布,求总体均值求总体均值 的置信水平为的置信水平为 0.95 的置信区间的置信区间.解解 由于由于 /2=0.025,查查 2 分布表得分布表得例例4 为确定某种溶液中甲醛浓度为确定某种溶液中甲醛浓度,
20、且其且其 4 个独立测量值的平均值个独立测量值的平均值 x=8.34%,样本标准差样本标准差 s=0.03%,故故 2 的置信区间为的置信区间为自由度自由度 n-1=3,得得将将 s 2=0.0009代入代入求总体方差求总体方差 2和标准差和标准差 的置信水平为的置信水平为 0.95 的置信区间的置信区间.故故 的置信区间为的置信区间为经营者提供商品或者服务有欺诈行为的,应当按照消费者的要求增加赔偿其受到的损失,增加赔偿的金额为消费者购买商品的价款或接受服务的费用 在在实实际际应应用用中中,经经常常会会遇遇到到两两个个正正态态总总体体的的区区间间估计问题。估计问题。于于是是,评评价价新新技技术
21、术的的效效果果问问题题,就就归归结结为为研研究究两个正态总体均值之差两个正态总体均值之差 1-2 的问题。的问题。例例如如:考考察察一一项项新新技技术术对对提提高高产产品品的的某某项项质质量量指指标标的的作作用用,将将实实施施新新技技术术前前的的产产品品质质量量指指标标看看成成正正态态总总体体 N(1,12),实实施施新新技技术术后后产产品品质质量量指指标标看看成正态总体成正态总体 N(2,22)。设设 X1,Xm分别是总体分别是总体 X N(1 1,1 12)的样本的样本,Y1,Yn分分别是总体别是总体 Y N(2 2,2 22)的样本的样本,X,Y 分别是总体分别是总体 X 和和 Y 的样
22、本均值的样本均值,求参数求参数 1-2 和和 12/22 的的置信水平为置信水平为 1-的置信区间的置信区间.由于由于X,Y 分别是分别是 1,2 的无偏估计量的无偏估计量,即得置信区间即得置信区间(二二)两个正态总体两个正态总体(1)已知方差已知方差 12,22 时时 故可用故可用 X-Y 作为作为 1-2 的一个估计量的一个估计量,N(0,1),),对给定的置信度对给定的置信度 1-,查正态分布表可得查正态分布表可得 u /2,由抽样分布定理知由抽样分布定理知 1.均值均值 1-2 的置信区间的置信区间 SX2,SY2分别是总体分别是总体 X 和和 Y 的样本方差的样本方差,置信区间的求法
23、置信区间的求法 设设 X1,Xm分别是总体分别是总体 X N(1 1,1 12)的样本的样本,Y1,Yn分分别是总体别是总体 Y N(2 2,2 22)的样本的样本,X,Y 分别是总体分别是总体 X 和和 Y 的样本均值的样本均值,求参数求参数 1-2 和和 12/22 的的置信水平为置信水平为 1-的置信区间的置信区间.即得置信区间即得置信区间(二二)两个正态总体置信区间的求法两个正态总体置信区间的求法 (2)未知方差未知方差 12,22,但但 12=22 =2时时 仍用仍用 X-Y 作为作为 1-2 的一个估计量的一个估计量,t(n+m-2),),对给定的置信度对给定的置信度 1-,查查
24、t 分布表可得分布表可得 由抽样分布定理知由抽样分布定理知 1.均值差均值差 1-2 的置信区间的置信区间 SX2,SY2分别是总体分别是总体 X 和和 Y 的样本方差的样本方差,t /2(n+m-2),),例例5:某公司利用两条自动化流水线灌装矿泉水。设这两条流某公司利用两条自动化流水线灌装矿泉水。设这两条流水线所装矿泉水的体积水线所装矿泉水的体积(单位单位:毫升毫升)XN(1,2)和和 YN(2,2)。现从生产线上分别抽取。现从生产线上分别抽取 X1,X2,X12 和和 Y1,Y2,Y17,样本均值与样本方差分别为,样本均值与样本方差分别为:求求 1 1-2 2 的置信系数为的置信系数为0
25、.95的区间估计。的区间估计。解:解:m=12,n=17,=0.05,且,且查查 t 分布表,得分布表,得 tm+n-2(/2)=t27(0.025)=2.05.因此,置信度为因此,置信度为 1-的置信区间:的置信区间:经营者提供商品或者服务有欺诈行为的,应当按照消费者的要求增加赔偿其受到的损失,增加赔偿的金额为消费者购买商品的价款或接受服务的费用例例6(比较棉花品种的优劣比较棉花品种的优劣):假设用甲、乙两种棉花:假设用甲、乙两种棉花纺出的棉纱强度分别为纺出的棉纱强度分别为 XN(1,2.182)和和Y N(2,1.762)。试验者从这两种棉纱中分别抽取样本。试验者从这两种棉纱中分别抽取样本
26、 X1,X2,X200 和和 Y1,Y2,Y100,样本均值分别,样本均值分别为为:求求 1 1-2 2 的置信系数为的置信系数为 0.95 的的区间估计。区间估计。解解:1=2.18,2=1.76,m=200,n=100,=0.05,1-2 的置信系数为的置信系数为 1-的置信区间为的置信区间为:设同上设同上,求参数求参数 12/22 的置信水平为的置信水平为 1-的置信区间的置信区间.即得即得 12/22 的置信区间的置信区间 (二二)两个正态总体置信区间的求法两个正态总体置信区间的求法 (2)未知未知 1,2 时时 F(m-1,n-1),),对给定的置信度对给定的置信度 1-,查查 F
27、分布表可得上侧分位数分布表可得上侧分位数由抽样分布定理知由抽样分布定理知 2.方差比方差比 12/22 的置信区间的置信区间 F /2(m-1,n-1),),F1-/2(m-1,n-1),),求两总体方差比求两总体方差比 12/22 的的置信水平为置信水平为 0.90 的置信区间的置信区间.称重后所的样本方差分别为称重后所的样本方差分别为 sx2=0.0125,sy2=0.01,假定所假定所装番茄酱的重量装番茄酱的重量 X 与与 Y 分别服从正态分布分别服从正态分布N(1 1,1 12)和和 N(2 2,2 22),解解 由于由于 /2=0.05,查查 F 分布表得分布表得 例例7 某厂用两条
28、流水线生产番茄酱小包装某厂用两条流水线生产番茄酱小包装,现从两条流水线上各随机抽取样本容量分别为现从两条流水线上各随机抽取样本容量分别为 m=6,n=7 的样本的样本,将条件代入得将条件代入得 12/22 的置信区间为的置信区间为(0.2847,6.1875).).自由度自由度 m-1=5,n-1=6,主要根据主要根据抽样分布抽样分布Th(二二)两两个总体个总体 由由 的概率分布和置信水平的概率分布和置信水平 1-,确定其相应的确定其相应的分位数分位数 x /2;小结小结正态总体置信区间的求法正态总体置信区间的求法(一一)单个总体单个总体均值均值 已知方差已知方差 2 均值差均值差 1-2 已
29、知方差已知方差 12,22 方差方差 2 未知方差未知方差 2 解得解得所求的置信区间所求的置信区间 根据未知参数的无偏估计量根据未知参数的无偏估计量,确定其某个估计量确定其某个估计量 ;由不等式由不等式 已知均值已知均值 未知均值未知均值 未知方差未知方差 12,22 方差比方差比 12/22 已知均值已知均值 1,2 未知均值未知均值 1,2 但相等但相等!X1,Xn 是取自是取自 X 的样本的样本,则称随机区间则称随机区间(-(-,)为为 的的置信水平为置信水平为 1-的单侧置信区间的单侧置信区间,但有些实际问题但有些实际问题,人们关人们关心的只是参数在一个方向的界限心的只是参数在一个方
30、向的界限.这时这时,可将置信上限取为可将置信上限取为+,而只着眼于置而只着眼于置信下限信下限,上述置信区间中置信限都是双侧的上述置信区间中置信限都是双侧的,例如对于设备、元件的使用寿命来说例如对于设备、元件的使用寿命来说,平均寿命过长没什么问平均寿命过长没什么问题题,过短就有问题了过短就有问题了.三、单侧置信区间三、单侧置信区间定义定义 满足满足这样求得的置信区间叫这样求得的置信区间叫单侧置信区间单侧置信区间.对给定值对给定值 0 1,满足满足 设设 是总体是总体 X 的待估参数的待估参数,称称 为为单侧置信下限单侧置信下限;则称随机区间则称随机区间(,+,+)为为 的的置信水平为置信水平为
31、1-的单侧置信区间的单侧置信区间,称称 为为单侧置信上限单侧置信上限.若统计量若统计量 若统计量若统计量 求单侧置信区间的思路完全同于双侧的情形求单侧置信区间的思路完全同于双侧的情形 记录其磨坏时所行驶路程记录其磨坏时所行驶路程(单位单位:公里公里),问该种轮胎平均行驶路程至少是多少问该种轮胎平均行驶路程至少是多少(=0.05)?解解 由于由于 2 未知未知,查查 t 分布表可得满足条件分布表可得满足条件 的上侧分位数的上侧分位数例例8 从一批汽车轮胎中随机地取从一批汽车轮胎中随机地取16只作磨损试验只作磨损试验,算得样本均值算得样本均值 x=41116,即得置信度为即得置信度为 0.95 的单侧置信下限的单侧置信下限 t 0.05(15)=1.7531,将将 x =41116,s=6346 代入代入 得得 设此样本来自正态总体设此样本来自正态总体 N(,2),均未知均未知,t(n-1),),由抽样分布定理知由抽样分布定理知随机变量随机变量 样本标准差样本标准差 s=6346.=38334,故该种轮胎平均行驶路程不少于故该种轮胎平均行驶路程不少于38334公里公里,其置信概率为其置信概率为0.95.
限制150内