《应用统计学》-置信区间估计.ppt
1,本章教学目标: (1) 单个正态总体均值和方差的区间估计。 (2) 总体比例的区间估计。 (3) 均值和比例置信区间估计中的样本容量确定。 (4) 两个正态总体的均值差和方差比的区间估计。 (5) 单侧置信区间估计。,第6章 置信区间估计,2,2,由于点估计存在误差,因此仅对总体参数作出点估计是不够的,还需要了解估计的精度及其误差。 参数的区间估计就是在给定的可信度下,估计未知参数的可能取值范围。,设 为总体分布的未知参数,,若由样本确定的两,个统计量,和,对给定的概率 (0<<1),,满足,则称随机区间,为 的置信度为1- 的,置信区间。,区间估计,3,一. 总体方差 2 的区间估计,1. 2 分布,设总体 XN (0, 1),,X1, X2, , Xn 为 X 的,一个样本,,则它们的平方和,为服从自由度为 n 的 2 分布,,记为, 2 2(n),6.1 单个正态总体均值和方差的区间估计,4,若对于随机变量 X1, X2, , Xn,,存在一组不全为,零的常数 c1, c2, , cn,,使,c1 X1+ c2 X2 + + cn Xn = 0,则称变量 X1, X2, , Xn 线性相关,,或称它们间存在,一个线性约束条件;,若 X1, X2, , Xn 间存在 k 个独立,的线性约束条件,,则它们中仅有 n-k 个独立的变量,,并称平方和,的自由度为 n-k。,“自由度”的含义,5,2 分布密度函数的图形,x,f (x),o,n=1,n=4,n=10,6,由给定的概率 和自由度,可查表得到, 2 分布的右侧 分位点,为 2分布中满足下式的的右侧 分位点:,f (x),x,o,7,语法规则如下: 格式:CHIINV ( , n ) 功能:返回,可用 Excel 的统计函数 CHIINV 返回,用 Excel 求,的值。,8,2. 总体方差 2 的区间估计,设总体 XN( , 2 ),,/2,/2,1-,从而 2 的置信度为1-的置信区间为:,由,和 S2 分别为样本均值和样本方差。,可得,X1, X2, , Xn 为 X 的容量为n的样本,,可以证明,,9,【例2】求例1中元件寿命方差 2 的 95% 置信区间。,解:由例1,S2 =196.52,n =10,/2=0.025, 1-/2=0.975,故所求 2的置信区间为 (135.22,358.82),(n-1)S2/,(n-1)S2/,= 9196.52/19.023,= 9196.52/2.7,= 135.22,= 358.82,10,课堂练习1,某车床加工的缸套外径尺寸 X N(, 2),现随机测得的 10 个加工后的某种缸套外径尺寸(mm) 如下: 90.01,90.01,90.02,90.03,89.99 89.98,89.97,90.00,90.01,89.99 ( ) 求 2 的置信度为 95% 的置信区间。,11,1. 标准正态分布的右侧 分位点 Z Z 是标准正态分布中满足下式的右侧分位点: P Z Z = ,z,1- ,二. 总体均值的区间估计,如图所示,, ( Z )=1- ,,因此,,可由正态分布表,得到 Z 。,如:要查 Z0.025,,由正态分布表可查得:, (1.96) = 0.975 = 1-0.025,,故 Z0.025 =1.96,12,由正态分布的性质可得,对给定的置信度1-,,z/2,/2,-z/2,/2,1- ,N(0,1),由此可得,从而的置信度为 1- 的置信区间为,为便于记忆和理解,将 的置信区间表示为如下形式:,2. 2 已知时总体均值的区间估计,有,其中 d 称为估计的允许误差。,13,可用 Excel 的统计函数 NORMSINV 返回 Z 。 语法规则如下: 格式:NORMSINV(1-) 功能: 返回 Z 的值。 说明: NORMSINV() 返回的是 Z1- 的值。,用 Excel 求 Z,14,3. t 分布,设 XN(0, 1),,Y 2(n),,且 X 与 Y 相互,独立,,则随机变量,服从自由度为 n 的 t 分布,,记为 tt(n)。,15,t 分布密度函数的图形,标准正态分布分布是 t 分布的极限分布。 当 n 很大时,t 分布近似于标准正态分布。,x,f (x),0,n = 1,n = 4,n = 10,n = ,N (0, 1),16,t 分布的右侧 分位点 t(n),t(n)为 t 分布中满足下式的右侧 分位点: P t t ( n ) = 由给定的概率 ,可查表得到 t(n)。 由 t 分布的对称性,可得:t1-(n)=-t(n)。,t(n),t1-(n),= - t(n),17,可用 Excel 的统计函数 TINV 返回 t (n)。 语法规则如下: 格式:TINV( 2 , n ) 功能:返回 t (n)的值。 说明:TINV(, n )返回的是 t/2(n)的值。,用 Excel 求 t /2(n),18,4. 2 未知时总体均值 的区间估计, t(n-1),设总体 XN( , 2 ),,和 S2 分别为样本均值和样本方差。,由此可得 的置信度为 1- 的置信区间为,因此,对给定的置信度 1-,有,即,X1, X2, , Xn 为 X 的容量为 n,的样本,,可以证明:,19,用样本比例代替总体比例,,设总体比例为 P,,则当 nP 和 n (1-P) 都大于5时,,样本成数 p 近似服从均值为 P,,方差为 P (1-P)/n 的正态,分布。,从而,对给定的置信度1-,,由,可得总体成数 P 的置信度,为 1- 的置信区间为,6.2 总体比例的区间估计,20,【例3】求例1中元件平均寿命 的95%置信区间。,故所求 的 95% 置信区间为,解:由例1,, /2=0.025,,=1423.1,,S=196.5,, =1-0.95=0.05,,n=10,,查表得 t0.025(9)=2.2622,可用 Excel 的【工具】“数据分析”“描述统计” 求解正态总体均值 的置信区间。,21,课堂练习2:,某车床加工的缸套外径尺寸 XN( , 2 ), 下面是随机测得的10个加工后的缸套外径尺寸(mm), 90.01,90.01,90.02,90.03,89.99 89.98,89.97,90.00,90.01,89.99 ( , ) 求 的置信度为95%的置信区间;,22,【例4】某厂为了解产品的质量情况,随机抽取了300件产品进行检验,其中有5件次品,求该厂产品次品率的置信度为95%的置信区间。 解:产品次品率为比例, =1-0.95=0.05, /2=0.025,n=300,,查表得 Z0.025=1.96, 样本成数,该厂产品次品率的置信度为95%的置信区间为,23,案例思考题,国外民意调查机构在进行民意调查时,通常要求在95%的置信度下将调查的允许误差(即置信区间的 d 值)控制在3%以内。 问为满足该调查精度要求,至少需要多大的样本? 如果要求置信度达到99%,调查误差仍为3%,此时至少需要多大的样本?,24,案例思考题解答(1),本案例中,,故需要的样本容量至少为,25,案例思考题解答(2),如果要求置信度达到99%,则Z/2=Z0.005=2.575,,26,6.3 样本容量确定,前面的分析都是在给定的样本容量和样本数据下求置信区间。但在实际应用中,应当在随机抽样前就确定所需抽取的样本容量。 抽取的样本容量过大,虽然可以提高统计推断的精度,但将增加不必要的人力、物力、费用和时间开支; 如果抽取的样本容量过小,则又会使统计推断的误差过大,推断结果就达不到必要的精度要求。 确定样本容量的原则 在满足所需的置信度和允许误差条件(置信区间的 d 值)下,确定所需的最低样本容量。,27,1.总体均值区间估计时样本容量的确定,在给定置信度和允许误差 d 的条件下,由,可得,其中总体标准差或样本标准差也是未知的,通常可以先通过小规模抽样作出估计。 由于使用的是近似公式,可知实际采用的最低样本容量应比计算结果稍大。,28,【例6】在例3 元件平均寿命的区间估计问题中,要求,在95%的置信度下,使估计的允许误差不超过其平均寿命的10%,并设已得到例1的先期抽样数据。求所需的最低样本容量。 其他条件不变,在99%的置信度下求所需最低样本容量。 解:由例1,,S=196.5,,d = 1423/10 =142.3,可知取 n =10 已能满足所给精度要求。 ,可知此时取 n =20 就能满足所给精度要求。 在总体均值的区间估计中,通常 n =30 就称为大样本。 在大样本时,无论总体服从什么分布,都可用前述公式进行区间估计。,29,2.总体比例区间估计时样本容量的确定,其中样本成数 p 同样可先通过小规模抽样作出估计,也可根据其他信息估计,或取 0.5。,30,【例7】,某企业要重新制定产品抽样检验的规范。已知过去检验的次品率在3.6%左右,现要求允许误差不超过2%,置信度为95%。问每次至少应抽查多少产品? 解:由题意,要推断的是总体成数, p =0.036,1-p = 0.964,d = 0.02, = 0.05, z/2 = z0.025 = 1.96,故每次至少应抽查 334 件产品。 由此可知,在总体比例的区间估计问题中,要达到一定的精度要求,样本容量至少要在几百以上。,31,【例5】(1)求例1中元件平均寿命的95%置信下限。 (2)求元件寿命方差的95%置信上限。,解:(1),从而 的单侧 1- 置信下限为,本例中,t 0.05(9)=1.8331,故所求置信下限为,1423.1-1.8331196.5/,该在95%的置信度下,该元件的平均寿命大于1309.2小时。,=1390.2,可得,由,6.4 单侧置信限的区间估计,32,同理可得 2 的置信度为 1- 的单侧置信上限为,本例中,,故所求2的95%置信上限为 9196.52/3.325 = 323.32 (小时2) 由以上分析可知,求单侧置信限与求双侧置信限的差别仅在于用相应分布的右侧 分位点代替双侧区间估计公式中的右侧 /2 分位点。,解(2): 2 的置信上限,33,区间估计小结,P, 2, 2已知, 2未知,双侧,双侧,双侧,双侧,单侧上限,单侧上限,单侧下限,单侧下限,