概率数理统计Less4.ppt
概率统计与随机过程宋 晖 2012年秋第二章 样本估计n统计基础区间估计单样本:估计均值n预测区间两样本:估计均值差区间估计(interval estimation)n引入点估计方法简单,意义明确,但无法判断估计结果的稳定性、估计值因样本不同产生误差考虑寻找参数存在的范围,以及落入该范围的概率n根据样本数据,求得两个数值,构成一个置信区间(confidence interval,C.I.),给出参数的可能范围。估计大学生平均每月可用零用钱为1000元,该估计为单一数值,是点估计;若估计大学生平均每月可用零用钱介於6002000元,为区间估计。n关系置信区间估计量基于点估计随着样本容量增大,2/n随之减少,估计区间变小则称随机区间 为 的置信水平置信水平为1-的置信区间置信区间,分别称为置信下限置信下限和置信置信上限。上限。定义:定义:设总体使得有若存在两个统计量置信水平也称为置信度置信度,通常较小,1-较大连续型总体,则取离散型总体,则取尽可能接近1-例例1 1:假设容器中装的硫磺酸容量逼近正态分布,7个容器中的容量分别为:9.8,10.2,10.4,9.8,10.0,10.2和9.6L。求所有容器均值的95%的置信区间。问题分析:问题分析:样本 xi N(,2)根据抽样数据,可得:1)样本均值 2)标准差求解:估计均值的置信区间单样本:估计均值n样本均值符合正态分布 N(,2/n)存在历史经验参数 没有经验参数,未知?故对于给定的置信水平 1-,查表可求得 Z/2 使得等价地有:的样本均值为 ,根据Lindeberg-Levy定理定理 样本均值估计,样本均值估计,=0已知已知1-Z1-/2 1-于是 的置信水平为0.95 的一个置信区间为例如:例如:0=1,则则未知参数未知参数 的置信水平为的置信水平为1-的置信区间的置信区间给出了 的点估计给出了 所在的一个范围,都可以作为 的点估计其估计误差:以上分析的可信度为95%95%,即若反复抽样100100 次,则包含真值的区间 约有95 个,不包含的区间大约只有 5 个.置信度1-的实际含意是什么?是否一定包含真值?样本均值估计样本均值估计,未知对给定的置信水平1-,可求得 ,使得,2的无偏估计分别为 ,那么1-t/2t/2等价地有等价地有故的置信水平为1-的置信区间置信区间为均值均值的置信水平为的置信水平为1-的置信区间的置信区间例例1 1 解答:解答:假设容器中装的硫磺酸容量逼近正态分布,7个容器中的容量分别为:9.8,10.2,10.4,9.8,10.0,10.2和9.6L。求所有容器均值的95%的置信区间。解:根据抽样数据,样本均值和标准差分别为10.0和0.283.共有7个样本,自由度 n=6,=0.05查表可得 t=2.447。由此,的95%的置信区间为:即:9.47 10.26单边置信 某些应用中,只需要单边界,如:某条河流中汞的含量上限、C硬盘的寿命下限对于给定的置信水平 1-,查表可求得 Z 使得单边上界:单边上界:单边下界:单边下界:预测区间预测区间预测区间给出新样本可能出现的数据范围,以及置信度n 在质量控制中,利用估测样本预测新样本的观测值。例例2 2:Citizen银行收到抵押申请,最新50个申请样本中,平均值为257 300美元,假设总体标准差为25 000美元,那么置信度为95%时下一名顾客借贷金额?问题分析:问题分析:样本 xi N(,2)根据抽样数据,可得:样本均值、标准差 求解:预测值的置信区间 预测值的分布预测值的分布假设:新观测值为X0,随机误差的方差为2,所有样本都来自于正态分布总体。构造统计量:Y N(0,1),利用统计量Y 的概率分布可以计算:例例2-2-解答:解答:Citizen银行收到抵押申请,最新50个申请样本中,平均值为257 300美元,假设总体标准差为25 000美元,那么置信度为95%时下一名顾客借贷金额?解:总体方差为25,000,样本值为257,300。y0.025=1.96即:207 812.43 x0 306787.57预测区间计算,预测区间计算,未知:未知:对于未知均值、方差2未知的正态抽样分布,新观测值x0置信度为1-的预测区间为:例例3 3:随机检验30包瘦牛肉,样本结果的均值为瘦肉含量96.2%,标准差为0.8%,就一个新样本的99%置信的预测区间。解:自由度n=29,t0.0005=2.756,99%置信的预测区间为:即:93.96 x0 30)均值:标准差:1-2的1-置信区,12和和22已知:已知:说明:说明:在实例中,如果在实例中,如果1-200的置信度很高,的置信度很高,可以推断可以推断 1 2 例例4-4-解答:解答:老工艺进行8 次试验,得率的平均值 样本方差 ,新工艺进行8 次试验,得率的平均值,样本方差 。假定老、新工艺的得率分别为 两样本相互独立。试求1-2的置信水平为0.95 的置信区间。解:由题给条件有,解:由题给条件有,求得1-2的置信度为0.95的置信区间为新工艺是否能显著提高产品得率?故不能认为新工艺显著提高了产品得率。新工艺似乎能提高效率设为Sp2方差未知方差未知,12=22=2为自由度为自由度n n1 1-1-1和和n n2 2-1-1的卡方分布的卡方分布T T 符合自由度符合自由度n n1 1+n n2 2-2-2的的 t t 分布分布由此可知:由此可知:,且设为来自总体的样本,为来自总体的样本,两样本独立,其样本均值和样本方差分别为试求的置信水平为1-的置信区间.的无偏估计分别为故故 的置信度为的置信度为 的置信区间为的置信区间为/21-/2总结两样本样本来自两个总体n均值差置信区 2已知,正态分布2未知,t分布n方差比置信区间F分布作业n推导 未知时,预测区间计算公式n编程实现单样本均值和方差的区间估计。输入:样本(已收集的样本.xls文件)、置信度输出:均值估计、区间、样本均值和方差的概率分布图实现:n1)xls文件读写C+或JAVA实现n2)调用Matlab函数实现数据计算、画图n3)分析结果,意义续在报告中n4)设计自己的系统,以便不断扩充数据分析功能