《地质数据处理_6-参数估计.ppt》由会员分享,可在线阅读,更多相关《地质数据处理_6-参数估计.ppt(87页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、参 数 估 计,洪金益中南大学地学院,地质数据处理基础6,第六章 参数估计,统计方法,描述统计,推断统计,假设检验,统计推断的过程,第六章 抽样与参数估计,第一节 抽样与抽样分布 第二节 参数估计基本方法第三节 总体均值和总体比例的区间估计第四节 两个总体均值及两个总体比例之差的估计第五节 正态总体方差及两正态总体方差比的区间估计,学习目标,了解抽样和抽样分布的基本概念理解抽样分布与总体分布的关系了解点估计的概念和估计量的优良标准掌握总体均值、总体比例和总体方差的区间估计,第一节 抽样与抽样分布,一. 总体、个体和样本二. 关于抽样方法样本均值的分布与中心极限定理样本方差的分布两个样本方差比的
2、分布六. T 统计量的分布,总体、个体和样本(概念要点),总体(Population):调查研究的事物或现象的全体,如某地区的地层;个体(Item unit):组成总体的每个元素,如P、T、J、K;样本(Sample):从总体中所抽取的部分个体,如T、J含矿地层;样本容量(Sample size):样本中所含个体的数量,2个含矿地层。,抽样方法(概念要点),概率抽样:根据已知的概率选取样本; 简单随机抽样:完全随机地抽选样本; 分层抽样:总体分成不同的“层”,然后在每一层内进行抽样; 整群抽样:将一组被调查者(群)作为一个抽样单位; 等距抽样:在样本框中每隔一定距离抽选一个被调查者;非概率抽样
3、:不是完全按随机原则选取样本; 非随机抽样:由调查人员自由选取被调查者; 判断抽样:通过某些条件过滤来选择被调查者;配额抽样:选择一群特定数目、满足特定条件的被调查者。,样本均值的抽样分布,所有样本指标(如均值、比例、方差等)所形成的分布称为抽样分布;是一种理论概率分布;随机变量是 样本统计量;样本均值, 样本比例等。结果来自容量相同的所有可能样本。,抽样分布(概念要点),样本均值的抽样分布(实例),设一个总体,含有4个元素(个体),即总体单位数N=4。4 个个体分别为X1=1、X2=2、X3=3 、X4=4 。总体的均值、方差及分布如下:,均值和方差,样本均值的抽样分布 (实例),现从总体中
4、抽取n2的简单随机样本,在重复抽样条件下,共有42=16个样本。所有样本的结果如下表:,样本均值的抽样分布 (实例),计算出各样本的均值,如下表。并给出样本均值的抽样分布:,所有样本均值的均值和方差,式中:M为样本数目比较及结论:1. 样本均值的均值(数学期望)等于总体均值; 2. 样本均值的方差等于总体方差的1/n。,样本均值的分布与总体分布的比较,抽样分布, = 2.5 2 =1.25,总体分布,样本均值的抽样分布与中心极限定理,n = 4,n =16,当总体服从正态分布N (,2 )时,来自该总体的所有容量为n的样本的均值X也服从正态分布,X 的数学期望为,方差为2/n。即XN(,2/n
5、), =10,抽样分布,总体分布, = 50,X,中心极限定理,当样本容量足够大时(n 30) ,样本均值的抽样分布逐渐趋于正态分布,中心极限定理:设从均值为,方差为 2的一个任意总体中抽取容量为n的样本,当n充分大时,样本均值的抽样分布近似服从均值为、方差为2/n的正态分布,一个任意分布的总体,样本方差的抽样分布,样本方差的分布,设总体服从正态分布N (,2 ), X1,X2,Xn为来自该正态总体的样本,则样本方差 s2 的分布为:,将2(n 1)称为自由度为(n-1)的卡方分布。,卡方 (c2) 分布,均值的标准差,所有可能的样本均值的标准差,测度所有样本均值的离散程度小于总体标准差;计算
6、公式为:,两个样本方差比的抽样分布,两个样本方差比的抽样分布,设X1,X2, ,Xn1是来自正态总体N(1,12 )的一个样本, Y1,Y2, ,Yn2是来自正态总体N(2,22 )的一个样本,且Xi(i=1,2,,n1),Yi(i=1,2, ,n2)相互独立,则:,将F(n1-1 , n2-1 )称为第一自由度为(n1-1),第二自由度为(n2-1)的F分布。,两个样本方差比的抽样分布, 不同样本容量的抽样分布,F,(1,10),(5,10),(10,10),T 统计量的分布,T 统计量的分布,设X1,X2,Xn1是来自正态总体N(1,12 )的一个样本, 称,为统计量,它服从自由度为(n-
7、1)的t 分布,第二节 参数估计基本方法,一. 点估计二. 点估计的优良性准则区间估计,参数估计的方法,被估计的总体参数,点 估 计,点估计(概念要点),从总体中抽取一个样本,根据该样本的统计量对总体的未知参数作出一个数值点的估计例如: 用样本均值作为总体未知均值的估计值就是一个点估计;2.点估计没有给出估计值接近总体未知参数程度的信息;点估计的方法有矩估计法、顺序统计量法、最大似然法、最小二乘法等。,1.用于估计总体某一参数的随机变量如样本均值,样本比例、样本中位数等例如: 样本均值就是总体均值的一个估计量如果样本均值 x = 3 ,则 3 就是 的估计值理论基础是抽样分布,估计量 (概念要
8、点),估计量的优良性准则(无偏性),无偏性:估计量的数学期望等于被估计的总体参数。,估计量的优良性准则(有效性),有效性:一个方差较小的无偏估计量称为一个更 有效的估计量。如,与其他估计量相比,样本均值是一个更有效的估计量。,估计量的优良性准则(一致性),一致性:随着样本容量的增大,估计量越来越接近被估计的总体参数。,区间估计,区间估计(概念要点),1.根据一个样本的观察值给出总体参数的估计范围;给出总体参数落在这一区间的概率;例如: 总体均值落在5070之间,置信度为 95%。,置信区间估计(内容),落在总体均值某一区间内的样本,总体未知参数落在区间内的概率;表示为 (1 - ;为显著性水平
9、,是总体参数未在区间内的概率常用的显著性水平值有 99%, 95%, 90%相应的 为0.01,0.05,0.10,置信水平,区间与置信水平,均值的抽样分布,(1 - ) % 区间包含了 % 的区间未包含,影响区间宽度的因素,1.数据的离散程度,用 来测度样本容量,3.置信水平 (1 - ),影响 Z 的大小,第三节 总体均值和总体比例的区间估计,一. 总体均值的区间估计二. 总体比例的区间估计样本容量的确定,总体均值的区间估计 (已知),总体均值的置信区间 ( 已知),1.假定条件总体服从正态分布,且总体方差()已知如果不是正态分布,可以由正态分布来近似 (n 30)使用正态分布统计量,总体
10、均值 在1-置信水平下的置信区间为,总体均值的区间估计(正态总体:实例),解:已知N(,0.152),x2.14, n=9, 1- = 0.95,/2=1.96 总体均值的置信区间为,我们可以95的概率保证该种零件的平均长度在21.30221.498 mm之间,【例】某种零件长度服从正态分布,从该批产品中随机抽取件,测得其平均长度为21.4 mm。已知总体标准差 =0.15mm,试建立该种零件平均长度的置信区间,给定置信水平为0.95。,总体均值的区间估计(非正态总体:实例),解:已知 x26, =6,n=100, 1- = 0.95,/2=1.96,我们可以95的概率保证平均每天参加锻炼的时
11、间在24.82427.176 分钟之间。,【例】某大学从该校学生中随机抽取100人,调查到他们平均每天参加体育锻炼的时间为26分钟。试以95的置信水平估计该大学全体学生平均每天参加体育锻炼的时间(已知总体方差为36小时)。,总体均值的区间估计 (未知),总体均值的置信区间 ( 未知),1.假定条件总体方差()未知总体必须服从正态分布使用 t 分布统计量,3. 总体均值 在1-置信水平下的置信区间为,总体均值的区间估计(实例),解:已知N(,2),x=50, s=8, n=25, 1- = 0.95,t/2=2.0639。,我们可以95的概率保证总体均值在46.6953.30 之间,【例】从一个
12、正态总体中抽取一个随机样本, n = 25 ,其均值x = 50 ,标准差 s = 8。 建立总体均值m 的95%的置信区间。,总体比例的区间估计,总体比例的置信区间,1.假定条件两类结果总体服从二项分布可以由正态分布来近似使用正态分布统计量,3. 总体比例 的置信区间为,总体比例的置信区间(实例),我们可以95的概率保证该企业职工由于同管理人员不能融洽相处而离开的比例在63.6%76.4%之间。,【例】某企业在一项关于职工流动原因的研究中,从该企业前职工的总体中随机选取了200人组成一个样本。在对其进行访问时,有140人说他们离开该企业是由于同管理人员不能融洽相处。试对由于这种原因而离开该企
13、业的人员的真正比例构造95%的置信区间。,样本容量的确定,根据均值区间估计公式可得样本容量n为,估计总体均值时样本容量的确定,样本容量n与总体方差2、允许误差、可靠性系数Z之间的关系为与总体方差成正比与允许误差成反比与可靠性系数成正比,其中:,样本容量的确定(实例),解:已知2=1800000,=0.05, Z/2=1.96,=500,应抽取的样本容量为,【例】一家广告公司想估计某类商店去年所花的平均广告费用有多少。经验表明,总体方差约为1800000元。如置信度取95%,并要使估计处在总体平均值附近500元的范围内,这家广告公司应抽多大的样本?,根据比例区间估计公式可得样本容量n为,估计总体
14、比例时样本容量的确定,其中:,样本容量的确定(实例),【例】一家市场调研公司想估计某地区有彩色电视机的家庭所占的比例。该公司希望对比例p的估计误差不超过0.05,要求的可靠程度为95%,应抽多大容量的样本(没有可利用的p估计值)。,应抽取的样本容量为,第四节 两个总体均值及两个总体比例之差估计,一. 两个总体均值之差估计二. 两个总体比例之差估计,两个总体均值之差的估计,两个样本均值之差的抽样分布,两个总体均值之差的估计 (12、22 已知),1.假定条件两个样本是独立的随机样本两个总体都服从正态分布若不是正态分布, 可以用正态分布来近似(n130和n230)两个独立样本均值之差的抽样分布服从
15、正态分布,其期望值为,其标准误差为,两个总体均值之差的估计 (12、22 已知),两个总体均值之差1-2在1- 置信水平下的置信区间为,使用正态分布统计量Z,两个总体均值之差的估计(实例),【例】一个银行负责人想知道储户存入两家银行的钱数。他从两家银行各抽取了一个由25个储户组成的随机样本,样本均值如下:银行A:4500元;银行B:3250元。设已知两个总体服从方差分别为A2=2500和B2=3600的正态分布。试求A- B的区间估计(1)置信度为95%(2)置信度为99%,B,A,两个总体均值之差的估计(计算结果),解:已知 XAN(A,2500) XB N(B,3600) xA=4500,
16、 xB=3250, A2 =2500 B2 =3600 nA= nB =25,(1) A- B置信度为95%的置信区间为,(2) A- B置信度为99%的置信区间为,两个总体均值之差的估计 (12、22未知,但相等),假定条件两个总体都服从正态分布12、12未知,但1212总体方差2的联合估计量为,估计量x1-x2的标准差为,两个总体均值之差的估计 (12、22未知,但相等),使用 t 分布统计量,两个总体均值之差1-2在1- 置信水平下的置信 区间为,两个总体均值之差的估计(实例),【例】为比较两位银行职员为新顾客办理个人结算账目的平均时间长度,分别给两位职员随机安排了10位顾客,并记录下为
17、每位顾客办理账单所需的时间(单位:分钟),相应的样本均值和方差分别为:x1=22.2,s12=16.63,x2=28.5,s22=18.92。假定每位职员办理账单所需时间均服从正态分布,且方差相等。试求两位职员办理账单的服务时间之差的95%的区间估计。,两个总体均值之差的估计(计算结果),解:已知 X1N(1,2) X2 N(2,2) x1=22.2, x2=28.5, s12=16.63 s22=18.92 n1= n2=10 12= 12,1- 2置信度为95%的置信区间为,两个总体均值之差的估计 (12 、22未知,且不相等),假定条件两个总体都服从正态分布12、12未知,且12 12使
18、用的统计量为,两个总体均值之差的估计 (12、22未知,且不相等), 两个总体均值之差1-2在1- 置信水平下的置信区间为,两个总体均值之差的估计(续前例),【例】为比较两位银行职员为新顾客办理个人结算账目的平均时间长度,分别给两位职员随机安排了10位顾客,并记录下了为每位顾客办理账单所需的时间(单位:分钟),相应的样本均值和方差分别为:x1=22.2,s12=16.63,x2=28.5,s22=18.92。假定每位职员办理账单所需时间均服从正态分布,但方差不相等。试求两位职员办理账单的服务时间之差的95%的区间估计。,两个总体均值之差的估计(计算结果),自由度 f 为,1- 2置信度为95%
19、的置信区间为,解:已知 X1N(1,2) X2 N(2, 2) x1=22.2, x2=28.5, s12=16.63 s22=18.92 n1= n2=10 1212,两个总体比例之差的估计,1.假定条件两个总体是独立的两个总体服从二项分布可以用正态分布来近似2.两个总体比例之差P1-P2在1-置信水平下的置信区间为,两个总体比例之差的区间估计,两个总体比例之差的估计(实例),【例】某饮料公司对其所做的报纸广告在两个城市的效果进行了比较,它们从两个城市中分别随机地调查了1000个成年人,其中看过广告的比例分别为p1=0.18和p2=0.14。试求两城市成年人中看过广告的比例之差的95%的置信
20、区间。,两个总体比例之差的估计(计算结果),P1- P2置信度为95%的置信区间为,我们有95%的把握估计两城市成年人中看过该广告的比例之差在0.79% 7.21%之间,第五节 正态总体方差及两正 态总体方差比的估计,一. 正态总体方差的区间估计二. 两个正态总体方差比的区间估计,正态总体方差的区间估计,正态总体方差的区间估计(要点),1.估计一个总体的方差或标准差2.假设总体服从正态分布总体方差 2 的点估计量为S2,且,4. 总体方差在1-置信水平下的置信区间为,正态总体方差的区间估计(实例),【例】对某种金属的10个样品组成的一个随机样本作抗拉强度试验。从实验数据算出的方差为4。试求2的
21、95%的置信区间。,解:已知n10,s2 4,1-95% , 2置信度为95%的置信区间为,两个正态总体方差比的区间估计,两个正态总体方差比的区间估计(要点),1.比较两个总体的方差比用两个样本的方差比来判断如果S12/ S22接近于1,说明两个总体方差很接近如果S12/ S22远离1,说明两个总体方差之间存在差异总体方差比在1-置信水平下的置信区间为,两个正态总体方差比的区间估计(实例),【例】用某一特定工序生产的一批化工产品中的杂质含量的变异依赖于操作过程中处理的时间长度。某生产商拥有两条生产线,为了降低产品中杂质平均数量的同时降低杂质的变异,对两条生产线进行了很小的调整,研究这种调整是否确能达到目的。为此从两条生产线生产的两批产品中各随机抽取了25个样品,它们的均值和方差为 x1=3.2 ,S12 =1.04 x2=3.0 , S22 =0.51试确定两总体方差比12/ 12的95%的置信区间。,两个正态总体方差比的区间估计(计算结果),解:已知 x1=3.2,S12 =1.04x2=3.0,S22 =0.51 F1-/2 (24, 24) =F0.95 =1.98(查表) F/2 (24, 24) =F0.05=0.51,12/22置信度为95%的置信区间为,本章小结,1.抽样的有关概念抽样分布点估计和区间估计的有关概念4.确定样本容量5.区间估计,结 束,
限制150内