参数估计教程.doc
《参数估计教程.doc》由会员分享,可在线阅读,更多相关《参数估计教程.doc(16页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、【精品文档】如有侵权,请联系网站删除,仅供学习与交流参数估计教程.精品文档.参 数 估 计统计资料的收集与整理通过本章的学习,我们应该知道:1. 统计抽样推断的常用术语2. 抽样推断基于什么样的原理3. 点估计与区间估计的具体操作4. 抽样组织方式及其相应的误差计算5. 每次抽样需要多大的样本容量目 录 参数估计3第一节 抽样推断的基本概念与原理3一、抽样推断的特点和作用3二、重复抽样与不重复抽样4三、抽样误差与抽样平均误差4四、抽样推断的理论基础6五、参数估计的基本步骤7第二节 参数估计中的点估计7一、总体参数的点估计7二、点估计量的优良标准7第三节 参数估计中的区间估计8一、参数估计的精度
2、与抽样平均误差计算8二、参数估计的误差范围与概率度11三、总体参数的区间估计12第四节 抽样组织方式及其参数估计13一、简单随机抽样13二、分层抽样14三、机械抽样16四、整群抽样16第五节 必要样本容量的确定17一、平均数的必要样本容量17二、成数的必要样本容量18三、影响必要样本容量的因素19习 题19第六章 参数估计统计抽样推断是统计学研究的重要内容,它包括两大核心内容:参数估计(Parameter Estimation)和假设检验(Hypothesis Testing)。两者都是根据样本资料,运用科学的统计理论和方法,参数估计对所要研究的总体参数,进行合乎数理逻辑的推断;假设检验对先前
3、提出的某个陈述,进行检验判断真伪。2005年中国消费者协会的主题是“健康维权”。想象你是中国消费者协会的官员,负责治理缺斤少两的不法行为。假如你知道可口可乐公司,他们生产的一种瓶装雪碧,包装上标明其净含量是500ml,在市场上随机抽取了50瓶,测得到其平均含量为499.5ml,标准差为2.63ml。你拿着这些数据可能做两件事:一是你做一个估计:该种包装的雪碧平均含量在498.77-500.23ml之间,然后向消协写份报告;二是你做一个裁决:说“可口可乐公司有欺骗消费者的行为”的证据不足。前者是参数估计;后者是假设检验。学习参数估计和假设检验要注意:(1)明确要研究的问题,并给出正确的提法;(2
4、)确定合适的统计量,统计量也可以认为是统计推断模型,不论是参数估计还是假设检验,都要通过统计量来进行,构造的统计量是否可行,直接关系到统计推断的效果,因此要仔细研究和比较统计量的性质;(3)统计参数估计和假设检验是根据样本资料对总体进行认识的,这就要求样本资料必须要有代表性,否则不可能客观反映总体的情况;(4)参数统计与非参数统计方法的主要区别,在于前者在处理问题的时候总是从已确知的分布出发,所以在进行统计参数推断时,要能够掌握统计量的精确分布即统计量的抽样分布;(5)给出推断结果的合理解释。本章首先集中说明抽样推断中的常用术语,然后主要介绍参数估计的基本原理,点估计和区间估计的方法,以及必要
5、样本容量的测算。第一节 抽样推断的基本概念与原理 抽样推断是按照随机性原则,从研究对象中抽取一部分进行观察,并根据所得到的观察数据,对研究对象的数量特征作出具有一定可靠程度的估计和推断,以达到认识总体的一种统计方法。例如,要检验某种工业产品的质量,我们只需从中抽取一小部分产品进行检验,并用计算出来的合格率来估计全部产品的合格率,或是根据合格率的变化来判断生产线是否出现了异常。一、抽样推断的特点和作用(一)抽样推断的特点抽样推断方法与其它统计调查方法相比,具有省时、省力、快捷的特点,从而能以较小的代价及时获得总体的有关信息。1. 根据样本资料对总体的数量特征作出具有一定可靠性的估计和推断。我们可
6、以用样本的平均数或成数来估计总体的平均数或成数。抽样调查与全面调查相比,虽然目的一致,都是为了达到对总体数量的认识,但是达到目的的手段和途径完全不同:抽样推断是通过科学的推断达到目的的,全面调查是通过综合汇总达到目的的。2. 按照随机性原则从全部总体中抽取样本单位。所谓随机性原则,就是在抽选样本单位时,总体中每一个单位都有相等被抽中的机会,样本单位的抽中与否完全是偶然的。遵循随机性原则抽取样本是为了保证样本对总体具有充分的代表性,避免人为的误差。也只有按随机性原则抽样,才能根据样本的数量特征对总体的数量特征进行科学的估计,从而达到推断总体的目的。3. 抽样推断必然会产生抽样误差,这是抽样推断方
7、法本身所决定的。抽样误差是可以事先通过一定的资料加以计算的,并在抽样过程中可以采取一定的措施来控制误差的范围,从而保证抽样推断的结果达到一定的可靠程度,但抽样误差是不可能消灭的。(二)抽样推断的作用1. 某些现象不可能进行全面调查,为了解其全面资料就必须采用抽样推断方法。如对那些有破坏性或消耗性的产品进行质量检验,象炮弹的杀伤半径的检验、灯泡的使用寿命的检验、人体的白血球的检验等,都是不可能进行全面调查的,而只能采用抽样推断的方法。另外,对于无限总体或总体的范围过大时,就很难进行全面调查了。例如,对江河湖海中的鱼尾数、大气或海洋的污染情况等,都属于这种情况。2. 某些理论上可以进行全面调查的现
8、象,采用抽样推断可以达到事半功倍的效果。如要了解全国城乡居民的家庭收入状况,从理论上讲可以挨门逐户进行全面调查,但是调查范围太大,调查单位太多,实际上难以办到,也没有必要。采用抽样推断既可以节省人力、物力、费用和时间,提高调查结果的时效性,又能达到和全面调查同样的目的和效果。3. 抽样推断可以对全面调查的结果进行评价和修正。全面调查涉及范围广,调查单位多,工作量大,参加人员多,因而发生登记性和计算性的误差就多。所以,在全面调查后,还可以再抽取一部分单位重新调查一次,计算其差错比率,并以此为依据对全面调查的资料进行修正,这样就可以进一步提高全面调查资料的准确性。由于抽样推断中调查的范围小,可以多
9、调查一些项目,或从事某项更深入的专题调查,以补充全面调查的不足。全国人口普查就是有短表和长表之分,短表用于全面调查,长表用于抽样调查。4. 抽样推断可用于工业生产过程中的质量控制。在工业产品成批或大量连续生产过程中,采用抽样推断方法可以检验生产工艺过程是否正常,及时提供有关信息,便于采取相应措施,进行质量控制,保证生产质量稳定,防止损失。5. 利用抽样推断的原理,可以对某些总体的假设进行检验,来判断假设的真伪,为决策提供依据。如某地上一年度居民家庭年收入35000元,本年度抽样调查结果显示居民家庭年收入33000元,这是否意味着该地居民家庭收入水平下降了呢?我们还不能下这个结论,最好通过假设检
10、验,检验这两年居民家庭收入是否存在显著性统计差异,才能判断该地本年度居民家庭收入是否低于上年度水平。总之,抽样推断是一种科学实用的统计方法,在自然科学与社会科学领域都有着广泛的应用。二、重复抽样与不重复抽样抽样推断首先要抽取样本,就具体方法而言有重复抽样与不重复抽样之分。1. 重复抽样 重复抽样又叫有放还抽样或重置抽样。它是每抽出一个样本单位后,把结果记录下来,随即将该单位放回到总体中去,使它和其余的单位在下一次抽选中具有同等被抽中的机会。在重复抽样过程中,总体单位数始终保持不变,并且同一个单位有多次被抽中的可能性。2. 不重复抽样不重复抽样又叫无放还抽样或不重置抽样。它是每抽出一个样本单位后
11、,把结果记录下来,该单位就不再放回到总体中去参加以后的抽选。在不重复抽样过程中,总体单位数逐渐减少,并且每个单位至多只有一次被抽中的可能性。不重复抽样的结果,其精度要比重复抽样高,因为它的样本的代表性更好。三、抽样误差与抽样平均误差(一)抽样误差(sampling error)样本指标具有随机性,它的取值随着样本的变化而变化。例如,想要了解某校新生的身高情况,可以从入学新生这个总体中抽取一系列样本进行观察,如果计算出所抽取的各样本的平均身高,就会发现各个样本的平均数并不完全相等,彼此间存在着一定的差异。因此,当我们用样本指标来代表总体指标时就会产生一定的误差,这种误差是抽样推断方法本身所固有的
12、,所以叫抽样误差,也叫代表性误差。抽样误差主要包括样本平均数与总体平均数的差数,样本成数与总体成数的差数。抽样误差愈小,表示样本的代表性愈高;反之,代表性就愈低。抽样误差的大小决定于以下几个因素:1. 样本容量n的多少。在其它条件不变的情况下,样本容量愈大,抽样误差就愈小;反之,抽样误差就愈大。可以想象,当把样本容量n扩大到等于总体容量N时,抽样调查也就等于全面调查,抽样误差也就随之消失。2. 总体被研究标志的变异程度。在其它条件不变的情况下,标志变异程度愈大,抽样误差也愈大;反之,则抽样误差就愈小。如果标志之间没有差异,每一个单位的标志都一样,则抽出任何一个单位都可代表总体,这时也就不存在抽
13、样误差了。学生:想象一下,如果每个学生考试成绩都是一样的话,那么只要抽一个学生就可以了。3. 抽样方法的选择。在抽样调查时,采用什么样的方式和组织形式直接影响到抽样误差的大小。在相同的情况下,不重复抽样比重复抽样的误差小,这是因为重复抽样有可能使同一单位被多次抽中,因而产生的样本对总体的代表性就较差。当然,这两种方式产生的差别也仅在总体不很大时才有体现,当总体很大时,这两种抽样的误差也趋于相等。(二)抽样平均误差抽样平均误差就是抽样平均数或成数的标准差。在抽样推断中,一个总体可以抽取很多个样本,每个样本都可以算出它的抽样平均数或抽样成数,样本的结构不同,这些数字也就各有不同,因而它们和总体平均
14、数或总体成数之间就会有各种不同的误差。抽样平均误差就是说明各个抽样平均数或抽样成数与总体平均数或总体成数之间的平均误差。它是我们用样本指标来估计或推断总体指标时,计算误差范围的基础。设以分别代表抽样平均数或抽样成数的平均差,M表示样本的可能数目,则抽样平均误差的理论公式为: (6.1) (6.2)样本的可能数目M是指在固定样本容量的前提下,从总体中抽取不同样本总体的可能数目,这个数目与抽样方式有关。如果从5个职工中抽取2个组成一个样本,在重复抽样条件下,一共可以组成55=25个样本;在不重复抽样条件下,一共可以组成54=20个样本,显然这两种方式所得到的样本总数是不同的。下图是我们在Excel
15、表格进行的数据模拟。图6.1 数据模型不同的抽样方式平均误差公式(6.1)和(6.2)只能用来解释平均误差的概念,在实际问题中要根据该公式来计算平均误差是不可能的,首先,总体的平均数或成数通常未知;其次,也很难给出全部样本的平均数或成数。四、抽样推断的理论基础抽样推断是以概率论的基本理论之一的极限定理为基础的,极限定理就是采用极限的方法得出随机变量概率分布一系列定理的总称,其内容广泛,其中的大数定律和中心极限定理为抽样估计提供了主要的数学依据。1. 大数法则大数法则又叫大数定律,说明由大量相互独立的随机变量构成的总体,其中每个变量虽有各种不同的表现,但对这些大量的变量加以综合平均,就可以消除由
16、偶然因素引起的个别差异,从而使总体单位的某一标志的规律性及其共同特征能在一定的数量和质量上表现出来。大数法则的理论研究成果众多,我们以切比雪夫大数定律的一特殊情况为例:设为独立的随机变量序列,服从同一分布,且具有相同的期望值以及方差,则对于任意的正数,有:可见大数法则从数量关系角度阐明了样本和总体之间的内在联系,证明了随着抽样容量n的增加,能够以接近1的概率期望抽样平均数与总体平均数的偏差为任意小。 2. 中心极限定理有些随机变量表现为大量独立随机变量之和。例如,任意指定时刻城市用电量是大量用电量的总和,一个零件的实际尺寸与标准尺寸的偏差是原材料、设备、操作技术、经营管理水平等多种因素综合影响
17、的结果,等等。中心极限定理就是研究随机变量之和在什么条件下渐近地服从正态分布。设是相互独立同分布的随机变量,且它们的数学期望为,方差为,则也是一个随机变量,当n很大时,它的分布渐近服从数学期望和方差分别为和的正态分布N(,)。由上述定理,可以得到以下推论:不论总体是什么分布,只要数学期望和方差存在,从这个总体中随机互相独立地抽取容量为n的样本,则这个样本的平均数是个随机变量,当n足够大时(一般n30),样本平均数近似服从数学期望为,方差为的正态分布N(,)。如果用X表示n次独立试验中事件A发生的次数,p为每单一试验中事件A发生的概率,则X服从二项分布B(n, p)。根据中心极限定理,当n很大,
18、而p又不太接近0或1时,正态分布为二项分布提供了一个很好的近似。只要n50,且和都大于5时,我们把X看成近似服从正态分布N,,或者作变量代换得到,使其近似服从标准正态分布N(0,1)。中心极限定理是大样本统计推断的理论基础。样本平均数也是一种随机变量之和的分布,根据中心极限定理,只要在样本容量n充分大时,不论总体的变量分布是否属于正态分布,其抽样平均数也趋近于正态分布,即随,。这就为抽样推断提供了重要的理论依据。正因为如此,在抽样推断中,正态分布得到了广泛的应用。五、参数估计的基本步骤抽样调查有多种组织方式,不论采用何种组织方式,抽样推断的基本原理都是相似的。抽样推断的基本步骤是:1. 按照一
19、定的抽样方式抽取适当的样本进行调查,针对该种抽样方式选择总体参数的最优样本估计量,计算估计值,以此作为总体参数的点估计;2. 根据该种抽样方式的抽样平均误差公式计算出抽样误差(或),这里,我们往往要先计算样本标准差以替代未知的总体标准差;3. 根据所要求的置信水平,查正态分布表、t分布表或其他分布表获得对应的概率度,然后再计算出抽样极限误差,最后对总体参数作出区间推断。第二节 参数估计中的点估计一、总体参数的点估计点估计,也称定值估计,就是以样本估计量直接代替总体参数的一种推断方法。当已知一个样本的观察值时,便可得到总体参数的一个估计值。如在某校学生体重的调查中,获知抽取的400名学生的平均体
20、重为58公斤,则我们说该校8000名学生的平均体重也是58公斤。这种推断就是对总体平均数作了点估计。点估计的优点在于它能够提供总体参数的具体估计值,可以作为行动决策的数量依据。例如,推销部门对某种产品估计出全年销售额数值,并分出每月销售额,便可传递给生产部门作为制定生产计划的依据,而生产部门又可将每月产量计划传递给采购部门作为制定原材料采购计划的依据等。点估计也有不足之处,它不能提供误差情况如何、误差程度有多大的这类重要信息。点估计常用的方法有两种:矩估计法和极大似然估计法。1. 矩估计法是英国统计学家KPearson提出的。其基本思想是:由于样本来源于总体,样本矩在一定程度上反映了总体矩,而
21、且由大数定律可知,样本矩依概率收敛于总体矩。因此,只要总体的k阶原点矩存在,就可以用样本矩作为相应总体矩的估计量,用样本矩的函数作为总体矩的函数的估计量。例如,用样本均值来估计总体均值,用样本方差来估计总体方差。矩估计法简单、直观,而且不必知道总体的分布类型,所以矩估计法得到了广泛应用。但矩估计法也有局限性,它要求总体以k阶原点矩存在,否则无法估计,它不考虑总体分布类型,因此也就没有充分利用总体分布函数提供的信息。2. 极大似然估计法是由Fisher,提出的一种参数估计方法。其基本思想是:设总体分布的函数形式已知,但有未知参数,可以取很多值,在的一切可能取值中选一个使样本观察值出现的概率为最大
22、的值作为的估计值,记作,称为的极大似然估计值,这种求估计量的方法称为极大似然估计法。抽样误差的存在是必然的,点估计不考虑误差范围,因此也就说明不了估计的准确性和可靠性。但区间估计可以弥补这一不足。二、点估计量的优良标准用样本估计量去推断总体参数,并非只能用一个样本估计量,而可能有多个估计量可供选择,我们总希望选定的估计量能够推断地好一点,那么“好一点”的标准是什么呢?一般来说有三个基本的标准,满足了这三个标准就可以认为该估计量是优良的。1. 无偏性。无偏性的直观意义是没有系统性误差。虽然每个可能样本的估计值不一定恰好等于未知总体参数,但如果多次抽样,应该要求各个估计值的平均数等于总体参数,即从
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 参数估计 教程
限制150内