数理统计讲义.docx
《数理统计讲义.docx》由会员分享,可在线阅读,更多相关《数理统计讲义.docx(57页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、数理统计教 案第一章 统计量与其抽样分布第一节总体与样本教学目的:要求学生理解数理统计的两个基本概念:总体和样本,以与与这两个基本概念相关的统计基本思想和样本分布。教学重点: 驾驭数理统计的基本概念和基本思想.教学难点:驾驭数理统计的基本概念和基本思想.一, 总体与个体在一个统计问题中,我们把探讨对象的全体称为总体,构成总体的每个成员称为个体。对多数实际问题。总体中的个体是一些实在的人或物。比如,我们要探讨某高校的学生身高状况,则该高校的全体学生构成问题的总体,而每一个学生即是一个个体。事实上,每个学生有很多特征:性别, 年龄, 身高, 体重, 民族, 籍贯等。而在该问题中,我们关切的只是该校
2、学生的身高如何,对其他的特征暂不予以考虑。这样,每个学生(个体)所具有的数量指标值身高就是个体,而将全部身高全体看成总体。这样一来,若抛开实际背景,总体就是一堆数,这堆数中有大有小,有的出现的机会多,有的出现的机会少,因此用一个概率分布去描述和归纳总体是恰当的。从这个意义上看,总体就是一个分布,而其数量指标就是听从这个分布的随机变量。以后说“从总体中抽样”与“从某分布中抽样”是同一个意思。例1.考察某厂的产品质量,将其产品只分为合格品与不合格品,并以0记合格品,以1记不合格品,则总体该厂生产的全部合格品与不合格品由0或1组成的一堆数。若以p表示这堆数中1的比例(不合格品率),则该总体可由一个二
3、点分布表示:不同的p反映了总体间的差异。例如,两个生产同类产品的工厂的产品总体分布为:我们可以看到,第一个工厂的产品质量优于第二个工厂。实际中,分布中的不合格品率是未知的,如何对之进行估计是统计学要探讨的问题。二, 样本为了了解总体的分布,我们从总体中随机地抽取n个个体,记其指标值为x1,x2,xn,则x1,x2,xn称为总体的一个样本,n称为样本容量,或简称样本量,样本中的个体称为样品。我们首先指出,样本具有所谓的二重性:一方面,由于样本是从总体中随机抽取的,抽取前无法预知它们的数值,因此,样本是随机变量,用大写字母X1,X2,Xn表示;另一方面,样本在抽取以后经观测就有确定的观测值,因此,
4、样本又是一组数值。此时用小写字母x1,x2,xn表示是恰当的。简洁起见,无论是样本还是其观测值,本书中样本一般均用x1,x2,xn表示,读者应能从上下文中加以区分。例2.啤酒厂生产的瓶装啤酒规定净含量为640g,由于随机性,事实上不行能使得全部的啤酒净含量均为640g ,现从某厂生产的啤酒中随机抽取10瓶测定其净含量,得到如下结果: 641635640637642638645643639640这是一个容量为10的样本的观测值。对应的总体为该厂生产的瓶装啤酒的净含量。从总体中抽取样本时,为使样本具有代表性,抽样必需是随机抽样。通常可以用随机数表来实现随机抽样。还要求抽样必需是独立的,即每次的结果
5、互不影响。在概率论中,在有限总体(只有有限个个体的总体)中进行有放回抽样,是独立的随机抽样;然而,若为不放回抽样,则是不独立的抽样。但 当总体容量N很大但样本容量n较小时,不放回抽样可以近似地看做放回抽样,即可近似看做独立随机抽样。下面,我们假定抽样方式总满意独立随机抽样的条件。从总体中抽取样本可以有不同的抽法,为了能由样本对总体做出较牢靠的推断,就盼望样本能很好地代表总体。这就须要对抽样方法提出一些要求,最常用的 “简洁随机抽样”有如下两个要求:(1)样本具有随机性,即要求总体中每一个个体都有同等机会被选入样本,这便意味着每一样品xi与总体X有相同的分布。(2)样本要有独立性,即要求样本中每
6、一样品的取值不影响其他样品的取值,这意味着x1,x2,xn相互独立。用简洁随机抽样方法得到的样本称为简洁随机样本,也简称样本。除非特殊指明,本书中的样本皆为简洁随机样本。于是,样本x1,x2,xn可以看成是相互独立的具有同一分布的随机变量,其共同分布即为总体分布。 设总体X具有分布函数F(x), x1,x2,xn为取自该总体的容量为n的样本,则样本联合分布函数为:若总体具有密度函数f(x),则样本的联合密度函数为若总体X为离散型随机变量,则样本的(联合)概率函数为明显,通常说的样本分布是指多维随机变量(x1,x2,xn)的联合分布。例3.为估计一物件的重量,用一架天平重复测量n次,得样本x1,
7、x2,xn,由于是独立重复测量,x1,x2,xn是简洁随机样本。总体的分布即x1的分布(x1,x2,xn分布相同)。由于称量误差是均值(期望)为零的正态变量,所以x1可认为听从正态分布N(,2)(X1等于物件重量)加上称量误差,即x1的概率密度为这样,样本分布密度为。 例4.设某种电灯泡的寿命X听从指数分布E(),其概率密度为:则来自这一总体的简洁随机样本x1,x2,xn的样本分布密度为例5.考虑 交换台一小时内的呼喊次数X。求来自这一总体的简洁随机样本x1,x2,xn的样本分布。解由概率论学问,X听从泊松分布P(),其概率函数,(其中x是非负整数0,1,2,k,中的一个)。从而,简洁随机样本
8、x1,x2,xn的样本分布为:第二节 统计量与其分布教学目的:要求学生理解数理统计的基本概念:统计量,娴熟驾驭样本均值, 样本方差, 样本原点矩, 样本中心矩等常用统计量的计算公式,驾驭次序统计量与其抽样分布。能用R软件来计算这些常用统计量,能用R软件来产生分布的随机数以进行随机模拟。教学重点:样本均值, 样本方差, 样本原点矩, 样本中心矩等常用统计量的求法;次序统计量的抽样分布。教学难点:次序统计量的抽样分布。一, 统计量与抽样分布样原来自总体,样本的观测值中含有总体各方面的信息,但这些信息较为分散,有时显得杂乱无章。为将这些分散在样本中有关总体的信息集中起来以反映总体的各种特征,须要对样
9、本进行加工。最常用的加工方法是构造样本的函数,不同的函数反映总体的不同特征。 定义1.设x1,x2,xn为取自某总体的样本,若样本函数TT(x1,x2,xn)中不含有任何未知参数,则称T为统计量。统计量的分布称为抽样分布。依据这肯定义,若x1,x2,xn为样本,则,都是统计量,而当,2未知时, 等均不是统计量。二, 样本均值与其抽样分布 定义2.设x1,x2,xn为取自某总体的样本,其算术平均值称为样本均值,一般用表示,即。例6.某单位收集到20名青年人某月的消遣支出费用数据:7984 8488 92 93 94 97 98 99100 101101102102 108110113118125
10、 则该月这20名青年的平均消遣支出为对于样本均值的抽样分布,我们有下面的定理。 定理1.设x1,x2,xn是来自某个总体X的样本, 为样本均值。(1)若总体分布为N(,2),则的精确分布为;(2)若总体X分布未知(或不是正态分布),且E(X)=,D(X)=2,则当样本容量n较大时,的渐近分布为,这里的渐近分布是指n较大时的近似分布。证明(1)由于为独立正态变量线性组合,故仍听从正态分布。另外, 故 (2)易知为独立, 同分布的随机变量之和,且 。由中心极限定理, ,其中(x)为标准正态分布。这表明n较大时的渐近分布为。三, 样本方差与样本标准差 定义3.设x1,x2,xn为取自某总体的样本,则
11、它关于样本均值的平均偏差平方和 称为样本方差,其算术根称为样本标准差。相对样本方差而言,样本标准差通常更有实际意义,因为它与样本均值具有相同的度量单位。在上面定义中,n为样本容量,称为偏差平方和,它有3个不同的表达式:事实上,偏差平方和的这3个表达式都可用来计算样本方差。例7.在例6中,我们已经算得,其样本方差与样本标准差为,。方法二 s=11.57 31通常用第二种方法计算s2便利很多。下面的定理给出样本均值的数学期望和方差以与样本方差的数学期望,它不依靠于总体的分布形式。这些结果在后面的探讨中是有用的。 定理2.设总体X具有二阶矩,即E(x)=,D(X)=2+x1,x2,xn为从该总体得到
12、的样本,和s2分别是样本均值和样本方差,则 此定理表明,样本均值的均值与总体均值相同,而样本均值的方差是总体方差的。证明由于(1)(2)且有: ,而 ,于是 ,两边各除以n-1,即得证。值得读者留意的是:本定理的结论与总体听从什么分布无关。四, 样本矩与其函数样本均值和样本方差的更一般的推广是样本矩,这是一类常见的统计量。 定义4.设x1,x2,xn是样本,则统计量称为样本k阶原点矩,特殊地,样本一阶原点矩就是样本均值。统计量 称为样本k阶中心矩。常见的是k=2的场合,此时称为二阶样本中心矩。本书中我们将其记为sn2,以区分样本方差S2。 五, 极大依次统计量和微小依次统计量 定义5.设总体X
13、具有分布函数F(x),分布密度f(x), x1,x2,xn为其样本,我们分别称X(1)=minx1,x2,xn,x(n)=maxx1,x2,xn为微小依次统计量和极大依次统计量。定理3.若x(1),x(n)分别为微小, 极大依次统计量,则(1)x(1)的分布函数F1(x)=1-(1-F(x)n,x(1)的分布密度f1(x)=n-(1-F(x)n-1f(x) (2)x(n)的分布函数Fn(x)=F(x)n,x(n)的分布密度fn(x)=nF(x)n-1f(x) 证明 先求出x(1)与x(n)的分布函数F1(x)与Fn(x):,分别对F1(x),Fn(x)求导即得六, 正态总体的抽样分布有很多统计
14、推断是基于正态总体的假设的,以标准正态变量为基石而构造的三个闻名统计量(其抽样分布分别为x2分布,t分布和F分布)在实践中有着广泛的应用。这是因为这三个统计量不仅有明确背景,而且其抽样分布的密度函数有“明确的表达式”,它们被称为统计中的“三大抽样分布”。1. x2分布(卡方分布) 定义6.设X1,X2,Xn独立同分布于标准正态分布N(0,1),则x2=x12+xn2的分布称为自由度为n的x2分布,记为x2x2(n)。x2(n)分布的密度函数见图1-4当随机变量x2 x2(n)时,对给定的(0x2(n)= 的x2(n)是自由度为n的开方分布的分位数。分位数x2(n)可以从附表4中查到。例如n=1
15、0,=0.05,那么从附表4中查得x2(10)=18.307p(x)2x20.05(10)=px218.307=0.05注:请读者留意x2x2(n)时,n是自由度,不是容量。2.F分布定义7.设x1x2(m),x2x2(n)X1与X2独立,则称的分布是自由度为m与n的F分布,记为FF(m,n),其中m称为分子自由度,n称为分母自由度。自由度为m与n的F分布的密度函数的图像是一个只取非负值的偏态分布(见图6-5)。当随机变量FF(m,n)时,对给定的(0F(m,n)=的数F(m,n)是自由度为m与n的F分布的分位数。当FF(m,n)时,有下面性质(不证),这说明对小的,分位为F(m,n)可以从附
16、表5中查到,而分位数F1-(m,n)则可通过上式得到。例8.若取m=10,则n=5,=0.05,那么从附表5上(m=n1,n=n2)查得F0.05(10,5)=4.74利用(6.3.8 )式可得到3.t分布 定义8.设随机变量与X1与X2独立且X1N(0,1),X2X2(n),则称的分布为自由度为n的t的分布,记为tt(n).t分布密度函数的图像是一个关于纵轴对称的分布(如下图),与标准正态分布的密度函数形态类似,只是峰比标准正态分布低一些,尾部的概率比标准正态分布的大一些。t分布与N(0,1)的密度函数当随机变量tt(n)时,称满意Ptt(n)=的t(n)是自由度为n的t分布的分位数,分位数
17、t(n)可以从附表3中查到,例如当n=10, =0.05时,从附表3上查得t0.05(10)=1.8125由于t分布的密度函数关于0对称,故其分位数有如下关系:t1-(n)=- t(n)例如,t0.95(10)=-t0.05(10)=-1.8125当n很大时,(n30),t分布可以用N(0,1)近似P(t-t)=1-,p(tt1-)=1-,t1-=-t4.一些重要结论来自一般正态总体的样本均值 和样本方差S2的抽样分布是应用最广的抽样分布,下面我们加以介绍。 定理4.设X1,X2,Xn是来自正态总体N(,2)的样本,其样本均值和样本方差分别为:则有(1)与s2相互独立;(2)特殊,若(不证)推
18、论:设,21=22=2并记则(不证)本章小结本章的基本要求:(一)知道总体, 样本, 简洁样本和统计量的概念(二)知道统计量和s2的下列性质:E(s2)=2(三)若x的分布函数为F(x),分布函数为f(x),则样本(x1,x2,xn)的联合分布函数为F(x1)F(x2)F(xn)样本(x1,x2,xn)的联合分布密度为f(x1) f(x2)f(xn),样本(x1,x2,xn)的概率函数,p(x1,x 2 ,xn)=p(X=x1)p(X=x2)p(X=xn)因而依次统计量x(1),x (n)中X(1)的分布函数为1-(1-F(x)nX(n)的分布函数为F(x)n(四)驾驭正态总体的抽样分布若XN
19、(,2)则有(1)(2)(3)(4)若=当时,。(五)知道样本原点矩与样本中心矩的概念第二章 参数估计从本章起先我们介绍统计推断,所谓统计推断就是由样本推断总体,统计推断包括参数估计和假设检验两部分,它们是统计推断最基本而且是相互有联系的两部分,本章介绍统计推断的第一部分参数估计。参数通常指总体分布中的特征值和和各种分布中的参数,例如二点分布B(1,P)中的p,泊松分布P()中的,正态分布N(, )的, 等,习惯用表示参数,通常参数是未知的。参数估计的形式有两类,设x1,x2,xn是来自总体的样本。我们用一个统计量的取值作为参数的估计值,则称为的点估计(量),就是参数的点估计,假如对参数的估计
20、须要对估计作出牢靠性推断,就须要对这一牢靠性给出牢靠性区间或置信区间,叫区间估计。下面首先介绍点估计 第一节 点估计教学目的:要求学生了解参数点估计的基本思想,理解参数点估计的基本概念,娴熟运用替换原理, 矩法估计和最大似然估计对参数进行估计。教学重点:矩法估计, 最大似然估计.教学难点:运用矩法估计, 最大似然估计对参数进行估计.干脆用来估计未知参数的统计量称为参数的点估计量,简称为点估计,人们可以运用各种方法构造出很多的估计,本节介绍两种最常用的点估计方法。它们是:矩法和极大似然法。一, 替换原理和矩法估计用下面公式表示的方法叫矩法例1.对某型号的20辆汽车记录每5L汽油的行驶里程(km)
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数理统计 讲义
限制150内