《概率论与数理统计—样本及抽样分布.pdf》由会员分享,可在线阅读,更多相关《概率论与数理统计—样本及抽样分布.pdf(6页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、授课章节 第六章 样本及抽样分布 目的要求 理解总体,样本,样本值,统计量;了解2分布,t 分布和 F 分布,分位数;掌握正态总体的抽样分布等内容 重点难点 重点:正态总体的某些常用统计量的分布。前五章,主要介绍了概率论的基本概念,掌握了描述随机变量取值规律的方法离散型用分布律、连续型用密度函数。一旦知道了随机变量的取值规律,我们就可以计算这个随机变量满足各个条件的概率。而从第六章开始到第九章进入数理统计部分。它的思想方法是通过“样本”的数据对“总体”的分布或总体的某些未知参数做出“可靠”的推断。当然,在这个过程中,总体的全部或部分是未知的。第一节 随机样本 下面,通过一个例子,了解总体、样本
2、、样本值、样本容量等数理统计中的基本概念。例 某灯泡厂,一个季度内生产了一大批灯泡,出厂前要对这批灯泡的质量,比如它的寿命,做比较全面的分析。用 X 表示灯泡的寿命,显然,随取哪只灯泡的不同,它的寿命也不一样。因此,X 是个随机变量。如果,我们知道它的分布,我们就知道这批灯泡的质量。称 X 为总体 我们所关心的某个数量指标的全体。想全面地了解总体,最好的方法就是“普查”,但普查对有些场合是不现实的。比如,本例中的灯泡的寿命就是如此。即便在某些场合,普查是允许的,但投入过多的人力、物力,而使成本加大不划算。注意,这并不是说,普查都不做,全国的人口普查已做了数次。因此,我们想到了“抽样”,在这批灯
3、泡中随机地抽取 n 只灯泡,每只灯泡都有自己的寿命值,测试前它们都是随机变量,分别记做 X1、X2、Xn。称 X1、X2、Xn为样本 总体中的个体。测试后它们各自取到一批值:x1、x2、xn。称 x1、x2、xn为样本值样本取到的值。称 n 为样本容量样本的个数。数理统计就是通过样本对总体做出推断,这就要求样本能够真实地反映总体,样本又是总体中为数不多的个体,那么什么样的样本可以做到这一点呢?就是随机样本。定义:设 X 为总体,X1、X2、Xn为样本,如果每个样本 Xi(i=1、2、n)与总体 X的分布相同,即同分布;X1、X2、Xn之间相互独立;则称 X1、X2、Xn为简单随机样本。数理统计
4、中所使用的样本就是这种样本。如果记总体 X 的分布函数为 F(x)=P X x,则(X1,X2,Xn)的联合分布函数为 F(x1,x2,xn)=P X1 x1,X2 x2,Xn xn =F(xi)当总体 X 是连续型随机变量时,f(x)是它的概率密度,则(X1,X2,Xn)的联合概率密度2/6 为 f(x1,x2,xn)=f(xi)。第二节 抽样分布 样本是统计推断的依据,但在使用时,要对不同的推断目标构造不同的样本函数。例如,要推断总体的均值 E(X)时,需构造样本的均值11niiXn,要推断总体的方差 D(X)时,需构造样本的方差211()niiXXn等等。由样本构成的函数称为统计量,定义
5、如下。定义 设 X1、X2、Xn是来自总体 X 的一个样本,如果由样本构成的函数 g(X1,X2,Xn)不含有未知的参数,则称为它为一个统计量。因为样本 X1、X2、Xn是随机变量,所以 g(X1,X2,Xn)也是随机变量。当各个样本取到样本值 x1、x2、xn时,对应的统计量 g(X1,X2,Xn)取到 g(x1,x2,xn),称 g(x1,x2,xn)为统计量 g(X1,X2,Xn)的一个观测值。常见的统计量有:样本均值12111()nniiXXXXXnn,样本方差 2211()1niiSXXn,2211()nniiSXXn,样本标准差 211()1niiSXXn,样本 k 阶原点矩 11
6、nkkiiAXn,样本 k 阶中心矩 11()nkkiiBXXn 样本值 x1、x2、xn是样本 X1、X2、Xn的一个随机结果,自然,观测值 g(x1,x2,xn)是统计量 g(X1,X2,Xn)的偶然值。事实上,我们最后就是用偶然值 g(x1,x2,xn)去推断总体的。那么,这个偶然值 g(x1,x2,xn)有多大的价值?数理统计的主要工作就是分析这个“偶然值”。表面看,统计量 g(X1,X2,Xn)取到观测值 g(x1,x2,xn)是偶然的,但它也存在“必然”的成分。下面说明其中的道理。假设两个随机变量21(,2)XN、22(,4)YN,其中 1和 2未知。它们的密度函数和图形如下:3/
7、6 212()2 21()2 2xXfxe 222()2 41()2 4xYfxe 如果用 X 的测试值 x 估计 1,用 Y 的测试值 y 估计 2,从上面的图形可以看出,当可靠性(概率)取相同值(如 90%)时,y 比 x 更“接近”它的待估计量。当要求两个“接近”相同时,y 比 x 的可靠性更高。能够得到这些有价值的结论,应归功于我们知道了 X 和 Y 的分布。综上所述,我们需要知道统计量 g(X1,X2,Xn)的分布。那么,g(X1,X2,Xn)服从什么分布呢?不同的 g 会有不同的结果。下面给出几种常见的分布,这些分布在统计推断中起着重要的作用。(一)2分布(2distributio
8、n)设nXXX,21为相互独立的随机变量,它们都服从标准正态)1,0(N分布,则随机变量 221niiX 服从自由度为n的2分布,记作22()n)(2n分布的密度函数为 122/210()2(/2)00nynyeyf yny 其中)(称为伽马函数,定义为10(),0 xxe dx。下图描绘了)(2n分布密度函数在 n=1,4,10,20 时的图形。1 0.16 2 0.08 4/6 2分布具有可加性:如果2211()n、2222()n,则 2221212()nn 2分布期望和方差:设22()n,则2()En,2()2Dn。2分布分位点 对于给定的(0 1),称满足条件 222()()()()n
9、nnf y dyP 的数2()n为2()n分布的上分位点。教材后附表的2分布表给出分位点2()n,可通过查表得到。如20.99(17)6.408,20.90(17)10.085,20.05(17)27.587等等。(二)t分布(t distribution)设)1,0(NX,)(2nY,X与Y独立,则随机变量 nYXT 服从自由度为n的t分布(t distribution),记成()t nt。利用独立随机变量商的密度公式,不难由已知的)1,0(N,)(2n的密度公式得到)(nt分布的密度:1221()2()(1),()2nnth ttnnn 显然它是x的偶函数,下图描绘了 n=2、5 时的)(
10、nt分布概率密度曲线,作为比较,还描绘了)1,0(N的密度曲线。5/6 利用伽马函数的斯特林)(Stirling公式可以证明 221(),2th ten 从图形我们也可看出,随着n的增大,)(nt的密度曲线与)1,0(N的密度曲线越来越接近,一般若30n,就可认为它基本与)1,0(N相差无几了。)(nt 分布分位点 对于给定的(0 1),称满足条件()()()()tnt nt nh t dtP 的数()tn为()t n分布的上分位点。教材后附表的)(nt分布表给出分位点()tn,可通过查表得到。如0.05(17)1.7396t,0.1(17)1.3334t 等等。(三)F分布(Fdistrib
11、ution)设21()Un,22()Vn,U 与 V 独立,则随机变量 12U nFV n 服从自由度为(1n,2n)的F分布,记成),(21nnFF 类似可得,),(21nnF的密度函数为112121212221212212()20()()()()2200nnnnnnnxnnxnnxn xnx 下图描绘了几种F分布的密度曲线。6/6 由F分布的定义容易看出,若),(21nnFF,则),(112nnFF。12(,)F n n分布分位点 对于给定的(0 1),称满足条件 121212(,)(,)(,)()Fn nF n nF n nx dxP 的数12(,)F n n为12(,)F n n分布的上分位点。(四)正态总体的样本均值和样本方差的分布 在概率统计问题中,正态分布占据着十分重要的位置,这是基于一则在应用中,许多量的概率分布或者是正态分布,或者接近于正态分布;再则,正态分布有许多优良性质,便于进行较深入的理论研究。因此,我们着重来讨论一下正态总体下的抽样分布,其中最重要的统计量自然是样本均值X和样本方差2S 设总体),(2NX,nXXX,21为总体的样本,则 1)样本均值),(2nNX,或(0,1)/XNn。2)222(1)nSn,其中2S为样本方差。3)X与2S相互独立。4)(1)/Xt nSn,其中 S 为样本标准差。
限制150内