总体分布样本分布.ppt
《总体分布样本分布.ppt》由会员分享,可在线阅读,更多相关《总体分布样本分布.ppt(80页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、管理统计学管理统计学谢湘生谢湘生广东工业大学管理学院广东工业大学管理学院第5章 总体分布、样本分布 与参数估计5.1 总体分布与样本分布本章的总体(Population or Universe)是指研究对象的全体。并且先研究只有一个特征(指标或变量)的总体。这样表述总体特征的变量可以看成一个一维随机变量。5.1.1 总体与总体分布更准确地说,一维随机变量是指反映某总体特征取值,且具有如下特点的变量X:(1)在同一条件下可以无限次重复取值;(2)取值的结果可能有多个,但不确定;(3)事先不知道取值结果(Outcome)。因此,总体也可理解为一个随机变量取的值全体。随机变量取值的概率分布,就称为总
2、体分布。一个随机变量取给定值或属于一给定值集合的概率所确定的函数称为该随机变量的概率分布。概率分布反映的是随机变量所有可能取值的概率的分配方式。一旦与所有可能结果相联系的概率被确定,则概率分布完全确定。X x1 x2 xn P(X)p1 p2 pn 离散随机变量的概率分布。设X为取相异值x1,x2,xn,的离散随机变量,则函数称为X的概率分布或概率分布函数(probability distribution function,PDF),其中P(X=xi)为离散随机变量X取xi值的概率。(1)离散随机变量的概率分布)离散随机变量的概率分布例 抛掷一个均匀的骰子,假设骰子的六个面分别标有数字1,2,
3、3,4,5,6。用X标识骰子落地后朝上一面的数字。则X是离散随机变量。其概率分布如下表所示X123456pi1/61/61/61/61/61/6写成函数形式(2)连续随机变量的概率密度函数)连续随机变量的概率密度函数设X是连续随机变量,x是X取的值,若函数f(x)满足下列条件:则称f(x)为X的概率密度函数(probability density function,PDF),其中P(axb)表示X在区间(a,b取值的概率。有时也称下式定义的函数为X的概率分布函数:连续型随机变量取给定值的概率为零。(1)位于横轴的上方(2)曲线与横轴围成的面积为1 ab(3)X在区间(a,b取值的概率等于该区间
4、上的曲边梯形的面积 ab连续型随机变量在给定集合取值的概率分配方式由其概率密度完全确定。5.1.2 随机样本与样本观察值随机样本与样本观察值从重复抽样的角度看从重复抽样的角度看“每次从某个总体每次从某个总体X中随机抽中随机抽取个体取个体”可理解为一个可理解为一个随机实验随机实验。随机样本随机样本:表征:表征n次抽取个体的随机抽样的一组随次抽取个体的随机抽样的一组随机变量机变量X1,X2,Xn.样本观察值(样本数据)样本观察值(样本数据):n次次随机抽样的结果随机抽样的结果:x1,x2,xn(称为随机变量(称为随机变量X1,X2,Xn的样本的样本观察值)。观察值)。n称为称为样本容量样本容量。注
5、注:x1,x2,xn也可以看成随机变量也可以看成随机变量X的的n次重复次重复抽样的结果。抽样的结果。大写的英文字母:随机变量小写的英文字母:随机变量的观察值例例 抛掷一个均匀的骰子,假设骰子的六个面分别抛掷一个均匀的骰子,假设骰子的六个面分别标有数字标有数字1,2,3,4,5,6。用。用X标识骰子落地后标识骰子落地后朝上一面的数字。则朝上一面的数字。则X是离散随机变量。是离散随机变量。对该随机变量进行一次抽样,其实就是掷该骰子对该随机变量进行一次抽样,其实就是掷该骰子一次。一次。第第i次抽样,就是第次抽样,就是第i次掷骰子,其结果的表示:次掷骰子,其结果的表示:事前事前事后事后Xixi易见,易
6、见,Xi其实就是其实就是X.当然这里要求各当然这里要求各Xi是是独立的独立的.在理论上表在理论上表述时常说成各述时常说成各Xi是是iid的的(即即Independent Identically Distribution)5.1.3 样本分布函数设设x1,x2,xn是随机变量是随机变量X的样本观察值,将它的样本观察值,将它们按大小顺序排列,排序后为们按大小顺序排列,排序后为x1 x2 xn,ki为为小于小于xi+1的样本值出现的累积频次,的样本值出现的累积频次,n仍为样本容仍为样本容量,则可得到样本累积频率分布函数如下量,则可得到样本累积频率分布函数如下样本累积频率分布函数又简样本累积频率分布函
7、数又简称为样本(累积)分布函数,称为样本(累积)分布函数,它是总体(累积)分布函数它是总体(累积)分布函数的近似,的近似,n越大,就越接近总越大,就越接近总体分布,如图。体分布,如图。对于有限总体,其累积概率分布函数不连续,是阶跃式的。样本的累积分布函数也是阶跃式的。如图所示。5.1.4 格利文科(Glivenko)定理(样本分布与总体分布的关系)格利文科定理:当n趋于无穷大时,Fn(x)依概率1(关于x)均匀地收敛于总体分布F(x).格利文科定理的数学表达如下:格利文科定理是用样本特征推断总体特征的依据格利文科定理是用样本特征推断总体特征的依据。这表明当n充分大时,样本分布Fn(x)是总体分
8、布F(x)的一个良好近似。例如,利用格利文科定理可以证明:5.1.5 随机样本的均值函数对于随机样本X1,X2,Xn,定义样本的均值函数(简称为样本均值)为由于式中Xi是随机样本(随机变量),因此作为随机样本函数的 是随机变量比较样本数据的均值它可以看成是 的观察值5.1.6 随机样本的方差函数对于随机样本X1,X2,Xn,定义样本的方差函数(简称为样本方差)为由于式中Xi是随机样本(随机变量),因此作为随机样本函数的S2是随机变量比较样本数据的方差它是S2的观察值5.2 统计量与统计量的分布 统计量的定义统计量是不含未知参数的、随机样本X1,X2,Xn的函数注意统计量是随机样本X1,X2,X
9、n的函数,因而也是随机变量在上面定义的函数中将每个随机样本Xi用其观察值xi代替,计算的结果f(x1,x2,xn)称为统计量的值。也可以直接将f(x1,x2,xn)看成统计量的观察值。5.2.2 由标准正态分布的随机样本由标准正态分布的随机样本所引出的几个重要统计量的分布所引出的几个重要统计量的分布1.正态分布与标准正态分布正态分布与标准正态分布设设X服从均值为服从均值为,方差为,方差为2正态分布正态分布,即,即 X N(,2),则其分布密度函数为,则其分布密度函数为特别地,当特别地,当=0,2=1 时正态分布称为时正态分布称为标准正标准正态分布态分布。正态分布是一种最常见的分布。通常如果一个
10、随机变量只受到大量小的独立因素的影响,则它服从正态分布。正态分布有许多特点:例如它是对称的。正态变量大约有68%的可能性在离均值一个标准差的范围内取值;大约有95%的可能性在离均值1.96倍标准差的范围内取值。几乎不在离均值3倍标准差以外的地方取值。68%95%99.7%l甲生考试成绩常常不及格,如果能够拿甲生考试成绩常常不及格,如果能够拿到一个到一个6060多分的成绩,都感到非常满意多分的成绩,都感到非常满意了。了。某日,老师发期中考卷,甲生拿到某日,老师发期中考卷,甲生拿到考卷后,看到成绩是考卷后,看到成绩是8080分,喜出望外,分,喜出望外,心想这一次总算要扬眉吐气了,但是,心想这一次总
11、算要扬眉吐气了,但是,只见老师在黑板上写下本次期中考试全只见老师在黑板上写下本次期中考试全班平均成绩是班平均成绩是9090分,标准差分,标准差5 5分。见到这分。见到这一结果,甲生还能高兴的起来吗?一结果,甲生还能高兴的起来吗?对任何一个服从正态分布的随机变量X N(,2),总可以将它变换为一个标准正态分布的随机变量,变换的方式为:也就是,Z N(0,1)。例如 设XN(54,0.852),要计算P(X52)。则可以这样计算:2.2(n)分布的构成设X N(0,1),X1,X2,Xn是X的随机样本,则这些随机样本的平方和服从自由度为n的2分布,即2 2(n)利用这一结果可以证明对于任何取自于均
12、值为标准差为的正态分布的样本,其方差函数S2满足2分布的均值为分布的均值为n,方差为,方差为2n,其中,其中n为自由度为自由度(df)。3.t分布自由度为n的t分布,记为t(n),是由标准正态分布N(0,1)和2(n)分布组成,其表达式为其中X N(0,1),Y 2(n),且X与Y相互独立。t分布的均值为0,方差为n/(n-2)。3.F分布F分布变量是由两个2变量之比组成的:记为FF(n,m),其中U 2(n),V 2(m).对于 F(n,m),n称为第一自由度(分子自由度),m称为第二自由度(分母自由度)。5.2.3 由一般正态分布的随机样本所构成的若干重要统计量的分布设随机变量X N(,2
13、),X1,X2,Xn是X的随机样本,则(1)(2)(3)(4)(5)其中 是容量为n1的随机变量 的样本方差;是容量为n2的随机变量 的样本方差。5.2.4 任意分布的随机样本均值函数的均值和方差设随机变量X 的均值为,方差为2,而分布形式任意,X1,X2,Xn是X的随机样本,则(1)(2)也就是任意随机变量的样本均值就等于总体均值;样本方差等于总体方差与样本容量的商设X1,X2,Xn是X的随机样本,则它们之间相互独立,并且均值都为,方差都为2,于是2.一个应用广泛的样本均值与方差:0-1分布的样本均值与方差0-1分布 反映总体中某类个体占的比例的随机变量X,可以简单地用0-1分布B(1,p)
14、来表示,其中p就是总体中该类个体所占的比例。例如 在某学生构成的总体中,少数民族占的比例是p,则从该总体中任选一个同学为少数民族的概率为p,而任选一个同学不是少数民族的概率为1-p。0-1分布的均值为p,方差为p(1 p)从服从0-1分布的一个总体中随机地抽取n个样本X1,X2,Xn.记样本均值函数为 则 5.2.5 大样本均值的分布:中心极限定理设随机变量X 服从均值为,方差为2 的分布,X1,X2,Xn是X的随机样本,则有如下的中心极限定理。中心极限定理中心极限定理(Central Limit Theorem):当:当n充充分大时,近似地有分大时,近似地有一般地,当n30时,就可应用中心极
15、限定理了。或者近似地有或者近似地有例 一汽车蓄电池商声称其生产的电池具有均值为54个月、标准差为6个月的寿命分布。现假设某消费者团体决定检验该厂的说法是否准确,为此购买了50个该厂的电池进行检验。1)假定厂商的声称是正确的,试描述这50个电池平均寿命的抽样分布。2)假定厂商声称正确,则50个样品组成的样本的平均寿命不超过52个月的寿命的概率是多少?解 1)由中心极限定理,样本均值近似服从正态分布,即近似地而并且故2)按照上面得到的结果来计算这50个电池平均寿命不超过52个月的概率这表明这50个电池平均寿命不超过52个月的概率非常小。因此这种情况应该不太可能出现。如果出现该情况意味着什么?前面已
16、经计算得到P(X52)=0.0094由于所以的证明利用上述结果与的结果能够得到5.3 点估计在解决实际问题时,常常需要用样本来推断总体分布的某些参数值,这就是所谓的参数估计。参数估计又分为点估计与区间估计。粗略地讲,点估计就是用样本的某一函数值,来估计总体分布中的未知参数。而区间估计就是(以一定概率)把总体分布的参数确定在由样本决定的某个区间内。5.3.1 点估计的概念设设是总体分布中一个需要估计的参数。现在从总是总体分布中一个需要估计的参数。现在从总体中得到一个随机样本体中得到一个随机样本X1,X2,Xn,我们的目,我们的目的是通过这一随机样本来估计参数的是通过这一随机样本来估计参数。的估计
17、量的估计量通常是随机样本通常是随机样本X1,X2,Xn的一个的一个函数,记为函数,记为简记为简记为若能够得到一组样本观察值若能够得到一组样本观察值x1,x2,xn,则将它,则将它们代入上述函数,可以计算出们代入上述函数,可以计算出的估计值的估计值的估计值也简记为的估计值也简记为 。的的点估计点估计就是求就是求的估计值的估计值5.3.2 矩估计法对总体而言,对总体而言,矩矩是指:是指:k阶原点矩阶原点矩 k阶中心矩(中心为阶中心矩(中心为)对样本而言对样本而言 一阶原点矩一阶原点矩 二阶中心矩二阶中心矩矩估计法就是用样本矩来估计总体的相应矩。矩估计法就是用样本矩来估计总体的相应矩。例如通常例如通
18、常用用 来估计来估计 用用 来估计来估计 并且称这样得到的估计量为并且称这样得到的估计量为矩估计量矩估计量。5.3.3 极大似然估计法引例引例 设甲乙两个盒子外形完全相同,甲盒中装有设甲乙两个盒子外形完全相同,甲盒中装有90个白球个白球10个黑球,乙盒中装有个黑球,乙盒中装有90个黑球个黑球10个白个白球。今随机地抽取一个盒子并从中抽取一球,结球。今随机地抽取一个盒子并从中抽取一球,结果抽到白球,问这球是从哪个盒子中抽取的?果抽到白球,问这球是从哪个盒子中抽取的?从甲盒中抽取一球是白球的概率从甲盒中抽取一球是白球的概率p1=9/10从乙盒中抽取一球是白球的概率从乙盒中抽取一球是白球的概率p2=
19、1/10p1远大于远大于p2,因此我们推断这球是从甲盒中取出。,因此我们推断这球是从甲盒中取出。这个推断我们依据的是所谓极大似然原理:这个推断我们依据的是所谓极大似然原理:如果如果进行一次随机实验,结果是若干个可能后果中的进行一次随机实验,结果是若干个可能后果中的某一个出现了,则可以认为实验的条件有利于该某一个出现了,则可以认为实验的条件有利于该后果的出现,即该后果出现的概率最大后果的出现,即该后果出现的概率最大。更一般地,如果用一个参数更一般地,如果用一个参数来表示不同的盒子,来表示不同的盒子,即即现在随机抽取一个盒子,然后随机独立有放回现在随机抽取一个盒子,然后随机独立有放回地抽取地抽取5
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 总体 分布 样本
限制150内