《统计学抽样与抽样分布精选PPT.ppt》由会员分享,可在线阅读,更多相关《统计学抽样与抽样分布精选PPT.ppt(67页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、关于统计学抽样与抽样分布第1页,讲稿共67张,创作于星期二24.1 抽样的基础知识一、几个概念二、抽样误差三、常用的抽样方法第2页,讲稿共67张,创作于星期二3一、几个概念(一)全及总体与总体指标(一)全及总体与总体指标全全及及总总体体。简简称称总总体体(Population)(Population),是是指指所所要要研研究究的的对对象象的的全全体体,它它是是由由所所研研究究范范围围内内具具有有某某种种共共同同性性质质的的全全部部单单位位所所组成的集合体。总体单位总数用组成的集合体。总体单位总数用N N表示。(举例)表示。(举例)总总体体指指标标(参参数数)。在在抽抽样样估估计计中中,用用来来
2、反反映映总总体体数数量量特特征的指标称为总体指标,也叫总体参数。征的指标称为总体指标,也叫总体参数。研研究究目目的的一一经经确确定定,总总体体也也唯唯一一地地确确定定了了,所所以以总总体体指指标标的的数数值值是客观存在的、确定的,但又是未知的,需要用样本资料去估计是客观存在的、确定的,但又是未知的,需要用样本资料去估计。第3页,讲稿共67张,创作于星期二总体和参数(续)通常所要估计的总体指标有通常所要估计的总体指标有变量总体变量总体属性总体属性总体总体平均数总体平均数 (或记为或记为)总体比例(成数)总体比例(成数)总体标准差总体标准差或方差或方差 总体比例标准差总体比例标准差P P或方差或方
3、差P P 总体标志总量总体标志总量 ()()总总体体中中具具有有某某一一属属性性的的单单位位总总数数(NP)(NP)等。等。第4页,讲稿共67张,创作于星期二5一、几个概念(二)样本总体与样本指标(二)样本总体与样本指标样样本本总总体体。简简称称样样本本(SampleSample),它它是是按按照照随随机机原原则则,从从总体中抽取的部分总体单位的集合体总体中抽取的部分总体单位的集合体 。样样本本容容量量:样样本本中中所所包包含含的的个个体体的的数数量量,一一般般用用n n表表示示。在在实实际际工工作作中中,人人们们通通常常把把n30n30的的样样本本称称为为大大样样本本,而而把把n30nn)分
4、层抽样把异质性较强的总体分成一个个同质性较强的子总体,再抽取不同的子总体中的样本分别代表该子总体,所有的样本进而代表总体。等距抽样把总体的单位进行排序,然后按照固定的抽样距离抽取样本。第一个样本采用简单随机抽样的办法抽取。整群抽样抽样的单位不是单个的个体,而是成群的个体。多阶段抽样把抽样过程分为几个阶段进行。适用于总体规模特别大,或者总体分布的范围特别广时 第22页,讲稿共67张,创作于星期二非概率抽样也叫非随机抽样,是指从研究目的出发,根据调查者的经验或判断,从总体中有意识地抽取若干单位构成样本。重点调查、典型调查、配额抽样(是按照一定标准或一定条件分配样本单位数量,然后由调查者在规定的数额
5、内主观地抽取样本)、方便抽样(指调查者按其方便任意选取样本。如商场柜台售货员拿着厂家的调查表对顾客的调查)等就属于非随机抽样。优优点点:及时了解总体大致情况,总结经验教训,在进行大规模抽样调查之前的试点。缺缺点点:非随机抽样容易产生倾向性误差,并且误差不能计算和控制,也就无法说明调查结果的可靠程度。第23页,讲稿共67张,创作于星期二概率抽样与非概率抽样抽样类型抽样类型概率抽样非概率抽样简单随机抽样分层随机抽样整群抽样系统抽样方便抽样判断抽样其他非概率抽样多阶段抽样第24页,讲稿共67张,创作于星期二重复抽样与非重复抽样重复抽样,又称回置抽样,是指从总体的N个单位中,每次抽取一个单位后,再将其
6、放回总体中参加下一次抽选,连续抽n次,即得到一个样本。特点:样本是由n次相互独立的连续试验构成的,每次试验是在完全相同的条件下进行,每个单位中选的机会在各次都完全相等。“重抽”(考虑顺序)可能的样本数目(从总体中可能抽取的样本个数,用M表示)为:Nn个。第25页,讲稿共67张,创作于星期二重复抽样与非重复抽样不重复抽样,也叫不回置抽样,是指抽中的单位不再放回总体中,下一个样本单位只能从余下的总体单位中抽取。特点特点:样本由n次连续抽取的结果构成,实际上等于一次同时从总体中抽取n个样本单位。n次抽取结果不是独立的 可能的样本数目(考虑顺序):N(N-1)(N-2)(N-n+1)个。第26页,讲稿
7、共67张,创作于星期二重复抽样与非重复抽样设设有有4 4名名学学生生的的月月消消费费支支出出分分别别为为:240240,280280,360360,400400元元。我我们们分分别别用用A A、B B、C C、D D替替代代。若若从从中中抽抽取取两两个单位构成样本,则全部可能的样本数目为:个单位构成样本,则全部可能的样本数目为:重复:重复:4 42 2=16=16个。它们是个。它们是 AA AB AC AD;BA BB BC BD AA AB AC AD;BA BB BC BD CA CB CC CD;DA DB DC DD CA CB CC CD;DA DB DC DD不重复:不重复:43=
8、1243=12。它们是。它们是 AB AC AD;BA BC BDAB AC AD;BA BC BD CA CB CD;DA DB DC CA CB CD;DA DB DC 第27页,讲稿共67张,创作于星期二抽样误差统统计计调调查查误误差差,是是指指调调查查所所得得结结果果与与总总体体真真实实数数值之间的差异值之间的差异。登记性误差登记性误差。是任何一种统计调查都可能产生。是任何一种统计调查都可能产生。代表性误差代表性误差n系系统统性性误误差差:是是由由于于非非随随机机因因素素引引起起的的 样样本本代代表表性性不不足足而而产产生生的的误误差差,表表现现为为样样本本估估计计量量的的值值系系统统
9、性性偏偏高高或或偏偏低,故也称偏差;低,故也称偏差;n随机误差随机误差:又称偶然性误差,是指:又称偶然性误差,是指遵循随机原则抽样,遵循随机原则抽样,但由于样本各单位的结构不足以代表总体各单位的结构而但由于样本各单位的结构不足以代表总体各单位的结构而引起的样本估计量与总体参数之间的误差引起的样本估计量与总体参数之间的误差。这就是抽样估。这就是抽样估计中所谓的抽样误差计中所谓的抽样误差 。第28页,讲稿共67张,创作于星期二29二、抽样误差实实际际应应用用中中,有有三三个个密密切切联联系系而而又又相相互互区区别别的的抽抽样样误差的概念误差的概念 实际抽样误差实际抽样误差 抽样平均误差抽样平均误差
10、 抽样极限误差抽样极限误差第29页,讲稿共67张,创作于星期二30二、抽样误差(二)抽样平均误差(抽样标准误(二)抽样平均误差(抽样标准误)抽抽样样平平均均误误差差是是反反映映抽抽样样误误差差一一般般水水平平的的指指标标(因因为为抽抽样样误误差差是是一一个个随随机机变变量量,它它的的数数值值随随着着可可能能抽抽取取的的样样本本不不同同而而或或大大或或小小,为为了了总总的的衡衡量量样样本本代代表表性性的的高高低低,就就需需要要计计算算抽抽样样误误差差的的一一般般水水平平)。通通常常用用样样本本估估计计量量的的标标准准差差来来反映反映所有可能样本估计值与其中心值的平均离散程度。所有可能样本估计值与
11、其中心值的平均离散程度。第30页,讲稿共67张,创作于星期二31二、抽样误差(二)抽样平均误差(二)抽样平均误差n抽样平均误差可衡量样本对总体的代表性大小抽样平均误差可衡量样本对总体的代表性大小。即。即:抽样平均误越小,则样本估抽样平均误越小,则样本估计量的分布就越集中在总体参数的附近,平均来说,样本估计值与总体参数之间的抽样计量的分布就越集中在总体参数的附近,平均来说,样本估计值与总体参数之间的抽样误差越小,样本对总体的代表性越大。误差越小,样本对总体的代表性越大。第31页,讲稿共67张,创作于星期二32抽样平均误的计算公式抽样平均误的计算公式在在总总体体方方差差 已已知知,总总体体单单位位
12、总总数数为为N N,样样本本容容量量为为n n,简简单单随随机机抽抽样样条条件件下下,抽抽样样平平均均误误的的计计算算公公式式为为:重复抽样重复抽样 不重复抽样不重复抽样估计均值估计均值估计成数估计成数第32页,讲稿共67张,创作于星期二33二、抽样误差(三)抽样极限误差(三)抽样极限误差抽抽样样极极限限误误差差是是指指一一定定概概率率下下抽抽样样误误差差的的可可能能范范围围,也也称称为为允许误差允许误差。用。用表示,由定义知其表达式:表示,由定义知其表达式:在一定概率下,在一定概率下,上上式式表表示示,在在一一定定概概率率下下可可认认为为样样本本估估计计量量与与相相应应的的总总体参数的误差的
13、绝对值不超过体参数的误差的绝对值不超过 。第33页,讲稿共67张,创作于星期二34抽样极限误差抽样极限误差用用 、分分别别表表示示平平均均数数和和比比率率(成成数数)的的抽抽样样极极限限误误差差,则则在在一定概率下有:一定概率下有:估计均值的置信区间:估计均值的置信区间:估计成数(比例)的置信区间:估计成数(比例)的置信区间:第34页,讲稿共67张,创作于星期二35对抽样极限误差的解释:抽样极限误差抽样极限误差是抽样误差的是抽样误差的可能范围可能范围,而不是完全肯定的范,而不是完全肯定的范围。所以,这一可能范围的大小是与其估计的可靠程度的围。所以,这一可能范围的大小是与其估计的可靠程度的大小(
14、即概率)紧密联系的。在抽样估计中,这个概率叫大小(即概率)紧密联系的。在抽样估计中,这个概率叫置信度,习惯上也称为可靠程度、把握程度或概率保证程置信度,习惯上也称为可靠程度、把握程度或概率保证程度等,用度等,用1-1-表示。表示。显然在其他条件不变的情况下,抽样显然在其他条件不变的情况下,抽样极限误差越大,相应的置信度也就越大。极限误差越大,相应的置信度也就越大。第35页,讲稿共67张,创作于星期二36抽样误差率:抽样误差率:与抽样极限误差相关的两个概念是与抽样极限误差相关的两个概念是:抽样误差率和抽样估计精度抽样误差率和抽样估计精度抽样误差率抽样误差率=(抽样极限误差(抽样极限误差/估计量)
15、估计量)100%100%抽样估计精度抽样估计精度=100%-=100%-抽样误差率抽样误差率第36页,讲稿共67张,创作于星期二37估计精度(准确性)与可靠程度的关系:估估计计精精度度与与估估计计的的可可靠靠程程度度是是矛矛盾盾的的。也也就就是是说说,如如果果精精度度很很高高,则则会会由由于于估估计计区区间间太太窄窄而而使使错错误误估估计计的的可可能能性性大大增增,从从而而大大大大降降低低估估计计的的可可靠靠程程度度,使使估估计计结结果果没没有有多多大大的的作作用用;如如果果置置信信度度很很高高,则则意意味味着着允允许许误误差差范范围围较较大大,而而使使估估计计精精度度太太低低 ,这这时时尽尽
16、管管估估计计的的可可靠靠程程度度接接近近或或等等于于100%100%,但但抽抽样估计本身也会失去意义。样估计本身也会失去意义。实际中,只能依据具体情况,先满足一方面,然后确定另一方面。实际中,只能依据具体情况,先满足一方面,然后确定另一方面。第37页,讲稿共67张,创作于星期二38 抽样分布的概念样本指标是一种随机变量,它有若干可能取值,每个样本指标是一种随机变量,它有若干可能取值,每个可能取值都有一定的可能性(即概率),从而形成它的可能取值都有一定的可能性(即概率),从而形成它的概率分布,即统计上所谓的抽样分布。简言之,概率分布,即统计上所谓的抽样分布。简言之,抽样分布就是指抽样分布就是指样
17、本统计量样本统计量的概率分布的概率分布。样本统计量是由样本统计量是由n n个随机变量构成的函数,故抽样分布属于随机个随机变量构成的函数,故抽样分布属于随机变量函数的分布。变量函数的分布。第38页,讲稿共67张,创作于星期二39一、抽样分布的概念举例举例:四名学生的月生活费支出(四名学生的月生活费支出(480480,560560,720720,800 800 元)元)。现按不重复取样的方法,随机抽取两位构成一个样本,则全部。现按不重复取样的方法,随机抽取两位构成一个样本,则全部可能的样本及其各样本的均值如下表所示:可能的样本及其各样本的均值如下表所示:第39页,讲稿共67张,创作于星期二40序序
18、 样本变量样本变量 样本平均数样本平均数 平均数离差平均数离差 离差平方离差平方 x -x -E(E()-)-E(E()1 480 1 480,560 520 -120 14400560 520 -120 14400 2 480 2 480,720 600 -40 1600720 600 -40 1600 3 480 3 480,800 640 0 0800 640 0 0 4 560 4 560,480 520 -120 14400480 520 -120 14400 5 560 5 560,720 640 0 0720 640 0 0 6 560 6 560,800 680 40 1600
19、800 680 40 1600 7 720 7 720,480 600 -40 1600480 600 -40 1600 8 720 8 720,560 640 0 0560 640 0 0 9 720 9 720,800 760 120 14400800 760 120 1440010 80010 800,480 640 0 0480 640 0 011 80011 800,560 680 40 1600560 680 40 160012 80012 800,720 760 120 14400720 760 120 14400合计合计 7680 0 64000 7680 0 64000 第4
20、0页,讲稿共67张,创作于星期二41一、抽样分布的概念(续)样本平均数的概率分布样本平均数的概率分布 520 600 640 680 760 f 2 2 4 2 2f/f 2/12 2/12 4/12 2/12 2/12第41页,讲稿共67张,创作于星期二42一、抽样分布的概念(续)例中总体分布和样本均值分布的比较:P()第42页,讲稿共67张,创作于星期二43一、抽样分布的概念(续)通过图通过图4.1总体分布和图总体分布和图4.2样本均值的抽样分样本均值的抽样分布的比较,不难看出:尽管总体为均匀分布,布的比较,不难看出:尽管总体为均匀分布,但样本均值的抽样分布在形状上却是对称的。但样本均值的
21、抽样分布在形状上却是对称的。第43页,讲稿共67张,创作于星期二44一、一、抽样分布的抽样分布的概念概念(续续)抽样分布的形成过程抽样分布的形成过程可概括为图可概括为图4.3:总体 N样本容量为n的所有样本计算出每一个均值并形成分布第44页,讲稿共67张,创作于星期二45抽抽样样分分布布反反映映了了样样本本指指标标的的分分布布特特征征,是是抽抽样样推推断断的的重重要要依依据据。根根据据样样本本分分布布的的规规律律,可可揭揭示示样样本本指指标标与与总总体体指指标标之间的关系,估计抽样误差,并说明抽样推断的可靠程度。之间的关系,估计抽样误差,并说明抽样推断的可靠程度。第45页,讲稿共67张,创作于
22、星期二46 2.常用抽样分布 1)设总体XN(,2),则 (1)(2)N(0,1)也即样本均值 的均值等于总体均值 ,而其方差仅为总体方差的 。这说明,样本容量越大,就越向总体均值 集中,用 估计 的误差就越小。第46页,讲稿共67张,创作于星期二样本均值的抽样分布1.在重复选取容量为n的样本时,由样本均值的所有可能取值形成的相对频数分布2.一种理论概率分布3.推断总体均值的理论基础第47页,讲稿共67张,创作于星期二样本均值的抽样分布(例题分析)【例例】设设一一个个总总体体,含含有有4 4个个元元素素(个个体体),即即总总体体单单位位数数N N=4=4。4 4 个个个个体体分分别别为为x x
23、1 1=1=1,x x2 2=2=2,x x3 3=3=3,x x4 4=4=4。总体的均值、方差及分布如下。总体的均值、方差及分布如下总体分布1 14 42 23 30 0.1.1.2.2.3.3均值和方差均值和方差第48页,讲稿共67张,创作于星期二样本均值的抽样分布(例题分析)现现从从总总体体中中抽抽取取n2的的简简单单随随机机样样本本,在在重重复复抽抽样样条条件件下下,共共有有42=16个个样本。所有样本的结果为样本。所有样本的结果为3,43,33,23,132,42,32,22,124,44,34,24,141,441,33211,21,11第二个观察值第一个观察值所有可能的n=2
24、的样本(共16个)第49页,讲稿共67张,创作于星期二样本均值的抽样分布(例题分析)计算出各样本的均值,如下表。并给出样本均值的抽样分布3.53.02.52.033.02.52.01.524.03.53.02.542.542.03211.51.01第二个观察值第一个观察值16个样本的均值(x)x x样本均值的抽样分布样本均值的抽样分布1.01.00 00.10.10.20.20.30.3P P(x x)1.51.53.03.04.04.03.53.52.02.02.52.5第50页,讲稿共67张,创作于星期二样本均值的分布与总体分布的比较(例题分析)=2.5 2=1.25总体分布总体分布1 1
25、4 42 23 30 0.1.1.2.2.3.3抽样分布抽样分布P P(x x)1.01.00 0.1.1.2.2.3.31.51.53.03.04.04.03.53.52.02.02.52.5x x第51页,讲稿共67张,创作于星期二样本均值的抽样分布与中心极限定理 =50=50=50 =10=10=10X XX总体分布总体分布总体分布n n=4=4抽样分布抽样分布抽样分布xn n=16=16当当总总体体服服从从正正态态分分布布N(,2)时时,来来自自该该总总体体的的所所有有容容量量为为n的的样样本本的的均均值值 x也也服服从从正正态态分分布布,x 的的数数学学期期望望为为,方方差差为为2/
26、n。即即 xN(,2/n)第52页,讲稿共67张,创作于星期二中心极限定理(central limit theorem)当样本容量足够当样本容量足够大时大时(n 30),样本均值的抽样样本均值的抽样分布逐渐趋于正分布逐渐趋于正态分布态分布中中心心极极限限定定理理:设设从从均均值值为为,方方差差为为 2的的一一个个任任意意总总体体中中抽抽取取容容量量为为n的的样样本本,当当n充充分分大大时时,样样本本均均值值的的抽抽样样分分布布近近似似服服从从均均值值为为、方方差差为为2/n的正态分布的正态分布一个任意分布的一个任意分布的总体总体x第53页,讲稿共67张,创作于星期二54 2)2分布 (1)设总
27、体X N(0,1),X1,X2,Xn 为X的一个样本,称它们的平方和 为服从自由度为n的2分布(Chi square distribution),记为第54页,讲稿共67张,创作于星期二55 关于“自由度”的概念:若对随机变量X1,X2,Xn,存在一组不全为零的常数c1,c2,cn,使 c1 X1+c2 X2+cnXn=0 则称X1,X2,Xn线性相关,或称X1,X2,Xn间存在一个线性约束条件;若X1,X2,Xn间存在k个独立的线性约束条件,则它们中仅有n-k个独立的变量,此时称平方和 的自由度为n-k。由此可知,自由度表示了平方和中独立随机变量的个数。第55页,讲稿共67张,创作于星期二5
28、6 2分布概率密度函数的图形与正态分布不同,2分布仅有一个参数,即自由度。2分布在单个正态总体方差的区间估计与假设检验,以及在非参数统计推断中都有重要应用。第56页,讲稿共67张,创作于星期二57 (2)2分布表。由于2分布主要应用于统计推断,因此与正态分布表不同,2分布表中给出的不是该分布的分布函数值,而是所谓的“右侧分位点 ”的值,其中 为满足 的x轴上的某一点的值,如下图所示,由给定的概率 及自由度,可查表得到 的值。第57页,讲稿共67张,创作于星期二58 3)t分布 (1)设XN(0,1),Y2(n),且X与Y相互独立,则称随机变量 服从自由度为n的t分布,记为t t(n)。t分布与
29、标准正态分布是非常类似的,且t分布的极限分布就是标准正态分布,当n很大时,t分布就近似于标准正态分布。第58页,讲稿共67张,创作于星期二59 4)F分布 (1)设X2(n1),Y2(n2),且X和Y相互独立,则称随机变量 服从自由度为(n1,n2)的F分布,记为 。并称n1为第一(分子的)自由度,n2为第二(分母的)自由度。F分布密度函数的图形第59页,讲稿共67张,创作于星期二60 (2)F分布表 由于F分布有两个自由度,因此对每一个,就有一张F分布表(见附录),表中给出的仍是不同自由度下F分布的右侧分位点F(n1,n2)的值,其中F(n1,n2)为满足 PF F(n1,n2)=,01 的
30、x轴上的某一点的值。由F分布的定义,不难得到以 下关系:第60页,讲稿共67张,创作于星期二第61页,讲稿共67张,创作于星期二62二.点估计的方法 1.总体比例的点估计 当总体的指标是具有两种或多种属性(标志)时,具有某种属性(标志)的总体单位数在总体中所占的比重就称为总体比例,总体比例记为p。对总体比例,通常采用频率估计法,即用样本中某属性出现的频率来估计总体比例。记样本容量为n,k 为样本中某属性出现的次数,则 总体比例的点估计,也就是使用频率来估计概率,这是估计离散型总体概率分布的常用方法。第62页,讲稿共67张,创作于星期二63 2.总体均值和方差的点估计 在大多数情况下,需要估计的
31、参数是总体的均值和总体方差2。可以有许多不同的方法来构造总体均值和方差2的估计量,这里仅介绍一种最常用,而且通常也是效果最好的估计方法 数字特征法数字特征法(也称矩法矩法)。所谓数字特征法,就是指用样本的相应数字特征样本均值 和样本方差S2,分别估计总体的数字特征总体均值与总体方差的方法,即第63页,讲稿共67张,创作于星期二6464 设某种压缩机的寿命 XN(,2),其中,2未知,现随机测得10台压缩机的寿命如下(小时)15020,14530,13670,11080,16500 12130,12080,14800,15500,17000 试估计 和 2。解解:使用计算器的 SD 功能可得【例例1 1】产品寿命均值和方差的估计产品寿命均值和方差的估计第64页,讲稿共67张,创作于星期二65651.无偏性无偏性为未知参数的估计量,则称为 的无偏估计量,无偏性是对估计量的最基本要求,无偏估计将不会出现系统性的估计偏差。不难证明,对任意总体 X,和样本方差 S2 分别是总体均值和总体方差的无偏估计。三三.估计量的评价标准估计量的评价标准简称无偏估计。若样本均值样本成数也是总体比例的无偏估计。第65页,讲稿共67张,创作于星期二第66页,讲稿共67张,创作于星期二感感谢谢大大家家观观看看第67页,讲稿共67张,创作于星期二
限制150内